C++：中文编码转换

转载

Color_Space 2021-06-10 16:24:22

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。
本文链接：https://blog.csdn.net/netyeaxi/article/details/81036482
在介绍如何使用C++11标准库进行中文编码转换之前，先说说一下byte string、multibyte string、wide string之间的区别。

byte string

由8比特的字节组成的字符串。由char表示字节。因而字符串长度=字节数=char数

multibyte string

在内存布局上与byte string相同。但是由于它是区域（locale）相关的，所以它有可能表示的是UTF-8, GB18030, EUC-JP, Shift-JIS等格式的字符串，而这些格式中的每个字码（codepoint）可能是由多个连续的char组合构成的，所以字符串长度=字码数，但!=char数，也!=字节数。

wide string

每个宽字符由于操作系统的不同，其宽度为16位或32位的多语言字符代码。格式分别采用unicode(UTF-16LE)、UTF-16、UTF-32，由wchar_t, char16_t, char32_t表示。

C++标准库中对应关系：

char *        std::string
wchar_t*   std::wstring
char16_t*  std::u16string
char32_t*  std::u32string

1.string与wstring互相转化
C++标准库从C++11开始提供了std::codecvt_utf8和std::codecvt_byname两个转换器来完成编码转换，可使用的通用代码如下：

#include <string>
#include <locale>
#include <codecvt>
 
// string的编码方式为utf8，则采用：
std::string wstring2utf8string(const std::wstring& str)
{
    static std::wstring_convert<std::codecvt_utf8<wchar_t> > strCnv;
    return strCnv.to_bytes(str);
}
 
std::wstring utf8string2wstring(const std::string& str)
{
    static std::wstring_convert< std::codecvt_utf8<wchar_t> > strCnv;
    return strCnv.from_bytes(str);
}
 
// string的编码方式为除utf8外的其它编码方式，可采用：
std::string wstring2string(const std::wstring& str, const std::string& locale)
{
    typedef std::codecvt_byname<wchar_t, char, std::mbstate_t> F;
    static std::wstring_convert<F> strCnv(new F(locale));
 
    return strCnv.to_bytes(str);
}
 
std::wstring string2wstring(const std::string& str, const std::string& locale)
{
    typedef std::codecvt_byname<wchar_t, char, std::mbstate_t> F;
    static std::wstring_convert<F> strCnv(new F(locale));
 
    return strCnv.from_bytes(str);
}

如果是GBK string与wstring互相转化，locale可取值：
linux下：
zh_CN.GBK
zh_CN.GB2312
zh_CN.GB18030

windows下：
标准格式的locale：
Chinese_China.936
zh-CN
.936
非标准格式的locale：
chs
Chinese-simplified
Chinese
ZHI
不能使用的locale：
Chinese.936，chs.936，Chinese.GB2312，chs.GB18030等此类值。

下面通过一些例子说明上面的函数如何使用吧。

2.string与wstring如何输出到控制台
代码页为936

以在windows控制台为例，举例说明：

// testCode.cpp
#include <string>
#include <iostream>
#include <fstream>
#include <codecvt>
#include <locale>
 
int main() {
    std::wstring txt = L"中国人";
 
    std::wcout << txt << endl;
}

程序编译后在中文版windows中运行结果：

控制台使用的代码页为936（也就是GBK编码），输出结果为乱码。因为txt是unicode，而控制台是GBK编码，乱码是由于没有做编码转换造成的。

修改代码，添加一个转换器：

int main() {
    std::wstring txt = L"中国人";
    wcout.imbue(std::locale(std::locale("Chinese"), new std::codecvt_byname<wchar_t, char, std::mbstate_t>("Chinese")));  
    // wcout.imbue(std::locale("Chinese")); 
    // 也可以简写成这种形式，其中默认带了std::codecvt_byname<wchar_t, char, std::mbstate_t>("Chinese")转换器
    
    std::wcout << txt << endl;
}

此时，输出结果就正常了。

如果修改代码页为65001（也就是UTF-8编码），再执行如下代码：

int main() {
    std::wstring txt = L"中国人";
 
    std::wcout << txt << endl;
}

会发现没有结果输出，说明从unicode到utf-8没有转换成功。

修改代码，添加一个转换器：

int main() {
    std::wstring txt = L"中国人";
    wcout.imbue(std::locale(std::locale("Chinese"), new std::codecvt_utf8<wchar_t>()));
    
    std::wcout << txt << endl;
}

此时，结果正确输出了：

由于wstring是unicode，它转换到其它编码格式，只需要使用一次转换器就可以了，但如果使用的是string，又该怎样做转换？比如使用如下代码：

int main() {
    std::string txt = u8"中国人";
 
    std::cout << txt << endl;
}

在代码页为936的情况下，执行输出为乱码：

修改代码，添加两个转换器：

int main() {
    std::string txt = u8"中国人";   // string的编码格式为utf-8
 
    std::wstring wtxt = utf8string2wstring(txt);    // 将utf-8的string转换为wstring
    std::string txt_gbk = wstring2string(wtxt, "Chinese");    // 再将wstring转换为gbk的string
 
    std::cout << txt_gbk << endl;
}

此时，输出结果正常：

代码页为65001

再修改一下代码：

int main() {
    std::string txt = "中国人";
 
    std::cout << txt << endl;
}

在代码页为65001的情况下，执行无输出，说明执行结果失败：

添加两个转换方法再试试：

int main() {
    std::string txt = "中国人";
 
        std::wstring wtxt = string2wstring(txt, "Chinese");
        std::string txt_uft8 = wstring2utf8string(wtxt);
 
    std::cout << txt_uft8 << endl;
}

在代码页为65001的情况下，执行成功：

使用std::wcout试一下：

int main() {
    std::string txt = "中国人";
 
    std::wstring wtxt = string2wstring(txt, "Chinese");
    wcout.imbue(std::locale(std::locale("Chinese"), new std::codecvt_utf8<wchar_t>()));
 
    std::wcout << wtxt << endl;
}

在代码页为65001的情况下，执行结果正常：

再举一个保存到文件的例子：

int main() {
    std::string txt = "中国人";
 
    std::wstring wtxt = string2wstring(txt, "Chinese");
    std::string txt_uft8 = wstring2utf8string(wtxt);
 
    std::ofstream of("D:/temp/text.txt");
 
    of << txt_uft8 << endl;
}

以上代码执行成功，并将字符串以utf-8保存到文件了。

再使用如下代码试试：

int main() {
    std::string txt = u8"中国人";
 
    std::ofstream of("D:/temp/text.txt");
 
    of << txt << endl;
}

也能以utf-8保存到文件。

3.在输入输出流中使用编码转换
除了直接使用转换器做字符串之间的转换外，如果用到的输入与输出流，则可以直接在输入输出流上配置需要的转换器。上面已经有多个例子了，这里再补充一个例子，代码如下：

#include <iostream>
#include <fstream>
#include <string>
#include <locale>
 
int main()
{
    // text.txt是UTF-8编译的文件
    std::wifstream fin("D:/temp/text.txt");
    // 文件输入流中使用UTF-8转换器
    fin.imbue(std::locale(std::locale("zh-CN"), new std::codecvt_utf8<wchar_t>()));
    // 控制台输出流中使用GBK转换器
    std::wcout.imbue(std::locale(std::locale("zh-CN"), new std::codecvt_byname<wchar_t, char, std::mbstate_t>("Chinese_China.936")));
    
    for (wchar_t c; fin.get(c); ) {
        std::wcout  << c << endl;
    }
}

以上是在windows上可执行的代码，如果要在Linux上运行，只需要把Chinese_China.936替换成zh_CN.GBK即可。

4.char* 与wchar_t*互相转化
在C++11之前，C++标准库中提供了如下两个函数进行编码转换。需要说明的是，这两个函数在windows下不支持UTF-8，而在Linux下是可以支持UTF-8的：

#include <cstdlib>
 
std::size_t mbstowcs( wchar_t* dst, const char* src, std::size_t len);
std::size_t wcstombs( char* dst, const wchar_t* src, std::size_t len);

windows不支持UTF-8的原因，据说是因为这两个函数一开始只支持ANSI内的多字节编码方式，而ANSI内的多字节编码方式的特点是每个字符不超过两个字节，后来utf-8出现后，由于UTF-8中的字符是有可能超过两个字节的，如果要加入UTF-8，会对现在函数做大量修改，因此Microsoft没有让这两个函数支持UTF-8。也可以说，这两个函数不认为UTF-8是多字节编码方式。

以下为Linux下可以运行的代码：

#include <iostream>
#include <clocale>
#include <cstdlib>
int main()
{
    std::setlocale(LC_ALL, "en_US.utf8");
    std::wcout.imbue(std::locale("en_US.utf8"));
    
    const char* mbstr = u8"中国人";
    
    wchar_t wstr[5];
    std::mbstowcs(wstr, mbstr, 5);
    std::wcout << "wide string: " << wstr << '\n';
}
#include <iostream>
#include <clocale>
#include <cstdlib>
 
int main()
{
    std::setlocale(LC_ALL, "en_US.utf8");
    // UTF-8 narrow multibyte encoding
    const wchar_t* wstr = L"中国人";
    
    char mbstr[11];
    std::wcstombs(mbstr, wstr, 11);
    std::cout << "multibyte string: " << mbstr << '\n';
}

如果要在windows上使用与UTF-8相关的编码转换，也可以考虑使用如下函数，只不过这将失去平台移植性：

MultiByteToWideChar
WideCharToMultiByte
void mbtowchar(const char* input, wchar_t* output) {
  int len = MultiByteToWideChar(CP_UTF8, 0, input, -1, NULL, 0);
  MultiByteToWideChar(CP_UTF8, 0, input, -1, output, len);
}

总结
从C++11开始，标准C++库引入相关API，提供了标准的字符编码转换方式，方便开发者开发跨平台的字符编码转换代码。然而，上述代码中使用的wstring_convert、codecvt_utf8已在C++17被弃用了，至于由什么来替代，C++标准中没有说，现在只好继续使用它们，等待新的C++标准出来了。

参考文档：
String and Character Literals (C++)
Locale Names, Languages, and Country/Region Strings
Locale Names
Code Page
Language Strings
Country/Region Strings
char, wchar_t, char16_t, char32_t
MultiByteToWideChar function
WideCharToMultiByte function

Unicode part 1: Windows console i/o approaches
Unicode part 2: UTF-8 stream mode

Unicode转UTF-16
UTF-8 Everywhere
The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets

setlocale()

The Complete Guide to C++ Strings, Part I - Win32 Character Encodings
The Complete Guide to C++ Strings, Part II - String Wrapper Classes
————————————————
版权声明：本文为CSDN博主「netyeaxi」的原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/netyeaxi/article/details/81036482