现代C++推荐UTF-8优先:源码与字面量用u8前缀,std::string存UTF-8字节流,跨平台避免wchar_t;系统交互按需转换,国际化结合ICU或fmtlib。
现代C++处理Unicode和UTF-8,核心是明确区分编码、表示和操作层次:源码用UTF-8保存,字符串用std::string(UTF-8字节序列),宽字符慎用,I/O与系统交互时按需转换,国际化靠标准库+ICU等辅助。
C++11起支持UTF-8字面量。确保编辑器保存为UTF-8(无BOM),并在字符串前加u8前缀:
✔ 正确(推荐):const std::string hello = u8"你好,Hello ?"; // 编译期转为UTF-8字节流
✘ 避免:const char* s = "你好"; // 源文件编码不明,行为未定义
不加u8时,编译器按执行字符集处理(常为locale相关),跨平台极易出错。
UTF-8是变长编码,std::string天然适配——它只管字节,不管语义。而wchar_t在Windows是UTF-16,在Linux/macOS通常是UTF-32,大小和含义都不统一,跨平台std::wstring几乎不可移植。
常见做法:
std::string + UTF-8str.length()当“字符数”用——它返回字节数;应遍历UTF-8序列获取真实码点数Windows GUI/API常用UTF-16(L"..."),Linux/macOS终端和文件系统原生支持UTF-8。跨平台时:
MultiByteToWideChar(CP_UTF8, ...)转UTF-16传给Win32 API;接收时反向转换printf、std::cout直接支持UTF-8(确保locale为en_US.UTF-8等)std::ofstream以二进制模式打开,写入std::string即可——UTF-8就是纯字节流不要全局切换std::wcout或_setmode(_fileno(stdout), _O_U16TEXT),这会让逻辑耦合平台细节。
C++标准库提供基础本地化(数字、货币、日期格式),但不处理翻译或Unicode文本边界分析。生产项目推荐:
{:对UTF-8字符串正确对齐(自动按码点而非字节)
libintl或fmt::v9::translate
例如用fmt做安全的本地化格式化:
fmt::print("Hello {}", name); // name是UTF-8 string,自动对齐、不截断多字节
基本上就这些。不复杂但容易忽略:坚持UTF-8贯穿始终,把编码转换限制在系统边界,其余交给标准容器和专注Unicode的第三方库。