C++如何处理Unicode和UTF-8编码？C++跨平台字符编码问题【国际化】

日期：2025-12-16 00:00 / 作者：尼克

现代C++推荐UTF-8优先：源码与字面量用u8前缀，std::string存UTF-8字节流，跨平台避免wchar_t；系统交互按需转换，国际化结合ICU或fmtlib。

现代C++处理Unicode和UTF-8，核心是明确区分编码、表示和操作层次：源码用UTF-8保存，字符串用std::string（UTF-8字节序列），宽字符慎用，I/O与系统交互时按需转换，国际化靠标准库+ICU等辅助。

C++11起支持UTF-8字面量。确保编辑器保存为UTF-8（无BOM），并在字符串前加u8前缀：

✔ 正确（推荐）：
const std::string hello = u8"你好，Hello ?"; // 编译期转为UTF-8字节流
✘ 避免：
const char* s = "你好"; // 源文件编码不明，行为未定义

不加u8时，编译器按执行字符集处理（常为locale相关），跨平台极易出错。

UTF-8是变长编码，std::string天然适配——它只管字节，不管语义。而wchar_t在Windows是UTF-16，在Linux/macOS通常是UTF-32，大小和含义都不统一，跨平台std::wstring几乎不可移植。

常见做法：

Windows GUI/API常用UTF-16（L"..."），Linux/macOS终端和文件系统原生支持UTF-8。跨平台时：

不要全局切换std::wcout或_setmode(_fileno(stdout), _O_U16TEXT)，这会让逻辑耦合平台细节。

C++标准库提供基础本地化（数字、货币、日期格式），但不处理翻译或Unicode文本边界分析。生产项目推荐：

例如用fmt做安全的本地化格式化：

fmt::print("Hello {}", name); // name是UTF-8 string，自动对齐、不截断多字节

基本上就这些。不复杂但容易忽略：坚持UTF-8贯穿始终，把编码转换限制在系统边界，其余交给标准容器和专注Unicode的第三方库。