C++20 中的std::c8rtomb和 std::mbrtoc8

精选原创

oioihoii 2025-03-26 19:28:06 ©著作权

文章标签 多字节 #include 字符转换 文章分类 C/C++ 后端开发

©著作权归作者所有：来自51CTO博客作者oioihoii的原创作品，请联系作者获取转载授权，否则将追究法律责任

C++20 中的std::c8rtomb和 std::mbrtoc8_字符转换

1. 引言

C++20 标准引入了对 UTF-8 编码的更好支持，其中包括两个重要的函数：std::c8rtomb 和 std::mbrtoc8。这两个函数分别用于将 UTF-8 编码的字符转换为窄多字节字符表示，以及将窄多字节字符转换为 UTF-8 编码。这些功能对于处理多语言文本和国际化应用非常关键。

2. `std::c8rtomb` 函数详解

std::c8rtomb 函数用于将单个 UTF-8 编码点转换为窄多字节字符表示。其定义如下：

std::size_t c8rtomb(char* s, char8_t c8, std::mbstate_t* ps);

参数：

s：指向窄字符数组的指针，用于存储转换后的多字节字符。
c8：要转换的 UTF-8 编码单元。
ps：指向转换状态对象的指针，用于在解释多字节字符串时使用。

行为：

如果 s 不是空指针且 c8 是有效 UTF-8 编码的最后一个编码单元，则函数会确定存储该编码点的多字节字符表示所需的字节数（包括任何移位序列），并将多字节字符表示存储在 s 指向的字符数组中，同时更新 *ps。
如果 c8 不是编码点表示中的最后一个编码单元，则函数不会写入 s 指向的数组，只更新 *ps。
如果 s 是空指针，则调用等效于 std::c8rtomb(buf, u8'\0', ps)，其中 buf 是某个内部缓冲区。
如果 c8 是空字符 u8'\0'，则存储一个空字节，并在前面附加任何恢复初始移位状态所需的移位序列，同时更新 *ps 以表示初始移位状态。

返回值：

返回存储在数组中的字节数（包括任何移位序列）。如果 c8 不是编码点的 UTF-8 表示中的最后一个编码单元，则返回值可以为零。
如果 c8 无效（不贡献到对应合法多字节字符的 char8_t 序列），则将 EILSEQ 的值存储在 errno 中，返回 static_cast<std::size_t>(-1)，且转换状态未指定。

3. `std::mbrtoc8` 函数详解

std::mbrtoc8 函数用于将窄多字节字符转换为 UTF-8 编码。其定义如下：

std::size_t mbrtoc8(char8_t* pc8, const char* s, std::size_t n, std::mbstate_t* ps);

参数：

pc8：指向 char8_t 类型的指针，用于存储转换后的 UTF-8 编码。
s：指向多字节字符的指针。
n：s 指向的数组中的最大字节数。
ps：指向转换状态对象的指针。

行为：

函数将 s 指向的多字节字符转换为 UTF-8 编码，并存储在 pc8 指向的位置。
如果 s 指向的多字节字符无效，则函数的行为是未定义的。

返回值：

返回转换后的 UTF-8 编码所需的字节数。

4. 使用示例

以下是一个简单的示例，展示如何使用 std::c8rtomb 和 std::mbrtoc8：

#include <iostream>
#include <cuchar>
#include <cstring>
#include <clocale>

int main() {
    // 设置 C 本地环境为 UTF-8
    std::setlocale(LC_ALL, "en_US.UTF-8");

    // 示例 UTF-8 字符串
    const char* utf8_str = u8"你好，世界！";

    // 转换为多字节字符
    char mb_str[100];
    std::mbstate_t state = {};
    char* mb_ptr = mb_str;
    for (const char* p = utf8_str; *p; ) {
        char8_t c8 = *reinterpret_cast<const char8_t*>(p);
        std::size_t result = std::c8rtomb(mb_ptr, c8, &state);
        if (result == static_cast<std::size_t>(-1)) {
            std::cerr << "Invalid UTF-8 sequence encountered." << std::endl;
            return 1;
        }
        mb_ptr += result;
        p += std::char_traits<char>::length(reinterpret_cast<const char*>(&c8));
    }
    *mb_ptr = '\0';

    std::cout << "Multibyte string: " << mb_str << std::endl;

    // 转换回 UTF-8
    char8_t utf8_result[100];
    char8_t* utf8_ptr = utf8_result;
    std::mbstate_t state2 = {};
    for (const char* p = mb_str; *p; ) {
        std::size_t result = std::mbrtoc8(utf8_ptr, p, 100, &state2);
        if (result == static_cast<std::size_t>(-1)) {
            std::cerr << "Invalid multibyte sequence encountered." << std::endl;
            return 1;
        }
        utf8_ptr += result;
        p += result;
    }
    *utf8_ptr = u8'\0';

    std::cout << "UTF-8 string: " << reinterpret_cast<const char*>(utf8_result) << std::endl;

    return 0;
}

5. 注意事项

线程安全：以空指针参数 s 调用 std::c8rtomb 可能会与其他以空指针参数 s 对 std::c8rtomb 的调用造成数据竞争。
本地环境依赖：这两个函数的多字节编码由当前活跃的 C 本地环境指定。
错误处理：在处理无效的 UTF-8 序列或多字节字符时，需要妥善处理错误，避免程序崩溃。

6. 总结

C++20 通过引入 std::c8rtomb 和 std::mbrtoc8，为处理 UTF-8 编码和窄多字节字符提供了强大的支持。这些函数不仅增强了 C++ 标准库对多语言文本的处理能力，还为国际化应用提供了更灵活的解决方案。开发者在使用这些函数时需要注意线程安全、本地环境依赖以及错误处理等问题，以确保程序的健壮性和可靠性。