UTF-8 是一种针对 Unicode 的可变长度字符编码。


针对 Unicode:UTF-8 是 Unicode 的实现方式之一。相当于 Unicode 规定了字符对应的代码值,这个代码值需要转换为字节序列的形式,用于数据存储、传输。代码值到字节序列的转换工作由 UTF-8 来完成。


可变长度字符编码:UTF-8 使用一至四个字节对 Unicode 字符集中的所有有效代码点进行编码。


UTF-8 使用 1 个字节表示 ASCII 字符;

UTF-8 使用 2 个字节表示带有附加符号的拉丁文、希腊文等;

UTF-8 使用 3 个字节表示其他基本多文种平面(BMP)中的字符(包含了大部分常用字,如大部分的汉字);

UTF-8 使用 4 个字节表示 Unicode 辅助平面的字符