OEM字符集字符集大全

转载

mob6454cc773039 2024-04-25 18:34:57

文章标签 OEM字符集 ico 字符编码希腊字母 文章分类 机器学习人工智能

名词概念

字符、字符集、编码、码位

字符：各种文字和符号的总称，包括各国家文字、标点符号、图形符号、数字等。

字符集：多个字符的集合，字符集种类较多，每个字符集包含的字符个数不同。常见字符集名称：ASCII 字符集、GB2312 字符集、BIG5 字符集、 GB18030 字符集、Unicode 字符集等。

编码：计算机要准确的处理各种字符集文字，就需要进行字符编码，以便计算机能够识别和存储各种文字。常见的例子包括将拉丁字母表编码成摩斯电码和ASCII。

码位：字符在字符集中的位置。

常见字符集

ASCII字符集、GB2312、BIG5、GBK、GB18030、Unicode、UTF-8

英文字符集：ASCII、Unicode

汉字字符集：GB2312、GBK、GB18030、UTF-8、BIG5

ASCII

基于罗马字母表的一套电脑编码系统。它主要用于显示现代英语和其他西欧语言。它是最通用的单字节编码系统，并等同于国际标准 ISO 646。可显示字符：英文大小写字符、阿拉伯数字和西文符号。

Unicode

Unicode 是一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。

Unicode 标准始终使用十六进制数字，而且在书写时在前面加上前缀“U+”，例如字母“A”的编码为 004116 和字符“?”的编码为 20AC16。所以“A”的编码书写为“U+0041”

汉字编码字符集

按照一组无歧义的规则而定义的汉字字汇的有序集合。其中每一个汉字与它的代码表示之间都具有一一对应的关系。在信息技术中用于汉字信息的表示、交换、传输、处理、存储、输入及显现。

GB2312

GB2312 又称为 GB2312-80 字符集，全称为《信息交换用汉字编码字符集·基本集》，由原中国国家标准总局发布，1981 年 5 月 1 日实施。

GB2312 收录简化汉字及一般符号、序号、数字、拉丁字母、日文假名、希腊字母、俄文字母、汉语拼音符号、汉语注音字母，共 7445 个图形字符。其中包括 6763 个汉字，其中一级汉字 3755 个，二级汉字 3008 个；包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的 682 个全角字符。

（1）分区表示：

GB2312 中对所收汉字进行了“分区”处理，每区含有 94 个汉字/符号。这种表示方式也称为区位码。

各区包含的字符如下：01-09 区为特殊符号；16-55 区为一级汉字，按拼音排序；56-87 区为二级汉字，按部首/笔画排序；10-15 区及 88-94 区则未有编码。

（2）双字节表示

两个字节中前面的字节为第一字节，后面的字节为第二字节。习惯上称第一字节为“高字节” ，而称第二字节为“低字节”。

“高位字节”使用了 0xA1-0xF7(把 01-87 区的区号加上 0xA0)，“低位字节”使用了 0xA1-0xFE(把 01-94 加上 0xA0)。

GB18030

GB 18030 字符集标准解决汉字、日文假名、朝鲜语和中国少数民族文字组成的大字符集计算机编码问题。该标准的字符总编码空间超过 150 万个编码位，收录了 27484 个汉字，覆盖中文、日文、朝鲜语和中国少数民族文字。满足中国大陆、中国香港、中国台湾、日本和韩国等东亚地区信息交换多文种、大字量、多用途、统一编码格式的要求。并且与 Unicode 3.0 版本兼容，填补 Unicode 扩展字符字汇“统一汉字扩展 A”的内容。并且与以前的国家字符编码标准（GB2312，GB13000.1）兼容。

UTF-8 编码

UTF-8 是 Unicode 的其中一个使用方式。 UTF 是 Unicode Tranformation Format，即把 Unicode 转做某种格式的意思。

UTF-8 便于不同的计算机之间使用网络传输不同语言和编码的文字，使得双字节的 Unicode 能够在现存的处理单字节的系统上正确传输。

UTF-8 使用可变长度字节来储存 Unicode 字符，例如 ASCII 字母继续使用 1 字节储存，重音文字、希腊字母或西里尔字母等使用 2 字节来储存，而常用的汉字就要使用 3 字节。辅助平面字符则使用 4 字节。

UTF-8（8-bit Unicode Transformation Format）是一种针对 Unicode 的可变长度字符编码，又称万国码。由 Ken Thompson 于 1992 年创建。已经标准化为 RFC 3629。UTF-8 用 1 到 6 个字节编码 UNICODE 字符。用在网页上可以同一页面显示中文简体繁体及其它语言（如英文，日文，韩文）。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。