Big5编码
- 台湾国标繁体编码13053个
- BIG5采用双字节编码,使用两个字节来表示一个字符。高位字节使用了0x81-0xFE,低位字节使用了0x40-0x7E,及0xA1-0xFE。
- BIG5编码范围:8140-FEFE,其中汉字编码范围:A440-F9DC。
类 | 编码范围 | 字符数 |
造字区 | 8140-A0FE | |
符号区 | A140-A3BF | |
保留 | A3C0-A3FE | |
常用汉字区 | A440-C67E | |
其他汉字区 | C6A1-F9DC | |
制表符 | F9DD-F9FE | |
值得留意的是,BIG5重复地收录了两个相同的字:“兀、兀”(A461及C94A)、“嗀、嗀”(DCD1及DDFC)。 |
Unicode编码(世界各国文字编码大全)
汉字区:
类 | 编码范围 | 字符数 |
基本汉字 | 4E00-9FA5 | 20902 |
基本汉字补充 | 9FA6-9FEF | 74 |
扩展A | 3400-4DB5 | 6582 |
扩展B | 20000-2A6D6 | 42711 |
扩展C | 2A700-2B734 | 4149 |
扩展D | 2B740-2B81D | 222 |
扩展E | 2B820-2CEA1 | 5762 |
扩展F | 2CEB0-2EBE0 | 7473 |
扩展G | 30000-3134A | 4939 |
日文 | 平假名 3040-309F 片假名 30A0-30FF | |
韩文 | 3130-318F AC00-D7A3 | |
(utf-8指的是编码的存储格式,并不代表编码方式) |
GB编码
字汇
GBK 规范收录了 ISO 10646.1 中的全部 CJK 汉字和符号,并有所补充。具体包括:
- GB 2312 中的全部汉字、非汉字符号。
- GB 13000.1 中的其他 CJK 汉字。以上合计 20902 个 GB 化汉字。
- 《简化字总表》中未收入 GB 13000.1 的 52 个汉字。
- 《康熙字典》及《辞海》中未收入 GB 13000.1 的 28 个部首及重要构件。
- 13 个汉字结构符。
- BIG-5 中未被 GB 2312 收入、但存在于 GB 13000.1 中的 139 个图形符号。
- GB 12345 增补的 6 个拼音符号。
- 汉字“〇”。
- GB 12345 增补的 19 个竖排标点符号(GB 12345 较 GB 2312 增补竖排标点符号 29 个,其中 10 个未被 GB 13000.1 收入,故 GBK 亦不收)。
- 从 GB 13000.1 的 CJK 兼容区挑选出的 21 个汉字。
- GB 13000.1 收入的 31 个 IBM OS/2 专用符号。
- 未录入《新华字典》上的一些字,如“韡”的简体。
码位分配及顺序
GBK 亦采用双字节表示,总体编码范围为 8140-FEFE,首字节在 81-FE 之间,尾字节在 40-FE 之间,剔除 xx7F 一条线。总计 23940 个码位,共收入 21886 个汉字和图形符号,其中汉字(包括部首和构件)21003 个,图形符号 883 个。
类 | 子类 | 编码范围 | 字符数 | 说明 | |
图形符号区 | GB2312非汉字符号区 | GBK/1 | A1A1-A9FE | 717 | 外加10 个小写罗马数字、GB 12345 增补的符号 |
GB13000.1扩充非汉字区 | GBK/5 | A840-A9A0 | 166 | BIG-5 非汉字符号、结构符和“〇”排列在此区 | |
汉字区 | GB 2312 汉字区 | GBK/2 | B0A1-F7FE | 6763 | 按原顺序排序 |
GB 13000.1 扩充汉字区 | GBK/3 | 8140-A0FE | 6080 | GB 13000.1 中的 CJK 汉字 6080 个 | |
GBK/4 | AA40-FEA0 | 8160 | CJK 汉字和增补的汉字 8160 个。 CJK 汉字在前,按 UCS 代码大小排列; 增补的汉字(包括部首和构件)在后 按《康熙字典》的页码/字位排列 | ||
用户自定义区 | AAA1-AFFE | 564 | |||
F8A1-FEFE | 658 | ||||
A140-A7A0 | 672 | 尽管对用户开放,但限制使用, 不排除未来在此区域增补新字符的可能性 |
编码特点
- GB2312字集是简体字集,全称GB2312(80)字集,共包括国标简体汉字6763个
- GB2312是中国大陆规定的汉字编码,也可以说是简体中文的字符集编码
- GBK包含全部中文字符
- GBK字集是简繁字集,包含了GB的字集,BIG5的字集和一些符号,共包括21003个字符
- GBK是GB2312的扩展,除了兼容GB2312外,还能显示繁体中文,还有日文的假名
- GBK标准,兼容GB2312标准的同时,扩展了GB13000包含的字符
- GBK中的繁体字符编码与Big5编码不一致
- GBK中的简体字符编码与GB2312编码一致
简繁互换
Python 包推荐 - https:///BYVoid/OpenCC
目标 | 过程 |
GBK简体<->GBK繁体 | GBK简体<->GBK繁体 |
GBK简体<->Unicode繁体 | GBK简体<->GBK繁体<->Unicode繁体 |
GBK简体<->BIG5编码 | GBK简体<->GBK繁体<->Unicode繁体<->BIG5编码 |
Unicode简体<->GBK繁体 | Unicode简体<->GBK简体<->GBK繁体 |
Unicode简体<->Unicode繁体 | Unicode简体<->GBK简体<->GBK繁体<->Unicode繁体 |
Unicode简体<->BIG5编码 | Unicode简体<->GBK简体<->GBK繁体<->Unicode繁体<->BIG5编码 |
















