Big5编码


  • 台湾国标繁体编码13053个
  • BIG5采用双字节编码,使用两个字节来表示一个字符。高位字节使用了0x81-0xFE,低位字节使用了0x40-0x7E,及0xA1-0xFE。
  • BIG5编码范围:8140-FEFE,其中汉字编码范围:A440-F9DC。


编码范围

字符数

造字区

8140-A0FE

符号区

A140-A3BF

保留

A3C0-A3FE

常用汉字区

A440-C67E

其他汉字区

C6A1-F9DC

制表符

F9DD-F9FE

值得留意的是,BIG5重复地收录了两个相同的字:“兀、兀”(A461及C94A)、“嗀、嗀”(DCD1及DDFC)。

Unicode编码(世界各国文字编码大全)


汉字区:


编码范围

字符数

基本汉字

4E00-9FA5

20902

基本汉字补充

9FA6-9FEF

74

扩展A

3400-4DB5

6582

扩展B

20000-2A6D6

42711

扩展C

2A700-2B734

4149

扩展D

2B740-2B81D

222

扩展E

2B820-2CEA1

5762

扩展F

2CEB0-2EBE0

7473

扩展G

30000-3134A

4939

日文

平假名 3040-309F

片假名 30A0-30FF

韩文

3130-318F

AC00-D7A3

(utf-8指的是编码的存储格式,并不代表编码方式)

GB编码


字汇

GBK 规范收录了 ISO 10646.1 中的全部 CJK 汉字和符号,并有所补充。具体包括:

  1. GB 2312 中的全部汉字、非汉字符号。
  2. GB 13000.1 中的其他 CJK 汉字。以上合计 20902 个 GB 化汉字。
  3. 《简化字总表》中未收入 GB 13000.1 的 52 个汉字。
  4. 《康熙字典》及《辞海》中未收入 GB 13000.1 的 28 个部首及重要构件。
  5. 13 个汉字结构符。
  6. BIG-5 中未被 GB 2312 收入、但存在于 GB 13000.1 中的 139 个图形符号。
  7. GB 12345 增补的 6 个拼音符号。
  8. 汉字“〇”。
  9. GB 12345 增补的 19 个竖排标点符号(GB 12345 较 GB 2312 增补竖排标点符号 29 个,其中 10 个未被 GB 13000.1 收入,故 GBK 亦不收)。
  10. 从 GB 13000.1 的 CJK 兼容区挑选出的 21 个汉字。
  11. GB 13000.1 收入的 31 个 IBM OS/2 专用符号。
  12. 未录入《新华字典》上的一些字,如“韡”的简体。

码位分配及顺序

GBK 亦采用双字节表示,总体编码范围为 8140-FEFE,首字节在 81-FE 之间,尾字节在 40-FE 之间,剔除 xx7F 一条线。总计 23940 个码位,共收入 21886 个汉字和图形符号,其中汉字(包括部首和构件)21003 个,图形符号 883 个。


子类

编码范围

字符数

说明

图形符号区

GB2312非汉字符号区

GBK/1

A1A1-A9FE

717

外加10 个小写罗马数字、GB 12345 增补的符号

GB13000.1扩充非汉字区

GBK/5

A840-A9A0

166

BIG-5 非汉字符号、结构符和“〇”排列在此区

汉字区

GB 2312 汉字区

GBK/2

B0A1-F7FE

6763

按原顺序排序

GB 13000.1 扩充汉字区

GBK/3

8140-A0FE

6080

GB 13000.1 中的 CJK 汉字 6080 个

GBK/4

AA40-FEA0

8160

CJK 汉字和增补的汉字 8160 个。

CJK 汉字在前,按 UCS 代码大小排列;

增补的汉字(包括部首和构件)在后

按《康熙字典》的页码/字位排列

用户自定义区

AAA1-AFFE

564

F8A1-FEFE

658

A140-A7A0

672

尽管对用户开放,但限制使用,

不排除未来在此区域增补新字符的可能性

编码特点

  • GB2312字集是简体字集,全称GB2312(80)字集,共包括国标简体汉字6763个
  • GB2312是中国大陆规定的汉字编码,也可以说是简体中文的字符集编码
  • GBK包含全部中文字符
  • GBK字集是简繁字集,包含了GB的字集,BIG5的字集和一些符号,共包括21003个字符
  • GBK是GB2312的扩展,除了兼容GB2312外,还能显示繁体中文,还有日文的假名
  • GBK标准,兼容GB2312标准的同时,扩展了GB13000包含的字符
  • GBK中的繁体字符编码与Big5编码不一致
  • GBK中的简体字符编码与GB2312编码一致

简繁互换

Python 包推荐 - https:///BYVoid/OpenCC


目标

过程

GBK简体<->GBK繁体

GBK简体<->GBK繁体

GBK简体<->Unicode繁体

GBK简体<->GBK繁体<->Unicode繁体

GBK简体<->BIG5编码

GBK简体<->GBK繁体<->Unicode繁体<->BIG5编码

Unicode简体<->GBK繁体

Unicode简体<->GBK简体<->GBK繁体

Unicode简体<->Unicode繁体

Unicode简体<->GBK简体<->GBK繁体<->Unicode繁体

Unicode简体<->BIG5编码

Unicode简体<->GBK简体<->GBK繁体<->Unicode繁体<->BIG5编码