常见编码格式及字符集主要有如下几种:

ASCII:

表示英语及西欧语言,用7个二进制位表示,能够表示128个字符,扩展表示用8个二进制位,表示256个字符。

GB2312:

国家简体中文字符集,兼容ASCII,使用16个二进制位表示,能够表示7445个汉字,包含6763个汉字,几近覆盖所有高频率汉字,是中国大陆的主要编码方式。当文章或网页包含繁体中文、日文、韩文等时,这些内容可能无法被正确编码和显示。

BIG5:

繁体中文编码方式,使用16个二进制位表示,表示13053个汉字,主要在台湾地区使用。

GBK:

它是GB2312的扩展,加入对繁体字的支持,兼容GB2312,使用16个二进制位表示,可表示21886个字符。虽然GBK支持简体和繁体中文,但对其他非拉丁字母语言的支持还是有问题的。

UNICODE:

世界650种语言的统一编码格式,有三种编码方式,分别为UTF-8、UTF-16、UTF-32,其中,以UTF-8最为通用,俗称“万国码”。UTF-8中字符使用8位序列来编码,用一个或几个字节来表示一个字符,它保留了ASCII码的编码作为它的一部分。

GB18030:

采用变字节编码,1个字节表示ASCII,2字节,4字节,可表示27484个字符,兼容GBK,解决了中文、日文、朝鲜语等的编码。

UCS:

国际标准ISO10646定义的通用字符集,与unicode类似,UCS-2与UNICODE兼容。具有两种格式,UCS-2、UCS-4,分别是2字节和4字节。

ISO-8859-1:

扩展ASCII,表示西欧、希腊语等。使用8位二进制位进行编码。

按所表示的文字分类,可以将字符编码格式分类如下:


语言

字符集

正式名称

英语、西欧语

ASCII,ISO-8859-1

MBCS多字节

简体中文

GB2312

MBCS多字节

繁体中文

BIG5

MBCS多字节

简繁中文

GBK

MBCS多字节

中文、日语、朝鲜语

GB18030

MBCS多字节

各国语言

UNICODE,UCS

MBCS多字节


注:MBCS,Multi-Byte Character System,多字节字符集,是一种替代Unicode以支持无法用单字节表示的字符集如中文、日文等的方法,为国际市场编码时应考虑使用Unicode或MBCS字符集,或使程序能够通过更改开关生成支持两种字符集之一的程序。最常见的MBCS的实现是双字节字符集DBCS。