ansi编码 maya python ansi编码是什么意思

转载

mob6454cc67554d 2023-07-05 22:01:28

文章标签 ansi编码 maya python 学习编辑器 ico Windows 文章分类 Python 后端开发

ANSI是一种字符代码，为使计算机支持更多语言，通常使用 0x00~0x7f 范围的1 个字节来表示 1 个英文字符。超出此范围的使用0x80~0xFFFF来编码，即扩展的ASCII编码。

简介

为使计算机支持更多语言，通常使用 0x80~0xFFFF 范围的 2 个字节来表示 1 个字符。比如：汉字 ‘中’ 在中文操作系统中，使用 [0xD6,0xD0] 这两个字节存储。
不同的国家和地区制定了不同的标准，由此产生了 GB2312、GBK、GB18030、Big5、Shift_JIS 等各自的编码标准。这些使用多个字节来代表一个字符的各种汉字延伸编码方式，称为 ANSI 编码。在简体中文Windows操作系统中，ANSI 编码代表 GB2312编码；在繁体中文Windows操作系统中，ANSI编码代表Big5；在日文Windows操作系统中，ANSI 编码代表 JIS 编码。 [1] [2]
不同 ANSI 编码之间互不兼容，当信息在国际间交流时，无法将属于两种语言的文字，存储在同一段 ANSI 编码的文本中。ANSI编码表示英文字符时用一个字节，表示中文用两个或四个字节。
ANSI编码作为中国以及部分亚太地区的多字符编码格式，Windows系统和OS X都是提供原生支持的。但是即便如此，许多国外开发者仍然在开发笔记或者文字录入类应用的时候将ANSI编码完全忽略，只加入全球通用的UTF-8编码。
在实际应用中接触比较多的文本编码有3种：ASCII、ANSI和UNICODE，其中ASCII码是后两种也是大多数常用编码的基础。

ASCII码

文本编码方式的基础是ASCII码，它是一个7位的编码标准，包括26个小写字母、26个大写字母、10个数字、32个符号、33个控制代码和一个空格，共128个代码。由于计算机通常采用“字节”为单位存储和交换数据信息，因此很多计算机厂家对ASCII码进行了扩充，在原来的基础上又增加了128个附加字符，如ANSI、UNICODE等字符集。

UNICODE

对于英文来讲，ASCII码就足以编码所有字符，但对于中文，则必须使用两个字节来代表一个汉字，这种表示汉字的方式习惯上称为双字节。虽然双字节可以解决中英文字符混合使用的情况，但对于不同字符系统而言，就要经过字符码转换，非常麻烦，如中英、日韩混合的情况。为解决这一问题，很多公司联合起来制定了一套可以适用于全世界所有国家的字符码，不管是东方文字还是西方文字，一律用两个字节来表示，这就是UNICODE。

编辑器中可以使用编码选项对编码进行修改。

字符编码ASCII、ANSI、Unicode、UTF-8、GB2312

1. ASCII码

a.ASCII码（American Standard Code for Information Interchange，美国标准信息交换码），是用来表示英文字符的一种编码规范
b.每个ASCII字符占用1个字节（8bits）,共有256位字符或符号
c.7位字符集广泛用于代表标准美国键盘上的字符或符号，而最高位为1的另128个字符被成为“扩展ASCII”，一般用来存放英文的制表符、部分音标字符等等的一些其他符号
d.ASCII码表：http://www.asciitable.com

2.ANSI码

a. ANSI码（American National Standards Institute），美国国家标准学会的标准码。
b. 不同的国家和地区制定了不同的标准，由此产生了 GB2312(中国), BIG5(台湾), JIS(日本) 等各自的编码标准。这些使用 2 个字节来代表一个字符的各种延伸编码方式，称为 ANSI 编码。在简体中文系统下，ANSI 编码代表 GB2312 编码，在日文操作系统下，ANSI 编码代表 JIS 编码。不同 ANSI 编码之间互不兼容。
c. 当然对于ANSI编码而言，0x00~0x7F之间的字符，依旧是1个字节代表1个字符。
ASCII字符集是与ANSI字符集中的前面128个(0-127)字符相同。这一点是ASNI编码与Unicode编码之间最大也最明显的区别。(Unicode全是两字节)
d.各国ANSI编码转Unicode码对照表http://www.opensource.apple.com/source/libiconv/libiconv-24/libiconv/tests/
e.中文国标码与Unicode码：http://www.opensource.apple.com/source/libiconv/libiconv-24/libiconv/tests/CP936.TXT

3.Unicode码

a. Universal Character Set 通用字符集
b. Unicode有两套标准，一套叫UCS-2(Unicode-16)，用2个字节为字符编码，另一套叫UCS-4(Unicode-32)，用4个字节为字符编码。常用的UCS-2，它可以表示的字符数为2^16=65535，基本上可以容纳所有的欧美字符和绝大部分的亚洲字符。
c. ASCII字符集之间的不兼容问题 , ASCII字符是单个字节的，比如“A”的ASCII是65。而Unicode是双字节的，比如“A”的Unicode是0065，C语言使用‘\0’作为字符串结尾，这样一来，C语言的字符串函数将无法正常处理Unicode，除非把世界上所有用C写的程序以及他们所用的函数库全部换掉
d.unicode全码表：http://www.tamasoft.co.jp/en/general-info/unicode.html
中文国标码 Unicode码 UTF8 对照表：http://www.ansell-uebersetzungen.com/gbuni.html

4.UTF8

a. UTF= UCS Transformation Format UCS转换格式,UTF有2种：UTF-8和UTF-16 ,流行的的是UTF8
b. 是Unicode传送格式。即把Unicode文件转换成BYTE的传送流,UTF8是为传送unicode而想出来的“再编码”方法,将Unicode编码规则和计算机的实际编码对应起来
c. 它将Unicode编码为:
00000000-0000007F的字符，用单个字节来表示；
00000080-000007FF的字符用两个字节表示
00000800-0000FFFF的字符用3字节表示
d. 在UTF-8里，英文字符仍然跟ASCII编码一样，因此原先的函数库可以继续使用。中文的(Uincode)编码范围是在4E00(一) ~ 9FA0(龠) 之间，UTF8编码范围E4 B8 80(一) ~ E9 BE A0 (龠）,三个字节

5.国标码(gb)

a. gb码是中文系统的ANSI编码
b. 由于历史的原因，在Unicode之前，一共存在过3套中文编码标准
中国:
GB2312 1980年 7445个字符 CP936
GBK 1995年 21886个字符 CP936
GB18030 2000年 27484字符 CP54936 不支持手机，MP3
台湾:
Big5，是台湾使用的编码标准，编码了台湾使用的繁体汉字，大概有8千多个。
香港:
HKSCS，是中国香港使用的编码标准，字体也是繁体，但跟Big5有所不同。
c. GBK兼容GB2312，加入了几乎所有的Big5中的繁体汉字。但是GBK中的繁体汉字和Big5中的几乎不兼容。

6.txt文件识别编码的方式

Unicode、Unicode big endian和UTF-8编码的txt文件的开头会多出几个字节，分别是
FF、FE（Unicode）,FE、FF（Unicode big endian）,EF、BB、BF（UTF-8）。

saveEncode.jpg

7.ANSI各国不一，所以中文系统默认使用GB码

hexdump.png

8.算法演示

基于iOS代码，以“中”字为例 : D6D0（GB） 4E2D (Unicode) E4 B8 AD (UTF8)
a. UTF8码转Unicode码
b. Unicode码转UTF8码
c. 国标码转Unicode码
d. Unicode码转国标码
e. UTF8码转国标码 UTF8码转Unicode码， Unicode码转国标码
f. 国标码转UTF8码国标码转Unicode码, Unicode码转UTF8码