一个汉字在计算机中占有2个字符
西文字符中的ASCII码表示西文字符是,用的是7位的ASCII码,为了在计算机中存储,最高位(第八位)默认为0,所以可以表示27个不同的字符;扩展的ASCII码,使用的第八位,不在默认为0,所以最多可以表示28个字符。
中文跟西文不大一样。中文的一个汉字占16位,也就是两个字节的位置。编码方式跟ASCII码类似,但是为了与ASCII码区别开来,最高位默认为1.

计算机字符处理原理:
1.根源:计算机里所有的字符(字母,汉字,所有符号)最根本是一张张的矢量图片,然后把这些图片存在字库里,(ttf文件就是字库矢量图文件)

2.存储:那文字信息是如何交流传递的呢?我曾经做了一个中文编码转换的软件,对这个有一些了解。存储的话,牵扯一个重要的东西-----编码,每一个字符(包括各国国家的字符,当然包括汉字)有一个对应编码的唯一内码,就是存储了。然而同一个字符(例如“中”字)不同编码对应的内码不一样,Unicode编码的话在计算机里的存储的十六进制是“2D4E”,两个字节;国标码存的是“D6D0”,两个字节;utf8存的是“E4B8AD”三个字节

汉字的编码过程:
汉字编码分为外码、机内码、字形码、矢量汉字四个阶段。
1.外码(输入码)

外码也叫输入码,是用来将汉字输入到计算机中的一组键盘符号。常用的输入码有拼音码、五笔字型码、自然码、表形码、认知码、区位码和电报码等,一种好的编码应有编码规则简单、易学好记、操作方便、重码率低、输入速度快等优点,每个人可根据自己的需要进行选择。

2.交换码(国标码)

计算机内部处理的信息,都是用二进制代码表示的,汉字也不例外。而二进制代码使用起来是不方便的,于是需要采用信息交换码。中国标准总局1981年制定了中华人民共和国国家标准GB2312–80《信息交换用汉字编码字符集–基本集》,即国标码。

区位码是国标码的另一种表现形式,把国标GB2312–80中的汉字、图形符号组成一个94×94的方阵,分为94个“区”,每区包含94个“位”,其中“区”的序号由01至94,“位”的序号也是从01至94。94个区中位置总数=94×94=8836个,其中7445个汉字和图形字符中的每一个占一个位置后,还剩下1391个空位,这1391个位置空下来保留备用。

3.机内码

根据国标码的规定,每一个汉字都有了确定的二进制代码,在微机内部汉字代码都用机内码,在磁盘上记录汉字代码也使用机内码。

4.汉字的字形码

字形码是汉字的输出码,输出汉字时都采用图形方式,无论汉字的笔画多少,每个汉字都可以写在同样大小的方块中。通常用16×16点阵来显示汉字。

5.汉字地址码

汉字地址码是指汉字库中存储汉字字形信息的逻辑地址码。它与汉字内码有着简单的对应关系,以简化内码到地址码的转换。

字形码是确定一个汉字字形点阵的代码, 汉字字形点阵中的每个点对应一个二进制位。

矢量汉字是用软件描述汉字 ,矢量字库保存对每一个汉字的描述信息,比如一个笔划的起始、终止坐标,半径、弧度等等。在输出时要经过一定的数学运算。 矢量汉字可随意放大、缩小而不变形。 Windows使用的字库为以上两类。在FONTS目录下,扩展名为FON的文件为点阵字库;扩展名为TTF为矢量字库。

一个汉字几个字符mysql char_汉字在计算机上的表达方式


汉字编码处理过程示意图:

一个汉字几个字符mysql char_汉字代码_02


汉字在计算机上的表达方式大概就是这样子,内容中的图片是找的示意图。