编码和解码

1.编码历史 ascii:只能存英文和拉丁字符,一个字符召一个字节 gb2312:6700个中文 gbk:20000多中文,1995年 gb18030:27000中文 unicode: utf-32 一个字符占四个字节 utf-16 一个字符占两个字节或两个字节以上 utf-8 一个英文用ASCII码存,一个中文占3个字节

2.Win操作系统cmd修改默认编码格式方法 默认编码是936 打开的命令窗口,如果我们要修改成UTF8编码,输入命令 chcp 65001

下表列出了所有支持的代码页及其国家(地区)或者语言:

3.代码页 国家(地区)或语言 437 美国 708 阿拉伯文(ASMO 708) 720 阿拉伯文(DOS) 850 多语言(拉丁文 I) 852 中欧(DOS) - 斯拉夫语(拉丁文 II) 855 西里尔文(俄语) 857 土耳其语 860 葡萄牙语 861 冰岛语 862 希伯来文(DOS) 863 加拿大 - 法语 865 日耳曼语 866 俄语 - 西里尔文(DOS) 869 现代希腊语 874 泰文(Windows) 932 日文(Shift-JIS) 936 中国 - 简体中文(GB2312) 949 韩文 950 繁体中文(Big5) 1200 Unicode 1201 Unicode (Big-Endian) 1250 中欧(Windows) 1251 西里尔文(Windows) 1252 西欧(Windows) 1253 希腊文(Windows) 1254 土耳其文(Windows) 1255 希伯来文(Windows) 1256 阿拉伯文(Windows) 1257 波罗的海文(Windows) 1258 越南文(Windows) 20866 西里尔文(KOI8-R) 21866 西里尔文(KOI8-U) 28592 中欧(ISO) 28593 拉丁文 3 (ISO) 28594 波罗的海文(ISO) 28595 西里尔文(ISO) 28596 阿拉伯文(ISO) 28597 希腊文(ISO) 28598 希伯来文(ISO-Visual) 38598 希伯来文(ISO-Logical) 50000 用户定义的 50001 自动选择 50220 日文(JIS) 50221 日文(JIS-允许一个字节的片假名) 50222 日文(JIS-允许一个字节的片假名 - SO/SI) 50225 韩文(ISO) 50932 日文(自动选择) 50949 韩文(自动选择) 51932 日文(EUC) 51949 韩文(EUC) 52936 简体中文(HZ) 65000 Unicode (UTF-7) 65001 Unicode (UTF-8)

4.PYTHON默认编码 Python2:ASCII Python3: utf-8

解码都是转成unicode,unicode 是编码解码的中间转换站 显示器和程序编码最好保持一致

5.python2和Python3实例 Python2:

a="中国人"
a_decode=a.decode("utf-8")
print(a_decode)
a_decode_encode=a_decode.encode("gbk")

在cmd中运行试试

Python3:

import sys
a="中国人"
print(sys.getdefaultencoding())   #验证python3的默认编码方式

utf-8

b="中国人1"
b_toencode=b.encode("gbk")
print(b_toencode)
print(b)
b_en_todecode=b_toencode.decode("gbk")
print(b_en_todecode)

b'\xd6\xd0\xb9\xfa\xc8\xcb1' 中国人1 中国人1