1. Python默认会认为源代码文件是ASCII编码,中文字符串无法读取,解决方法:
在源码开头加上 # -*- coding: gbk -*-
即让Python知道你的字符串是按gbk模式编码的,而不是ASCII,Python自然就能会按gbk模式解码;同时,以上代码也表明你的源码按gbk编码。(Python按Unicode编码)
2. s1=u’哈’ u表示将后面跟的字符串以unicode格式存储,unicode,utf-8,gbk,GB2312均可用于中文编码,各种编码方式详见https://zhidao.baidu.com/question/522853168252728925.html
3.解码与编码(decode和encode方法)问题
s1=unicode(”哈“, ”utf-8“)
表示将utf-8方式编码的"哈"字符串转变为unicode编码的"哈",两者的二进制模式是不同的
s2=’哈’.decode(‘utf-8′)
此处作用同上,但用的是decode方法直接解码为Unicode方式储存
s3=unicode(‘哈’, ‘utf-8′).encode(‘utf-8′)
4. 在Python的string前面加上‘r’, 是为了告诉编译器这个string是个raw string,不要转意backslash '\' 。
















