1. Python默认会认为源代码文件是ASCII编码,中文字符串无法读取,解决方法:

在源码开头加上 # -*- coding: gbk -*- 

即让Python知道你的字符串是按gbk模式编码的,而不是ASCII,Python自然就能会按gbk模式解码;同时,以上代码也表明你的源码按gbk编码。(Python按Unicode编码)

2. s1=u’哈’ u表示将后面跟的字符串以unicode格式存储,unicode,utf-8,gbk,GB2312均可用于中文编码,各种编码方式详见https://zhidao.baidu.com/question/522853168252728925.html

3.解码与编码(decode和encode方法)问题

s1=unicode(”哈“, ”utf-8“) 

表示将utf-8方式编码的"哈"字符串转变为unicode编码的"哈",两者的二进制模式是不同的

    s2=’哈’.decode(‘utf-8′)

此处作用同上,但用的是decode方法直接解码为Unicode方式储存

    s3=unicode(‘哈’, ‘utf-8′).encode(‘utf-8′)

4. 在Python的string前面加上‘r’, 是为了告诉编译器这个string是个raw string,不要转意backslash '\' 。