一: 确定自己的字符串的格式
确定方式
1. 使用chardet模块:
eg:
>>> import chardet
>>> b = chardet.detect(a)
>>> b
{'confidence': 0.9690625, 'encoding': 'utf-8'}
2.人工识别:
'\u' 表示unicode
‘\x’ 表示ascii
..
需要进一步补充
二:对字符进行编码的处理的一般步骤:
1、确定源字符的编码格式,除默认的为ascii外,其他的假设是utf8;
2、使用unicode()或decode()转换成unicode编码,如str1.decode('utf8'),或者unicode(str1, 'utf8');
3、把处理后字符串用encode()编码成指定格式。
普通字符串可以用多种方式编码成Unicode字符串,具体要看你究竟选择了哪种编码:
unicodestring = u"Hello world"
# 将Unicode转化为普通Python字符串:"encode"
utf8string = unicodestring.encode("utf-8")
asciistring = unicodestring.encode("ascii")
isostring = unicodestring.encode("ISO-8859-1")
utf16string = unicodestring.encode("utf-16")
# 将普通Python字符串转化为Unicode:"decode"
plainstring1 = unicode(utf8string, "utf-8")
plainstring2 = unicode(asciistring, "ascii")
plainstring3 = unicode(isostring, "ISO-8859-1")
plainstring4 = unicode(utf16string, "utf-16")
assert plainstring1 == plainstring2 == plainstring3 == plainstring4