一: 确定自己的字符串的格式

确定方式

1. 使用chardet模块:

eg:

>>> import chardet
>>> b = chardet.detect(a)
>>> b
{'confidence': 0.9690625, 'encoding': 'utf-8'}

2.人工识别:

'\u'  表示unicode

‘\x’  表示ascii

..

需要进一步补充

 

二:对字符进行编码的处理的一般步骤:

1、确定源字符的编码格式,除默认的为ascii外,其他的假设是utf8;
2、使用unicode()或decode()转换成unicode编码,如str1.decode('utf8'),或者unicode(str1, 'utf8');
3、把处理后字符串用encode()编码成指定格式。
普通字符串可以用多种方式编码成Unicode字符串,具体要看你究竟选择了哪种编码:
unicodestring = u"Hello world" 
# 将Unicode转化为普通Python字符串:"encode"  
utf8string = unicodestring.encode("utf-8")  
asciistring = unicodestring.encode("ascii")  
isostring = unicodestring.encode("ISO-8859-1")  
utf16string = unicodestring.encode("utf-16")  
# 将普通Python字符串转化为Unicode:"decode"  
plainstring1 = unicode(utf8string, "utf-8")  
plainstring2 = unicode(asciistring, "ascii")  
plainstring3 = unicode(isostring, "ISO-8859-1")  
plainstring4 = unicode(utf16string, "utf-16")  
assert plainstring1 == plainstring2 == plainstring3 == plainstring4