python 合法编码判定 python 编码问题

关注 fjfdh

python 合法编码判定 python 编码问题

转载

fjfdh 2023-09-05 18:59:29

文章标签 python 合法编码判定 python character string codec 文章分类 Python 后端开发

python 编码问题总结

2010-05-12 15:07

问题一：当python中间处理非ASCII编码时，经常会出现如下错误： UnicodeDecodeError: 'ascii' codec can't decode byte 0x?? in position 1: ordinal not in range(128) 0x??是超出128的数字，python在默认的情况下认为语言的编码是ascii编码，所以无法处理其他编码，需要设置python的默认编码为所需要的编码。一个解决的方案是在代码中添加： import sys reload(sys) sys.setdefaultencoding( ' gb2312 ' ) 解释： sys.setdefaultencoding方法在python导入site.py后就删除了(具体代码查看site.py就可以看到)因此如果想用的话可以：在确定sys已经导入的情况下，使用： reload(sys) 问题二： You need to deal with data that doesn't fit in the ASCII character set. 你需要处理不适合用ASCII字符集表示的数据. 1 #将Unicode转换成普通的Python字符串:"编码(encode)" 2 unicodestring = u"Hello world" 3 utf8string = unicodestring.encode("utf-8") 4 asciistring = unicodestring.encode("ascii") 5 isostring = unicodestring.encode("ISO-8859-1") 6 utf16string = unicodestring.encode("utf-16") 7 8 9 #将普通的Python字符串转换成Unicode: "解码(decode)" 10 plainstring1 = unicode(utf8string, "utf-8") 11 plainstring2 = unicode(asciistring, "ascii") 12 plainstring3 = unicode(isostring, "ISO-8859-1") 13 plainstring4 = unicode(utf16string, "utf-16") 14 15 assert plainstring1==plainstring2==plainstring3==plainstring4 1 python代码文件的编码 py文件默认是ASCII编码，中文在显示时会做一个ASCII到系统默认编码的转换，这时就会出错：SyntaxError: Non-ASCII character。需要在代码文件的第一行或第二行添加编码指示： `1 # coding=gbk 2 print ' 中文 '` 2 字符串的编码像上面那样直接输入的字符串是按照代码文件的编码来处理的，如果是unicode编码，有以下三种方式： `1 s1 = u ' 中文 ' 2 s2 = unicode( ' 中文 ' , ' gbk ' ) 3 s3 = s1.decode( ' gbk ' )` unicode是一个内置函数，第二个参数指示源字符串的编码格式。 decode是任何字符串具有的方法，将字符串转换成unicode格式，参数指示源字符串的编码格式。 encode也是任何字符串具有的方法，将字符串转换成参数指定的格式。 3 系统的默认编码对于中文系统来说，默认的是gbk，gb2312也可以，因为它是gbk的字集。使用print输出时，字符串会被转换成此格式，隐式转换时，是从代码文件编码格式转换成gbk，默认是ASCII->GBK。考虑上面第二点，如果字符串编码不是ASCII，则隐式转换会出错，需要显式转换，使用 encode方法。如果指定了代码文件格式为gbk，则隐式转换不存在问题。 `1 # coding=gbk 2 3 s = u ' 中文 ' 4 print s.encode( ' gbk ' )` 文件读写只是ASCII或者gbk编码格式的的文件读写，比较简单，读写如下： 1 # coding=gbk 2 3 f = open( ' c:/intimate.txt ' , ' r ' ) # r 指示文件打开模式，即只读 4 s1 = f.read() 5 s2 = f.readline() 6 s3 = f.readlines() # 读出所有内容 7 8 f.close() 9 10 f = open( ' c:/intimate.txt ' , ' w ' ) # w 写文件 11 f.write(s1) 12 f.writelines(s2) # 没有writeline 13 f.close() f.writelines不会输出换行符。 unicode文件读写： 1 # coding=gbk 2 import codecs 3 4 f = codecs.open( ' c:/intimate.txt ' , ' a ' , ' utf-8 ' ) 5 f.write(u ' 中文 ' ) 6 s = ' 中文 ' 7 f.write(s.decode( ' gbk ' )) 8 f.close() 9 10 f = codecs.open( ' c:/intimate.txt ' , ' r ' , ' utf-8 ' ) 11 s = f.readlines() 12 f.close() 13 for line in s: 14 print line.encode( ' gbk ' ) 总结首先要搞清楚，字符串在Python内部的表示是unicode编码，因此，在做编码转换时，通常需要以unicode作为中间编码，即先将其他编码的字符串解码（decode）成unicode，再从unicode编码（encode）成另一种编码。 decode的作用是将其他编码的字符串转换成unicode编码，如str1.decode('gb2312')，表示将gb2312编码的字符串转换成unicode编码。 encode的作用是将unicode编码转换成其他编码的字符串，如str2.encode('gb2312')，表示将unicode编码的字符串转换成gb2312编码。在某些IDE中，字符串的输出总是出现乱码，甚至错误，其实是由于IDE的结果输出控制台自身不能显示字符串的编码，而不是程序本身的问题。如在UliPad中运行如下代码： s=u"中文" print s 会提示：UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)。这是因为UliPad在英文WindowsXP上的控制台信息输出窗口是按照ascii编码输出的（英文系统的默认编码是ascii），而上面代码中的字符串是Unicode编码的，所以输出时产生了错误。将最后一句改为：print s.encode('gb2312') 则能正确输出“中文”两个字。若最后一句改为：print s.encode('utf8') 则输出：\xe4\xb8\xad\xe6\x96\x87，这是控制台信息输出窗口按照ascii编码输出utf8编码的字符串的结果。 Updated at: 2008.11.05 另外，代码中字符串的默认编码与代码文件本身的编码一致，如： s='中文' 如果是在utf8的文件中，该字符串就是utf8编码，如果是在gb2312的文件中，则其编码为gb2312。这种情况下，要进行编码转换，都需要先用decode方法将其转换成unicode编码，再使用encode方法将其转换成其他编码。通常，在没有指定特定的编码方式时，都是使用的系统默认编码创建的代码文件，在这篇文章中可以看到如何获得系统的默认编码。如果字符串是这样定义： s=u'中文' 则该字符串的编码就被指定为unicode了，即python的内部编码，而与代码文件本身的编码无关。因此，对于这种情况做编码转换，只需要直接使用encode方法将其转换成指定编码即可。如果一个字符串已经是unicode了，再进行解码则将出错，因此通常要对其编码方式是否为unicode进行判断： isinstance(s, unicode) #用来判断是否为unicode

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：python 层次聚类实现层次聚类算法实现

下一篇：java 无效的源发行版 error:java:无效的源发行版

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费资料
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册