python acsii码32 和acsii码20 python3 ascii codec cant encode

转载

代码匠人之心 2024-01-22 13:37:14

文章标签 python新特性字符串 ico python 文章分类 Python 后端开发

从python2转到python3的第一个问题就是字符串的问题，我花了些时间把我能想到的和字符串处理有关的东西都整理如下。

1、Python2的字符串编码

在python2.X中的字符串编码有点麻烦，它所有的“普通字符串”是ascii码存储的，unicode字符串是16位unicode码存储的，这个时候就经常出现转换、乱码的问题。

1.1python2中的普通字符串

>>> a="abc"

>>> print a

abc

>>> print repr(a)

'abc'

>>> type(a)

#普通字符串可以decode成unicode类型，unicode字符串前面带u

>>> a.decode()

u'abc'

>>> type(a.decode())

这里介绍一个函数，repr，repr（a）将显示对象a（这里是字符串）在解释器里面的样子：repr() is meant to generate representations which can be read by

the interpreter

在这里可以看到python中的“普通字符串”在解释器里面是用ascii表示的。

1.2python2中的中文

在python2中，字符串可以直接为中文

>>> b="中文"

>>> print b

中文

>>> print repr(b)

'\xe4\xb8\xad\xe6\x96\x87'

#懂行的人能看出这是utf-8编码的

>>> type(b)

#b是utf-8编码的，可以decode成unicode，有两种方法

#但是显示必须指出b的编码规则，

>>> b.decode("utf-8")

u'\u4e2d\u6587'

>>> unicode(b,"utf-8")

u'\u4e2d\u6587'

#在某些时候需要得到一些其他编码的字符串，比如gbk

#需要对utf-8的字符串通过unicode进行一个中转，再encode到gbk

>>> c=b.decode("utf-8").encode("gbk")

>>> c

'\xd6\xd0\xce\xc4

1.3python2中的unicode

在上面其实已经解除到了一些unicode了，简单来说，unicode就是一种包容性很强的编码，如果你在一开始就将字符串定义成了unicode类型，那么在完成字符串处理之后，可以自行encode成任意的编码：

>>> d=u'abc'

>>> type(d)

>>> d.encode("gbk")

'abc'

#来个复杂点的

>>> e=u"哈哈。&￥gaw"

>>> e

u'\u54c8\u54c8\u3002&\uffe5gaw'

>>> e.encode("utf-16")

'\xff\xfe\xc8T\xc8T\x020&\x00\xe5\xffg\x00a\x00w\x00'

unicode是一个比较基础的字符串类型，他可以encode成其他的字符串，所以在python3之后默认的字符串类型就变成了unicode，不在需要使用“u”去定义个unicode串，这也是导致python2和3不兼容的一个重要改变。

1.4python2中的字节流

在python2中str类型的字符串可以被打包成字节流，struct模块详细用法可以参考这篇文章：

http://dtysky.moe/article/Skill-2016_06_06_b

例子如下：

>>> e=u"哈哈"

>>> g=e.encode("gbk")

>>> d=e.encode("utf-8")

>>> g

'\xb9\xfe\xb9\xfe'

>>> d

'\xe5\x93\x88\xe5\x93\x88'

>>> import struct

#将g的前两个字节转成字节流，再转成unicode打印出来

>>> g1=struct.pack("ss",*g[0:2])

>>> g1

'\xb9\xfe'

>>> g1.decode('gbk')

u'\u54c8'

>>> print g1.decode('gbk')

哈

#再来处理d，将d的字节流

>>> d

'\xe5\x93\x88\xe5\x93\x88'

>>> d1=struct.pack("ss",*d[0:2])

>>> d2=struct.pack("ss",*d[2:3])

>>> d1

'\xe5\x93'

>>> d2

'\x88'

>>> print d1+d2

哈

#最后做个比较，加深印象

>>> d1+d2==g1

False

>>> g1

'\xb9\xfe'

>>> unicode(d1+d2,"utf-8")==unicode(g1,'gbk')

True

由此可以看出字节流其实也是字符串，他们可以相加，也可以截断，相加之后还能继续进行解码，得到同样的unicode对象。但同时我们可以看到在python2中，字符串和字节流混用了同一个类型（str），但是字符串（str）和unicode又同时可以显示文字。这也是经常让人抓狂的地方。

好在python3对这一点进行了巨大的变革，对文本和二进制数据作了更为清晰的区分。文本总是Unicode，由str类型表示，二进制数据则由bytes类型表示。Python 3不会以任意隐式的方式混用str和bytes，正是这使得两者的区分特别清晰。你不能拼接字符串和字节包，也无法在字节包里搜索字符串（反之亦然），也不能将字符串传入参数为字节包的函数（反之亦然）。这是件好事。

2、Python3中的字符串

有了上面的基础，不用花太多时间就能把python3中的字符串讲清楚。

2.1python3中的普通字符串

在python3中，str默认使用的编码就是unicode，看例子

>>> a='abc'

>>> a

'abc'

>>> print (repr(a))

'abc'

>>> b="哈哈"

>>> print(b)

哈哈

>>> print (repr(b))

'哈哈'

>>> b.encode("unicode-escape")

b'\\u54c8\\u54c8'

>>> b.encode("gbk")

b'\xb9\xfe\xb9\xfe'

>>> b.encode("utf-8")

b'\xe5\x93\x88\xe5\x93\x88'

>>> b.encode("utf-16")

b'\xff\xfe\xc8T\xc8T'

>>> b.decode

#可以看到python3中字符串没有decode功能了

Traceback (most recent call last):

File "", line 1, in

AttributeError: 'str' object has no attribute 'decode'

在上面的例子可以看到，在字符串encode之后，得到的结果是一个类似于b'\xb9\xfe\xb9\xfe'的字节流，这个字节流是bytes类型的，python3中bytes类型和str类型非常的类似,他们之间的转换关系。

bytes-->str: decode过程

str-->bytes: encode过程

下面看个例子：

#可以直接定义一个byte类型的字节流，直接decode成字符串（str，也就是unicode）

>>> c=b'\xff\xfe\xc8T\xc8T'

>>> type(c)

>>> c.decode("utf-16")

'哈哈'

#或者

>>> str(c,encoding="utf-16")

'哈哈'

现在在做字符流截断的操作就很简单清楚了：

>>> e='哈哈'

>>> d=e.encode("utf-8")

>>> d

b'\xe5\x93\x88\xe5\x93\x88'

>>> d1=d[0:2]

>>> d2=d[2:3]

>>> (d1+d2).decode("utf-8")

'哈'

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：中职生技能大赛 python规程中职生职业能力大赛

下一篇：ios 清除unity占用 unity内存占用不断增高

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

python acsii码32 和acsii码20 python3 ascii codec cant encode

python acsii码32 和acsii码20 python3 ascii codec cant encode

51CTO博客