python unicode转义转中文 python的unicode转化

转载

mob64ca13ffd0f1 2024-08-12 16:55:14

文章标签 python unicode转义转中文全角 ico 半角 文章分类 Python 后端开发

学点编码知识又不会死：Unicode的流言终结者和编码大揭秘

如果不想看完，只需记住要点：

理论上每种语言中的每种字符都被Unicode协会指定了一个神奇数字。但它不管编码

2. 映射后的数如何编码为字节？这个就是具体的编码规则：目前最主流的是UTF-8，同样，它也是变字长的。

python3中的str都是unicode的：“The default encoding for Python source code is UTF-8”，见"https://docs.python.org/3/howto/unicode.html" 
 
 

  python3中的encode：按照encode()括号中的参数对字符串进行编码，就是生成bytes。 
 
 

  所以： 
 
 

  In：'中文'.encode('utf-8') 
 
Out：b'\xe4\xb8\xad\xe6\x96\x87' 
  

  这里的b就是Byte，\x表示这个x是被转义的，意思就是0x。又如： 
 
 

  In: 'abc'.encode('utf-8') 
 
 

  Out: b'abc' 
 
 

  上面的b'a'其实表示的是数字97,b'a'的意思就是字符串'a'的binary数字： 
 
 

  [In]:'abc'.encode('utf-8')[0] 
 
 

  [Out]: 97 
 
 

  同时可以把b'\x'进行解码，即： 

 

  In：b'\xe4\xb8\xad\xe6\x96\x87'.decode('utf-8') 
 
Out：'中文' 
 
除了encode('utf-8')外，用ord可以获得单个utf-8字符对应的数字： 
  

  In [60]: ord('a') 
 
Out[60]: 97 
 
In [61]: ord('ａ')　　　＃这个是全角的a 
 
Out[61]: 65345 
  

  除了decode('utf-8')外，用chr可以获得数字对应的utf-8字符： 
 
 

  In [62]: chr(97) 
 
Out[62]: 'a' 
  
 
 
 

  除了unicode还有别的编码标准吗？有啊，比如我国的GBK，别名也叫cp936。最全的编码标准在这里： 
 https://docs.python.org/3/library/codecs.html#standard-encodings。 
 
 
 
 
 

  全角和半角之分，是指同样一个意义的字符，显示的大小不同．具体来说，全角和半角的编码是两个结果： 
 
 

  In [70]: "ｍｎ".encode('utf-8') 
 
Out[70]: b'\xef\xbd\x8d\xef\xbd\x8e 
 

  [In]:"mn".encode('utf-8') 
 
 

  [Out]:b'mn'

转换说明

全角半角转换说明

有规律（不含空格）：

全角字符unicode编码从65281~65374 （十六进制 0xFF01 ~ 0xFF5E）
半角字符unicode编码从33~126 （十六进制 0x21~ 0x7E）

特例：
空格比较特殊，全角为 12288（0x3000），半角为 32（0x20）

除空格外，全角/半角按unicode编码排序在顺序上是对应的（半角 + 0x7e= 全角）,所以可以直接通过用+-法来处理非空格数据，对空格单独处理。

代码在此基础上改动一下（将unichr改为chr即可，适应python3），即：

def strQ2B(ustring):
     """全角转半角"""
     rstring = ""
     for uchar in ustring:
     inside_code=ord(uchar)
     if inside_code == 12288:    #全角空格直接转换            
         inside_code = 32
     elif (inside_code >= 65281 and inside_code <= 65374): #全角字符（除空格）根据关系转化
         inside_code -= 65248
         rstring += chr(inside_code)
     return rstring

In [69]: strQ2B('你好ｐｙｔｈｏｎ')

Out[69]: '你好python'

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。