python raw input乱码 python3 乱码

转载

墨香四溢 2023-07-04 17:25:19

文章标签 python raw input乱码乱码 ico 文件名读取文件 文章分类 Python 后端开发

Python 升级到3.0之后，已经很少会有乱码的情形，尤其在源码中注解：

# -*- coding: utf-8 -*-

但是如果我们读入的内容本来就是乱码的该如何是好？

举例：

从操作系统读取文件清单。在文件夹中查看，该文件名本来就是乱码。（已知这个文件是繁体BIG5编码，所以在简体系统中显示是乱码）

python raw input乱码 python3 乱码_ico

以下是读取文件名的代码：

# coding: Utf-8
import os

files = os.listdir('c:\\temp')
print(files[9:10])  # 仅显示乱码的文件名
str1 = files[9]
print(str1.encode('utf-8'))

python raw input乱码 python3 乱码_python raw input乱码_02

注意“畗”这个，对应的UTF-8的编码是\xe7\x95\x97，转换为unicode之后：\u7557

通过下面网站查看对应的字符编码

https://www.qqxiuzi.cn/bianma/zifuji.php

python raw input乱码 python3 乱码_python raw input乱码_03

继续在网站中查 AE7D对应的BIG5

python raw input乱码 python3 乱码_文件名_04

可以理解如下：

徐 -(Big5 编码)-> AE7D -(GBK 解码)-> 畗

所以出现问题的环节还是在红字加粗的部分。

修复乱码

# coding: Utf-8
import os

files = os.listdir('c:\\temp')
print(files[9:10])  # 仅显示乱码的文件 
str1 = files[9]
print(str1.encode('utf-8'))
print(str1.encode('GBK').decode('Big5'))

整个流程解释如下：

徐 -(Big5 编码)-> AE7D -(GBK 解码)-> 畗 -(UTF-8/Unicode 编码)-> \xe7\x95\x97/\u7557 -(UTF-8/Unicode 解码)-> 畗 -(GBK 编码)-> AE7D -(Big5 解码)-> 徐

红色字部分：之前在操作系统层面操作导致出问题

橙色字部分：Python3读取系统文件清单时候的默认操作

绿色字部分：Python3内部默认操作

黑色粗体部分：乱码矫正

附参考文档：

https://www.qqxiuzi.cn/bianma/zifuji.php

https://zhuanlan.zhihu.com/p/26261762

http://cenalulu.github.io/linux/character-encoding/

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：python中元类 python元类的概念

下一篇：中文文本挖掘python 中文文本挖掘关键词

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

python raw input乱码 python3 乱码

python raw input乱码 python3 乱码

51CTO博客