utf8 without bom python查看 python open utf8

转载

mob6454cc6ba5a5 2023-08-01 14:35:46

文章标签 python文本编码转换 ico 打开文件默认编码 文章分类 Python 后端开发

文件操作

文件操作大概分三步：

把文件打开。

操作文件。

把文件关上。

打开文件

打开文件用open()函数，打开成功后返回一个资源，具体语法如下。

open(要打开的文件,打开方式,打开文件的格式，默认为utf-8)

#例如

f = open('passengers.txt','r',encoding='utf-8')

上例用open以只读的模式打开文件，因为该文本是utf-8编码的，所以第三个参数是utf-8

w 模式是写入，是创建一个新文件的写，所以如果已经有了该文件就会被覆盖掉，注意安全!

a 模式是追加模式，可读；不存在则创建；存在则只追加内容；

"+" 表示可以同时读写某个文件

r+，可读写文件。【可读；可写；可追加】

w+，写读

a+，可读，可追加

"U"表示在读取时，可以将 \r \n \r\n自动转换成 \n （与 r 或 r+ 模式同使用）

r+U

"b"表示处理二进制文件（如：FTP发送上传ISO镜像文件，linux可忽略，windows处理二进制文件时需标注）

rb #当加b时，就不用写encoding参数了

wb #用二进制打印出来的结果会包裹在 b' 和 ' 中

读取文件

data = f.read() #然后用read读取文件，里面可以传参输入5就是读5个字符，不输入就是读所有字符

#读取所有内容，文件指针就移动到了文件末尾

data = f.readline() #读取一行内容

data = f.readlines() #将每一行变成一个元素，组成一个列表

#注意，readlines是将文件内容读取后放到内存里，所以它只能读小文件,不能读大文件

下面是读取大文件最好的方式

for line in f:

print(line)

#这是读取大文件最好的方式，每次只读一行到内存当中，读下一行的时候就会覆盖当前内存当中的数据

写入文件

f.write('这里是写入的内容') #用write来写入内容

print(f.tell()) #返回指针的位置

f.seek(0) #移动指针的位置，0代表移动到第0个的位置上

print(f.encoding) #打印文件的编码

print(f.fileno()) #打印文件的编号

print(f.name) #打印打开的文件名字

print(f.seekable()) #判断文件是否可读

print(f.writable()) #判断文件是否可写

print(f.flush()) #强制刷新缓存

print(f.closed) #判断文件是否关闭

f.truncate(10) #从头开始截取10个字符

关闭文件

手动关闭文件用close()函数。

f.close() #关闭文件

自动关闭文件。

with open() as f1:

pass

# 资源只会在with里面打开，如果执行完毕则会自动关闭资源

#并且可以用下面这种方式同时打开多个资源

with open() as f1，open() as f2 ,\

open() as f3，open() as f4:

pass

##############下面是一个修改文件的案例##############

f = open('passengers','r',encoding='utf-8')

f_new = open('new','w',encoding='utf-8')

for line in f:

if "漂浮在一片无奈" in line:

line = line.replace('漂浮在一片无奈','人类的渺小') # replace函数在字符串操作文章中可见

f_new.write(line)

f.close()

其实就是将一个文件的内容在内存中修改完后写入到另一个文件中

因为Python中没有直接修改文件内容的方法。

#############修改文件的另一种方法##################

file_data = ""

with open(file，"r"，encoding="utf-8") as f:

for line in f:

if old_str in line:

line = line.replace(old_str,new_str)

file_data += line

with open(file,"w",encoding="utf-8") as f:

f.write(file_data)

这种方法是先将所以的内容都读出来，并且再写到同一个文件中。

编码之间的转换

需知：

1.在python2默认编码是ASCII，python3里默认是unicode。

2.unicode 分为 utf-32(占4个字节),utf-16(占两个字节)，utf-8(占1-4个字节)，so utf-16就是现在最常用的unicode版本，不过在文件里存的还是utf-8，因为utf8省空间。

3.在py3中encode,在转码的同时还会把string 变成bytes类型，decode在解码的同时还会把bytes变回string。

原理图：

utf8 without bom python查看 python open utf8_python文本编码转换

utf-8转gbk：

我需要先用decode()解码成为Unicode，然后再用encode()转换成gbk

decode()函数传入一个参数，参数为我当前的编码是什么，或者说我要将什么编码转换成Unicode;

encode()函数传入一个参数，参数为我要转换成什么编码

如果不传参则默认是utf-8

gbk转utf-8也是同理

也就是说Unicode作为中间编码，用来完成utf-8和gbk之间的转换。

str = '你好' #假设当前为utf-8 注意:Python3里面的默认编码为Unicode

str = str.decode('utf-8') #将utf-8转换为Unicode

str = str.encode('gbk') #将Unicode转换为gbk

print(str)

如果该文件为gbk，同时Python3的默认编码又是Unicode，则需要告诉程序不要按照默认的编码去执行，要按照gbk的编码去执行，这时就要在文件最顶端声明文件编码格式如下：

-- coding:gbk --

Python3默认是Unicode,而文件又是utf-8类型,两个编码不统一输入中文还不会乱码是因为utf-8是Unicode的一个扩展集,所以Python3默认支持中文不乱码。

在Python3中执行了encode()后，除了将编码改变了之外，还将它变为byte类型。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：spark maven 搭建 spark 项目

下一篇：python海龟交易策略海龟交易法则深度解析9

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

utf8 without bom python查看 python open utf8

utf8 without bom python查看 python open utf8

51CTO博客