python open函数文本操作详解

原创

ghostwritten 2022-05-31 00:55:48 博主文章分类：python ©著作权

文章标签 python 数据打开文件文本文件 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者ghostwritten的原创作品，请联系作者获取转载授权，否则将追究法律责任

文章目录

1. 背景
2. 文件读写

2.1 打开文件
2.2 文件模式
2.3 文件缓冲区
2.4 文件读取
2.5 文件写入

1. 背景

IO在计算机中指的是Input/Output，也就是输入输出。凡是用到数据交换的地方，都会涉及IO编程，例如磁盘、网络的数据传输。在IO编程中，Stream（流）是一种重要的概念，分为输入流（Input Stream）和输出流（Output Stream）。我们可以把流理解为一个水管，数据相当于水管中的水，但是只能单向流动，所以数据传输过程中需要架设两个水管，一个负责输入，一个负责输出，这样读写就可以实现同步。

2. 文件读写

2.1 打开文件

文件读写之前需要打开文件，确定文件的读写模式。open函数用来打开文件，语法如下：

open(name[.mode[.buffering]])

open函数使用一个文件名作为唯一的强制参数，然后返回一个文件对象。模式（mode）和缓冲区（buffering）参数都是可选的，默认模式是读模式，默认缓冲区是无。
假设有个名为qiye.txt的文本文件，其存储路径是c：\text（或者是在Linux 下的~/text），那么可以像下面这样打开文件。在交互式环境的提示符“>>>”下，输入如下内容：

>>> f = open(r'c:\text\qiye.txt')

如果文件不存在，将会看到一个类似下面的异常回溯：

Traceback (most recent call last):        File "", line 1, in      IOError: [Errno 2] No such file or directory: 'C:\\qiye.txt'

2.2 文件模式

下面主要说一下open函数中的mode参数（如表1-1所示），通过改变mode参数可以实现对文件的不同操作。
python open函数文本操作详解_文本文件
这里主要是提醒一下‘b’参数的使用，一般处理文本文件时，是用不到‘b’参数的，但处理一些其他类型的文件（二进制文件），比如mp3音乐或者图像，那么应该在模式参数中增加‘b’，这在爬虫中处理媒体文件很常用。参数‘rb’可以用来读取一个二进制文件。
示例：
encoding='utf-8'支持中文读写格式

f = open('test1.txt','wt',encoding='utf-8')
f.write('hello world, 周董')
f.close()
f = open('test1.txt','rt',encoding='utf-8')
s = f.read()
print(s)

2.3 文件缓冲区

open函数中第三个可选参数buffering控制着文件的缓冲。如果参数是0，I/O 操作就是无缓冲的，直接将数据写到硬盘上；如果参数是1，I/O操作就是有缓冲的，数据先写到内存里，只有使用flush函数或者close函数才会将数据更新到硬盘；如果参数为大于1的数字则代表缓冲区的大小（单位是字节），-1（或者是任何负数）代表使用默认缓冲区的大小。

f=open(“demo.txt”,’w’,buffering=1) #先缓存至内存
f=open(“demo.txt”,’w,’,buffering=0) #直接写入磁盘

2.4 文件读取

文件读取主要是分为按字节读取和按行进行读取，经常用到的方法有 read（）、readlines（）、close（）。

优雅1

try:       
     f = open(r'c:\text\qiye.txt','r')        
     print f.read()     
 finally:        
     if f:                
        f.close()

优雅2

with open(r'c:\text\qiye.txt','r') as fileReader:        
        print fileReader.read()

调用read（）一次将文件内容读到内存，但是如果文件过大，将会出现内存不足的问题。一般对于大文件，可以反复调用read（size）方法，一次最多读取size 个字节。如果文件是文本文件，Python提供了更加合理的做法，调用readline（）可以每次读取一行内容，调用readlines（）一次读取所有内容并按行返回列表。大家可以根据自己的具体需求采取不同的读取方式.总之：

小文件可以直接采取 read（）方法读到内存，
大文件更加安全的方式是连续调用read（size），
而对于配置文件等文本文件，使用readline（）方法更加合理。

with open(r'c:\text\qiye.txt','r') as fileReader:        
       for line in fileReader.readlines():                
             print line.strip()

2.5 文件写入

写文件和读文件是一样的，唯一的区别是在调用open方法时，传入标识
符‘w’或者‘wb’表示写入文本文件或者写入二进制文件，示例如下：

f = open(r'c:\text\qiye.txt','w')     
  f.write('qiye')     
  f.close()

我们可以反复调用write（）方法写入文件，最后必须使用close（）方法来关闭文件。使用write（）方法的时候，操作系统不是立即将数据写入文件中的，而是先写入内存中缓存起来，等到空闲时候再写入文件中，最后使用close（）方法就将数据完整地写入文件中了。当然也可以使用f.flush（）方法，不断将数据立即写入文件中，最后使用close（）方法来关闭文件。和读文件同样道理，文件操作中可能会出现IO异常，所以还是推荐使用with语句：

with open(r'c:\text\qiye.txt','w') as fileWriter:        
       fileWriter.write('qiye')

参考资料：
《Python爬虫开发与项目实战》

上一篇：python gevent协程模块详解

下一篇：prometheus 容器安装部署

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯