前言
对于互联网的开发人员来说,读取写入文件几乎是代码中常见的一种操作。但是经常性的打开关闭文件,浪费资源不说,当文件大的时候读取的效率也不高。所以今天我们一起看一个便捷的模块linecache。linecache顾名思义,就是从内存中读取指定文件的第几行。本文接下来会从三个方面来介绍这个模块,相信大家读了之后会有一定的知识收获
- linecache如何使用
- linecache的源码分析
- 对于这个模块的一些思考和总结
注:本文所说的linecache是针对于python这门语言中自带的一个模块
linecache如何使用
了解python语法的读者应该知道,我们在使用一个模块的时候,首先需要把它导入程序中。
1.import linecache
2.from linecache import *
第一种和第二种导入模块的方法效果是一样的,具体我们来看看,linecache模块一共有三个功能函数getline(读取文件的某一行),clearcache(清空已经读到内存的文件cache),checkcache(检查丢掉其中过期的一些cache)。我们重点来看下getline这个函数。举个例子,假如我们有一个bytedance.txt文件,文件内容如下:
1.welcome to bytedance
2.*********************
3.welcome to toutiao
我们想要获取第三行的内容,如果程序中使用的是第一种模块导入的方式,那么可以通过linecache.getline("bytedance.txt",3)来直接获取文件第三行的内容。如果使用了第二种模块导入的方式,那么就是getline("bytedance.txt",3)
linecache的源码分析
这一块让我们具体来看下源码的内容,源码是怎样实现这些功能的函数呢?
__all__ = ["getline", "clearcache", "checkcache"]
首先源码中写明了这个模块可以导入的功能函数有三个,对于__all__这个属性,用来表明这个模块中的哪些函数可以被外部程序导入。
def getline(filename, lineno, module_globals=None):
lines = getlines(filename, module_globals)
if 1 <= lineno <= len(lines):
return lines[lineno-1]
else:
return ''
我们先来看下getline这个函数,这个函数就是传入文件名称,第几行这两个参数。然后根据lineno获取lines的第(lineno-1)个元素,也就是我们想要读取的目标行。
注:程序中默认从0开始计数,所以读取lineno行,其实就是获取lines[lineno-1]
def getlines(filename, module_globals=None):
"""Get the lines for a file from the cache.
Update the cache if it doesn't contain an entry for this file already."""
if filename in cache:
return cache[filename][2]
try:
return updatecache(filename, module_globals)
except MemoryError:
clearcache()
return []
getline先是调用getlines这个函数获取文件的所有内容。那么getlines这个函数又做了哪些逻辑处理呢?两个方面,假如读取的这个文件已经存在cache内存中,那么就返回内存中的文件内容。如果cache中之前没有读取这个文件,那么就需要调用updatecache这个函数重新读取这个文件。也就是以下这部分代码
try:
with open(fullname, 'rU') as fp:
lines = fp.readlines()
except IOError:
return []
对于这个模块的一些思考和总结
linecache本质上就是预读,读取一次文件,然后将读取到的内容和文件名称作为键值对写入字典中,之后程序在需要读取文件内容的时候,就不用重新打开文件读取内容了,可以直接从存储在内存的字典中获取想要的文件内容,非常的方便。那么当文件很大,达到几百MB或者达到G级别的时候,将整个文件读取到内存中是否合适,这个时候开销会怎样呢。毫无疑问,文件特别大的时候,一次性读入内存的开销是很大的,如果不需要频繁的读取文件,那么不建议将大文件直接一次性的读取到内存中。具体需要怎样去使用,还是需要贴合我们业务场景来决定。