前言

对于互联网的开发人员来说,读取写入文件几乎是代码中常见的一种操作。但是经常性的打开关闭文件,浪费资源不说,当文件大的时候读取的效率也不高。所以今天我们一起看一个便捷的模块linecache。linecache顾名思义,就是从内存中读取指定文件的第几行。本文接下来会从三个方面来介绍这个模块,相信大家读了之后会有一定的知识收获

  • linecache如何使用
  • linecache的源码分析
  • 对于这个模块的一些思考和总结

注:本文所说的linecache是针对于python这门语言中自带的一个模块

linecache如何使用

了解python语法的读者应该知道,我们在使用一个模块的时候,首先需要把它导入程序中。

1.import linecache

2.from linecache import *

第一种和第二种导入模块的方法效果是一样的,具体我们来看看,linecache模块一共有三个功能函数getline(读取文件的某一行),clearcache(清空已经读到内存的文件cache),checkcache(检查丢掉其中过期的一些cache)。我们重点来看下getline这个函数。举个例子,假如我们有一个bytedance.txt文件,文件内容如下:

1.welcome to bytedance

2.*********************

3.welcome to toutiao

我们想要获取第三行的内容,如果程序中使用的是第一种模块导入的方式,那么可以通过linecache.getline("bytedance.txt",3)来直接获取文件第三行的内容。如果使用了第二种模块导入的方式,那么就是getline("bytedance.txt",3)




python 读取 yml文件 python如何读取py文件_文件名


python 读取 yml文件 python如何读取py文件_python 读取 yml文件_02


linecache的源码分析

这一块让我们具体来看下源码的内容,源码是怎样实现这些功能的函数呢?


python 读取 yml文件 python如何读取py文件_文件读取_03


__all__ = ["getline", "clearcache", "checkcache"]

首先源码中写明了这个模块可以导入的功能函数有三个,对于__all__这个属性,用来表明这个模块中的哪些函数可以被外部程序导入。

def getline(filename, lineno, module_globals=None):
lines = getlines(filename, module_globals)
if 1 <= lineno <= len(lines):
return lines[lineno-1]
else:
return ''

我们先来看下getline这个函数,这个函数就是传入文件名称,第几行这两个参数。然后根据lineno获取lines的第(lineno-1)个元素,也就是我们想要读取的目标行。

注:程序中默认从0开始计数,所以读取lineno行,其实就是获取lines[lineno-1]


python 读取 yml文件 python如何读取py文件_python读取文件_04


python 读取 yml文件 python如何读取py文件_python 读取 yml文件_05


def getlines(filename, module_globals=None):
"""Get the lines for a file from the cache.
Update the cache if it doesn't contain an entry for this file already."""
if filename in cache:
return cache[filename][2]
try:
return updatecache(filename, module_globals)
except MemoryError:
clearcache()
return []

getline先是调用getlines这个函数获取文件的所有内容。那么getlines这个函数又做了哪些逻辑处理呢?两个方面,假如读取的这个文件已经存在cache内存中,那么就返回内存中的文件内容。如果cache中之前没有读取这个文件,那么就需要调用updatecache这个函数重新读取这个文件。也就是以下这部分代码

try:
with open(fullname, 'rU') as fp:
lines = fp.readlines()
except IOError:
return []


python 读取 yml文件 python如何读取py文件_文件读取_06


对于这个模块的一些思考和总结

linecache本质上就是预读,读取一次文件,然后将读取到的内容和文件名称作为键值对写入字典中,之后程序在需要读取文件内容的时候,就不用重新打开文件读取内容了,可以直接从存储在内存的字典中获取想要的文件内容,非常的方便。那么当文件很大,达到几百MB或者达到G级别的时候,将整个文件读取到内存中是否合适,这个时候开销会怎样呢。毫无疑问,文件特别大的时候,一次性读入内存的开销是很大的,如果不需要频繁的读取文件,那么不建议将大文件直接一次性的读取到内存中。具体需要怎样去使用,还是需要贴合我们业务场景来决定。