python提取txt文件中的多行

原创

mob649e8166858d 2023-07-25 19:30:24 ©著作权

文章标签 正则表达式文本文件 Python 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者mob649e8166858d的原创作品，请联系作者获取转载授权，否则将追究法律责任

Python提取txt文件中的多行

在文本处理任务中，我们经常需要从一个文本文件中提取多行内容。Python提供了多种方法来实现这个目标。本文将介绍几种常用的方法，并提供相应的代码示例。

方法一：使用readlines()方法读取所有行

Python的文件对象提供了readlines()方法，它可以一次读取文件的所有行，并返回一个包含所有行的列表。我们可以通过遍历这个列表，提取我们需要的多行内容。

with open('example.txt', 'r') as file:
    lines = file.readlines()

# 提取第3行到第5行的内容
for line in lines[2:5]:
    print(line)

上述代码首先使用open()函数打开一个名为example.txt的文本文件，并指定读取模式（'r'）。然后，我们使用readlines()方法读取所有行，并将其保存在一个名为lines的列表中。接下来，我们可以通过指定切片的方式，提取列表中的多行内容。在上述示例中，我们提取了第3行到第5行的内容，并使用print()函数将其输出。

这种方法的优点是简单直接，适用于小型文本文件。但缺点是如果文件非常大，readlines()方法会将整个文件的内容加载到内存中，可能会导致内存溢出。因此，在处理大型文件时，我们应该考虑使用其他方法。

方法二：逐行读取并判断条件

如果我们只需要提取符合某个条件的行，可以逐行读取文件并进行判断。这种方法对于大型文件来说更加高效，因为它避免了将整个文件加载到内存中。

with open('example.txt', 'r') as file:
    for line in file:
        if 'keyword' in line:
            print(line)

上述代码使用for循环逐行读取文件。对于每一行，我们可以使用if语句进行条件判断。在上述示例中，我们判断是否包含关键字"keyword"，如果是，则将该行输出。

需要注意的是，这种方法只提取符合条件的行，而不是连续的多行。如果我们需要提取多行内容，可以使用一个计数器变量来记录行数，当计数器变量达到我们需要的行数时，开始提取内容。

方法三：使用正则表达式

如果我们需要按照一定的模式提取多行内容，可以使用正则表达式。Python提供了re模块，它包含了用于处理正则表达式的工具。

import re

with open('example.txt', 'r') as file:
    content = file.read()

# 提取以数字开头的多行内容
pattern = r'^\d.*?$'
matches = re.findall(pattern, content, flags=re.MULTILINE)
for match in matches:
    print(match)

上述代码首先使用open()函数打开一个名为example.txt的文本文件，并指定读取模式（'r'）。然后，我们使用read()方法将文件的内容读取到一个名为content的字符串中。接下来，我们使用re模块的findall()函数，传入一个正则表达式模式、要匹配的字符串和一些标志。在上述示例中，我们的正则表达式模式为'^\d.*?$'，表示以数字开头的行。标志re.MULTILINE表示多行模式，使得^和$可以匹配每一行的开头和结尾。findall()函数将返回一个包含所有匹配的列表，我们可以遍历这个列表，并输出每个匹配的内容。

这种方法非常灵活，可以根据需要编写各种复杂的正则表达式来提取多行内容。