readlines切分KONGGE readlines切分换行符

转载

mob64ca140ee96c 2024-08-05 15:15:11

文章标签 readlines切分KONGGE python 数据换行符字符串 文章分类 架构后端开发

一、前言

今天在爬取一个网站的数据，为了避免对一些数据重复爬取，我便采用 txt 文档来进行保存爬取的记录，把数据的标题作为字段保存在文档中，为了方便后续浏览日志文件，我还“细心”地在标题的后面加上'\n\n'，这样每个标题就会间隔一行，方便浏览。

二、在代码中，我是如何避免爬取重复的数据呢？

先从 txt 文件读取日志，把所有标题读取到一个列表中

with open('logData.txt','r',encoding='utf-8')as fp:
     self.LOG = fp.readlines()

判断当前爬取的标题是否在列表中

if title in self.LOG:
    print('the file is exist',title)
    continue

三、意外总是在你不知意的时候到来

就这样代码跑了几个小时，程序并没有报错，我信以为真地以为爬取的都是即崭新又漂亮的数据。

当我在检查的爬取下来的数据的时候，直接给我当头一棒，迎头痛击。
发现大量的重复数据。

readlines切分KONGGE readlines切分换行符_换行符

四、问题所在

经过一番折腾，找到了问题所在。

原因是我加的'\n'导致。
加入'\n'无可厚非，但是readlines()是会把换行符也读取进去的，以至于我在判断的时候，永远缺少一个换行符而不相等。

正确的代码：

if title + '\n' in self.LOG:
    print('the file is exist',title)
    continue

五、总结

一个小小的换行符，一点粗心，就酿成了巨大的错误，虽然没有造成损失，只是辛苦这爬虫爬取了很多重复的数据。

readlines切分KONGGE readlines切分换行符_换行符_02

但是，如果不引起注意的话，将来再这样用，可能就会造成极大的损失。尤其是这种容易忽略掉的细节。

那么，就好好梳理一下readlines()的特性吧。

readlines() 方法用于读取所有行，并返回列表，并且末尾会包含一个换行符

可以对换行符进行预处理，去掉头尾的空白：

LOG = []
with open('FuJLiny.txt','r',encoding='utf-8')as fp:
    for line in fp.readlines():
        line = line.strip()  # 去掉每行头尾空白
        LOG.append(line)

顺便说说readline()的用法

readlines() 读取所有行，返回列表
readline() 读取一行，返回字符串

readlines(10) 读取至第10个字节的那一行，包括该行，返回列表
readline(10) 读取一行的前10个字节，如果该行长度小于10个字节，返回字符串

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：android String 模板语法 android string转float

下一篇：python 从一个文件夹导入py文件 python从指定文件夹导入模块

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯