python爬虫数据去重代码爬虫去重方案

转载

mob64ca1408d5ff 2024-01-02 14:52:59

爬虫去重策略

爬虫为何要进行去重：
如果不去重容易陷入爬取死循环
浪费资源、重复爬取效率低下

特点：应用简单、效率非常低下

使用方法：

效率：效率十分低下，并使用很少。不进行计算

特点：速度较快、内存占用会越来越大

效率：100000000×2byte×50个字符/1024/1024/1024 = 9G

特点：md5能将任意长度字符串压缩成固定长度md5字符串，并且不会重复。

效率：能够成倍的压缩字符串，大约只需要两三G的内存

特点：十分节省内存，容易出现映射冲突

使用方法：

一个Byte有八个位，将访问过的URL通过hash函数映射到某一位，但是容易将两个URL映射到同一个位上。

效率：对内存压缩十分显著，100000000/8/1024/1024/1024 = 11.920 大约十二M的内存占用。

特点：通过多个hash函数减少冲突可能性

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯