python爬虫遇到的问题 python爬虫效率太慢

转载

mob64ca1401464d 2023-09-11 19:06:41

文章标签 python爬虫遇到的问题爬虫解决方法验证码权重 文章分类 Python 后端开发

提高爬虫效率的方法
协程。采用协程，让多个爬虫一起工作，可以大幅度提高效率。
多进程。使用CPU的多个核，使用几个核就能提高几倍。
多线程。将任务分成多个，并发（交替）的执行。
分布式爬虫。让多个设备去跑同一个项目，效率也能大幅提升。
打包技术。可以将python文件打包成可执行的exe文件，让其在后台执行即可。
其他。比如，使用网速好的网络等等。
限制请求头，即request header。解决方法：我们可以填写user-agent声明自己的身份，有时还要去填写origin和referer声明请求的来源。
限制登录，即不登录就不能访问。解决方法：我们可以使用cookies和session的知识去模拟登录。

复杂的交互，比如设置“验证码”来阻拦登录。这就比较难做，解决方法1：我们用Selenium去手动输入验证码；方法2：我们用一些图像处理的库自动识别验证码（tesserocr/pytesserart/pillow）。
ip限制。如果这个IP地址，爬取网站频次太高，那么服务器就会暂时封掉来自这个IP地址的请求。解决方法：使用time.sleep()来对爬虫的速度进行限制

如何吸引爬虫的抓取四个方面：第一，页面的更新度，如果页面内容经常更新，爬虫就会更加频繁地访问你的页面，页面上出现的新链接，也自然会被蜘蛛更快地跟踪，抓取新页面。
第二，网站和页面权重，质量高、资格老的网站被认为权重比较高，这种网站上的页面被爬行的深度也会比较高，所以会有更多内页被收录。
第三，首页点击距离，一般来说网站上权重最高的是首页，大部分外部链接是指向首页的，蜘蛛访问最频繁的也是首页。
第四，导入链接，无论是外部链接还是同一个网站的内部链接，要被抓取，就必须有导入链接进入页面，否则根本没有机会知道页面的存在。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。