很多互联网公司为了能够高效获取行业有价值的公开信息,往往会利用爬虫技术来实现,但是大批量的爬取数据肯定是需要爬虫IP支持的。那么,今天来总结下用户在使用爬虫ip过程中经常遇到的一些问题,以便于更好的使用爬虫ip,避免新用户朋友们再犯类似的错误,可有效的提高工作效率。

爬虫ip使用中会遇到那些问题?_多线程

一、授权问题

1、有少部分朋友在调用提取API时提示12007错误,这种错误是因为没有进行授权,直接调用API引起的。开通产品后,需要根据自身情况先绑定终端IP授权或者切换当前授权模式为“用户名+密码” 授权,然后生成API提取链接进行使用。

2、有少部分朋友采用终端IP授权模式,发现所有的爬虫ip都用不了,经过沟通了解,发现绑定的不是正在使用的终端的外网IP。切记:终端IP授权一定要绑定使用的终端IP,不能随便绑定一个IP。

3、有一些朋友采用终端IP授权模式,上午使用爬虫ip很正常,到下午突然发现爬虫ip全部失效了,经过排查问题,发现绑定的终端IP变了,需要在官网后台重新绑定,若终端IP变动比较频繁建议使用自动绑定终端IP接口。

4、有一些朋友在使用的过程中遇到407问题,这种是授权错误,终端IP授权的朋友检查下是否绑定的正确的IP,“用户名+密码”授权的朋友检查下用户名密码是否正确,不是网站登录的用户名和密码。

二、并发问题

1、访问不了API:正常访问API获取IP,一段时间后访问不了API,经了解,该用户猛烈的调用了API,被误判为攻击,被封了IP。建议严格遵守最短提取时间间隔的规则,可持续的调用API获取IP,若需要多线程调用API获取IP使用,可以建立本地IP池,思路可参考《如何实现多线程调用API获取IP》。

2、访问网站很慢:有用户使用一手私密爬虫ip反馈访问某网站很慢甚至超时,经过了解发现,该用户使用爬虫ip发送请求的并发过大,最大总并发超过了4800,建议控制并发,合理使用。

3、爬虫ip很快失效:有用户使用短效优质爬虫ip访问网站,发现十几秒或几十秒后,爬虫ip就访问不了网站了,通过浏览器设置IP测试则不会很快失效。这种情况,可能是短时间内并发过大,访问频率过高,有可能是触发了目标网站的反爬策略。

三、API提取问题

1、返回格式不全:很多朋友查看API发现返回格式很详细,有上线时间,有预计剩余存活时间,有IP地理位置,当在后台生成提取链接后发现只返回了IP和端口,以为哪里出了问题。这种问题很好解决,可以在后台的产品管理那里设置提取格式,自定义或勾选自己想要的参数。

2、当前筛选条件下无IP:很多朋友经常会遇到这个问题,有的朋友是一手私密爬虫ip过滤重复提取,短时间过滤多次,更新速度跟不上,所以会有这种提示;有的朋友是短效优质爬虫ip里生成提取链接那里指定了IP的地理位置,有一些比较偏的地区没有IP,也会返回这种提示。建议一手私密爬虫IP短时间内不要过快的过滤提取,或者清空当天过滤库再提取IP;短效优质爬虫ip可以筛选IP比较多的地区,可以参考节点分布图(可翻页哦)。

3、akey错误:有些朋友经常会遇到akey错误,他们看了API文档,拿着密码去加密,经常获得了错误的akey。akey是由产品密码通过16位MD5加密得出,有的朋友是拿着网站登录密码去加密,有的朋友不是16位MD5加密。其实akey是可以通过生成提取链接那里直接获得的。

好了,以上就是本文关于爬虫IP中遇到的问题。希望对大家有帮助。