在采集数据时碰到反爬虫程序应该这样做！

精选原创

流浪的大萝卜 2024-08-16 14:27:03 博主文章分类：数据人生 ©著作权

©著作权归作者所有：来自51CTO博客作者流浪的大萝卜的原创作品，请联系作者获取转载授权，否则将追究法律责任

当遇到反爬虫程序时，以下是一些常见的应对策略及代码示例相关的要点：

一、设置合理的请求头

模拟真实浏览器的请求头信息，包括 User-Agent、Referer 等。例如使用 Python 的 requests 库设置请求头：

python

import requests

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36",
    "Referer": "https://www.targetwebsite.com/"  # 根据实际目标网站填写 Referer
}

response = requests.get("目标网站的 URL", headers=headers)

二、添加随机等待时间

避免过于频繁地发送请求，模拟人类的浏览行为。可以使用 Python 的 time 模块实现随机等待：

python

import time
import random

# 在发送请求前随机等待一段时间
time.sleep(random.uniform(1, 5))  # 随机等待 1 到 5 秒之间的时间

三、使用代理 IP

通过使用代理 IP 来隐藏真实的 IP 地址，防止被目标网站封禁。以下是一个简单的示例（使用 requests 库结合代理）：

python

proxies = {
    "http": "http://代理 IP 地址:端口号",
    "https": "http://代理 IP 地址:端口号"
}

response = requests.get("目标网站的 URL", proxies=proxies)

需要注意的是，要合法使用代理 IP，并确保代理的稳定性和可靠性。

四、解析动态页面

对于使用 JavaScript 动态加载数据的网站，可以使用工具如 Selenium 结合浏览器驱动来模拟浏览器操作并获取数据：

python

from selenium import webdriver

# 创建浏览器驱动对象
driver = webdriver.Chrome()  # 这里假设使用 Chrome 浏览器驱动，需根据实际安装的浏览器和驱动进行调整

# 访问目标网站
driver.get("目标网站的 URL")

# 等待页面加载完成（根据实际情况调整等待时间）
time.sleep(5)

# 获取页面数据
page_source = driver.page_source

# 关闭浏览器驱动
driver.quit()

五、验证码处理

如果遇到验证码，可以考虑以下方法：

手动输入验证码：在开发测试阶段，当出现验证码时，手动输入解决，以便继续进行数据采集。
使用验证码识别服务（需谨慎使用并确保合法合规）：有一些第三方验证码识别服务，例如通过调用相关 API 来尝试自动识别验证码。但这可能涉及到一定的费用和法律风险。

python

# 假设使用一个名为 captcha_solver 的第三方验证码识别库
from captcha_solver import solve_captcha

# 获取验证码图片元素（根据实际页面结构定位）
captcha_element = driver.find_element_by_xpath("//img[@id='captcha_img']")

# 获取验证码图片的 URL
captcha_url = captcha_element.get_attribute("src")

# 下载验证码图片
response = requests.get(captcha_url)
with open("captcha.jpg", "wb") as f:
    f.write(response.content)

# 使用验证码识别服务识别验证码
captcha_text = solve_captcha("captcha.jpg")

# 填写验证码到输入框（根据实际页面结构定位输入框）
captcha_input = driver.find_element_by_xpath("//input[@id='captcha_input']")
captcha_input.send_keys(captcha_text)

需要强调的是，在进行数据采集时，一定要遵守法律法规和目标网站的使用条款，确保数据采集的合法性和正当性。