免费好用的代理分享：爬虫实战教程！

原创

qq65e91d0b4351e 2025-10-24 15:02:22 ©著作权

©著作权归作者所有：来自51CTO博客作者qq65e91d0b4351e的原创作品，请联系作者获取转载授权，否则将追究法律责任

作为一名常年和Python打交道的博主，爬虫对我来说早就不是单纯的“技术工具”——更像是一把精准的“信息手术刀”，能帮我从互联网的海量数据里，切出那些对数据分析、模型训练有用的“干货”。比如之前做用户情感分析模型时，我爬过电商平台的十万条商品评论；研究行业趋势时，我扒过近三年的行业报告数据。可就在上周，这把“手术刀”突然卡壳了，还让我扎扎实实体验了一把网站反爬机制的“威力”。

一、爬虫半路“罢工”：当3万条数据的采集突然停摆

那天我在爬某平台的产品数据，目标是获取5万条SKU信息用来训练商品分类模型。代码早上9点启动，到中午11点已经顺利爬了32000多条，我还一边喝咖啡一边盘算着下午就能出初步分析结果。可没等我喝完半杯，终端突然跳出一串红色报错——Failed to load resource: the server responded with a status of 400，紧接着爬虫就像断了电的机器人，彻底不动了。

我第一反应是“代码出bug了”，赶紧从头查起：

检查请求头：User-Agent、Referer、Cookie都是最新的，没过期也没遗漏；
核对URL参数：分页逻辑、接口地址都和浏览器里抓包的一致，没写错；
测试接口连通性：用Postman直接发请求，居然也返回400错误；
最后想到了反爬检测——打开浏览器F12控制台，输入window.navigator.webdriver，本应该显示false的结果，却刺眼地跳成了true，还跟着一行“未定义”的报错。

免费好用的代理分享：爬虫实战教程！_chrome

这时候我才恍然大悟：不是代码错了，是我的爬虫被网站认出来了！赶紧找做数据分析的老前辈请教，他一看报错就笑了：“这是典型的selenium特征被检测到了，网站的反爬系统把你当成‘恶意爬虫’，直接给你返回400请求无效——简单说，就是把你‘拉黑’了。”

反爬出现的原因

触发反爬机制的常见原因之一是单一IP地址在短时间内发出了大量请求。很多网站都有这种限制，一旦某个IP地址的访问频率过高，网站就会将其识别为异常行为并采取防御措施。此外，网站还可能通过检测用户代理（User-Agent）字符串来识别请求来源，甚至通过分析访问模式来判断是否为自动化行为，这些都是常见的反爬策略。

我们此次的触发反爬的原因便是，待爬取的网站运行自己的 JavaScript 代码，对爬虫发送过去的请求信息进行检测，然后发现我们是selenium后，触发了“防盗系统”，就把我们爬虫的请求禁掉了。就像上图所示，表现为返回400错误码，意味着请求无法被服务器理解或接受。

面对这些反爬机制，大家在实际操作中可以采取一些应对措施。比如，通过修改请求头信息来模仿正常用户的浏览行为、使用代理IP池来分散请求压力、增加访问间隔时间以避免触发频率限制等。、

二、扒一扒网站的“反爬防线”：为什么你的爬虫会被“拒之门外”

老前辈跟我科普，现在的网站反爬早就不是“单一拦截”，而是一套层层递进的“防护网”。我们这次撞上的，只是其中最常见的几重：

1. 第一层防线：IP访问频率管控——最基础也最致命

网站会给每个访问的IP设定“流量上限”：比如1分钟内最多发20次请求，1小时内不超过500次。如果你的爬虫用同一个IP疯狂爬数据，超过这个上限，网站就会直接“冻结”你的IP——要么返回403（禁止访问），要么像我这次一样返回400（请求无效），严重的甚至会封IP几天。

2. 第二层防线：浏览器指纹检测——selenium的“软肋”

这是我这次栽跟头的核心原因。正常浏览器的window.navigator.webdriver属性是false，但selenium启动的浏览器，默认会把这个值设为true——相当于给网站递了一张“我是爬虫”的名片。

浏览器插件列表：爬虫浏览器通常没装常用插件，特征太明显；
渲染引擎信息：selenium的渲染方式和真实浏览器有细微差异；
User-Agent格式：如果用默认的“Chrome/xx.0.xxxx.xx Safari/xxxx”，很容易被识别。

3. 第三层防线：行为模式分析——模拟人类才是关键

现在的反爬系统越来越“智能”，会分析你的访问行为是否像“真人”：

点击间隔：真人点击按钮会有0.5-2秒的间隔，爬虫如果毫秒级连续点击，直接触发警报；
滑动轨迹：遇到滑块验证时，爬虫的“直线滑动”和真人的“不规则滑动”差异很大；
页面停留时间：真人会看几秒内容再翻页，爬虫如果秒翻页，很容易被标记。

而400错误的本质，就是网站检测到“IP频率异常+selenium特征”双重风险后，直接拒绝处理我的请求——相当于把我的请求“打回原籍”，根本不往服务器里传。

三、破局关键：代理IP如何成为爬虫的“隐形护盾”

既然问题出在“IP被识别+身份暴露”，那解决思路就很明确：找一个“中间人”帮我隐藏真实IP，同时伪装成“正常用户”访问——这就是代理IP的核心作用。

代理IP的“工作逻辑”：帮你“换个身份”访问

简单说，代理IP就是你和目标网站之间的“中转站”，工作流程像这样： 你（爬虫）→ 代理服务器 → 目标网站 → 代理服务器 → 你（爬虫） 原本网站能直接看到你的真实IP，现在只能看到代理服务器的IP；而且代理服务器会帮你转发请求、接收响应，相当于给你的爬虫“套了一层保护壳”。

代理IP的核心价值：不止于“匿名”

除了隐藏IP，代理IP还有两个对爬虫至关重要的作用：

突破地域限制：比如爬EBay美国站，用美国的代理IP才能获取当地定价；爬日本亚马逊，就得切换日本的IP；
分散访问压力：如果用多个代理IP轮换访问，每个IP的请求频率都在网站的“安全线”内，就不会被判定为“恶意爬虫”。

免费好用的代理分享：爬虫实战教程！_IP_02

四、实战教程：从浏览器到代码，代理IP这样用

掌握了理论，接下来就是实操。我分享两种最常用的配置方法——浏览器手动配置（适合测试）和Python代码配置（适合爬虫）。

免费好用的代理分享：爬虫实战教程！_IP_03

1. 第一步：Chrome浏览器手动配置（测试代理是否生效）

如果想先测试代理能不能用，或者手动访问目标网站看数据，可以用这种方法：

打开Chrome，点击右上角“三个点”→ 选择“设置”→ 拉到最下面点击“系统”→ 选择“打开您计算机的代理设置”；

免费好用的代理分享：爬虫实战教程！_IP_04

在“手动设置代理”里，打开“使用代理服务器”，填写代理信息：

“地址”填代理IP（比如109.74.194.146）；
“端口”填代理的端口号（比如10303）；
注意：代理地址的格式是“IP:端口”，别把端口号和IP写在一起；

配置完成后，打开百度搜索“我的IP”，如果显示的是代理IP的地址（比如英国伦敦），说明配置成功。

2. 第二步：Python代码配置代理（爬虫实战）

因此我们使用Python的requests模块来请求，并做一些爬虫相关的应用。

这是我们最常用的场景，分“requests库”和“selenium”两种情况，直接上代码：

（1）requests库配置代理

适合爬取静态页面或API接口：

import requests

# 1. 配置代理（高匿名代理，http和https要分开写）
proxies = {
    'http': 'http://109.74.194.146:10303',
    'https': 'https://109.74.194.146:10303'
}

# 2. 完善请求头，模拟真人访问（避免UA被检测）
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36',
    'Referer': 'https://www.target.com/'  # 目标网站的Referer，别乱写
}

try:
    # 3. 发送请求，带上代理和请求头
    response = requests.get(
        url='https://www.target.com/api/data',  # 目标接口
        proxies=proxies,
        headers=headers,
        timeout=5  # 超时时间设为5秒，避免卡太久
    )
    # 4. 验证结果
    if response.status_code == 200:
        print("代理生效！爬取到的数据：", response.json()[:10])  # 打印前10条数据
    else:
        print(f"访问失败，状态码：{response.status_code}（可能是代理被封，换个IP试试）")
except Exception as e:
    print(f"请求出错：{e}（大概率是代理不稳定或超时）")

（2）selenium配置代理（适合爬取动态页面）

selenium容易被检测，所以配置代理时，还要加“隐藏selenium特征”的代码：

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By

# 1. 配置Chrome选项
chrome_options = Options()
# （1）配置代理
chrome_options.add_argument('--proxy-server=http://109.74.194.146:10303')
# （2）隐藏selenium特征（关键！避免被webdriver检测）
chrome_options.add_experimental_option('excludeSwitches', ['enable-automation'])
chrome_options.add_experimental_option('useAutomationExtension', False)
# （3）设置UA，模拟真人浏览器
chrome_options.add_argument('user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36')

# 2. 启动浏览器，加载配置
driver = webdriver.Chrome(options=chrome_options)
# （补充）进一步隐藏webdriver（需要配合chromedriver版本）
driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
    "source": """
        Object.defineProperty(navigator, 'webdriver', {
            get: () => false
        })
    """
})

try:
    # 3. 访问目标网站
    driver.get('https://www.target.com/')
    # 4. 验证代理是否生效（查看当前IP）
    driver.get('https://www.baidu.com/s?wd=我的IP')
    ip_element = driver.find_element(By.XPATH, '//div[@class="op_ip_addr"]')
    print("当前代理IP：", ip_element.text)
    # 5. 爬取数据（比如点击按钮、获取文本）
    data_element = driver.find_element(By.XPATH, '//div[@class="product-data"]')
    print("爬取到的商品数据：", data_element.text)
except Exception as e:
    print(f"爬取出错：{e}")
finally:
    driver.quit()  # 关闭浏览器