爬虫中代理ip 的选择和使用实战

原创

是Dream呀 2024-10-31 22:33:04 ©著作权

文章标签 1024程序员节 IP 服务器代理服务器 文章分类 HarmonyOS 后端开发

©著作权归作者所有：来自51CTO博客作者是Dream呀的原创作品，请联系作者获取转载授权，否则将追究法律责任

一、爬虫中的反爬问题

爬虫技术不仅是一种工具，更像是一门捕捉信息的艺术。通过它，我们能够从浩瀚的互联网中，精确获取到所需的有价值数据。对于那些需要进行数据分析或模型训练的人来说，爬虫技术几乎是必备的技能。虽然网上公开的数据很多，但由于数据的时效性和准确性问题，很多情况下直接使用这些数据并不理想，因此许多人选择亲自使用爬虫来采集最新、最符合需求的数据。

然而，很多人在爬虫过程中都会遇到反爬机制的困扰。反爬机制是网站为了防止自动化数据抓取而设立的一种防护措施，就像是网站的“防盗系统”，它会通过多种手段识别并阻止自动化工具的访问。比如，网站可能会通过检测单个IP地址的访问频率、分析用户的访问行为、识别使用的工具或用户代理等方法来发现异常。当网站检测到这些异常行为后，通常会采取一些防御措施，比如限制访问频率、直接返回错误信息，甚至完全禁止访问。

按照检查方法，当处于非爬虫操作时，我们在F12控制台输入window.navigator.webdriver时，显示的是false，输入进去出现了刺眼的红色报错，而且显示也出现了True， “Failed to load resource: the server responded with a status of 400”，对这个报错就是非常典型的爬虫被反爬，检测出是selenium，报400，无法进入网站。

爬虫中代理ip 的选择和使用实战_代理服务器

对于很多爬虫新手来说，当出现这样的情况时，常常会一头雾水，不知道是代码出错了还是服务器出了问题。实际上，这种情况多数是因为网站运行了自己的JavaScript检测代码，针对selenium等工具的特性进行了检查。一旦被识别为自动化请求，网站便会触发“防盗系统”，阻止访问请求，从而使爬虫停止工作。

二、反爬出现的原因

触发反爬机制的常见原因之一是单一IP地址在短时间内发出了大量请求。很多网站都有这种限制，一旦某个IP地址的访问频率过高，网站就会将其识别为异常行为并采取防御措施。此外，网站还可能通过检测用户代理（User-Agent）字符串来识别请求来源，甚至通过分析访问模式来判断是否为自动化行为，这些都是常见的反爬策略。
我们此次的触发反爬的原因便是，待爬取的网站运行自己的 JavaScript 代码，对爬虫发送过去的请求信息进行检测，然后发现我们是selenium后，触发了“防盗系统”，就把我们爬虫的请求禁掉了。就像上图所示，表现为返回400错误码，意味着请求无法被服务器理解或接受。
面对这些反爬机制，大家在实际操作中可以采取一些应对措施。比如，通过修改请求头信息来模仿正常用户的浏览行为、使用代理IP池来分散请求压力、增加访问间隔时间以避免触发频率限制等。

三、代理IP解决方案

这时，代理IP显得尤为重要，它能帮助绕过这些限制。代理IP本质上是一个位于用户和目标服务器之间的中介服务器。当用户通过代理IP发送请求时，请求首先到达代理服务器，然后由代理服务器转发到目标服务器。这样，使用代理服务器来代替用户的真实IP地址发送网络请求，从而隐藏用户的真实身份，减少被目标网站识别和封锁的风险。
代理IP的作用

匿名性：代理IP提供了一种匿名访问网络的方式，用户的真实IP地址被隐藏，从而保护用户的隐私。
规避IP封锁：当某个IP地址因为频繁访问而被网站封锁时，使用代理IP可以绕过这种限制。
地理位置多样性：代理IP通常具有不同的地理位置，可以帮助用户访问那些有地区限制的资源。

代理IP的类型

透明代理：代理服务器向目标服务器透露用户的真实IP地址，但隐藏了请求的来源。
普通匿名代理：代理服务器不向目标服务器透露用户的真实IP地址，但目标服务器知道请求是通过代理发出的。
高匿名代理：代理服务器不向目标服务器透露任何用户信息，目标服务器看到的只是代理服务器的IP地址。

四、代理服务的具体操作

代理IP在跨境电商的应用

海外代理IP在跨境电商和海外市场分析中发挥着重要作用。在当下主流的电商平台，如亚马逊和EBay，都对爬虫有着很强的防护机制，不稳定的IP地址就会很容易被平台识别。特别是像EBay这样的海外大平台，它们在全球多个国家和地区设有分支机构，这就需要使用不同地区的IP地址来分别管理。

一个不稳定或被频繁使用的代理IP不仅不可靠，而且速度会很慢，更有可能这个ip已经被注册使用过，如果再使用就会招致来很多不必要的麻烦。因此，无论对从事跨境电子商务的企业，还是做跨境电商数据的用户来说，拥有一个稳定可靠的代理IP是至关重要的；像市面上的代理IP服务多种多样，它们主要提供隐私保护、绕过地域限制、加密传输等功能。选择代理IP服务时，我们通常会考虑其稳定性、速度、安全性以及价格，在试用和对比了市面上的多种代理IP服务后，我个人觉得青果网络的代理IP在网络连通性和业务成功率方面表现突出，它家的稳定性和高可用率在使用过程中也没让人失望，对于需要频繁使用代理IP的用户来说，值得体验。

爬虫中代理ip 的选择和使用实战_服务器_02

现在他们家产品提供6小时的免费试用活动，感兴趣或有需求可先薅一波羊毛试试看。拿我最喜欢鞋子来举例子，通过使用海外代理ip依靠爬虫，我们就可以轻松获取EBay的海外平台价格。

爬虫中代理ip 的选择和使用实战_服务器_03

首先设置代理IP API URL，将我们生成的代理ip链接放入进去，然后构建代理字典：

proxy_api_url = '你的代理ipURL'
params = {
    'num': 100,
    'return_type': 'txt',
    'lb': 1,
    'sb': 0,
    'flow': 1,
    'regions': '',
    'protocol': 'http'
}

# 获取代理IP
response = requests.post(proxy_api_url, headers=headers, params=params, verify=True)
proxy_ip = response.text

# 构建代理字典
proxies = {
    'http': f'https://{proxy_ip}',
    'https': f'https://{proxy_ip}'
}

print(f"Using proxy: {proxy_ip}")

完成代理ip的部署之后，对商品页面进行抓取，找到我们需要的价格和元素，这里选择了商品价格、货币类型及运费三类信息：

爬虫中代理ip 的选择和使用实战_服务器_04

将这三类信息元素放入我们的爬虫之中，例如价格price_element = soup.select_one('.x-price-primary span[itemprop="price"]')，然后运行爬虫结果，会发现其输出了所有代理ip的信息以及我们所需要的商品的价格和运费信息：

爬虫中代理ip 的选择和使用实战_代理服务器_05

更进一步来说，通过这一个物品的信息我们就可以解析整个系列的物品信息，通过把所有的物品信息收集起来，就可以做进一步的价格监控、竞品分析、市场趋势等数据分析，具体完整的代码如下：

from fake_useragent import UserAgent
import requests
from bs4 import BeautifulSoup
import re

# 设置随机的请求头
headers = {'User-Agent': UserAgent().random}

# 代理IP API URL
proxy_api_url = '你的代理ipURL'
params = {
    'num': 100,
    'return_type': 'txt',
    'lb': 1,
    'sb': 0,
    'flow': 1,
    'regions': '',
    'protocol': 'http'
}

# 获取代理IP
response = requests.post(proxy_api_url, headers=headers, params=params, verify=True)
proxy_ip = response.text

# 构建代理字典
proxies = {
    'http': f'https://{proxy_ip}',
    'https': f'https://{proxy_ip}'
}

print(f"Using proxy: {proxy_ip}")

# 目标商品URL
item_url = 'https://www.ebay.com/itm/335217926054'

# 商品信息字典
item_info = {}

# 发送请求获取商品页面HTML
try:
    page_response = requests.get(item_url, proxies=proxies)
    page_response.raise_for_status()  # 检查请求是否成功
    soup = BeautifulSoup(page_response.text, 'html.parser')

    # 解析商品价格
    price_element = soup.select_one('.x-price-primary span[itemprop="price"]')
    item_info['price'] = price_element['content'] if price_element else 'Price not found'

    # 解析货币类型
    currency_element = soup.select_one('.x-price-primary span[itemprop="priceCurrency"]')
    item_info['currency'] = currency_element.text.strip() if currency_element else 'Currency not found'

    # 解析运费
    shipping_label = next((label for label in soup.select('.ux-labels-values__labels') if 'Shipping:' in label.text), None)
    if shipping_label:
        shipping_price_element = shipping_label.find_next_sibling('.ux-textspans--BOLD')
        item_info['shipping_price'] = re.search(r'\d+\.\d+', shipping_price_element.text).group(0) if shipping_price_element else 'Shipping price not found'
    else:
        item_info['shipping_price'] = 'Shipping price not found'

except requests.RequestException as e:
    print(f"An error occurred: {e}")

# 打印商品信息
print(item_info)

总结与展望

本文从爬虫技术的反爬问题入手，详细介绍了反爬机制的原理及其常见触发原因。针对反爬机制的应对措施，重点介绍了代理IP的重要性及其在匿名性、规避IP封锁、地理位置多样性等方面的作用。文章还推荐了一个优质的代理服务商——青果网络，并且结合具体实例详细说明了代理IP在浏览器上的设置方法和跨境电商数据抓取中的应用。最后，通过代码示例展示了如何利用代理IP抓取商品的价格、货币类型以及运费等信息，并进一步为电商数据分析提供参考。