python爬虫防屏蔽阻止爬虫的策略有哪些

转载

AI智行者 2023-08-04 20:45:34

文章标签 python爬虫防屏蔽中间件 ide CLR 文章分类 Python 后端开发

1、通常防止爬虫被反主要有以下几个策略

　　（1）动态设置User-Agent（随机切换User-Agent，模拟不同用户的浏览器信息）

　　（2）禁用Cookies（即不启用cookies middleware，不向Server发送cookies，有些网站通过cookie的使用发现爬虫行为）（通过COOKIES_ENABLED控制CookiesMiddleware开启或关闭）

　　（3）设置延迟下载（防止访问过于频繁，设置为2秒或更高）

　　（4）Google Cache和Baidu Cache：如果可能，使用谷歌/百度等搜索引擎服务器页面缓存获取页面数据

　　（5）使用IP地址池：VPN和代理IP，现在大部分网站都是根据IP来禁止爬虫的

　　（6）使用Crawlera（专门用于爬虫的代理组件），正确配置和设置下载中间件后，项目所有的request都是通过crawlera发出

　　　　参考代码：

```
　　　　DOWNLOADER_MIDDLEWARES = {
　　　　　　'scrapy_crawlera.CrawleraMiddleware':600
　　　　}
　　　　CRAWLERA_ENABLED=True
　　　　CRAWLEAR_USER="registered/bought的UserKey"
　　　　CRAWLEAR_PASS="registered/bought的Password"
　　　　```

2、设置下载中间件（Downloader Middlewares）

　　下载中间件是处于引擎（crawler.engine）和下载器（crawler.engine.download()）之间的一层组件，可以有多个下载中间件被加载运行。

　　（1）当引擎传递请求给下载器的过程中，下载中间件可以对请求进行处理（例如增加http header信息，增加proxy信息等）

　　（2）在下载器完成http请求，传递响应给引擎的过程中，下载中间件可以对响应进行处理（例如进行gzip的解压等）

　　　要激活下载器中间件组件，将其加入到DOWNLOADER_MIDDLEWARES设置中，其设置是一个字典，键为中间件类的路径，值为其中间件的顺序（order）

```
　　DOWNLOADER_MIDDLEWARES={
　　　　"mySpider.middlewares.MyDownloaderMiddleware":543,
　　}
　　```

3、编写下载器中间件

　　每个中间件组件是一个定义了以下一个或多个方法的Python类：

　　`class scrapy.contrib.downloadermiddleware.DownloaderMiddleware`

　　3.1 process_request(self,request,spider)

　　　　（1）当每个request通过下载中间件时，该方法被调用

　　　　（2）porcess_request()必须返回以下其中之一：一个None、一个Response对象、一个Request对象或raise IgnoreRequest

　　　　　　1）如果其返回None，Scrapy将继续处理该request，执行其他的中间件的相应方法，直到合适的下载器处理函数（download handler）被调用，该request被执行（其response被下载）。

　　　　　　2）如果其返回Response对象，Scrapy将不会调用任何其他的process_request()或process_exception()方法，或相应的下载函数；其将返回该response。已安装的中间件的process_response()方法则会在每个response返回时被调用。

　　　　　　3）如果其返回Request对象，Scrapy则停止调用process_request方法并重新调度返回的request。当新返回的request被执行后，相应的中间件链将会根据下载的response被调用。

　　　　　　4）如果其raise一个IgnoreRequest异常，则安装的下载中间件的process_exception()方法会被调用。如果没有任何一个方法处理该异常，则request的errback(Request.errback)方法会被调用。如果没有代码处理抛出的异常，则该异常被忽略且不记录（不同于其他异常那样）

　　　　（3）参数

　　　　　　1）request（Request对象）——处理的request

　　　　　　2）spider（Spider对象）——该request对应的spider

　　3.2 process_response(self,request,response,spider)

　　　　（1）当下载器完成http请求，传递响应给引擎的时候调用

　　　　（2）process_request()必须返回以下其中之一：返回一个Response对象，返回一个Request对象或raise一个IgnoreRequest异常。

　　　　　　1）如果其返回一个Response（可以与传入的response相同，也可以是全新的对象），该response会被在链中的其他中间件的process_response()方法处理。

　　　　　　2）如果其返回一个Request对象，则中间链停止，返回的request会被重新调度下载。处理类似于process_request()返回request所做的那样。

　　　　　　3）如果其抛出一个IgnoreRequest异常，则调用request的errback(Request.errback)。如果没有代码处理抛出的异常，则该异常被忽略且不记录（不同于其他异常那样）。

　　　　（3）参数

　　　　　　1）request（Request对象）——response所对应的request

　　　　　　2）response（Response对象）——被处理的response

　　　　　　3）spider（Spider对象）——response所对应的spider

　　3.3 process_exception(request,exception,spider)

　　　　（1）当下载处理器或process_request()抛出异常，比如IgnoreRequest异常时，Scrapy调用process_exception()

　　　　（2）process_exception()应该返回None,Response对象或者Request对象其中之一

　　　　　　1）如果返回None，Scrapy将会继续处理该异常，接着调用已安装的其他中间件的process_exception()方法，直到所有中间件都被调用完毕，则调用默认的异常处理方法

　　　　　　2）如果返回Response对象，则已安装的中间件链的process_response()方法被调用，scrapy将不会调用任何其他中间间的process_exception()方法

　　　　　　3）如果返回Request对象，则返回的request将会被重新调度下载，这将停止中间件的process_exception()方法执行，类似于返回Response对象的处理。

　　　　（3）参数

　　　　　　1）request(Request对象）：产生异常的Request

　　　　　　2）exception(Exception对象)：抛出的异常

　　　　　　3）spider(Spider对象)：Request对应的Spider

4、案例

　　4.1 编辑middlewares.py文件

　　　　Scrapy代理IP、User-Agent的切换都是通过DOWNLOADER_MIDDLEWARES进行控制，在middlewares.py文件中包装所有请求。

import random
import base64

from settings import USER_AGENTS
from settings import PROXIES

# 随机的User-Agent
class RandomUserAgent(object):
    def process_request(self, request, spider):
        useragent = random.choice(USER_AGENTS)

        request.headers.setdefault("User-Agent", useragent)

class RandomProxy(object):
    def process_request(self, request, spider):
        proxy = random.choice(PROXIES)

        if proxy['user_passwd'] is None:
            # 没有代理账户验证的代理使用方式
            request.meta['proxy'] = "http://" + proxy['ip_port']
        else:
            # 对账户密码进行base64编码转换
            base64_userpasswd = base64.b64encode(proxy['user_passwd'])
            # 对应到代理服务器的信令格式里
            request.headers['Proxy-Authorization'] = 'Basic ' + base64_userpasswd
            request.meta['proxy'] = "http://" + proxy['ip_port']

　　4.2 修改settings.py配置USER_AGENTS和PROXIES

　　　　（1）添加USER_AGENTS：

USER_AGENTS = [
    "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 2.0.50727; Media Center PC 6.0)",
    "Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 1.0.3705; .NET CLR 1.1.4322)",
    "Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.2; .NET CLR 1.1.4322; .NET CLR 2.0.50727; InfoPath.2; .NET CLR 3.0.04506.30)",
    "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN) AppleWebKit/523.15 (KHTML, like Gecko, Safari/419.3) Arora/0.3 (Change: 287 c9dfb30)",
    "Mozilla/5.0 (X11; U; Linux; en-US) AppleWebKit/527+ (KHTML, like Gecko, Safari/419.3) Arora/0.6",
    "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.2pre) Gecko/20070215 K-Ninja/2.1.1",
    "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9) Gecko/20080705 Firefox/3.0 Kapiko/3.0",
    "Mozilla/5.0 (X11; Linux i686; U;) Gecko/20070322 Kazehakase/0.4.5"
    ]

　　　　（2）添加代理IP设置PROXIES

PROXIES = [
    {'ip_port': '111.8.60.9:8123', 'user_passwd': 'user1:pass1'},
    {'ip_port': '101.71.27.120:80', 'user_passwd': 'user2:pass2'},
    {'ip_port': '122.96.59.104:80', 'user_passwd': 'user3:pass3'},
    {'ip_port': '122.224.249.122:8088', 'user_passwd': 'user4:pass4'},
]

　　　　（3）除非特殊的需要，禁用cookies，防止某些网站根据Cookie来封锁爬虫

　　　　　　`COOKIES_ENABLED=False`

　　　　（4）设置下载延迟

　　　　　　`DOWNLOAD_DELAY=3`

　　　　（5）设置settings.py里的DOWNLOADER_MIDDLEWARES，添加自己编写的下载中间类

```
　　　　　　DOWNLOADER_MIDDLEWARES={
　　　　　　　　'mySpider.middlewares.RandomUserAgent':1,
　　　　　　　　'mySpider.middlewares.ProxyMiddleware':100,
　　　　　　}
　　　　　　```
5、DOWNLOADER_MIDDLEWARES_BASE

　　在settings.py中对DOWNLOADER_MIDDLEWARES的设置，会与Scrapy内置的下载器中间间设置DOWNLOADER_MIDDLEWARES_BASE合并，但不会覆盖，而是根据顺序值进行排序，最后得到启用中间件的有序列表：第一个中间件是最靠近引擎的，最后一个中间件是最靠近下载器的。

Scrapy内置的中间间设置DOWNLOADER_MIDDLEWARES_BASE为：
　　（1）'scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware':100
　　（2）'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware':300　　（3）'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware':350
　　（4）'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware':400
　　（5）'scrapy.downloadermiddlewares.retry.RetryMiddleware':500
　　（6）'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware':550
　　（7）'scrapy.downloadermiddlewares.redirect.MeteRefreshMiddleware':580
　　（8）'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware':590　　（9）'scrapy.downloadermiddlewares.redirect.RedirectMiddleware':600
　　（10）'scrapy.downloadermiddlewares.cookies.CookiesMiddleware':700
　　（11）'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware':750　　（12）'scrapy.downloadermiddlewares.chunked.ChunkedTransferMiddleware':830
　　（13）'scrapy.downloadermiddlewares.stats.DownloaderStats':850
　　（14）'scrapy.downloadermiddlewares.httpcache.HttpCacheMiddleware':900　　　如果想禁用内置的中间间，必须在DOWNLOADER_MIDDLEWARES中定义该中间件，并将值设置为None。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：mongodb 计数器自增 mongodb numberint

下一篇：java版魔塔魔塔fc版

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯