上周说到scrapy的基本入门。这周来写写其中遇到的代理和js渲染的坑。

js渲染

js是爬虫中毕竟麻烦处理的一块。通常的解决办法是通过抓包,然后查看​​request​​信息,接着捕获ajax返回的消息。

但是,如果遇到一些js渲染特别复杂的情况,这种办法就非常非常的麻烦。所以我们采用了​​selenium​​这个包,用它来调用​​chromium​​完成js渲染的问题。

安装

tip:为什么选择​​chromium​​而不是​​chrome​​。我之前装的就是​​chrome​​。但是安装​​chrome​​之后还需要安装​​chrome-drive​​,而很多linux发行版的包管理没有现成的​​chrome​​包和​​chrome-drive​​包,自己去找的话很容易出现​​chrome-drive​​和​​chrome​​版本不一致而导致不能使用。

为了减少因为安装环境所带来的烦恼。我们这边用​​docker​​来解决。

​Dockerfile​

FROM alpine:3.8
COPY requirements.txt /tmp
RUN apk update \
&& apk add --no-cache xvfb python3 python3-dev curl libxml2-dev libxslt-dev libffi-dev gcc musl-dev \
&& apk add --no-cache libgcc openssl-dev chromium=68.0.3440.75-r0 libexif udev chromium-chromedriver=68.0.3440.75-r0 \
&& curl https://bootstrap.pypa.io/get-pip.py | python3 \
&& adduser -g chromegroup -D chrome \
&& pip3 install -r /tmp/requirements.txt && rm /tmp/requirements.txt
USER chrome

tip:这边还有一个坑,​​chrome​​和​​chromium​​都不能在root模式下运行,而且也不安全。所以最好是创建一个用户来运行。

使用docker的时候,​​run​​时候需要加​​--privileged​​参数

如果你需要了解如何在root用户下运行chro

​requirements.txt​

Scrapy
selenium
Twisted
PyMysql
pyvirtualdisplay

把​​requirements.txt​​和​​Dockerfile​​放在一起。
并在目录下使用docker命令​​docker build -t "chromium-scrapy-image" .​

至于为什么要安装​​xvfb​​和​​pyvirtualdisplay​​。因为​​chromium​​的​​headless​​模式下不能处理带账号密码的问题。待会就会说到了。

​Redhat​​和​​Debian​​可以去包仓库找一下最新的​​chromium​​和对应的​​chromium-drive​​下载安装就可以了。版本一定要是对应的!这边使用​​chromium=68.0.3440.75-r0​​和​​chromium-chromedriver=68.0.3440.75-r0​​。

修改​​Scrapy​​的​​Middleware​

使用了​​chromium​​之后,我们在​​middlewares.py​​文件修改一下。我们的设想是让​​chromium​​来替代掉​​request​​请求。所以我们修改了​​DownloaderMiddleware​

#DownloaderMiddleware
class DemoDownloaderMiddleware(object):
def __init__(self):
chrome_options = webdriver.ChromeOptions()
# 启用headless模式
chrome_options.add_argument('--headless')
# 关闭gpu
chrome_options.add_argument('--disable-gpu')
# 关闭图像显示
chrome_options.add_argument('--blink-settings=imagesEnabled=false')
self.driver = webdriver.Chrome(chrome_options=chrome_options)
def __del__(self):
self.driver.quit()

@classmethod
def from_crawler(cls, crawler):
s = cls()
crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)
return s

def process_request(self, request, spider):
# chromium处理
# ...
return HtmlResponse(url=request.url,
body=self.driver.page_source,
request=request,
encoding='utf-8',
status=200)

def process_response(self, request, response, spider):
# Called with the response returned from the downloader.

# Must either;
# - return a Response object
# - return a Request object
# - or raise IgnoreRequest
return response

def process_exception(self, request, exception, spider):
# Called when a download handler or a process_request()
# (from other downloader middleware) raises an exception.

# Must either:
# - return None: continue processing this exception
# - return a Response object: stops process_exception() chain
# - return a Request object: stops process_exception() chain
pass

def spider_opened(self, spider):
spider.logger.info('Spider opened: %s' % spider.name)
tip:这边我们只有一个中间件来处理​​request​​。也就是说,所有的逻辑都要经过这儿。所以直接返回了​​response​​。

这就解决了​​selenium​​和​​chromium​​的安装问题。

​chromium​​不支持​​headless​​问题

如果你安装的​​chromium​​版本太老,不支持​​headless​​,不着急。之前我们安装的​​xvfb​​和​​pyvirtualdisplay​​就派上用场了。

from pyvirtualdisplay import Display
...
>>>
chrome_options.add_argument('--headless')
<<<
chrome_options.add_argument('--headless')
display=Display(visible=0,size=(800,800))

display.start()

...
>>>

self.driver.quit()
<<<

self.driver.quit()

display.stop()

...

我们模拟出了一个显示界面,这个时候,不管​​chromium​​开不开启​​headless​​,都能在我们的服务器上运行了。

代理

因为我们已经用​​chromium​​替换了​​request​​。所以我们做的代理也不能在​​Scrapy​​中来处理。
我们需要直接用​​chromium​​来处理IP代理问题。

这是不使用​​chromium​​之前使用代理的办法

class DemoProxyMiddleware(object):
# overwrite process request
def process_request(self, request, spider):
# Set the location of the proxy
request.meta['proxy'] = "https://proxy.com:8080"

# Use the following lines if your proxy requires authentication

proxy_user_pass = "username:password"
encoded_user_pass = base64.b64encode(proxy_user_pass.encode('utf-8'))

# setup basic authentication for the proxy
request.headers['Proxy-Authorization'] = 'Basic ' + str(encoded_user_pass, encoding="utf-8")

如果你的IP代理不需要账号密码的话,只需要把后面三行删除了就可以了。

根据上面这段代码,我们也不难猜出​​chromium​​解决代理的方法了。

chrome_options.add_argument('--proxy=proxy.com:8080')

只需要加一段argument就可以了。

那解决带账号密码的办法呢?

解决​​chromium​​下带账号密码的代理问题

先创建一个py文件

import string
import zipfile
def create_proxyauth_extension(proxy_host, proxy_port,

proxy_username, proxy_password,

scheme='http', plugin_path=None):

"""代理认证插件

args:
proxy_host (str): 你的代理地址或者域名(str类型)
proxy_port (int): 代理端口号(int类型)
proxy_username (str):用户名(字符串)
proxy_password (str): 密码 (字符串)
kwargs:
scheme (str): 代理方式 默认http
plugin_path (str): 扩展的绝对路径

return str -> plugin_path
"""

if plugin_path is None:
plugin_path = 'vimm_chrome_proxyauth_plugin.zip'

manifest_json = """
{
"version": "1.0.0",
"manifest_version": 2,
"name": "Chrome Proxy",
"permissions": [
"proxy",
"tabs",
"unlimitedStorage",
"storage",
"<all_urls>",
"webRequest",
"webRequestBlocking"
],
"background": {
"scripts": ["background.js"]
},
"minimum_chrome_version":"22.0.0"
}
"""

background_js = string.Template(
"""
var config = {
mode: "fixed_servers",
rules: {
singleProxy: {
scheme: "${scheme}",
host: "${host}",
port: parseInt(${port})
},
bypassList: ["foobar.com"]
}
};

chrome.proxy.settings.set({value: config, scope: "regular"}, function() {});

function callbackFn(details) {
return {
authCredentials: {
username: "${username}",
password: "${password}"
}
};
}

chrome.webRequest.onAuthRequired.addListener(
callbackFn,
{urls: ["<all_urls>"]},
['blocking']
);
"""
).substitute(
host=proxy_host,
port=proxy_port,
username=proxy_username,
password=proxy_password,
scheme=scheme,
)
with zipfile.ZipFile(plugin_path, 'w') as zp:
zp.writestr("manifest.json", manifest_json)
zp.writestr("background.js", background_js)

return plugin_path</pre>

使用方式

proxyauth_plugin_path = create_proxyauth_extension(
proxy_host="host",
proxy_port=port,
proxy_username="user",
proxy_password="pwd")
chrome_options.add_extension(proxyauth_plugin_path)
这样就完成了chromium的代理了。但是,如果你开启了headless模式,这个方法会提示错误。所以解决办法就是,关闭headless模式。
至于怎么在没有gui的情况下使用chromium。在之前已经提到过,使用xvfb和pyvirtualdisplay就可以了。