欲善其事必先利其器

提起爬虫我们首先就会想到python,虽然其他的语言也可以做出爬虫,但是都没有python方便,python有许多第三方库可以为我们所用,所以我们会以python的角度学习爬虫。

这里介绍的是Windows下的安装过程

目录

1、Python3的安装 2、请求库的安装

3、解析库的安装 4、OCR 识别库

Python3的安装

既然要用python开发那么第一步肯定要安装好python环境。

官方网站:http://python.org

下载地址:http://www.python.org/downloads

官方文档:http://docs.python.org/3

直接在官方网站下载python3的安装包,当前最新的版本是3.8.1,小编用的是3.7.3,这里就以3.7.3为例(其他版本的也一样)




python爬虫下载安装教程 python爬虫安装包_python


python爬虫下载安装教程 python爬虫安装包_xml_02


点击下载就好了


python爬虫下载安装教程 python爬虫安装包_xml_03


python爬虫下载安装教程 python爬虫安装包_xml_04


pip选项记得点上,这个是帮助我们下载第三方库的工具


python爬虫下载安装教程 python爬虫安装包_第三方库_05


Add Python to environment variables选项选上,它可以自主的将python加入环境变量中,省去了我们手动操作

安装完成后,按Win+R运行cmd命令在命令行输入python


python爬虫下载安装教程 python爬虫安装包_第三方库_06


如果出现了这些就说明你的python安装完成了。

2、请求库的安装

2.1、requests的安装 2.2、selenium的安装

2.3、ChromeDriver的安装

常用的请求库有requests、selenium


  • 2.1、 requests的安装

requests属于第三方库,python不会自带这个库,就需要我们手动安装。

相关连接:

PyPI:https://pypi.python.org/pypi/requests

官方文档:http://www.python-requests.org

中文文档:http://docs.python-requests.org/zh_CN/latest

1、pip安装

在安装的时候我们还安装了一个pip的第三方库的下载工具还记得吗

在命令界面输入:pip install requests

即可完成requests库的安装(因为pip链接的是国外的源所以会比较的慢,建议加个国内的源就会快很多,安装python库都可以加这个源)

这里用的是豆瓣源:


pip install -i https://pypi.douban.com/simple/ requests


这是最简单是安装方式

2、wheel安装

Wheel是python的一种安装包,其后缀为.whl,在无法用pip直接下载的时候可以选择下载wheel文件再安装,再用pip命令加文件铭安装即可。

在这之前要安装wheel库


pip install wheel


然后到pypi下载对应wheel文件


python爬虫下载安装教程 python爬虫安装包_第三方库_07


在wheel文件下进入命令行(只需要文件路径的命令行输入cmd’即可)


python爬虫下载安装教程 python爬虫安装包_xml_08


pip install requests-2.22.0-py2.py3-none-any.whl


这样也可以完成安装

  • 2.2、Selenium的安装

Selenium 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera等。对于一些JavaScript渲染的界面来说,这种抓取非常有效,可以避过很多反爬机制。

相关连接:

官方网站:http://www.seleniumhq.org

Pypi:https://pypi.python.org/pypi/selenium

官方文档:http://selenium-python.readthedocs.io

中文文档:http://selenium-python-zh.readthedocs.io

推荐直接用pip安装即可:


pip install selenium


  • 2.3、ChromeDriver的安装

前面我们安装好了Selenium,但它只是一个自动化测试工具,还需要配合浏览器一起使用。

推荐使用谷歌浏览器,至于下载这里就不再赘述了,有很多方法。

之后安装ChromeDriver。只有安装了ChromeDriver才能驱动Chrome。

相关连接:
下载地址:http://npm.taobao.org/mirrors/chromedriver/


python爬虫下载安装教程 python爬虫安装包_xml_09


ChromeDriver要与Chrome的版本相对应

建议把chromedriver.exe文件加入到python的Scripts目录下;也可以将其单独配置到环境变量


python爬虫下载安装教程 python爬虫安装包_第三方库_10


3、解析库的安装

3.1、lxml的安装 3.2、pyquery的安装


3.1、lxml的安装

lxml 是 一个HTML/XML的解析器,主要的功能是如何解析和提取 HTML/XML 数据(xpath就是这个库的一个功能)

相关连接:

官方网站:http://lxml.de

Pypi: https://pypi.python.org/pypi/lxml

推荐直接用pip安装即可:


pip install lxml


如果有问题的话就用wheel安装,链接为:https://pypi.org/project/lxml/#files


python爬虫下载安装教程 python爬虫安装包_xml_11


下载后进入文件所在目录运行:


pip install lxml-4.4.2-cp27m-win_amd64.whl


  • 3.2、pyquery的安装

类似于jquery的python库,支持css选择器

官方文档:http://pyquery.readthedocs.io

Pypi:https://pypi.python.org/pyquery

推荐pip安装:


pip install pyquery


也可以用wheel安装

4、OCR 识别库

  • Tesserocr的安装

tesserocr 是 Python 的一个 OCR 识别库,但其实是对 tesseract做的一层 Python API 封装,所以它的核心是 tesseract。 因此,在安装 tesserocr 之前,我们需要先安装 tesseract

相关链接:

Tesseract下载地址:http://digi.bib.uni-mannheim.de/tesseract

Tesserocr pypi: https://pypi.python.org/pypi/tesserocr

Tesseract的安装


python爬虫下载安装教程 python爬虫安装包_xml_12


名字中带有dev的为开发版本,不带dev的为稳定版,推荐下稳定版


python爬虫下载安装教程 python爬虫安装包_python_13


勾选Addition language data(download),安装OCR支持的语言包,这样OCR就可以识别多国语言,之后一直点Next即可,安装过程中会出项很多语言包无法下载,可以直接忽略,不影响正常使用。

之后再安装tesserocr


pip install tesserocr pillow