1.从http://python.org/download/上下载Windows平台上的Python3.6的安装文件,点击进行安装:

python 2和3 pip install指定版本 python3.6对应的pip版本_Python

python 2和3 pip install指定版本 python3.6对应的pip版本_数据_02

python 2和3 pip install指定版本 python3.6对应的pip版本_数据_03

2.安装完毕后,可以在DOS命令行查询安装的Python版本:


3.从http://sourceforge.net/projects/pywin32/安装pywin32(下载符合系统的pywin32版本)

4.在安装Python3.6时,会自动安装pip,打开命令行,查询pip版本:


5.安装Scrapy(利用pip安装)


Scrapy安装完后可以在命令行查询当前的Scrapy的版本,同时可以验证一下Scrapy是否安装成功

如果出现以下界面,则证明Scrapy安装成功啦,就可以开始驾驭你的爬虫啦!


下面来简单的说一下Scrapy入门吧:

1.创建一个Scrapy项目

2.定义提取的Item

3.编写爬取网站的spider并提取Item

4.编写Item Pipeline来存储提取到的Item(就是存储提取到的数据)

Scrapy是有Python语言进行编写,需要一定的Python基础,以下是针对有Python基础的教程。如果你对Python还一窍不知,建议你先学习以下Python基础,这样容易接受,学的 也会快些。

1.创建Scrapy项目:

使用Scrapy爬取数据,需要先建立一个Scrapy项目:


如果是在桌面创建的话,会在桌面创建一个名字为example的文件夹,文件夹的结构为:

example:

------scrapy.cfg

------example/

--------_init_.py

--------items.py

--------pipelines.py

--------settings.py

--------spiders/

------------_init_.py

------------_pycache/

...

- scrapy.cfg:项目的配置文件;

- example :该项目的Python模块;

- example/items.py :项目中的item文件,为提取的数据创建模型;

- example/pipelines.py :项目中的pipelines文件;

- example/settings.py :项目中的配置文件;

- example/spiders/  :存放spider代码

2.定义Item(建立提取的数据模型)

Item是保存爬取到的数据的容器,在这个文件中你可以定义数据模型,然后爬取到的数据最终会按照你定义的模型来存储数据。


import scrapy


class ExmapleItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    passempty


3.编写spider代码


在spider文件下新建一个exampleSpider.py,该文件就是爬取网页数据的‘爬虫’,你需要为它规范一下“行为”


创建一个Spider,必须继承scrapy.Spider类,同时定义三个属性:


1> name : 为你的爬虫定义一个名字(名字是唯一的),在后边的爬取过程中区分于其他爬虫;


2> start_urls :包含了Spider在启动时进行爬取的URL列表;


3> parse(self,response) : 是spider方法。被调用时,每个初始URL完成爬取后的response都会传给这个方法。该方法负责解析返回的数据,并进行近一步的提取。


以下是exampleSpider代码:


empty


4.爬取


在DOS命令行中,进入项目的根目录,启动spider:


empty


在example的根目录下会创建Book的文件。