1.从http://python.org/download/上下载Windows平台上的Python3.6的安装文件,点击进行安装:
2.安装完毕后,可以在DOS命令行查询安装的Python版本:
3.从http://sourceforge.net/projects/pywin32/安装pywin32(下载符合系统的pywin32版本)
4.在安装Python3.6时,会自动安装pip,打开命令行,查询pip版本:
5.安装Scrapy(利用pip安装)
Scrapy安装完后可以在命令行查询当前的Scrapy的版本,同时可以验证一下Scrapy是否安装成功
如果出现以下界面,则证明Scrapy安装成功啦,就可以开始驾驭你的爬虫啦!
下面来简单的说一下Scrapy入门吧:
1.创建一个Scrapy项目
2.定义提取的Item
3.编写爬取网站的spider并提取Item
4.编写Item Pipeline来存储提取到的Item(就是存储提取到的数据)
Scrapy是有Python语言进行编写,需要一定的Python基础,以下是针对有Python基础的教程。如果你对Python还一窍不知,建议你先学习以下Python基础,这样容易接受,学的 也会快些。
1.创建Scrapy项目:
使用Scrapy爬取数据,需要先建立一个Scrapy项目:
如果是在桌面创建的话,会在桌面创建一个名字为example的文件夹,文件夹的结构为:
example:
------scrapy.cfg
------example/
--------_init_.py
--------items.py
--------pipelines.py
--------settings.py
--------spiders/
------------_init_.py
------------_pycache/
...
- scrapy.cfg:项目的配置文件;
- example :该项目的Python模块;
- example/items.py :项目中的item文件,为提取的数据创建模型;
- example/pipelines.py :项目中的pipelines文件;
- example/settings.py :项目中的配置文件;
- example/spiders/ :存放spider代码
2.定义Item(建立提取的数据模型)
Item是保存爬取到的数据的容器,在这个文件中你可以定义数据模型,然后爬取到的数据最终会按照你定义的模型来存储数据。
import scrapy
class ExmapleItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
passempty
3.编写spider代码
在spider文件下新建一个exampleSpider.py,该文件就是爬取网页数据的‘爬虫’,你需要为它规范一下“行为”
创建一个Spider,必须继承scrapy.Spider类,同时定义三个属性:
1> name : 为你的爬虫定义一个名字(名字是唯一的),在后边的爬取过程中区分于其他爬虫;
2> start_urls :包含了Spider在启动时进行爬取的URL列表;
3> parse(self,response) : 是spider方法。被调用时,每个初始URL完成爬取后的response都会传给这个方法。该方法负责解析返回的数据,并进行近一步的提取。
以下是exampleSpider代码:
empty
4.爬取
在DOS命令行中,进入项目的根目录,启动spider:
empty
在example的根目录下会创建Book的文件。