Scrapy的安装(三种方式)

第一种:

(1)在命令终端直接输入 conda install scrapy

(2)进程中会出现判断 是否继续  ,输入Y 或者按下Enter键 即可

第二种:

(1)升级pip版本:pip install   --upgrade pip

(2)通过pip安装,在命令终端输入 pip install Scrapy  按下Enter键

第三种:

scrapy依赖twiste,使用whl格式的包进行安装

下载地址:http://www.lfd.uci.edu/~gohlke/pythonlibs/

进入后找到对应的whl格式的包   Twisted‑18.7.0‑cp36‑cp36m‑win32.whl  并下载

下载完成后使用cmd打开windows的命令行窗口,进入whl包所在的文件夹执行如下命令

scrapy安装镜像源 scrapy包安装_ide

 

安装完成后请不要关闭终端,输入scrapy 如果出现下图结果 说明安装成功并且可以使用(红色为本人添加)

 

scrapy安装镜像源 scrapy包安装_文件名_02

Scrapy 的使用

创建一个scrapy文件夹

scrapy安装镜像源 scrapy包安装_文件名_03

找到文件夹所在位置

scrapy安装镜像源 scrapy包安装_命令行_04

在终端中输入cd空格  并将文件夹拉入终端 进入

scrapy安装镜像源 scrapy包安装_ide_05

在后面输入命令  scrapy startproject baidu  创建一个爬虫项目

scrapy安装镜像源 scrapy包安装_文件名_06

出现上图  表示创建成功  然后输入红框内的两个命令

在上面项目创建好的同时(暂未执行红框两个命令),在指定目录下  会生成以下文件

scrapy安装镜像源 scrapy包安装_命令行_07

spiders:以后所创建的爬虫文件会放在此文件夹下

__init__.py :初始化文件

items.py: 存放数据模型

middlewares.py:中间件,负责对内容处理

pipelines.py:通常用来控制执行的顺序

setting.py:设置项目的配置信息

按照上述终端内红框的两个命令提示,依次输入指定的命令

首先:cd空格baidu  并执行命令

然后:继续输入第二个命令 scrapy genspider baiduSpider baidu.com

注意:爬虫文件名字 不能和工程名字一致

命令执行完后,会在工程中生成以下文件

scrapy安装镜像源 scrapy包安装_scrapy安装镜像源_08

打开此文件

scrapy安装镜像源 scrapy包安装_命令行_09

上图为原始状态,下图进行操作

# -*- coding: utf-8 -*-
import scrapy


class BaiduspiderSpider(scrapy.Spider):
    name = 'baiduSpider'    #必写
    allowed_domains = ['baidu.com'] #允许爬虫的域名 可以不用
    start_urls = ['http://www.taobao.com/']  #开始的网址,可以不是百度

#请求以后会自动指定的方法
    def parse(self, response):
        #获取请求的响应
        print(response.text)

然后将要运行爬虫程序,继续之前终端操作  然后输入 scrapy crawl baiduSpider

如果发现 并没有 获取到响应,如下

scrapy安装镜像源 scrapy包安装_文件名_10

那么 打开settings.py  并找到  ROBOTSTXT_OBEY = True 这是一个需要遵守的爬虫协议

scrapy安装镜像源 scrapy包安装_scrapy 安装 以及应用_11

现在将其注释掉,然后重新执行scrapy crawl baiduSpider 将会得到 response响应

scrapy安装镜像源 scrapy包安装_ide_12