scrapy安装镜像源 scrapy包安装

转载

lemon 2024-04-17 23:10:47

文章标签 scrapy安装镜像源 scrapy 安装以及应用 ide 文件名命令行 文章分类 云原生云计算

Scrapy的安装（三种方式）

第一种：

（1）在命令终端直接输入 conda install scrapy

（2）进程中会出现判断是否继续，输入Y 或者按下Enter键即可

第二种：

（1）升级pip版本：pip install --upgrade pip

（2）通过pip安装，在命令终端输入 pip install Scrapy 按下Enter键

第三种:

scrapy依赖twiste，使用whl格式的包进行安装

下载地址：http://www.lfd.uci.edu/~gohlke/pythonlibs/

进入后找到对应的whl格式的包 Twisted‑18.7.0‑cp36‑cp36m‑win32.whl 并下载

下载完成后使用cmd打开windows的命令行窗口，进入whl包所在的文件夹执行如下命令

scrapy安装镜像源 scrapy包安装_ide

安装完成后请不要关闭终端，输入scrapy 如果出现下图结果说明安装成功并且可以使用（红色为本人添加）

scrapy安装镜像源 scrapy包安装_文件名_02

Scrapy 的使用

创建一个scrapy文件夹

scrapy安装镜像源 scrapy包安装_文件名_03

找到文件夹所在位置

scrapy安装镜像源 scrapy包安装_命令行_04

在终端中输入cd空格并将文件夹拉入终端进入

scrapy安装镜像源 scrapy包安装_ide_05

在后面输入命令 scrapy startproject baidu 创建一个爬虫项目

scrapy安装镜像源 scrapy包安装_文件名_06

出现上图表示创建成功然后输入红框内的两个命令

在上面项目创建好的同时（暂未执行红框两个命令），在指定目录下会生成以下文件

scrapy安装镜像源 scrapy包安装_命令行_07

spiders：以后所创建的爬虫文件会放在此文件夹下

__init__.py ：初始化文件

items.py：存放数据模型

middlewares.py：中间件，负责对内容处理

pipelines.py：通常用来控制执行的顺序

setting.py：设置项目的配置信息

按照上述终端内红框的两个命令提示，依次输入指定的命令

首先：cd空格baidu 并执行命令

然后：继续输入第二个命令 scrapy genspider baiduSpider baidu.com

注意：爬虫文件名字不能和工程名字一致

命令执行完后，会在工程中生成以下文件

scrapy安装镜像源 scrapy包安装_scrapy安装镜像源_08

打开此文件

scrapy安装镜像源 scrapy包安装_命令行_09

上图为原始状态，下图进行操作

# -*- coding: utf-8 -*-
import scrapy


class BaiduspiderSpider(scrapy.Spider):
    name = 'baiduSpider'    #必写
    allowed_domains = ['baidu.com'] #允许爬虫的域名 可以不用
    start_urls = ['http://www.taobao.com/']  #开始的网址,可以不是百度

#请求以后会自动指定的方法
    def parse(self, response):
        #获取请求的响应
        print(response.text)

然后将要运行爬虫程序，继续之前终端操作然后输入 scrapy crawl baiduSpider

如果发现并没有获取到响应，如下

scrapy安装镜像源 scrapy包安装_文件名_10