Scrapy 命令的使用之一：全局命令

原创

liweiwei1419 2021-08-28 10:05:01 ©著作权

文章标签 ide 配置信息本地文件爬虫项目键值对 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者liweiwei1419的原创作品，请联系作者获取转载授权，否则将追究法律责任

startproject

要使用 startproject 这个命令，可以查看帮助，使用 -h。

scrapy startproject -h

Scrapy 命令的使用之一：全局命令_键值对

下面是在创建爬虫项目的时候，使用的一些参数示例：

scrapy startproject --logfile='../logf.log' douban

scrapy startproject --loglevel=DEBUG douban

scrapy startproject --nolog douban

fetch

示例：

scrapy fetch http://www.baidu.com

格式

scrapy fetch 网址 ：显示出爬取对应网址的过程

使用 scrapy fetch -h 可以查看所有可以使用的 fetch 相关参数

Scrapy 命令的使用之一：全局命令_配置信息_02

--headers：显示对应的爬虫爬取网页时候的头信息（代替 body 打印出来）
--nolog：控制不显示日志信息
--spider=SPIDER 参数来控制使用哪个爬虫
通过 --logfile = FILE 参数来指定存储日志信息的文件
通过 --loglevel = LEVEL 参数来控制日志等级

示例：

scrapy fetch --headers --nolog http://news.sina.com.cn/

Scrapy 命令的使用之一：全局命令_键值对_03

runspider

首先，先写一个简单的爬虫文件，命名为 first.py，因为是全局命令，所以这个文件可以放在任何地方：

from scrapy.spiders import Spider

class FirstSpider(Spider):
    name = 'first'
    allowed_domains = ["baidu.com"]
    start_urls = [
        "http://www.baidu.com"
    ]

    def parse(self,response):
        print(response.body[:500])
        print(response.url)

使用命令示例：

scrapy runspider --loglevel=INFO first.py

settings

在 Scrapy 项目之外使用 settings 命令，查看的是 Scrapy 默认配置信息。即 settings.py 文件里面键值对的信息。

scrapy settings –get BOT_NAME
scrapy settings –get SPIDER_MODULES

shell 命令（特别常用）

示例：

Scrapy 命令的使用之一：全局命令_键值对_04

Scrapy 命令的使用之一：全局命令_ide_05

退出交互的命令是 exit()。

version

scrapy version

Scrapy 命令的使用之一：全局命令_ide_06

scrapy version -v

Scrapy 命令的使用之一：全局命令_爬虫项目_07

view

view ：下载某个网页并且用浏览器查看

使用示例：

scrapy view http://news.163.com

执行完这个命令以后，Scrapy 程序会自动打开浏览器，然后我们观察浏览器的文件地址，是一个本地文件的地址。

上一篇：Django 开发学习笔记（1）- Hello World

下一篇：Python 爬虫框架 Item 的编写

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯