startproject

要使用 startproject 这个命令,可以查看帮助,使用 ​​-h​​。

scrapy startproject -h

Scrapy 命令的使用之一:全局命令_键值对

下面是在创建爬虫项目的时候,使用的一些参数示例:

scrapy startproject --logfile='../logf.log' douban
scrapy startproject --loglevel=DEBUG douban
scrapy startproject --nolog douban

fetch

示例:

scrapy fetch http://www.baidu.com

格式

scrapy fetch 网址 :显示出爬取对应网址的过程

使用 ​​scrapy fetch -h​​ 可以查看所有可以使用的 fetch 相关参数

Scrapy 命令的使用之一:全局命令_配置信息_02

​--headers​​​:显示对应的爬虫爬取网页时候的头信息(代替 body 打印出来)
​​​--nolog​​​:控制不显示日志信息
​​​--spider=SPIDER​​​ 参数来控制使用哪个爬虫
通过 ​​​--logfile = FILE​​​ 参数来指定存储日志信息的文件
通过 ​​​--loglevel = LEVEL​​ 参数来控制日志等级

示例:

scrapy fetch --headers --nolog http://news.sina.com.cn/

Scrapy 命令的使用之一:全局命令_键值对_03


runspider

首先,先写一个简单的爬虫文件,命名为 first.py,因为是全局命令,所以这个文件可以放在任何地方:

from scrapy.spiders import Spider

class FirstSpider(Spider):
name = 'first'
allowed_domains = ["baidu.com"]
start_urls = [
"http://www.baidu.com"
]

def parse(self,response):
print(response.body[:500])
print(response.url)

使用命令示例:

scrapy runspider --loglevel=INFO first.py

settings

在 Scrapy 项目之外使用 settings 命令,查看的是 Scrapy 默认配置信息。即 settings.py 文件里面键值对的信息。

scrapy settings –get BOT_NAME
scrapy settings –get SPIDER_MODULES


shell 命令(特别常用)

示例:

Scrapy 命令的使用之一:全局命令_键值对_04

Scrapy 命令的使用之一:全局命令_ide_05

退出交互的命令是 ​​exit()​​。


version

scrapy version

Scrapy 命令的使用之一:全局命令_ide_06

scrapy version -v

Scrapy 命令的使用之一:全局命令_爬虫项目_07


view

view :下载某个网页并且用浏览器查看

使用示例:

scrapy view http://news.163.com

执行完这个命令以后,Scrapy 程序会自动打开浏览器,然后我们观察浏览器的文件地址,是一个本地文件的地址。