startproject
要使用 startproject 这个命令,可以查看帮助,使用 -h
。
下面是在创建爬虫项目的时候,使用的一些参数示例:
fetch
示例:
格式
使用 scrapy fetch -h
可以查看所有可以使用的 fetch 相关参数
--headers
:显示对应的爬虫爬取网页时候的头信息(代替 body 打印出来)
--nolog
:控制不显示日志信息
--spider=SPIDER
参数来控制使用哪个爬虫
通过 --logfile = FILE
参数来指定存储日志信息的文件
通过 --loglevel = LEVEL
参数来控制日志等级
示例:
runspider
首先,先写一个简单的爬虫文件,命名为 first.py,因为是全局命令,所以这个文件可以放在任何地方:
使用命令示例:
settings
在 Scrapy 项目之外使用 settings 命令,查看的是 Scrapy 默认配置信息。即 settings.py 文件里面键值对的信息。
scrapy settings –get BOT_NAME
scrapy settings –get SPIDER_MODULES
shell 命令(特别常用)
示例:
退出交互的命令是 exit()
。
version
view
view :下载某个网页并且用浏览器查看
使用示例:
执行完这个命令以后,Scrapy 程序会自动打开浏览器,然后我们观察浏览器的文件地址,是一个本地文件的地址。