教程
- 安装
- 基本操作
- 打开Web scraper
- 使用Web scraper
- 创建爬取
- 运行爬虫,查看数据
- 这里讲一个复杂一点的例子帮助大家学习
- 参考:
安装
- Web scraper只支持chrome浏览器,可以从chrome网上应用店下载这个插件,安装好后在扩展程序页面启用插件。Web scraper具备反爬虫机制,模拟人手动操作浏览器,适合轻度的数据爬取,而且免费!
基本操作
打开Web scraper
当我们想要抓取某网页的时候,需要调出来Web scraper的开发界面,这点开发人员肯定很懂。
不懂的下面提供几种方法:
- windows 系统下可以使用快捷键 F12,有的型号的笔记本需要按 Fn+F12
- Mac 系统下可以使用快捷键 command+option+i
- 在网页右键点击检查(ctrl+shift+i)
- 直接在 Chrome 界面上操作,点击设置更多工具开发者工具
打开之后长这样,如果不在网页的下方就点这三个竖着的小圆点,给它换到网页下方。
换好之后长这样,就可以看的Web scraper插件了~
使用Web scraper
创建爬取
- 首先需要创建一个新的爬取:Create new sitemap Create sitemap
Import sitemap是导入脚本 - 添加请求头,命名和将我们要爬取的网页url填好之后点Create Sitemap
这里要说明一下,一个Sitemap可以有多个Selector, - 理解工具
创建选择器时需使用 Element preview 和 Data preview 功能以确保你选中了正确的网页元素及数据。
1)Id - 爬取标题的命名,自己随意取
2)Type - 抓取数据的类型名字
- Text(文本)选择器;
- Link(链接)选择器;
- Popup LINK(弹出链接)选择器;
- Image(图像)选择器;
- Table(表格)选择器;
- Element attribute(元素属性)选择器;
- HTML 选择器;
- Element;
- Element scroll down(滑动);
- Element click(点击);
- Grouped(组块)选择器。
3)selector - CSS 选择器选取所需元素;
4)multiple - 如果要选择多个记录需勾选此项。从两个或多个选中 multiple 的选择器中提取的数据不会合并到一个单独记录中;
5)delay - 选择器生效前的延迟时长;
6)parent selectors - 为此选择器选择母选择器以产生选择器树形结构;
7)文本选择器(Text selector);
8)链接选择器(Link selector);
9)元素选择器(Element selector)。
运行爬虫,查看数据
1)Selector graph - 查看爬虫逻辑
2)Scrape - 运行爬虫
3)Browse - 查看数据
4)Export data as CSV - 保存数据
这里讲一个复杂一点的例子帮助大家学习
- 任务:
账号:中国日报(https://weibo.com/chinadailywebsite?is_all=1)
时间:2020年3月11号——2021年3月10号
关键词:新冠
爬取符合以上条件的所有推送的文字部分,以及发布时间,和转发,评论和点赞的数量
- 利用微博自己的高级搜索,锁定关键词和具体时间段
- 如果抓取多页网站,Start url可以设定page=[2-5]表示第2页到第5页,如果是步长为2页,则可以:[2-5:2]。
- 建立selector,Type选择Element scroll down用于爬取下拉滚动式的页面结构体。
- 建立新的selector,负责展开全文。Type选择Element click来模拟点击。
- 建立新的selector,负责抓取正文内容。Type选择Text。
- 建立新的selector,负责抓取时间日期。Type选择Text。
- 同理,建立新的selector,负责抓取转赞评。Type选择Text。就不放图了。
注意:每次选择网页元素一定要点击Mutiple,从top到bottom选择两次自己要抓取的内容,比如要抓取微博推送内容,抓取该页面第一条和第二条,接下来板块都会自动抓取。
speed要调整一下,不然抓取的内容会不全。