教程

  • 安装
  • 基本操作
  • 打开Web scraper
  • 使用Web scraper
  • 创建爬取
  • 运行爬虫,查看数据
  • 这里讲一个复杂一点的例子帮助大家学习
  • 参考:


安装

  • Web scraper只支持chrome浏览器,可以从chrome网上应用店下载这个插件,安装好后在扩展程序页面启用插件。Web scraper具备反爬虫机制,模拟人手动操作浏览器,适合轻度的数据爬取,而且免费

基本操作

打开Web scraper

当我们想要抓取某网页的时候,需要调出来Web scraper的开发界面,这点开发人员肯定很懂。
不懂的下面提供几种方法:

  • windows 系统下可以使用快捷键 F12,有的型号的笔记本需要按 Fn+F12
  • Mac 系统下可以使用快捷键 command+option+i
  • 在网页右键点击检查(ctrl+shift+i)
  • 直接在 Chrome 界面上操作,点击设置puppeteer vue 爬取 webscraper爬取文件_爬虫更多工具puppeteer vue 爬取 webscraper爬取文件_爬虫开发者工具
    打开之后长这样,如果不在网页的下方就点这三个竖着的小圆点,给它换到网页下方。


    换好之后长这样,就可以看的Web scraper插件了~

使用Web scraper

创建爬取

  1. 首先需要创建一个新的爬取:Create new sitemap puppeteer vue 爬取 webscraper爬取文件_爬虫Create sitemap
    Import sitemap是导入脚本
  2. 添加请求头,命名和将我们要爬取的网页url填好之后点Create Sitemap
    这里要说明一下,一个Sitemap可以有多个Selector,
  3. 理解工具

    创建选择器时需使用 Element preview 和 Data preview 功能以确保你选中了正确的网页元素及数据。
    1)Id - 爬取标题的命名,自己随意取
    2)Type - 抓取数据的类型名字
  • Text(文本)选择器;
  • Link(链接)选择器;
  • Popup LINK(弹出链接)选择器;
  • Image(图像)选择器;
  • Table(表格)选择器;
  • Element attribute(元素属性)选择器;
  • HTML 选择器;
  • Element;
  • Element scroll down(滑动);
  • Element click(点击);
  • Grouped(组块)选择器。

    3)selector - CSS 选择器选取所需元素;
    4)multiple - 如果要选择多个记录需勾选此项。从两个或多个选中 multiple 的选择器中提取的数据不会合并到一个单独记录中;
    5)delay - 选择器生效前的延迟时长;
    6)parent selectors - 为此选择器选择母选择器以产生选择器树形结构;
    7)文本选择器(Text selector);
    8)链接选择器(Link selector);
    9)元素选择器(Element selector)。

运行爬虫,查看数据

puppeteer vue 爬取 webscraper爬取文件_爬虫_04


1)Selector graph - 查看爬虫逻辑

2)Scrape - 运行爬虫

3)Browse - 查看数据

4)Export data as CSV - 保存数据

这里讲一个复杂一点的例子帮助大家学习

  • 任务:
    账号:中国日报(https://weibo.com/chinadailywebsite?is_all=1)
    时间:2020年3月11号——2021年3月10号
    关键词:新冠
    爬取符合以上条件的所有推送的文字部分,以及发布时间,和转发,评论和点赞的数量
  1. 利用微博自己的高级搜索,锁定关键词和具体时间段
  2. puppeteer vue 爬取 webscraper爬取文件_Web_05

  3. 如果抓取多页网站,Start url可以设定page=[2-5]表示第2页到第5页,如果是步长为2页,则可以:[2-5:2]。
  4. 建立selector,Type选择Element scroll down用于爬取下拉滚动式的页面结构体。
  5. puppeteer vue 爬取 webscraper爬取文件_puppeteer vue 爬取_06


  6. 建立新的selector,负责展开全文。Type选择Element click来模拟点击。
  7. puppeteer vue 爬取 webscraper爬取文件_数据_07


  8. 建立新的selector,负责抓取正文内容。Type选择Text。
  9. puppeteer vue 爬取 webscraper爬取文件_Web_08


  10. 建立新的selector,负责抓取时间日期。Type选择Text。
  11. puppeteer vue 爬取 webscraper爬取文件_Web_09


  12. 同理,建立新的selector,负责抓取转赞评。Type选择Text。就不放图了。

注意:每次选择网页元素一定要点击Mutiple,从top到bottom选择两次自己要抓取的内容,比如要抓取微博推送内容,抓取该页面第一条和第二条,接下来板块都会自动抓取。
speed要调整一下,不然抓取的内容会不全。