作者:幻好

来源:恒生LIGHT云社区

神器介绍

工作中,我们有时需要获取某个网站中的数据作为素材,比如一些热点排名。但是不会写代码或觉得写代码爬取太麻烦,那有没有什么高效的工具能帮助我们解决这个问题呢?需要获取某个网站中的数据作为素材,比如一些热点排名。但是不会写代码或觉得写代码爬取太麻烦,那有没有什么高效的工具能帮助我们解决这个问题呢?

神器介绍

web scraper 是 Chrome 浏览器的插件,能够通过图像界面的方式帮助我们抓取网页上的数据。

这是一款免费的 Chrome 浏览器扩展,只要建立sitemap即可抓取相应的数据,无需写代码即可抓取95%以上的网站数据(比如博客列表,知乎回答,微博评论等)

image-20211017105844174.png

(下载链接:国内国外

image-20211017110105980.png

使用教程

以 B 站的排行榜为例,我们需要抓取排行榜的数据。(地址:https://www.bilibili.com/v/popular/rank/all

image-20211017110312099.png

1.首先我们已经安装好 web scraper 插件,通过 F12 打开开发工具,找到插件页面。

image-20211017110504324.png

2.可以看到多了个 web scraper 标签,下面有 sitemapssitemapcreate new sitemap ,点击 create 新建一个爬虫抓取任务。name 随意填一个,url 填入网页访问地址即可。

image-20211017110851277.png

image-20211017111327079.png

3.然后点击add new selector 添加新的选择器,给id起个名,type为 element ,点击 select 选中需要爬取的页面元素,可以看到网页标红了。

然后再选择第二条,可以看到下面的内容都选中了,点击 done selecting 就好了。

image-20211017111357317.png

image-20211017111726208.png

image-20211017111801075.png

接着点击 element preview 预览下可以看到页面元素都抓取到了,还要选中 Multiple 。然后保存选择器。

image-20211017111909049.png

4.然后通过以上方式新建选择器,将排名,标题,播放量,评论量,简介图,链接等数据抓取。点击 selector graph 可以看到抓取的选择器关系图。

image-20211017121740969.png

image-20211017122122642.png

5.然后选择器都建好后点击 scrape 开始抓取数据,等待抓取完成,刷新数据预览。

image-20211017122308059.png

image-20211017122326634.png

image-20211017122439686.png

6.最后可导出 CSV 文件,用excel查看抓取数据。

image-20211017122535265.png

image-20211017122726908.png

总结

最后,附上我的抓取脚本,导入即可爬取数据。

{"_id":"bilibili","startUrl":["https://www.bilibili.com/v/popular/rank/all"],"selectors":[{"id":"bilibili_rank","parentSelectors":["_root"],"type":"SelectorElement","selector":"li.rank-item","multiple":true,"delay":0},{"id":"-排名","parentSelectors":["bilibili_rank"],"type":"SelectorText","selector":" div.num","multiple":true,"delay":0,"regex":""},{"id":"-标题","parentSelectors":["bilibili_rank"],"type":"SelectorText","selector":"a.title","multiple":false,"delay":0,"regex":""},{"id":"播放量","parentSelectors":["bilibili_rank"],"type":"SelectorText","selector":".detail > span:nth-of-type(1)","multiple":false,"delay":0,"regex":""},{"id":"评论量","parentSelectors":["bilibili_rank"],"type":"SelectorText","selector":"span:nth-of-type(2)","multiple":false,"delay":0,"regex":""},{"id":"简介图","parentSelectors":["bilibili_rank"],"type":"SelectorImage","selector":"img","multiple":false,"delay":0},{"id":"-链接","parentSelectors":["bilibili_rank"],"type":"SelectorText","selector":"a.title","multiple":false,"delay":0,"regex":""}]}