知乎热榜

知乎热榜地址 https://www.zhihu.com/hot  (其实知乎还有个单独的热榜页面https://www.zhihu.com/billboard ),这里新增一个type Element attribute ,因为之前抓取豆瓣链接用的 link,它把文字也抓取了,而我们只要里面的href属性。

同样的先创建一个element的容器。

里面加4个选择器:知乎排名 ,知乎标题, 知乎链接 ,知乎热度 。

不用写代码,Chrome 扩展神器 web scraper 抓取知乎热榜/话题/回答/专栏,豆瓣电影_编程

预览下数据没问题。

不用写代码,Chrome 扩展神器 web scraper 抓取知乎热榜/话题/回答/专栏,豆瓣电影_编程_02

开始抓取数据并导出CSV文件。

不用写代码,Chrome 扩展神器 web scraper 抓取知乎热榜/话题/回答/专栏,豆瓣电影_编程_03

不过生成的CSV文件排序乱了  。

不用写代码,Chrome 扩展神器 web scraper 抓取知乎热榜/话题/回答/专栏,豆瓣电影_编程_04

在排序和筛选里按照排名重新排下就好了(如果需要更复杂的排序可以借助Python的pandas),看最后的结果。

不用写代码,Chrome 扩展神器 web scraper 抓取知乎热榜/话题/回答/专栏,豆瓣电影_编程_05

不过有个问题,热榜里的广告没有热度,所以结果为null。

为了方便大家学习抓取,我导出了sitemap,你可以直接导入使用。