本人比较喜欢段子,平时也经常上糗百。所以这次作业也想尝试一下爬取糗百的内容。
网站链接:https://www.qiushibaike.com/
网站截图
主要想爬取的数据有段子内容、用户、投票数、评论数、热门评论等等。其实没有用什么特别的技巧,也没有什么反爬机制,所以比较简单,用xpath来进行定位获取相应的内容就行。
具体的步骤就不详细说明了,po上代码:
爬取的部分内容如下:
内容截图
学习了一段时间,倒是能爬取很多东西了。但是学习这件事情,真的没有终点,也意识到和小O、朱老师这样的大神,还有很大的差距。
不过还是非常高兴学习,也很高兴在群里和大家一起讨论问题、学习经验,确实少走了不少弯路。