本人比较喜欢段子,平时也经常上糗百。所以这次作业也想尝试一下爬取糗百的内容。

 

网站链接:https://www.qiushibaike.com/

 

爬虫实战|爬糗事百科段子_代码

网站截图

 

主要想爬取的数据有段子内容、用户、投票数、评论数、热门评论等等。其实没有用什么特别的技巧,也没有什么反爬机制,所以比较简单,用xpath来进行定位获取相应的内容就行。

具体的步骤就不详细说明了,po上代码:

爬虫实战|爬糗事百科段子_代码_02爬虫实战|爬糗事百科段子_代码_03

爬虫实战|爬糗事百科段子_代码_04

爬虫实战|爬糗事百科段子_代码_05

爬虫实战|爬糗事百科段子_代码_06

爬虫实战|爬糗事百科段子_代码_07

 

爬取的部分内容如下:

 

爬虫实战|爬糗事百科段子_代码_08

内容截图

 

学习了一段时间,倒是能爬取很多东西了。但是学习这件事情,真的没有终点,也意识到和小O、朱老师这样的大神,还有很大的差距。

不过还是非常高兴学习,也很高兴在群里和大家一起讨论问题、学习经验,确实少走了不少弯路。

 

爬虫实战|爬糗事百科段子_代码_09