Python 爬虫把贴吧的评论提取出来 python爬取贴吧数据

转载

mob6454cc620c34 2023-10-11 08:48:27

文章标签 python贴吧系统 chrome 百度百度贴吧 文章分类 Python 后端开发

【一、项目背景】

百度贴吧是全球最大的中文交流平台，你是否跟我一样，有时候看到评论区的图片想下载呢？或者看到一段视频想进行下载呢？

今天，小编带大家通过搜索关键字来获取评论区的图片和视频。

Python 爬虫把贴吧的评论提取出来 python爬取贴吧数据_chrome

【二、项目目标】

实现把贴吧获取的图片或视频保存在一个文件。

【三、涉及的库和网站】

1、网址如下：

Python 爬虫把贴吧的评论提取出来 python爬取贴吧数据_百度_02

2、涉及的库：requests、lxml、urrilb

【四、项目分析】

1、反爬措施的处理

前期测试时发现，该网站反爬虫处理措施很多，测试到有以下几个：

（1）直接使用requests库，在不设置任何header的情况下，网站直接不返回数据。

（2）同一个ip连续访问40多次，直接封掉ip，起初我的ip就是这样被封掉的。为了解决这两个问题，最后经过研究，使用以下方法，可以有效解决。获取正常的 http请求头，并在requests请求时设置这些常规的http请求头。

2.如何实现搜索关键字？

通过网址我们可以发现只需要在kw=() ，括号中输入你要搜索的内容即可。这样就可以用一个{}来替代它，后面我们在通过循环遍历它。

【五、项目实施】

1、创建一个名为BaiduImageSpider的类，定义一个主方法main和初始化方法init。导入需要的库。

Python 爬虫把贴吧的评论提取出来 python爬取贴吧数据_chrome_03

2、准备url地址和请求头headers 请求数据。

Python 爬虫把贴吧的评论提取出来 python爬取贴吧数据_chrome_04

截图不完整请见谅

3、用xpath进行数据分析

3.1、chrome_Xpath插件安装

（1）这里用到一个插件，能够快速检验我们爬取的信息是否正确。具体安装方法如下。

（2）百度下载chrome_Xpath_v2.0.2.crx， chrome浏览器输入：chrome://extensions/

Python 爬虫把贴吧的评论提取出来 python爬取贴吧数据_百度_05

（3）直接将chrome_Xpath_v2.0.2.crx拖动至该扩展程序页面。

（4）如果安装失败，弹框提示“无法从该网站添加应用、扩展程序和用户脚本”，遇到这个问题，解决方法是：打开开发者模式，将crx文件（直接或后缀修改为rar）并解压成文件夹，点击开发者模式的加载已解压的扩展程序，选择解压后的文件夹，点击确定，安装成功。

3.2、chrome_Xpath插件使用

上面我们已经安装好了chrome_Xpath插件，接下来我们即将使用它。

（1）打开浏览器，按下快捷键F12 。

（2）选择元素，如下图所示。

Python 爬虫把贴吧的评论提取出来 python爬取贴吧数据_百度_06

（3）右键，然后选择，“Copy XPath”，如下图所示。

Python 爬虫把贴吧的评论提取出来 python爬取贴吧数据_百度_07

3.3、编写代码，获取链接函数。

上面我们已经获取到链接函数的Xpath路径，接下来定义一个获取链接函数get_tlink，并继承self，实现多页抓取。

Python 爬虫把贴吧的评论提取出来 python爬取贴吧数据_百度_08

4、保存数据

这里定义一个write_image方法来保存数据，如下所示。

Python 爬虫把贴吧的评论提取出来 python爬取贴吧数据_百度贴吧_09

截图不完整请谅解注：@data-video是网址中的视频，如下图所示。

Python 爬虫把贴吧的评论提取出来 python爬取贴吧数据_chrome_10

【六、效果展示】

1、点击运行，如下图所示（请输入你要查询的信息）：

Python 爬虫把贴吧的评论提取出来 python爬取贴吧数据_百度_11

2、以吴京为例输入，回车：

Python 爬虫把贴吧的评论提取出来 python爬取贴吧数据_chrome_12

3、将图片下载保存在一个名为“百度”文件夹下，这个文件夹需要你提前在本地新建好。务必记得提前在当前代码的同级目录下，新建一个名为“百度”的文件夹，否则的话系统将找不到该文件夹，会报找不到“百度”这个文件夹的错误。

Python 爬虫把贴吧的评论提取出来 python爬取贴吧数据_百度_13

4、下图中的MP4就是评论区的视频。

Python 爬虫把贴吧的评论提取出来 python爬取贴吧数据_chrome_14

七、【总结】

1、不建议抓取太多数据，容易对服务器造成负载，浅尝辄止即可。

2、本文基于Python网络爬虫，利用爬虫库，实现百度贴吧评论区爬取。就Python爬取百度贴吧的一些难点，进行详细的讲解和提供有效的解决方案。

3、欢迎大家积极尝试，有时候看到别人实现起来很简单，但是到自己动手实现的时候，总会有各种各样的问题，切勿眼高手低，勤动手，才可以理解的更加深刻。学习requests 库的使用以及爬虫程序的编写。

4、通过本项目可以更快的去获取自己想要的信息。

欢迎大家点赞，留言，转发，感谢大家的相伴与支持

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：python调用sudo python调用算法

下一篇：mac 启动 mysql mac 启动盘

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

Python 爬虫 把贴吧的评论提取出来 python爬取贴吧数据

Python 爬虫 把贴吧的评论提取出来 python爬取贴吧数据

51CTO博客

Python 爬虫把贴吧的评论提取出来 python爬取贴吧数据

Python 爬虫把贴吧的评论提取出来 python爬取贴吧数据