python 爬虫 token python 爬虫 b站

转载

西洋无悔 2023-10-08 08:40:55

文章标签 python 爬虫 token json Python 数据 文章分类 Python 后端开发

国庆假期，大家应该都出去浪了吧，不用想，各个景区应该都是人满为患了，大部分时间都花在排队上了。pk哥知道人多，哪儿也没去，就在附近转悠了下，在家闲着了。这不，为了给排队等待的朋友解闷，我这次对 b 站下手了。我用 Python 对 b 站的小视频进行了爬取，因为是小视频，大小平均在 5 兆以内。排队时，没网络也能看小姐姐了，爽啊。文末给出了源码获取方式。

b 站小视频地址：

http://vc.bilibili.com/p/eden/rank#/?tab=全部

http://vc.bilibili.com/p/eden/rank#/?tab=全部

python 爬虫 token python 爬虫 b站_python 爬虫 token

我爬取了每日的小视频排行榜，学会了每日的，爬取本周、本月的就非常简单了，改个标签就行，稍后详细分析会讲到。以下是爬取结果。

python 爬虫 token python 爬虫 b站_Python_02

项目环境

语言：Python3
工具：Pycharm

程序结构

python 爬虫 token python 爬虫 b站_python 爬虫 token_03

主要由 3 部分组成：

get_json()：提取目标网页的 json 数据信息。
downloader()：下载小视频并显示下载进度。
主函数：循环下载视频直到下载完毕。

代码分析

打开网站往下滑动，视频是动态加载的，打开调试工具，向下滑动加载视频，查看 Headers 中 url ，url 中前面部分的链接是不变的，提取出来。（左右滑动查看全部代码）

http://api.vc.bilibili.com/board/v1/ranking/top?

http://api.vc.bilibili.com/board/v1/ranking/top?

python 爬虫 token python 爬虫 b站_python 爬虫 token_04

观察下方参数的变化，发现只有 next_offset 这个字段在变，每次都比前一个多 10。

python 爬虫 token python 爬虫 b站_数据_05

这就好办了，我们把参数部分单独拿出来，把可变的 next_offset 写成变量，返回目标网页的 json 数据。

python 爬虫 token python 爬虫 b站_python 爬虫 token_06

接下来，我把小视频下载下来，为了美观，我做了个下载器，显示下载速度。效果如下。

python 爬虫 token python 爬虫 b站_json_07

此处有个地方需注意下，请求目标网页时必须带上此网页的 headers 信息，网站做了反爬操作，否则下载下来的视频是空的，部分代码如下。（ps：大家运行代码时把 headers 换成自己浏览器在本网页的 headers 即可）

python 爬虫 token python 爬虫 b站_json_08

主函数中为了提取更多视频，我们把 next_offset 这个变量做个循坏，然后从 json 数据中提取视频的标题和可下载的链接。观察下页面的 json 数据结构就可以轻松获取文章标题和下载链接数据。

python 爬虫 token python 爬虫 b站_python 爬虫 token_09

为了防止有些视频没有提供下载链接的情况，我加了异常处理，细心的朋友应该发现了文章前面给的效果图只有84个视频，原因就在此。最后，为了防止 ip 被封，设置了随机等待时间。其实，总体下来，不到 5 分钟，100 个视频可以全部下载完毕。

python 爬虫 token python 爬虫 b站_python 爬虫 token_10

今日排行榜的 100 个小视频搞定了，每周、每月的就简单了，get_json() 方法中参数 params 有个标签字段 tag，每日的是「今日热门」，每周的改成「每周热门」，每月的改成「每月热门」就搞定了。最后，祝大家国庆嗨到飞起！

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：Android 微信语音来电界面隐藏保存数据微信电话语音怎么隐藏

下一篇：REST参数 python requests rest api python

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯