Python爬虫 | 爬取b站北京奥运会开幕式弹幕，有多少人从东京奥运会跑过来的？

推荐原创

wx60f8dfacbe28e 2021-07-29 16:16:43 博主文章分类：Python爬虫 ©著作权

文章标签 python 爬虫 requests post 奥运会 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者wx60f8dfacbe28e的原创作品，请联系作者获取转载授权，否则将追究法律责任

是这样的，这几天奥运会，我忍不住想起了北京奥运会开幕式的壮观，在b站回看了2008年我们北京奥运会的开幕式，看到这满屏的打卡，内心引起强烈的共鸣，深有感触满屏弹幕这时候我不禁想，在这b站里面，到底有多少人是从东京奥运会来的呢，话不多说，马上用 requests 和 pyquery 开始爬取弹幕。

首先

安装 requests 和 pyquery 库：

pip install requests
pip inatall pyquery

导入：

import requests
from pyquery import PyQuery as pq

网页分析

首先来到b站搜索北京奥运会，进入视频，网址： https://www.bilibili.com/video/BV1AN411Z7wf

右键菜单点击检查元素，进入Network（网络）栏，开始录制。

这时候我们展开历史弹幕，可以看到出现了许多以seg.so开头的链接，其中oid后跟着的就是我们这个视频的 oid 。 oid 不过由于弹幕太多，我展开历史弹幕时，整个网页都卡了（不过这也侧面衬托出了北京奥运会开幕式的精彩与震撼）如果你不想遇到这样子的情况，你也可以刷新网页，看到以一串数字开头的链接，这串数字就是 oid：另一种方式接下来把 oid 拼接到弹幕API，就能得到弹幕的xml地址，我们通过这个地址发送请求获取弹幕：

https://api.bilibili.com/x/v1/dm/list.so?oid=373384747

3. 发送请求

进入API我们可以看到这样子：在这里插入图片描述我们直接用 get 来获取HTML：

url = 'https://api.bilibili.com/x/v1/dm/list.so?oid=373384747' # 网址
headers = {'cookie': 'bsource=...'} # 请求头
result = requests.get(url, headers=headers)
result.encoding='utf-8'

获取到HTML文件后，我们用 pyquery 寻找d节点，即含有弹幕内容的节点：

html = pq(result.content) # content 返回服务器响应数据的原始二进制字节流
l = html.find('d') # 寻找 d节点，返回一个迭代器

接下来我们遍历 l，打印出弹幕内容试试：

for i in l:
    print(i.text) # 获取i的文本内容

在这里插入图片描述可以看到我们已经获得了所有弹幕，现在我以“2021”、“日本”、“东京”为关键词，统计包含这些词的弹幕数量。

num = int()

for i in l:
    if '2021' in i.text or '东京' in i.text or '日本' in i.text:
        num += 1

print(len(l))
print(num)
print(str(round(num/len(l), 3)) + '%')