1. 先看效果图,随便抓的信息2. 解析 ,fiddler抓包工具的配置大家自己百度吧,教程都很详细3. 打开fiddler和模拟器,在模拟器打开哔哩哔哩软件,fiddler我是通过查找分析之后之后过滤的域名4. 我们通过打开b站的相应版块,然后进行往下翻页之后,fiddler就会根据我之前选择过滤的域名给我标黑5. 我们点开其中一条标黑的url,然后和b站软件的进行对比,发现我们需要的信息都可以
前言继接口爬取和网页页面爬取两个练习后,闲着无聊我也四处去找一些合法网站练手,而这次想要爬取的网站是集鬼畜、二次元、学习等元素于一身的b站中的完结动画。废话不多说,开始我们的爬取。步骤1:进入开发者模式通过分析,可以知道我们要爬取的数据没有对应的接口文件,这就说明我们只能通过爬取网页的方法进行。经过分析,我们可以得出我们想要的数据的路径为div[@class=” vd-list-cnt”]/ul/
转载
2023-10-17 19:37:20
116阅读
该篇文章为"行路难=_="原创期末的Python考试要写一个爬取网站信息的程序,我就选取了b站番剧索引页面作为目标网页(因为感觉番剧主页的信息太杂了。)原本打算魔改老师给的范例使用BeautifulSoup库来解析html获取数据的, 但是在运行的时候发现。好像获取不了数据?原先使用的代码: app.py (主程序)import requests
from bs4 import Beautiful
转载
2023-11-25 13:18:52
366阅读
首先:分析b站的番剧索引网页:https://www.bilibili.com/anime/index/由图可知我们我们想要的图片是动态加载的,request请求不到。这时我们可以用selenium模块解决,但是该模块爬取速度太慢了,我们这里采用另一种方法。另一种方法则是找出加载出这些数据的文件,有时这些动态的数据会被直接放在js中,有时会向服务器发送请求来得到数据,有一种常用的请求方式就是Aja
转载
2023-12-11 16:37:42
142阅读
爬虫流程爬取链接通过链接爬取内容(以爬取b站番剧信息为例,利用requests和bs4等库。) 1.爬取链接 由于每部番都有相应的media_id,简称md。所以只需爬取md后加到链接 https://www.bilibili.com/bangumi/media/md 的后面 即可获得番剧对应的链接。 例如:https://www.bilibili.com/bangumi/media/md1023
转载
2023-11-28 15:14:18
650阅读
分享几个看番剧的网站和APP
原创
2021-06-24 11:04:14
8194阅读
B站弹幕爬取并制成词云前言作为一个经济学学生,数据分析和可视化是一定要掌握的,从今天开始进行一些Python项目的记录,就不进行Python基础知识的讲解了!一、B站弹幕的爬取弹幕地址获取import re
import requests
import urllib
import bs4
def main():
url = "你要爬的视频的地址"
datalist = get_html
转载
2023-11-30 13:07:59
237阅读
废话不多说,直接上代码:https://github.com/hilqiqi0/crawler/tree/master/simple/bilibili%20-%20redis一、项目介绍:爬取bilibili网站上的全部视频信息(不包含直播;广告和放映厅栏);信息量为千万级,爬取任务较为重,所以采取分布式爬虫。二、说明:a、设备说明:  
搞定b站大会员和限制港澳台番剧。
原创
2021-06-24 14:25:05
10000+阅读
python爬虫B站番剧B站番剧的爬取和普通视频有所不同,下面是我爬取刺客伍六七的方法一、获取视频名字像这种视频类的url不会再页面源代码里,但是我们可以看看视频的名字能不能找到。我们可以看到,在页面源代码中,我们可以找到视频的名字。然后,我就用xpath的方法将这个名字给提取了出来。def get_name(url):
resp = requests.get(url)
html
转载
2023-08-09 16:47:42
523阅读
最近,鸭哥被朋友推荐了一部番,拿到番剧名字后的第一件事,就是先上B站看看有没有资源,但搜索之后一看——区域限制。???有什么番是我们这些高贵的会员们不能看的吗? 当然,这种情况的发生,主要还是和B站的版权问题有关,笔者注意到,有区域限制的番剧还是挺多的,其中也不乏今年才上的新番。正当鸭哥准备遗憾地关闭网站时,突然想起自己以前逛github的时,曾看到过一个关于如何解除B站区域限制的项目。当时看到这
原创
2021-03-21 11:52:20
1328阅读
最近,鸭哥被朋友推荐了一部番,拿到番剧名字后的第一件事,就是先上B站看看有没有资源,但搜索之后一看——区域限制。???有什么番是我们这些高贵的会员们不能看的吗? 当然,这种情况的发生,主要还是和B站的版权问题有关,笔者注意到,有区域限制的番剧还是挺多的,其中也不乏今年才上的新番。正当鸭哥准备遗憾地关闭网站时,突然想起自己以前逛github的时,曾看到过一个关于如何解除B站区域限制的项目。当时看到这
原创
2021-03-04 13:43:40
2714阅读
刚打开b站准备学习,看到了动态上面一个小红点。忍不住点开进去,然后说 “看完这个就学习”。最后花了几个小时才停下来。于是痛定思痛,取消所有up主的关注,这样就不会推送消息了。但是一个个点击取消关注太慢了,还要进up主页,点取消关注,再点关注才行。老子要一次性全部取消。1.首先要进入动态,获取所有关注up主的uid。找到了请求接口 然后写出get请求即可。(先不考虑cookies,之后会提到)hea
转载
2024-09-01 16:59:00
444阅读
bilibili用户信息爬虫0. 成果1. 环境开发环境服务器客户端管理程序语言C++11C++11C++11开发环境Linux/vim/xmakeVS2017VS2017+Qt5.12运行环境LinuxWindows / LinuxWindows其他环境配置项值数据库MySQL-8.0.20客户端是在Windows下开发的,但是代码可以直接放到到Linux上编译运行。管理程序是在Windows下
转载
2023-07-04 23:24:30
251阅读
在这篇博文中,我们将深入探讨如何使用 Python 编写爬虫,以获取哔哩哔哩(B站)的数据。这是一个极具挑战性但又非常有趣的项目,我们将从多个角度来解析这个过程,帮助大家更好地理解爬虫的实现。
在过去的几个月中,越来越多的人对网络爬虫产生了浓厚的兴趣。我决定在这个过程中记录下来,以便将来可以回顾并帮助其他同样希望学习如何爬取B站数据的人。下面是我在2023年1月至2023年9月期间的学习过程的时
话不多说,直接进入正题,这次采集的对象是B站吃播up主,山药村二牛,本人一直挺喜欢他的视频,所以想采集一下他的视频信息,然后分析数据,看下他视频的情况。 首先是爬虫部分,采集的逻辑是从视频页将每个视频的信息和地址采集下来,再请求地址采集视频的弹幕。 进入视频页,https://space.bilibili.com/382534165/video,将中间的id换掉就是其他up主了。查看源码并
转载
2023-07-10 15:51:35
375阅读
国庆假期,大家应该都出去浪了吧,不用想,各个景区应该都是人满为患了,大部分时间都花在排队上了。pk哥知道人多,哪儿也没去,就在附近转悠了下,在家闲着了。这不,为了给排队等待的朋友解闷,我这次对 b 站下手了。我用 Python 对 b 站的小视频进行了爬取,因为是小视频,大小平均在 5 兆以内。排队时,没网络也能看小姐姐了,爽啊。文末给出了源码获取方式。b 站小视频地址:http://vc.bi
转载
2023-10-08 08:40:55
87阅读
要使用Python 抓取网页,首先我们要学习下面四个模块:包作用webbrowser打开浏览器获取指定页面;requests从因特网下载文件和网页;Beautiful Soup解析HTML,即网页编码的格式;selenium启动并控制一个Web 浏览器,能够填写表单,并模拟鼠标点击。小项目:利用webbrowser 模块的bilibiliSearch.pywebbrowser 模块的open()函
转载
2023-08-09 18:54:12
97阅读
# B站爬虫分析与Python应用
## 引言
随着数据的飞速发展,网络爬虫的需求也越来越大。网络爬虫是一种自动获取网页信息的程序,可以帮助我们在特定网站上抓取数据。在这篇文章中,我们将以哔哩哔哩(B站)为例,分析如何使用Python编写一个简单的爬虫,来获取一些有趣的数据。
## 爬虫基本原理
网络爬虫的基本原理是,通过发送HTTP请求获取网页内容,然后解析HTML文档,从中提取出我们需
# 如何实现 Python 爬虫 B站弹幕
B站(哔哩哔哩)是中国一个知名的视频分享平台,它的弹幕文化深受用户喜爱。通过 Python 爬虫技术,我们可以抓取某个视频的弹幕数据。下面,我将详细介绍如何实现这一过程,包括必要的步骤和代码。
## 整体流程
在开始之前,我们需要清楚整个流程。以下是实现 B站弹幕爬虫的主要步骤:
| 步骤 | 描述