本周我们的目标是:B(哔哩哔哩弹幕网 https://www.bilibili.com )视频评论数据。我们都知道,B有很多号称“镇之宝”的视频,拥有着数量极其恐怖的评论和弹幕。所以这次我们的目标就是,B视频的评论数据,分析其为何会深受大家喜爱。首先去调研一下,B评论数量最多的视频是哪一个。。。好在已经有大佬已经统计过了,我们来看一哈!【B大数据可视化】B评论数最多的视频究竟是?
pythonb弹幕并进行数据可视化1.第一步,b弹幕我们随便打开一个b视频打开开发者模式,在network下搜索list,可以找到该视频的弹幕文件 打开之后是这个样子的 结构还是比较简单的,我们后续数据也就比较方便 下面是弹幕的代码// An highlighted block from bs4 import BeautifulSoup#负责解析网页源码 import req
var userData = {}; var startPage = 0; var endPage = 0; var startTime = ""; var endTime = ""; var pickSum = 0; var dateItem = new Date(); function StartDraw(_startPage, _endPage, _startTime, _endTime,
转载 2018-12-26 21:33:00
182阅读
2评论
1. B博人传评论数据简介今天想了半天不知道抓啥,去B看跳舞的小姐姐,忽然看到了评论,那就抓取一下B评论数据,视频动画那么多,也不知道抓取哪个,选了一个博人传跟火影相关的,抓取看看。 在这个网页看到了18560条短评,数据量也不大,抓取看看,使用的还是scrapy。2. B博人传评论数据案例—获取链接从开发者工具中你能轻易的得到如下链接,有链接之后就好办了,如何创建项目就不在啰嗦了,
b评论由js加载,所以我们有两种方法获取, 第一种用selenium,拖拽导航条,刷新出评论再抓取(效率低且代码量大) 第二种直接找到js接口去获取数据先说下我一开始的思路 我刚开始不确定是xhr还是js,所以现在xhr中找,发现并没有,于是搜索了js,发现在这个接口里 page代表页数和评论数量,replies是所有评论的内容于是我们开始分析这个接口的参数 刚开始我以为callback是js
Python】使用Python根据BV号对应B视频下的所有评论(包括评论下的回复)本文写于2020-4-27,当你阅读到本文的时候如果因为下列原因导致本文代码无法正常工作,本人概不负责。B的页面和API接口的变动B为页面和API加入了反爬虫机制,或者对请求首部有了新的要求Python版本的变动和标准库的调整BeautifulSoup4的变动使用到的库【第三方库】:BeautifulSo
爬虫时遇到很多数据并不在访问网址的返回包里,而是随着用户下拉逐步加载的,也就是用到了Ajax,那么这时我们该如何我们想要的数据呢?这里用b评论区相关数据为例,练习一下python爬虫异步数据的相关流程,完整程序实例在最后面:准备工作用到的包:import requestsimport time爬虫相关主要还是requests包,练习用脚本本身也并不复杂。根据写一个爬虫脚本的一般流程,
import requests import time from bs4 import BeautifulSoup import json # 必要的库 def get_html(url): headers = { 'accept': 'text/html,application/xhtml+xml
原创 2022-01-20 11:35:53
396阅读
文章目录一.准备工作1.工具二.思路1.整体思路2.爬虫思路三.分析网页1.分析数据加载方式2.分词接口url3.分析用户名(mid)四.撰写爬虫五.得到数据六.总结 上次写了篇 python3网络爬虫–b视频评论用户信息(附源码) 效果良好,因此再写一篇取用户投稿视频的爬虫,思路简单一些。不过本次将数据存储到了MySQL数据库。 本次实现:手动输入用户id,程序根据id此用户的
转载 23天前
72阅读
观察这个页面包含的信息,包括[标题][播放量][视频弹幕数量][up主姓名]…常规操作,F12查看这些数据源码所处的位置 ?日榜100名的list列表 ?每一个item中数据所在位置了解到结构后,就可以开始写爬虫了。首先爬虫需要的几个库,没有的话(pip install ***)BeautifulSoup4(解析html页面)requests(发送请求)datetime(最后在文件中加入日期)j
心血来潮搞了一个简单的爬虫,主要是想知道某个人的b账号,但是你知道,b站在搜索一个用户时,如果这个用户没有投过稿,是搜不到的,,,这时就只能想方法搞到对方的mid,,就是 space.bilibili.com/9444976 后面的那一串数字。偶然看到这个人关注了某个主播,,想到可能这个人会回复主播的视频,于是想着爬到所有up下的视频的评论对应的用户,这样我就可以在数据库里检索昵称得到mid,,
  最近新学了点爬虫基础,拿b评论试试。 首先,要知道b是不可能把评论都放在一个html文件里发给你,即便打开chrome的开发者工具也只会看到如下图的样子 ,这里用的是b后浪视频做例子(图片请在新标签页打开,压缩的太狠了)  细心的同学会发现,在网页端打开一个视频主页向下拖动至评论区的时候,会看到一闪而过的“正在加载“字样,随后评论才被加载出来,而网页url并未改变也没有刷新,这意味着评论
转载 2023-09-15 15:16:50
2280阅读
先看分析下页面右边 li 标签中的就是短评信息,一共20条。一般我们加载大量数据的时候,都会做分页,但是这个页面没有,只有一个滚动条。随着滚动条往下拉,信息自动加载了,如下图,变40条了。由此可见,短评是通过异步加载的。我们不可能一次性将滚动条拉到最下面,然后来一次性获取全部的数据。既然知道是通过异步来加载的数据,那么我们可以想办法直接去获取这些异步的数据。打开 Network 查看分析 http
Python爬虫学习基础——5分钟学会B视频日播放量排行基础包含requestspyquery进入正题 基础包含这也是我当初第一次学习爬虫时做的练习,感觉给初学者练笔挺不错的。运用的知识也不是太多,只运用了requests库以及pyquery的相关知识,就算是小白花几个小时也完全可以掌握。requestsrequests库相对于我们以前使用的urllib有着更强大的处理网页能力,大部分操作
文章目录一.准备工作1.工具二.思路1.整体思路2.爬虫思路三.分析网页1.分析网页加载方式2.分析数据接口3.获取oid四.撰写爬虫五.存储数据六.总结 你爱我,我爱你,蜜雪冰城甜蜜蜜…最近被蜜雪冰城的宣传洗脑了,相关视频播放量很高,b视频评论区都是人才说话好听,写个爬虫一下b评论区用户信息和评论内容。(修改于2021-06-25)一.准备工作1.工具(1)Chrome 谷歌浏览器 安
很多网页的信息都是通过异步加载的,本文就举例讨论下此类网页的抓取。 《工作细胞》最近比较火,bilibili 上目前的短评已经有17000多条。先看分析下页面 右边 li 标签中的就是短评信息,一共20条。一般我们加载大量数据的时候,都会做分页,但是这个页面没有,只有一个滚动条。随着滚动条往下拉,信息自动加载了,如下图,变40条了。由此可见,短评是通过异步加
选择的淘宝产品是olay官方旗舰店下的产品,点击到评价页面之后,打开网页源代码,找到评论的链接如下所示接下来就是的过程了,找到链接: rate.tmall.com/list_det 为了发现不同页数URL链接的区别,多选择几页 rate.tmall.com/list_det 随后你就会发现,变化的参数是currentPage,_ksTS,callback,其中主要的参数是curre
步骤(本次爬虫仅以一个视频为示例:​​链接​​)查找评论请求api解析URL 去掉第一个和最后一个参数可得评论URL,即:https://api.bilibili.com/x/v2/reply?jsonp=jsonp&pn=1&type=1&oid=585286365&sort=2 【其中pn是页码;sort控制排序顺序,1按时间排序,2按热度排序;oid代码视频编
原创 2022-03-28 15:09:02
648阅读
1. B博人传评论数据简介今天想了半天不知道抓啥,去B看跳舞的小姐姐,忽然看到了评论,那就抓取一下B评论数据,视频动画那么多,也不知道抓取哪个,选了一个博人传跟火影相关的,抓取看看。网址: https://www.bilibili.com/bangumi/media/md5978/?from=search&seid=16013388136765436883#short 在这个网
步骤(本次爬虫仅以一个视频为示例:​​链接​​)查找评论请求api解析URL 去掉第一个和最后一个参数可得评论URL,即:https://api.bilibili.com/x/v2/reply?jsonp=jsonp&pn=1&type=1&oid=585286365&sort=2 【其中pn是页码;sort控制排序顺序,1按时间排序,2按热度排序;oid代码视频编
原创 2022-03-28 15:56:02
323阅读
  • 1
  • 2
  • 3
  • 4
  • 5