利用python数据结构(list, dict, set等)完成简单的文本分析任务。弹幕是现下视频网站,尤其是短视频网站提供的关键功能之一。以B站为例,其有着特殊的弹幕文化,且在视频的不同部分往往会有不同话题的弹幕:比如在视频开头会出 现“来啦”“x小时前”“第一!”;在up主暗示一键三连之后常常会出现“下次一定”或者“你币有 了”;和up主建立默契之后,观众可以判断视频是否有恰饭,往往在广告之前
文章目录成果展示项目地址爬取弹幕下载代码样例输入样例输出数据处理数据分析词频分析情感分析精彩片段高能时刻福利情节成果展示项目地址完整代码可在我的github中下载:https://github.com/XavierJiezou/python-danmu-analysis爬取弹幕下载代码# download.py '''依赖模块 pip install requests ''' import re
转载 2023-07-27 20:52:49
2369阅读
引言:这几天正不知道写点分析点什么有意思的事情,于是去b站上我的日常大学去了。我不看“微薄”的·,比较喜欢在b站去水。这两天突然看到推到热搜的力宏的视频。打开一看,也就这两天的弹幕。不管了,先分析一波力宏的弹幕。做一个吃瓜群众的弹幕云。岂不妙哉?上次做过一个很励志的弹幕,这次也这样做,代码基本没有改变。因为个人后面做的分词基本都是一样的。但是每次分析网站并没有那么简单。这次还得去重新从b站去检查
原创 2022-01-19 15:49:19
264阅读
引言:这几天正不知道写点分析点什么有意思的事情,于是去b站上我的日常大学去了。我不看“微薄”的·,比较喜欢在b站去水。这两天突然看到推到热搜的力宏的视频。打开一看,也就这两天的弹幕。不管了,先分析一波力宏的弹幕。做一个吃瓜群众的弹幕云。岂不妙哉?上次做过一个很励志的弹幕,这次也这
原创 2022-02-18 17:32:35
232阅读
1. 情感分析综述情感分析也称为意见挖掘,是自然语言处理(NLP)中的一个领域,它试图在文本中识别和提取意见。情感分析有很多的应用场景,例如社交媒体监控、品牌监控、客户之声、客户服务、员工分析、产品分析、市场研究与分析等等。实现情感分析的方法有很多,大体上分为两大类,第一类为基于词典规则的方法,第二类为基于机器学习的方法。1.1 基于词典的方法基于词典的方法主要通过制定一系列的情感词典和规则,对文
(一)选题背景:此数据分析能根据视频播放量、评论数、弹幕数等清晰观察到观众的喜好,还有视频博主喜欢做的视频主题,分析一段时期的网络热度、关注点在哪。(其实一开始只是想爬喜欢的UP的数据)预期目标:通过程序得到一些视频的相关数据,并能直观看出数据的大小、随时间变化这些数据的起伏,以及它们之间的关系。(二)主题式网络爬虫名称:B站视频弹幕爬虫主题式网络爬虫爬取的内容与数据特征分析:视频有title标题
转载 2023-10-09 16:51:09
237阅读
又差不多到了过年的的时候咯。不知道几年的b站拜年祭会怎么样呢?这时让我想起了B站第一次的拜年祭,如果我没记错的话第一次拜年祭是在2015年吧。我当初也是和大伙一起看了的。最近无聊去看了看,发现视频的弹幕还真是漫天飞啊。咦,弹幕都发了什么呢?作为一个苦逼的码农,为什么不用工具(py)分析一波呢?emmmm,首先肯定是要获取到视频的弹幕啦。2015年拜年祭历史弹幕如下图:有了数据没有图表怎么行呢?#
一 . Java爬取B站弹幕 弹幕的存储位置 如何通过B站视频AV号找到弹幕对应的xml文件号 首先爬取视频网页,将对应视频网页源码获得 就可以找到该视频的av号aid=8678034 还有弹幕序号,cid=14295428 弹幕存放位置为 http://comment.bilibili.com/1
原创 2021-06-04 20:08:46
520阅读
对视频弹幕进行简单的数据分析与可视化 概述:对B站视频中的弹幕进行数据采集与分析,实现如下目标:(1)分析某一视频的用户情感倾向;(2)从评论文本中挖掘出该视频的精彩片段; 数据采集(1)下载网页源代码(利用request库)   用浏览器打开comments_file.xml文件,如下所示: (2)将抓
文章目录0 引言1 准备工作2 主程序3 分析与改进4 可能出现的报错及解决方案 0 引言什么是分析云图,也叫文字云,是对文本中出现频率较高的“关键”予以视觉化的展现,云图过滤掉大量的低频低质的文本信息,使得浏览者只要一眼扫过文本就可领略文本的主旨。1 准备工作前段时间学习了爬虫技术,并自己尝试着对一些信息进行爬取。完成了一个对天猫商品评论的爬虫项目,并将爬取到的评论存到了Exce
转载 2023-09-22 20:56:51
382阅读
1. 黑神话悟空背景介绍最近黑神话悟空这款游戏可谓红遍大江南北,不仅IGN给出了8分的高分,就连央视新闻都有报道。作为国内第一款单机大作:出圈的是游戏,输出的是中国文化,受到了广大游戏玩家的追捧和赞扬。针对此热门事件,老王我用python爬虫和情感分析技术,针对B站的弹幕数据,分析了黑神话悟空这款热门游戏弹幕的舆论导向,并生成了云图,下面我们来看一下,python代码是如何实现的。2. B站弹幕
原创 精选 2024-09-20 17:18:12
810阅读
2评论
一、概念共现聚类分析法,通过文献计量和聚类统计的方法,计算主题词之间的联系密切程度(在同一篇文献共同出现的频率),将距离较近的主题词聚集在一起,形成一个个概念相互独立的类团,使得类团内属性相似性最大,类团间属性相似性最小。二、关键流程1、聚类时距离的确定在进行聚类分析时,类组合的确定有两种概念方式,一是类与类之间的距离,二是点与点之间的距离。(1)类间距离:例如组间距离法(2)点间距离:例如欧氏距
转载 2023-11-11 22:32:27
183阅读
如果你懒得看下边的文字,我录了一个完整的教学视频在b站上。我的B站教学:https://www.bilibili.com/video/av75377135?p=2工作原理b站是提供弹幕接...
原创 2021-07-07 11:12:15
402阅读
1点赞
如果你懒得看下边的文字,我录了一个完整的教学视频在b站上。我的B站教学:https://.bilibili.com/video/av75377135?p=2工作原理b站是提供弹幕接...
原创 2022-03-14 16:58:50
10000+阅读
聚类分析和主成分分析 来自黄思思(浙江大学八年制医学生,生信技能树全国巡讲杭州站优秀学员)投稿聚类分析 01系统聚类 示例数据一:现有16种饮料的热量、咖啡因含量、钠含量和价格的数据,根据这4个变量对16饮料进行聚类。 这里展示的是离差平方和法(WARD)进行系统聚类。它基于方差分析的思想,同类样品之间的离差平方和应当较小,不同类之间的离差平方和应当较大。> hea
“垃圾分类”大家怎么说?用Python分析b站弹幕  目录 0 引言1 环境2 需求分析3 代码实现4 后记0 引言 纸巾再湿也是干垃圾?瓜子皮再干也是湿垃圾??最近大家都被垃圾分类折磨的不行,傻傻的你是否拎得清?自2019.07.01开始,上海已率先实施垃圾分类制度,违反规定的还会面临罚款。为了避免巨额损失,我决定来b站学习下垃圾分类的技巧。为什么要来b站
在这篇文章中,我们将讨论如何使用 `iostat` 工具分析磁盘的健康状况和性能表现。随着数据量的激增,磁盘的性能对于整个系统的响应速度至关重要,因此了解如何解读 `iostat` 的输出数据显得尤为重要。 问题背景 在日常运维过程中,我们常常会发现磁盘的读写性能下降,系统变得迟缓,用户体验也随之降低。例如,使用 `df -h` 命令检查磁盘使用情况时,发现某个磁盘的使用率高达95%,而在查
原创 6月前
59阅读
一.选题背景1.背景:爬虫是从互联网上抓取对于我们有价值的信息。选择此题正是因为随着信息化的发展,大数据时代对信息的采需求和集量越来越大,相应的处理量也越来越大,正是因为如此,爬虫相应的岗位也开始增多,因此,学好这门课也是为将来就业打下扎实的基础。bilibili在当今众多视频网站中,有许多年轻人都在使用这个软件,通过爬取其中热门视频的弹幕可以了解最近年轻人都在看些什么,可以进一步了解现阶段年轻人
转载 2023-08-10 11:37:31
388阅读
环境介绍python 3.8pycharmrequests >>> pip install requestspyecharts >>> pip install pyecharts视频弹
原创 2022-05-23 16:36:43
83阅读
Python基于WordCloud云图的数据可视化分析 云图的基本使用 政府工作报告分析 文章目录1、云图简介2、wordcloud库的安装3、WordCloud的主要参数说明4、绘制云图1、获取并处理文本信息2、将白底的轮廓图片转换成array形式3、生成云并保存成文件 1、云图简介词云图,也叫文字云,是对文本数据中出现频率较高的“关键”在视觉上予以突出,形成“关键的渲染”,类似
  • 1
  • 2
  • 3
  • 4
  • 5