对视频弹幕进行简单的数据分析与可视化

  • 概述:对B站视频中的弹幕进行数据采集与分析,实现如下目标:
    (1)分析某一视频的用户情感倾向;
    (2)从评论文本中挖掘出该视频的精彩片段;

 

  • 数据采集


(1)下载网页源代码(利用request库)

 

 

弹幕系统架构 弹幕分析系统_数据分析

 

用浏览器打开comments_file.xml文件,如下所示:

 

弹幕系统架构 弹幕分析系统_弹幕系统架构_02

(2)将抓取到的弹幕信息写入csv文件中,csv文件中为原始数据集

 

弹幕系统架构 弹幕分析系统_数据分析_03

 

 

  • 数据处理

 

进行数据分析时,从原始数据集中提取自己所需的数据,并根据后续要进行的数据分析对对采集获取的数据进行基本处理操作,包括中文分词、 停用词过滤等。具体过程见词频分析。

 

 

  • 数据分析

 

本次实例涉及的数据分析包括对视频弹幕进行词频分析、情感分析以及根据根据弹幕推断视频精彩片段所处时间。

 

(1)词频分析

 

从原始数据集中提取出弹幕内容,将全部弹幕整合成一个长字符串,调用jieba库对其进行分词操作得到word列表;

 

 

弹幕系统架构 弹幕分析系统_弹幕系统架构_04

 

提取弹幕内容

 

 

 

弹幕系统架构 弹幕分析系统_弹幕系统架构_05

 

分词

 

 

 

舍弃word列表中的单字项以及一些没有意义的词类似语气词等;

 

对保留下来的词项进行词频分析,统计每个此项出现的次数(可输出到控制台查看);

 

 

弹幕系统架构 弹幕分析系统_词频_06

弹幕系统架构 弹幕分析系统_弹幕系统架构_07

 

停用词过滤及统计词频

 

 

 

生成词云更加直观地了解词频信息。

 

弹幕系统架构 弹幕分析系统_情感分析_08

 

 

将词云图保存至wordCloud.html文件

 

 

弹幕系统架构 弹幕分析系统_数据分析_09

 

 

 

 

(2)情感分析:

 

主要依赖库:snownlp

 

官方描述:SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己实现的,并且自带了一些训练好的字典。注意本程序都是处理的unicode编码,所以使用时请自行decode成unicode。

 

简单来说,snownlp是一个中文的自然语言处理的Python库,支持的中文自然语言操作包括:中文分词、词性标注、情感分析、文本分类、转换成拼音、繁体转简体、提取文本关键词、提取文本摘要、tf,idf、Tokenization(分割成句子)、文本相似;对情感分析而言,官网没有介绍具体原理,但是指明购物类的评论的准确率较高,因为它的语料库主要是购物方面的。

 

 

弹幕系统架构 弹幕分析系统_词频_10

 

 

由饼状图可知,3600条弹幕中,积极弹幕约占将近半数,中立弹幕较多于消极弹幕;

 

在实际情况中,弹幕多存在调侃、重复经典台词、以及一些网络流行用语,字面表述可能与实际意义不符,会对情感分析造成很大的障碍。比如,打印被归为消极属性的弹幕,可以看到“没笔杆子,枪杆子只是个自爆炸弹”被判别为消极情绪,推测可能因为带有“自爆”“炸弹”而被判别为消极情绪,但实际上,它反映的的确是积极情绪。

 

 

 

弹幕系统架构 弹幕分析系统_词频_11

弹幕系统架构 弹幕分析系统_数据分析_12

 

 

注:

 

s.sentiments>0.6 positive

 

s.sentiments<0.4 negative

 

the others neutral

 

类似的误判不在少数,结合情感分析对应的语料库主要时购物方面,初步判断情感分析对弹幕内容的判别不够准确。

 

 

 

(3)精彩片段

 

根据弹幕时间统计视频播放到某一分钟发出的弹幕数量;

 

弹幕系统架构 弹幕分析系统_情感分析_13

 

 

据此,以时间为x轴,以弹幕数量为y轴可视化为折线图,明确发现在第4、13分钟左右的剧情更能引起观众共鸣;

 

 

弹幕系统架构 弹幕分析系统_数据分析_14

  • 结论展望 
  1. 就词频分析而言,可以从词云图中直观地看到用户对该视频的评价以及用户在观看当下内心的真实感受,反映了受众情感集结的内核;创作者可以据此优化创作目标,提高作品的受众率。
  2. 就情感分析而言,本实例中情感分析所得的结论可信度不高;准确的情感分析可以判断某视频内容对用户带来的影响;该站运营者可以据此筛选合理恰当的作品。
  3. 就精彩片段而言,折线图可以直观地展示出每集视频中或最引人注目、或最受人喜爱、或能引起用户其他共鸣的部分,对创作者以及运营商具有参考价值。