毕业设计(论文)题目 基于Python的高校贴吧数据可视化分析
学生姓名 班级 学号
研究目的和意义:
目的:随着大数据时代的到来,大数据分析已经与人们的生活密切相关。考量到百度贴吧是当前高校大学生最集中的网络交互环节之一,在百度贴吧中每位网民均有平等的话语权,较之调查问卷更易表达出自己的真实意见,同时发帖与回帖之间更易形成交互产生思想的碰撞,使得课题研究的数据来源更加真实客观,但是数据分布不均,呈现出碎片化和零散化的状态,现对百度贴吧中各高校贴吧数据进行可视化分析,以便更清楚了解不地区乃至不同高校的大学生使用贴吧的时间段以及关注热点事件的态度,分析高校学生情感状态。
意义:通过对百度各高校贴吧数据的分析研究,基于Python对贴吧数据进行可视化分析,将零散的碎片化数据归类并可视化展示。由于高校贴吧的数据量较大且较零散,本毕业设计通过归纳分析,对不同省份、不同地区的高校贴吧使用情况进行分析,高校学生使用时间段进行分析以及选取情感问题的相关评论等几个方面进行分析,以便分析出高校学生的情感状态。为高校掌握学生思想状况,正确引导学生价值观提供相关参考信息。
相关国内外研究现状(文献综述):
国外现状:数据仓库技术就是将数据收集、整理、分析自动化处理,降低经营成本,操作简单快捷,提高利润率的同时,信息也得到有效地利用。爬虫的数据分析系统中应用了数据仓库技术,数据更新的及时促进了系统的运行。在美国,数据收集和分析也是目前广受欢迎的行业,如通过实施和应用爬虫系统,收集大学生相关信息,有效记录大学生信息,从海量数据中挖掘最有效的大学生信息,根据不同大学生特性,对大学生和情感细分,提供不同的教育策略。在应用数据分析系统过程中,也在不断分析教育方式,分析认为在高校教育方式中,学生更希望得到比较自由的专业教育。美洲企业把数据库技术应用在数据分析上,它的学生评论管理系统最大的优势是拥有自己的数据仓库。由于自身独有的最大评论信息数据库,通过多处数据仓库型信息管理系统传来的各种信息,精确搜集有价值的评论数据,同时筛选后的价值信息生成报告快速发布给高校。利用数据仓库性评论信息管理系统,大幅度减少了处理数据的成本,极大提高信息的时效性,有价值的信息更能被深入挖掘并加以有效利用。
国内现状:近年来,诸多国内学者针对高校贴吧话题发现做了大量的研究工作,包括健康话题数据的挖掘、算法的改进以及健康话题的研究等多个方面。马雯雯等人针对社区博客短文本,提出一种通过 CURE 算法和 K-means 算法进行二次聚类的话题发现方法,实现对文本数据的聚类,得到最终的话题结果。詹勇在传统的 VSM 模型和文本聚类算法存在局限性的基础上,采用 LDA 主题模型作为文本表示模型,提出了混合模型交叉话题发现算法,对文本内容隐含话题信息进行提取,并实验验证了算法的有效性。孙胜平提出了一种基于向量空间模型的 Single-pass 算法和热度计算结合的聚类算法用于话题发现。首先利用改进的 Single-pass 算法进行文本聚类,然后引入话题向量来表示话题簇,计算微博特征向量与已有话题向量相似度进行计算,如果大于相似度阈值则归入该话题簇,反之则建立新的话题簇,大大减少了文本向量间相似度计算的巨大的工作量;最后进行话题热度计算并通过层次聚类对话题簇进行合并操作,实现对微博话题的检测。郑斐然等人提出一种新颖的新闻话题的发现方法,结合短文本的词频以及增长速度构造特征词复合权重值,来对微博文本进行词频统计选取关键词,然后采用“上下文相关”的增量式聚类算法对话题进行监测,并在微博数据实验验证话题发现方法的有效性。Zhao 等人提出了一种新浪微博社交情绪传感器系统来检测每日热点话题,并分析了这些话题的情绪分布,主要通过主题检测,主题聚类和主题流行度排名来检测最流行的主题,并使用使用 SVM 情感分类器来识别每个消息的情绪;然后根据结果总结出热点话题的情绪来实现话题情绪分布的分析。张静结合微博内容的特点及其分析、热点话题所具有的特征及其分析以及聚类算法等三个方面,提出了一种基于微博的热点话题发现的思路,并按照该思路设计并分析了基于微博的网络热点话题发现的数据加工、话题发现平台。并通过实验进行验证分析。李妍对微博数据抓取、数据预处理以及文本聚类三个方面对话题检测方法进行研究;通过改进 Single-pass 算法,采用文本相似度阈值策略,结合微博特点以及用户关系,提出了一种基于微博的 MB-SinglePass 话题检测算法。王晓岩以数据集为研究对象,结合微博热点话题发现方法与技术,提出了一种基于图结构的双层聚类算法,并实现了话题热点的发现系统。孙日昕从用户发表的微博内容着手,提出了一种结合词语互信息和概率主题模型的微博热点话题发现方法,通过融合多种方法进行热点话题的发现。
综上所述,通过基于python的知乎健康话题的数据可视化分析系统的研究、分析与设计,实现抓取高校贴吧话题的数据信息,为获取高校贴吧话题的用户服务,更为数据分析提供了强大的数据支撑。
[1]周立岩. 基于时空特性的社交网络突发话题查询、预测与可视化[D].北京邮电大学,2021.10.26969.
[2]李金海,胡旭.基于百度贴吧的高校网络舆情热点话题分析[J].计算机与现代化,2020(09):12-18.
[3]王晰巍,贾若男,韦雅楠,许可.社交网络舆情事件主题图谱构建及可视化研究[J].情报理论与实践,2020,43(03):17-23.DOI:10.
[4]孙雯中. MOOC讨论区话题挖掘研究[D].陕西师范大学,2019.
[5]王飞翔. 数据挖掘技术在问答社区中的应用[D].南京邮电大学,2018.
[6]王国娟. 微博舆情分析可视化系统的设计与实现[D].燕山大学,2018.
[7]陈馨菂. 面向社交网络的文本可视化技术研究与实现[D].西南交通大学,2017.
[8]陆斌斌.社交网络中话题传播结构的可视化研究与实现[J].现代计算机(专业版),2017(07):58-60+65.
[9]黄冠华. 微博舆情可视化系统的研究与实现[D].江苏大学,2016.
[10]孙国道. 用户行为数据的交互式可视挖掘方法研究[D].浙江工业大学,2015.
[11]王童.浅析百度贴吧平台下热门社会新闻的传播[J].新闻传播,2014(03):282-283.
[12]王童. 网络社区中热点话题的生成与影响力探究[D].复旦大学,2014.
[13]莫倩,张传想.基于话题的Web社会网络关系可视化研究与实现[J].计算机仿真,2012,29(11):51-54+169.
主要内容:首先选取百度高校贴吧中相关热门讨论的话题,通过Python进行数据爬取、数据清洗、数据存储到数据库,其次,对本次所使用的数据进行分析和整理归纳,使用回归分析法,对百度高校贴吧数据进行回归分析预测。通过算法的计算选取合适的情感评论模型,进行模型的对比分析,从而得出一般评论、消极评论、积极评论的情况。最后通过可视化方法的呈现。
1.获取数据的来源
(1)百度高校贴吧
2.高校评论数据的分析
(1)高校分类分析
(2)各省份情况分析
(3)情感评论分析(一般评论、消极评论、积极评论)
(4)时间段评论分析
3.模型的选取
(1)使用到Lislie模型
(2)Logistic模型
4. 爬虫部分
引擎(Scrapy Engine)、Item 项目、调度器(Scheduler)、下载器(Downloader)、爬虫(Spiders)、项目管道(Pipeline)、下载器中间件(Downloader Middlewares)、爬虫中间件(Spider Middlewares)、调度中间件(Scheduler Middewares)
5.可视化展示
(1)vue.js
(2)Echarts
6.研究方法
(1)文献分析法
(2)模型分析法
(3)对比分析法