2022春期末总结报告
题目:
要求:
1. 数据要求:
自己任意选择一个数据集,数据量不少于4000条。
(1.可在数据集网站中选择,如kaggle等。
2.从网上爬取数据 )
2. 数据分析与挖掘要求
(1)写出总体需求
(2)按照后期进行数据分析的需求,对数据进行预处理。
(3)描述性统计:选择合适的方法对数据进行统计分析。包括对数值型和类别型属性的统计,并对分析结果进行图形化的展示(使用ggplot2或者lattice包)。
(4)推断性统计:选择合适的假设检验方法,分析属性间的相关性、两组数据间是否具有显著性差异,分析结果并给出结论及必要的图形展示。
(5)数据挖掘
根据数据特征及需求,利用分类、聚类或时间序列方法挖掘蕴含在数据中的模式及必要的图形展示。
注意:对聚类结果分析聚簇特征
对分类结果计算准确性。
使用时间序列分析方法可判断数据是否存在趋势、周期性等特征,或对数据进行预测。
(分类、聚类、时间序列至少使用2种方法,若无法使用2种方法,则需要完成(6)附加题)
(6)附加题:自由选择方法,分析数据特征或挖掘蕴涵模式,并展示结果。
3. 报告要求
(1)应在报告中体现:
1)每一个分析的目标是什么;
2)解决的思路、步骤是什么;(如选择哪些字段分析、对数据做什么预处理,利用什么统计分析或数据挖掘方法分析,选择该方法的理由是什么)
3)选择核心的R函数是什么;
4)结果是什么(根据实际情况,选择图形化或表格形式的结果展示,或运行结果截图);
5)能从结果中得到什么结论。
6)字体:中文-宋体,英文-Times New Roman,字号:小四,行间距:单倍行距;标题黑体,字体可适当大一些
4.评分标准
请参考《期末考试评价标准》,根据该标准完成项目、报告和答辩工作。
5.特别注意以下几点:
(1)报告页数不能少于20页。(每少一页扣一分)
(2)报告书写规范,完整,无错误(15分)
(3)参考文献5篇以上,相关度高。(5分)
(4)难度不低于课程实践。
(5)如发现报告雷同,则雷同者取消成绩。
题目:英雄联盟职业联赛数据分析
一、总体需求
**二、数据的处理**
数据集选用了2020年英雄联盟s10赛季内中国赛区(LPL)和韩国赛区(LCK)的所有比赛数据:
数据集字段说明:
agt id
league 联赛
split 赛季
playoffs 常规赛/季后赛
date 日期
game 游戏对局序号
patch 游戏版本号
side 红队还是蓝队
team 队伍名称
ban1 禁用1
ban2 禁用2
ban3 禁用3
ban4 禁用4
ban5 禁用5
gamelength 游戏时间
result 结果
kills 杀的次数
deaths 死的次数
assists 助攻次数
doublekills 双杀
triplekills 三杀
quadrakills 四杀
pentakills 五杀
firstblood 是否首杀
team kpm 每分钟击杀
firstdragon 是否首杀龙
等等
**2、对数据的预处理**
![在这里插入图片描述](https://img-blog.csdnimg.cn/9236bf8d69be441399aa99233acbd0f7.png)读取数据
![在这里插入图片描述](https://img-blog.csdnimg.cn/3b167021ecd0487f9e63482760fe3dcc.png)查看缺失值
![在这里插入图片描述](https://img-blog.csdnimg.cn/db5f94f018e049a1bafce545cf4545f2.png)缺失值处理
![在这里插入图片描述](https://img-blog.csdnimg.cn/f7df2ed42c2f4e89bc460fd1cedf26c3.png)
由此可见lpl比赛时间短于lck,击杀数确高于lck。
说明lpl比赛血腥程度更高,打法更加激进,更能吸引观众。
![在这里插入图片描述](https://img-blog.csdnimg.cn/6c362eaf42d94826bcdae207ae75ebcc.png)平均游戏时长![在这里插入图片描述](https://img-blog.csdnimg.cn/342bf451269942f79c3eacf71600b7c6.png)场均击杀
![在这里插入图片描述](https://img-blog.csdnimg.cn/1b7449ddc46740c4ac29e4ae4b09daea.png)时长箱线图![
![\](https://img-blog.csdnimg.cn/699eff0bce934209a5db5d16317fe9fc.png)时长直方图
![在这里插入图片描述](https://img-blog.csdnimg.cn/7afcb5d9269740bc90bec64b5f3678f3.png)禁用英雄数量直方图
![在这里插入图片描述](https://img-blog.csdnimg.cn/6cda4162e88349118cc21df0b9b0158c.png)击杀与时间随版本变化折线图
![在这里插入图片描述](https://img-blog.csdnimg.cn/02f1c419bbc84a0a8554fb0af6a2a6e3.png)帕累托(贡献度)分析方法
四、总结
1、对英雄联盟赛事数据分析的总结:
(1)根据条形图可以看出各个战队比赛平均时间差异并不是十分大,只有个别数据突出于其他,而击杀数据确有明显的参差。尤其是lpl所有战队均遥遥领先于lck,反观lck仅有两只战队与lpl平齐,那就是drx与dwg,均是联赛中表现十分突出的战队。
可以看出战队之间的战术风格差异,赛区之间的差别更加明显。
(2)这里使用箱线图能直观的表示每个战队的所有游戏时长分布,而不仅限于平均数据,可以观测所有对局中时长中位数分布,与上限时间与下限时间。观察箱线图最靠下的两个战队:ig与srb,一个是lpl血腥程度最高的战队,一个是lck最弱的战队,所以游戏时间都很短,符合对两只战队的预期猜测。
时长较高的是af和grf战队,均属于lck,也能推断出lck的打法更偏向保守
观赏性略差。
(3)比赛禁用英雄数据条形图可以明显看出版本的强势英雄,腕豪被ban次数达到了惊人的接近500+次,证明腕豪在当时的版本已经达到了非ban必选的程度,说明英雄联盟的设计师们在对潘森的平衡性设计上还得多下点功夫。排名第二三名的是厄斐琉斯与卡莉斯塔,这两个都是ad,分别是团战型和对线型ad,也是禁用英雄中为数不多的ad英雄,而从第三ban之后各英雄被ban的次数就相对均衡了许多,其余的ban位更多的分配给了中单与打野英雄,ad被禁用的人数分类很少,说明ad的ban选对游戏影响并不大(除去上述两个),其余ad并不受重视,本赛季并不适合ad选手的发挥,想要主宰游戏节奏与胜负还是要将重点放在上中野的选择,或许放弃下路会更容易的赢得比赛。
(4)根据折线图可以直观地看出英雄联盟职业联赛的具体情况,如10.10版本之前的平均时长与击杀成相反趋势,可以推断出如上版本的风格偏向运营模式,所有战队都在尽量避免打架对抗,而是想要将比赛拖延至后期一决胜负;但是这种比赛较为缺乏观赏性,很难吸引住观众,自然也就丧失了热度与玩家激情,为了改变这种弊端,官方明显在10.10版本后对游戏进行调整,由折线数据可以清洗观察出击杀数随着时间浮动,极大的增加了游戏的观赏性,利于玩家回流以及增加赛后讨论。
(6)采用了数据分析之帕累托(贡献度)分析方法,也叫主次因素分析法,是项目管理中常用的一种方法。它是根据事物在技术或经济方面的主要特征,进行分类排队,分清重点和一般,从而有区别地确定管理方式的一种分析方法。
由上图可以清晰明了的分析出仅仅6支战队就占取两个联赛的30%左右的胜率,如果官方想要宣传比赛,可以从这六只战队中进行宣传,由于常规赛事的表现好,同样可以对其粉丝进行周边推销,因为胜率高的战队粉丝活性高,基数大。
如果我是lpl赛事方,我会对jdg与tes战队进行特别训练,针对目标是lck的dwg,gen.g,t1和drx战队,可以通过增加线下训练赛,针对性分析的方式使lpl获取更多胜率。
经资料查证jdg战队为lpl春季赛冠军,tes为lpl夏季赛冠军。T1为lck春季赛冠军,dwg为lck夏季赛冠军。Tes为msc季中冠军赛冠军,dwg为全球总决赛冠军,以上6个冠军均产生自帕累托分析的前6名之中。由此可见有侧重的对通过帕累托分析出的队伍进行投资或者管理更有利于获胜或者获取更大的利益