大家好呀,本次全国大学生数据分析大赛开赛后我一直在做,然后昨天是已经完成了A题的成品,至此,A、B两题全部求解结束,都有了完整成品,大家可以看本文章最下面的卡片。

里面还有AB题的讲解视频哈,然后本文章是A题的一个图文版讲解,保姆级别的教程哈,我会手把手教大家怎么去做这道题。

先定下主基调,没想到做了快两天才做完A,这道题比我预想的要麻烦很多,模型不难,本质上就是分类汇总+绘图+预测,难点在于这道题数据量有点大,药品种类太多,几千项,id的那个数字也很大,导致数据预处理也非常麻烦。

好在我最终还是很细致地处理完了每一问,本题目我做得确实很细,每一方面都会考虑到,数据也整理得很全面。

论文共60页,一些修改说明提醒6页,正文40页,附录14页,之所以这么长,是因为:

1.我论文很多的篇幅需要用来解释我为什么要这么做,基本就是手把手教你怎么做,并且我还要照顾每个人的水平,所以会有些地方需要写得很繁琐,一些中间过程展现得事无巨细,你们自己删减,另外,这次我新增了操作说明等界面帮助你们理解。

2.本题模型没有那么难,但是数据处理和计算是比较复杂的过程,绝不是一两句话可以说清楚的,具体的大家看我汇总贴里的讲解视频吧。

好了废话有点多了,开始讲解:

我的

论文总览:

大数据分析技能大赛Python试题 大数据分析竞赛作品_数据分析

摘要:

大数据分析技能大赛Python试题 大数据分析竞赛作品_大数据分析技能大赛Python试题_02

目录:

大数据分析技能大赛Python试题 大数据分析竞赛作品_科学计数法_03

第一问:

大数据分析技能大赛Python试题 大数据分析竞赛作品_数据_04

统计一下店铺数量,直接excel筛选就行:

大数据分析技能大赛Python试题 大数据分析竞赛作品_数据_05

销售额占比就比较麻烦了,你首先要计算出销售额,也就是单价乘以销量乘以折扣:

大数据分析技能大赛Python试题 大数据分析竞赛作品_科学计数法_06

这里折扣要换成0.几的形式才能进行计算,这里是最终计算的表格:

大数据分析技能大赛Python试题 大数据分析竞赛作品_科学计数法_07

OK,接下来就要进行每个店铺的总额进行汇总了,每个店铺都有很多药品嘛,所以店铺是分类变量,把每类店铺所有总额全部加起来得到最终结果:

大数据分析技能大赛Python试题 大数据分析竞赛作品_数据分析_08

我还绘制了条形图:

大数据分析技能大赛Python试题 大数据分析竞赛作品_数据分析_09

可以直观看到最高的是谁。

接下来是要分析这家店铺的销售情况嘛,这里我把它的price sold discount 总额 这些都进行了具体的分析:

大数据分析技能大赛Python试题 大数据分析竞赛作品_数据_10

我还绘制了总额随时间变化的图片,这样就是可以看出来它随时间变化的销售情况:

大数据分析技能大赛Python试题 大数据分析竞赛作品_大数据分析技能大赛Python试题_11

OK,销售情况分析得很详细了,第一问结束。

第二问:

大数据分析技能大赛Python试题 大数据分析竞赛作品_数据_12

这一问是分析药品,这就比较麻烦了,首先大家要注意,有多少个药品不是根据title 来的,而是id,因为名字可以随便起,但是id才是唯一的标识码。

但是,大家直接打开表格,会发现id全是科学计数法:

大数据分析技能大赛Python试题 大数据分析竞赛作品_数据_13

这样的话你去做筛选统计,由于精度原因,不同的id可能会归为同一类:

大数据分析技能大赛Python试题 大数据分析竞赛作品_科学计数法_14

所以要转换为科学计数法才行,然后进行统计:

大数据分析技能大赛Python试题 大数据分析竞赛作品_数据分析_15

之后分类计算总额就行,这里是最终的结果:

上面的条形统计图是所有的id的总额占比,可以看到,由于有几千个id,纵坐标非常庞杂:

大数据分析技能大赛Python试题 大数据分析竞赛作品_科学计数法_16

然后是绘制月度曲线图,其实就是把每个id的数据全部单独摘出来,然后绘制月度折线图,这个吧,不难,就是特别麻烦。。。。:

大数据分析技能大赛Python试题 大数据分析竞赛作品_数据分析_17

第三问:

大数据分析技能大赛Python试题 大数据分析竞赛作品_数据分析_18

一样的方法。。。统计品牌个数然后分类算总额就行:

大数据分析技能大赛Python试题 大数据分析竞赛作品_数据_19

不赘述了。。

第四问:

大数据分析技能大赛Python试题 大数据分析竞赛作品_数据_20

上了点难度,不但要按照月份进行分类汇总,还要进行预测,有点意思。

先按照月份进行排序一下:

大数据分析技能大赛Python试题 大数据分析竞赛作品_数据分析_21

把整个数据表全部排序完。

然后分类汇总出每个月的总额:

大数据分析技能大赛Python试题 大数据分析竞赛作品_数据分析_22

之后进行预测就行,直接时间序列吧:

大数据分析技能大赛Python试题 大数据分析竞赛作品_数据分析_23

第五问:

大数据分析技能大赛Python试题 大数据分析竞赛作品_数据_24

按照前面四问的结果再搜点资料进行分析就行,比如挑第一问求出的最高的店铺卖,挑第二问求出的药品的那个赛道做,模仿第三问最高的品牌进行营销等,这里我还给出了模仿最高的品牌的官网说明以及一个一页多的软广文案供这个药企作为经营策略。

OK,全部讲解结束,我论文中所有用到的数据表格和结果表格也都整理好了:

大数据分析技能大赛Python试题 大数据分析竞赛作品_数据分析_25