前一阵“秋天的第一杯奶茶”的梗刚刷爆我的朋友圈,这两天又开始了“冬天的第一杯奶茶”。从什么时候开始,“奶茶自由”成了人们的理想生活方式之一通过一杯奶茶我学会了数据分析_数据

 

本来以为这件事情跟我没什么关系,但是那天我司同事喊我拼单的时候,我突然发现,奶茶的制作过程和数据分析的原理有一定相似之处!不信你看~


通过一杯奶茶我学会了数据分析_数据分析_02



1.数据生成:收集情报


同事们经常就会讨论着:“喜X又出新品了”,“X雪的果茶最适合冬天”,“星X克的新品颜值很高。”(不过我一般都是谢绝之后握紧装有枸杞的保温杯

通过一杯奶茶我学会了数据分析_数据分析_03

 

这就像一开始的数据生成过程,就像那些用户操作,或者那些会触发传感器的移动、热源或噪声信号等,在这一步,我们将从所有可能的特征中,选取和最后模型直接相关的那些,并据此定下需要生成、测量、统计哪些数据。



2.数据收集:点单


收集情报后思考并确认自己具体喝哪一杯的大脑活动,对应了数据采集与分析的过程



3. 数据准备:拼单

 

当同事们全都下单之后,手机传到你这里时,你会看到,点单程序进行了一个对应的分类,这就像是把数据整理到数据库或者数据湖之类的仓库里,以便程序读取。


同样,在这一步你可能需要把数据分成用于训练和用于检测等不同的部分。

 


4. 确定数据预处理方式和算法:选择茶底和容量



在数据分析的过程中,茶(咖啡/奶)底就是你要采用的数据预处理方法,而容量就是数学算法(比如线性回归算法或者随机森林算法等等不同的选项将是影响你模型的超参数。



5. 选择模型:加料


选定了数据预处理方式和算法,也就是定了基底之后还要在考虑看看要不要加些芋圆、珍珠或者红豆、椰果等等,这些组合就好比你的模型。


通过一杯奶茶我学会了数据分析_数据预处理_04



6.数据预处理:摇匀


当你需要的所有料都在一个容器时,除非你喜欢被投诉你就可以干巴巴的直接就给顾客了,一般情况下还是要摇匀,让所有味道都达到统一和和谐。


这就好比数据分析中的数据清洗,也就是说,处理那些缺失值和异常值。(即使很多人都觉得这一步太麻烦)



7.特征工程(处理复杂数据):包装


有时候,你光一杯饮品很难去打动别人,但只要你稍微用点心思在包装上,一切就会显得不一样了。

 

没错,这就是特征工程!这一步很重要,因为如果你干的足够巧妙,它能在很大程度上优化模型的表现。基本上差不多每个数据分析师都喜欢这一步

 


8.训练模型:品尝


这一步是所有步骤的灵魂之处,前面忙活了半天可能就是为了这一口甜。


品尝也就是训练模型的过程。你把数据放进算法里,调整各种超参数,等它训练上一段时间,再来检查一下。是否过甜?茶底是否最佳?都是你需要自己去体会的。

 


9.微调参数:回购


一回生,二回熟。可能你面前的这一杯还有一点小瑕疵,但是下一次就可以往完美的方向发展。

 

就像是评估和微调的过程。你需要检查你的模型,判断它是否按照你设想的那样运行。如果不是,你可能需要加入更多的特征,或者调节超参数,以期对模型产生改变。但你还需要继续训练下去!

 

如果你就是不喜欢这家店,一喝就拉肚子,那你也只能含泪舍弃这个模型,吸取教训,从头来过。

 

不过只要坚持不懈,你的经验在加上一点点运气,还是很有希望训练出一个高性能的模型啦~


 通过一杯奶茶我学会了数据分析_数据分析_05