通过一杯奶茶我学会了数据分析

原创

mb594bbce661473 2022-12-12 23:07:51 ©著作权

©著作权归作者所有：来自51CTO博客作者mb594bbce661473的原创作品，请联系作者获取转载授权，否则将追究法律责任

前一阵“秋天的第一杯奶茶”的梗刚刷爆我的朋友圈，这两天又开始了“冬天的第一杯奶茶”。从什么时候开始，“奶茶自由”成了人们的理想生活方式之一通过一杯奶茶我学会了数据分析_数据

本来以为这件事情跟我没什么关系，但是那天我司同事喊我拼单的时候，我突然发现，奶茶的制作过程和数据分析的原理有一定相似之处！不信你看~

通过一杯奶茶我学会了数据分析_数据分析_02

1.数据生成：收集情报

同事们经常就会讨论着：“喜X又出新品了”，“X雪的果茶最适合冬天”，“星X克的新品颜值很高。”（不过我一般都是谢绝之后握紧装有枸杞的保温杯

通过一杯奶茶我学会了数据分析_数据分析_03

这就像一开始的数据生成过程，就像那些用户操作，或者那些会触发传感器的移动、热源或噪声信号等，在这一步，我们将从所有可能的特征中，选取和最后模型直接相关的那些，并据此定下需要生成、测量、统计哪些数据。

2.数据收集：点单

收集情报后思考并确认自己具体喝哪一杯的大脑活动，对应了数据采集与分析的过程

3. 数据准备：拼单

当同事们全都下单之后，手机传到你这里时，你会看到，点单程序进行了一个对应的分类，这就像是把数据整理到数据库或者数据湖之类的仓库里，以便程序读取。

同样，在这一步你可能需要把数据分成用于训练和用于检测等不同的部分。

4. 确定数据预处理方式和算法：选择茶底和容量

在数据分析的过程中，茶（咖啡/奶）底就是你要采用的数据预处理方法，而容量就是数学算法（比如线性回归算法或者随机森林算法等等，不同的选项将是影响你模型的超参数。

5. 选择模型：加料

选定了数据预处理方式和算法，也就是定了基底之后还要在考虑看看要不要加些芋圆、珍珠或者红豆、椰果等等，这些组合就好比你的模型。

通过一杯奶茶我学会了数据分析_数据预处理_04

6.数据预处理：摇匀

当你需要的所有料都在一个容器时，除非你喜欢被投诉你就可以干巴巴的直接就给顾客了，一般情况下还是要摇匀，让所有味道都达到统一和和谐。

这就好比数据分析中的数据清洗，也就是说，处理那些缺失值和异常值。（即使很多人都觉得这一步太麻烦）

7.特征工程（处理复杂数据）：包装

有时候，你光一杯饮品很难去打动别人，但只要你稍微用点心思在包装上，一切就会显得不一样了。

没错，这就是特征工程！这一步很重要，因为如果你干的足够巧妙，它能在很大程度上优化模型的表现。基本上差不多每个数据分析师都喜欢这一步

8.训练模型：品尝

这一步是所有步骤的灵魂之处，前面忙活了半天可能就是为了这一口甜。

品尝也就是训练模型的过程。你把数据放进算法里，调整各种超参数，等它训练上一段时间，再来检查一下。是否过甜？茶底是否最佳？都是你需要自己去体会的。

9.微调参数：回购

一回生，二回熟。可能你面前的这一杯还有一点小瑕疵，但是下一次就可以往完美的方向发展。

就像是评估和微调的过程。你需要检查你的模型，判断它是否按照你设想的那样运行。如果不是，你可能需要加入更多的特征，或者调节超参数，以期对模型产生改变。但你还需要继续训练下去！

但如果你就是不喜欢这家店，一喝就拉肚子，那你也只能含泪舍弃这个模型，吸取教训，从头来过。

不过只要坚持不懈，你的经验在加上一点点运气，还是很有希望训练出一个高性能的模型啦～

通过一杯奶茶我学会了数据分析_数据分析_05

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯