唤醒数据中台的数据，分享我的数据驱动秘籍

原创

yuanzhengme 2024-09-15 14:52:02 博主文章分类：数据飞轮 ©著作权

文章标签 数据大数据数据库 文章分类 数字化转型 唤醒数据中台潜力，加速数据飞轮转动

©著作权归作者所有：来自51CTO博客作者yuanzhengme的原创作品，请联系作者获取转载授权，否则将追究法律责任

1.自我介绍

虽然我是 Java 开发工程师，但最初的项目是数据治理相关的内容，主要使用的是 ETL 工具 KETTLE 现在这个工具已经改名为 Pentaho，具体的工作内容如下：

数据的抽取（从不同的数据库、ftp）获取数据
转换（数据合并、统计）
生成宽表（用于支撑 BI 部门的数据展示）

这份工作跟数据打交道比较多，当时也是大数据潮流来袭的时候，正好也遇到了疫情，在家办公期间学习了基于 Hadoop 的大数据相关的组件：

大数据基座 Hadoop
数据抽取工具 sqoop、flume
数据存储和分析 Hive、HBase
调度工具 Azkaban（个人也集合 kettle 实现了 ktr 和 kjb 的调用）

唤醒数据中台的数据，分享我的数据驱动秘籍_大数据

随着大数据知识的加深，我开始做大数据相关的系统，当时使用的大数据平台主要是基于分布式数据库 Greenplum 的，并非 Hadoop，但是实现思路是相似的，就是使用多个节点将数据和算力分摊开来，最终再聚合到一起。数据中台也是很重要的一环，这些年数据资产的使用率也备受关注，“数据飞轮”的概念也越来越被推崇，我简单分享一下自己在这方面的应用。

2.沉睡的数据

数据的存储和管理本身并不直接创造价值，真正重要的是如何将这些数据转化为可操作的洞见和决策支持，从而促进企业的数字化转型和业务增长。

唤醒数据中台的数据，分享我的数据驱动秘籍_数据库_02

而且设备的数据是海量的，如果不进行合理的分析利用，日积月累的数据仅仅是量的增加，数据沉睡的原因：

数据冗余（没有发掘当前业务之外似乎无关的字段价值）
分析维度少（没有聚合分析数据，导致数据的分析价值较低）
数据未进行结构化处理（一些文档、图片、视频等非结构化数据未进行分类）

3.数据飞轮让数据再次产生价值

“数据飞轮”对我来说是比较新的概念，所谓数据飞轮，指的是数据资产与业务之间形成的正向循环，即数据被应用于业务，进而产生新的数据再反馈回系统，进一步丰富和优化数据资产，从而形成一个持续增强的循环。从运行机制来看，它强调的是一种动态的数据应用过程。整体概念并不繁复，但或许可以为企业转型过程中如何优化数据驱动提供新的思路。

让“数据飞轮”的概念唤醒数据中台的数据，这通常指的是将存储在数据中台中的静态数据转化为可分析、可应用的动态信息。这个过程涉及到数据的整合、清洗、转换和加载（etl），以及数据分析和可视化等多个步骤。以下是一些基本步骤来“唤醒”数据中台的数据：

数据集成：需要将分散在不同来源的数据集中到数据中台。这可能包括数据库、数据仓库、云存储服务等不同形式的数据源。
数据清洗：对收集到的数据进行预处理，包括去除重复记录、处理缺失值、纠正错误或格式不统一的数据等。
数据转换：将数据转换成统一的格式，以便能够被分析工具正确理解和处理。这可能包括数据类型的转换、单位的统一、编码的标准化等。
数据加载：将清洗和转换后的数据加载到数据中台的数据库或数据仓库中，为后续的分析工作提供基础。
数据建模：根据业务需求建立数据模型，通过数据挖掘和统计分析方法，发现数据中的模式、趋势和关联性。
数据分析：使用各种分析工具和技术，如sql查询、机器学习算法、报表生成工具等，对数据进行深入分析，提取有价值的信息。
数据可视化：通过图表、仪表板等形式将分析结果呈现出来，帮助用户更直观地理解数据和洞察。
数据共享和应用：将分析后的数据和洞察分享给决策者和相关团队，用于支持决策制定、业务流程优化、产品开发等。
持续迭代：随着业务的发展和市场的变化，数据中台的数据也需要不断更新和维护，以确保数据的准确性和时效性。

唤醒数据中台的数据，分享我的数据驱动秘籍_数据_03

4.实例分析

我开发的项目中有一个这个样的数据值（场强），这个值一直都是存储在数据库里，一直没有使用，由于“数据飞轮”的启发，发现：

可以通过场强判断设备的类型（物联网设备、广告牌、路灯）
可以通过场强判断距离（移动设备采集两个设备的场强值，可以推算出速度和距离）

这个值，催生出了两个应用，一个是设备类似判断、一个是设备移动速度，这在应用层面增加了分析场景和应用方向。

5.简单总结

大数据时代，借助“数据飞轮”的概念将数据中台里的数据从静态数据转化为可分析、可应用的动态信息，在最初的业务场景下不断发挥着数据价值，可是随着数据量的增加，量变并没有催生质变，需要我们自己去挖掘数据维度和数据的关联关系，让数据的价值随着数据量的增加而增加，唤醒数据中台中的数据是一个长期的任重道远的工程，需要业务人员和开发人员的持续努力，“飞轮”是一个正循环，唤醒数据价值再反哺数据量，让数据的价值持续增加。