1.自我介绍
虽然我是 Java 开发工程师,但最初的项目是数据治理相关的内容,主要使用的是 ETL 工具 KETTLE 现在这个工具已经改名为 Pentaho,具体的工作内容如下:
- 数据的抽取(从不同的数据库、ftp)获取数据
- 转换(数据合并、统计)
- 生成宽表(用于支撑 BI 部门的数据展示)
这份工作跟数据打交道比较多,当时也是大数据潮流来袭的时候,正好也遇到了疫情,在家办公期间学习了基于 Hadoop 的大数据相关的组件:
- 大数据基座 Hadoop
- 数据抽取工具 sqoop、flume
- 数据存储和分析 Hive、HBase
- 调度工具 Azkaban(个人也集合 kettle 实现了 ktr 和 kjb 的调用)
随着大数据知识的加深,我开始做大数据相关的系统,当时使用的大数据平台主要是基于分布式数据库 Greenplum 的,并非 Hadoop,但是实现思路是相似的,就是使用多个节点将数据和算力分摊开来,最终再聚合到一起。数据中台也是很重要的一环,这些年数据资产的使用率也备受关注,“数据飞轮”的概念也越来越被推崇,我简单分享一下自己在这方面的应用。
2.沉睡的数据
数据的存储和管理本身并不直接创造价值,真正重要的是如何将这些数据转化为可操作的洞见和决策支持,从而促进企业的数字化转型和业务增长。
而且设备的数据是海量的,如果不进行合理的分析利用,日积月累的数据仅仅是量的增加,数据沉睡的原因:
- 数据冗余(没有发掘当前业务之外似乎无关的字段价值)
- 分析维度少(没有聚合分析数据,导致数据的分析价值较低)
- 数据未进行结构化处理(一些文档、图片、视频等非结构化数据未进行分类)
3.数据飞轮让数据再次产生价值
“数据飞轮”对我来说是比较新的概念,所谓数据飞轮,指的是数据资产与业务之间形成的正向循环,即数据被应用于业务,进而产生新的数据再反馈回系统,进一步丰富和优化数据资产,从而形成一个持续增强的循环。从运行机制来看,它强调的是一种动态的数据应用过程。整体概念并不繁复,但或许可以为企业转型过程中如何优化数据驱动提供新的思路。
让“数据飞轮”的概念唤醒数据中台的数据,这通常指的是将存储在数据中台中的静态数据转化为可分析、可应用的动态信息。这个过程涉及到数据的整合、清洗、转换和加载(etl),以及数据分析和可视化等多个步骤。以下是一些基本步骤来“唤醒”数据中台的数据:
- 数据集成:需要将分散在不同来源的数据集中到数据中台。这可能包括数据库、数据仓库、云存储服务等不同形式的数据源。
- 数据清洗:对收集到的数据进行预处理,包括去除重复记录、处理缺失值、纠正错误或格式不统一的数据等。
- 数据转换:将数据转换成统一的格式,以便能够被分析工具正确理解和处理。这可能包括数据类型的转换、单位的统一、编码的标准化等。
- 数据加载:将清洗和转换后的数据加载到数据中台的数据库或数据仓库中,为后续的分析工作提供基础。
- 数据建模:根据业务需求建立数据模型,通过数据挖掘和统计分析方法,发现数据中的模式、趋势和关联性。
- 数据分析:使用各种分析工具和技术,如sql查询、机器学习算法、报表生成工具等,对数据进行深入分析,提取有价值的信息。
- 数据可视化:通过图表、仪表板等形式将分析结果呈现出来,帮助用户更直观地理解数据和洞察。
- 数据共享和应用:将分析后的数据和洞察分享给决策者和相关团队,用于支持决策制定、业务流程优化、产品开发等。
- 持续迭代:随着业务的发展和市场的变化,数据中台的数据也需要不断更新和维护,以确保数据的准确性和时效性。
4.实例分析
我开发的项目中有一个这个样的数据值(场强),这个值一直都是存储在数据库里,一直没有使用,由于“数据飞轮”的启发,发现:
- 可以通过场强判断设备的类型(物联网设备、广告牌、路灯)
- 可以通过场强判断距离(移动设备采集两个设备的场强值,可以推算出速度和距离)
这个值,催生出了两个应用,一个是设备类似判断、一个是设备移动速度,这在应用层面增加了分析场景和应用方向。
5.简单总结
大数据时代,借助“数据飞轮”的概念将数据中台里的数据从静态数据转化为可分析、可应用的动态信息,在最初的业务场景下不断发挥着数据价值,可是随着数据量的增加,量变并没有催生质变,需要我们自己去挖掘数据维度和数据的关联关系,让数据的价值随着数据量的增加而增加,唤醒数据中台中的数据是一个长期的任重道远的工程,需要业务人员和开发人员的持续努力,“飞轮”是一个正循环,唤醒数据价值再反哺数据量,让数据的价值持续增加。