数据中台:
是指通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径,中台还可以根据ThoughtWork首席咨询师给出的定义来解释。“企业级的能力复用平台”;“企业级”划定了中台的范围,区分了单系统的服务化和微服务;“能力”指定了中台的主要承载对象,能力的抽象解释了各种各样的中台的存在;“复用”定义了中台的核心价值,过去的平台化对于易复用性并没有给予足够的关注。
中台的兴起,使得人们的目光更多的从平台内部,转到平台对于前台业务的支撑上;“平台”说明了中台的主要形式,区别于应用系统拼凑的方式,通过对于更细粒度能力的识别与平台化沉淀,实现企业能力的柔性复用,对于前台业务更好的支撑。
中台解决的问题:重复业务、部门缺陷、数据资产发现
1.企业前方市场与企业内部支撑的冲突
用户与用户的需求总是善变的
2.前台与后台的冲突
3.企业各个部门之间,“部门墙”。
中台类型:按市场行情,中台分为六大类
数据中台:提供数据分析能力,帮助企业从数据中学习改进,调整方向。
业务中台:提供重要服务,例如用户中心、订单中心之类的开箱即用,可重用能力。
算法中台:提供算法能力,帮助提供更加个性化服务,增强用户体验。
技术中台:提供自建系统部分的技术支撑能力,帮助解决基础设施、分布式、数据库等底层技术问题。
研发中台:提供自建系统部分的管理和技术实践支撑能力,帮助快速搭建项目、管理项目进度、测试、持续集成、持续交付。
组织中台:为项目提供投资管理、风险管理、资源调度等支持。
数据中台需具备能力:
1.数据资产的规划和治理
对于同一堆数据,不同业务部门所关注的业务指标可能完全不同,怎么让各个跨域的业务变成统一的标准,就需规划企业的数据全景图,将所有有可能用的上的、所有对企业有可能有价值的数据都规划出来,最终梳理出企业的数据资产目录。这一层不建议做的太细,太细就难以形成标准,不能适用于多个场景。数据治理是数据中台很重要的一个领域;传统的中心化、事前控制式的数据治理方式,要改变为去中心化、事后服务式的治理方式。
2.数据资产的获取和存储
数据中台要为企业提供强大的数据资产的获取和存储能力。
3.数据的共享和协作
3.1企业的数据中台一定是跨域的。
3.2数据需要流动起来,没有流动数据的价值产生的速度就非常慢。
3.3在数据安全的基础上,企业的数据资产目录要对利益相关者、价值创造者开放
4.业务价值的探索和分析
4.1数据中台要建立到源数据的通路
4.2针对不同业务岗位的用户提供个性化的数据探索和分析的工具,帮助业务人员去探索和发现业务数据的价值。
4.3一键生成数据API,以多样化的方式提供给前台系统。
5.数据服务的构建和治理
数据中台需要保证数据服务的性能和稳定性,以及数据的质量和准确性,还需要具备强大的服务治理功能。
一开始构建好数据服务的治理结构是非常重要的,数据服务需要可以被记录,可以被跟踪,可被审计,可被监控。
6.数据服务的度量和运营
如果数据中台最终只是做到把数据给到业务人员,那它就只是一个搬运工的角色。
数据中台还需要具备度量和运营数据服务的能力,能够对中台上提供的数据服务及相关行为持续跟踪和记录,包括哪些数据服务被哪个部门用了多少次等,通过这些度量值衡量每一个数据服务的业务价值。
总结:
数据中台是一个需要用互联网的思维去经营的的利润中心平台,数据中台的经营分析人员需要分析业务,了解为什么今天上午这个财务部门的人用了数据平台,用了10次,下午不用了,为什么,调用了这些服务的人通常还会调用哪些其它的数据服务。这些都需要相应的做记录、做日志、做分析,要把数据当作电商平台一样去使用经营,然后实时的根据这些业务行为数据去提醒数据服务提供方,调整、改变、优化数据服务,这才是可经营的数据中台,也只有这样业务部门才能得到最快的支持和响应。
数据中台相关技术及相关技术选型
数据治理
数据治理(Data Governance)是组织中涉及数据使用的一套管理行为。由企业数据治理部门发起并推行,关于如何制定和实施针对整个企业内部数据的商业应用和技术管理的一系列政策和流程。
数据治理是对数据资产管理行使权利和控制的活动集合,数据治理的最终目标是提升数据价值,数据治理是非常有必要,是企业实现数字战略的基础,他是一个管理体系,包括组织、制度、流程、工具。
数据治理分类
元数据管理:包括元数据采集、血缘分析、影响分析等功能
数据标准管理:包括标准定义、标准查询、标准发布等功能
数据质量管理:包括质量规则定义、质量检测、质量报告等功能
数据集成管理:包括数据处理、数据加工、数据汇集等功能
数据资产管理:包括数据资产编目、数据资产服务、数据资产审批等功能
数据安全管理:包括数据权限管理、数据脱敏、数据加密等功能
数据生命周期管理:包括数据归档、数据销毁等功能
主数据管理:包括主数据申请、主数据发布、主数据分发等功能
数据治理工具
编程语言:java、Scala、python
数据分析后台:flink、spark等
数据可视化前台:BI、页面可视化
数据存储与设计:关系型数据库、非关系型数据库、数据仓库、数据湖
数据质量管理:Apache Griffin
元数据治理:Apache Atlas
权限与安全:Apache Ranger(Hortonworks与HDP平台集成)、Kerberos安全验证算法、Apache Sentry(Cloudera与CDH平台集成)
生命周期管理:Apache Facon(数据在某一个范围产生作用、意义)
第三方数据中台产品:阿里数据中台、数澜科技数据中台、云徙科技数据中台
网易数据中台
如何建立数据中台的建议:
Tips1:数据中台必须具备顶层设计(重要)
Tips2:数据中台要当产品来迭代
关键是要是要形成数据中台建设的规范和机制落地
Tips3:数据中台必须要有量化指标作为抓手,有阶段性的检验成果
Tips4:数据中台建设的目标是人人用数据、天天用数据
Tips5:数据中台可以有很多层架构
Tips6:数据中台强调管理,管理必须结合工具才能落地
Tips7:数据中台必须结合场景化数据产品落地
Tips8:使用数据沙箱解决多环境发布问题
Tips9:数据中台构建在逻辑数据湖之上
企业不仅仅只有hadoop,hadoop也不一定是必须的!
企业数据除了Hadoop,还有很多分散在各种数据源中,包括RDBMS、HTAP、MPP、KV等等。
统一元数据:缺少统一元数据视图,无法构建完整的数据资产,不知道企业到底有哪些数据!
统一查询:缺少统一的查询入口,无法跨数据源进行数据的分析,数据无法使用@
统一权限:缺少统一的权限管理,无法跟踪谁对哪些数据有权限,数据不敢用!
Tips10:打造大数据的CI/CD Devops
其它架构笔记
大数据基础设施层:PAAS层 中台
大数据采集 —> 大数据缓存 —> 大数据计算 —> 大数据存储
大数据模型层:DAAS(data as a service) 中台
数据仓库 —> 数据集市
大数据应用层:DA(data application) 前台
留存应用 —> 画像应用 —> 实时应用 —> 业务报表应用 —> 数据智能应用
离线数仓中台实现功能