什么是数据中台?
数据中台是指通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径。数据中台把数据统一之后,会形成标准数据,再进行存储,形成大数据资产层,进而为客户提供高效服务。这些服务跟企业的业务有较强的关联性,是这个企业独有的且能复用的,它是企业业务和数据的沉淀,其不仅能降低重复建设、减少烟囱式协作的成本,也是差异化竞争优势所在。
数据仓库指的是什么?
数据仓库也称为企业数据仓库(enterprise data warehouse, EDW),它只是一个支持数据分析和报告的系统。EDW作为组织集成数据(即,来自多个数据源的数据组合,因此最终用户可以很容易地获得重要公司数据的单个、可理解的、可用的视图)。
数据仓库是用来存放组织完整和统一的信息存储库的。首先,您可以提取关键业务数据来做出明智的决策。数据仓库通过健壮和可伸缩的基础设施实现了企业数据使用的现代化。数据仓库内容可能来自公司的操作系统(erp、历史学家、PI系统等)、财务系统、事务系统、关系数据库和各种其他来源。
数据中台与数据仓库两者的差异
其实,数据中台从某个意义来说属于数仓的一种,都是要把数据抽进来建立一个数据仓库,两者在很多技术使用上是一样的,比如ETL工具,可视化框架等。但是两者的数据来源和建立数仓的目标以及数据应用的方向都存在很大的差异。
数据中台不单单指系统或者工具,而是一个职能部门,通过一系列平台、工具、流程、规范来为整个组织提供数据资产管理和服务的职能部门。数据中台负责全域数据采集、数据资产加工和管理、并向前台业务部门和决策部门提供数据服务。所以,数据中台的核心应该是数据资产管理和数据赋能,通俗的讲就是数据弹药库。
1、数据来源不同
数据中台的数据来源期望是全域数据,包括:业务数据库,日志数据,埋点数据,爬虫数据,外部数据等,数据的来源可以是结构化数据或者非结构化的数据。
而传统数仓的数据来源主要是业务数据库,数据格式是以结构化数据为主。
2、建立的目标不同
目标是为了融合整个企业的全部数据,打通数据之间的隔阂,消除数据标准和口径不一致的问题。数据中台通常会对来自多方面的的基础数据进行清洗,按照主题域概念建立多个以事物为主的主题域。比如用户主题域,商品主题域,渠道主题域,门店主题域等等。
而传统的数仓主要用来做BI的报表,目的性很单一,只抽取和清洗相关需要使用到的基础数据,进行建仓,然后再用来做领域分析,有的时候可能因为新增一张报表,就要从底层到上层再做一次加工和处理。
3、数据应用方面不同
建立在数据中台上的数据应用不仅仅只是面向于BI报表,更多面向营销推荐,用户画像,AI决策分析,风险评估等。这些应用的特点在SmartbiBI工具中,体现得淋淋尽致,这些特点都比较容易快速开发出来,因为重要的数据分析工作在数据中台已经完成并且沉淀,所以之前工作成果都能被多个应用共享。
而传统的数据仓库主要是面向报表或者高级可视化,数据应用的建设一般是面对相对确定的主题内容,在诸如数据建模,进行数据追踪与探查,深度挖掘层面存在较大的局限性。
4、依赖平台不同
数据中台一般都是建立在分布式计算平台和存储平台,Smartbi亦是如此,在存储层之上构建了数据分析中台,它包括了完整的数据中台、技术中台与业务中台。其本质上是构建具备数据共享能力的应用中心,可以无限扩充平台的计算和存储能力。
而多数的传统数仓工具只是建立在传统关系数据库和单一服务器部署的基础上,一旦数据量变大,很容易出现存储、效率、计算的问题,其后续扩充存在较大的成本和时间。
总而言之,数据中台不等于大数据平台,数据中台的核心工作也并不是将企业的数据全部收集起来做汇总就够了。数据中台的使命是利用大数据技术、通过全局规划来治理好企业的数据资产,让数据使用者能随时随地获取到可靠的数据。