计算数据中心:提供统一的结构化和半结构化的数据存储服务并提供对这些数据的计算能力;

平台的关键字是稳定和弹性,其特性应包括:
1,存储服务的提供:数据群集存储服务,应用对数据访问透明,无需关心存储的位置;提供结构化和半结构化的数据存储服务;支持数据的稀疏存储(非常重要);数据主题的数据在建模过程会根据主体域对象建立数据模型(蒲公英模型);对于不同的访问模式(AD-HOC、K/V访问)允许制定不同的存储策略以保证系统性能(按照需要读取的列全列扫描或者通过索引的快速扫描)
2, 计算能力的提供:根据特定的需求,选择合适的编程语言对数据进行直接的访问,可以允许SQL,C,R,PERL,PYTHON等不同的编程语言在数据接口层之上直接开发,允许采用Map Reduce编程模式进行海量大规模数据处理编程;允许常驻的服务进程访问数据并直接对外提供海量并发的查询访问;
3,扩展性要求:根据需求可以更动态的通过添加机器已解决计算和存储的能力需求;至少允许多组MASTER节点或者完全的无主模式,每个数据节点完全对等;
4,可用性要求:数据仓库将前台化,要求整个平台7*24可用;由于任意硬件设备导致的宕机是完全不可接受的;
5 动态资源管理:系统将对外提供服务,每个服务所能占用的资源和任务的优先级是不同的,对于不同等级的服务按照配额和优先级保证资源的配置管理,同时总是保证在用户的配额内服务总是能成功;

各数据区的关系:
1,STAGING区域:通过各种手段(包括数据库CDC,网站点击打点,用户或者系统上下传文件)获取的需要进入DW的数据(增量或者全量数据),在STAGING区域完成数据的清洗允许同时将同一数据主题下不同的数据区域的数据通过不同的数据服务同时并发的写入到同一个数据主题下;
2,实时数据区:应用各个业务系统推送过来的增量或者全量数据(根据数据新鲜度要求的不同,这些数据可以是隔天刷新的,可以是按小时刷新的,可以是按分钟刷新的,但是对于该数据,总是最新的);通过数据应用服务,同一对象实体的数据在实时数据区已经完成数据的整合;实时的数据服务由该区域直接对外提供服务;数据的输入可以是由外部系统输入的,也可以是在DW内部,通过ELT刷新任务获得结果数据,这些数据将写回实时数据区对外提供查询服务;实时数据区的数据总是最新的。
3,接口数据区:通过对实时数据区的SNAPSHOT功能,获得一个整合后的数据主题的快照;基于该快照,进行数据的深度整合加工、分析,该区域为固定报表和数据挖掘、数据分析探查的数据输入;接口数据区的数据是整合的,记录历史的;
4,应用数据区:有时数据量是巨大的,有时业务并不需要特别详细的历史记录,由汇总后的接口数据区记录聚集创建数据集市;对已经获得的知识形成应用,数据进行汇总,提炼,形成应用以及报表;给出趋势或者对某些特定应用的细化分析报告结果;

随着数据仓库前台化的进程将越来越重要,数据仓库将成为整个企业数据化运营中最重要的组成部分;数据仓库通过数据服务,为各个业务系统以及企业的外部用户提供分析整合后的数据,可以预见的是访问呈现两个不同的趋势:
1, 随着对外提供数据服务的增加,DW成为整个企业服务流程中的一个环节,将会带来越来越多的并发访问需求,对外的系统必须能满足亿万级别PV的访问需求;
2,提供数据服务的客户越来越多,常规的数据报表的开发需要更为简单直观,对报表组件工具需要组件化,做客户化定制封装;客户消费数据的能力也越来越强,让用户随时可以面对数据库,随时按照自己的想法来获取所希望的数据;

数据平台的职责是构建并维护数据仓库模型:
关键字是敏捷和规范;
1,采用基于对象的数据主题建模方式,建立稳定的专职数据模型设计团队,专职的数据仓库模型设计人员能够保证在敏捷开发设计中,保证模型设计的中立性,因为它的职责不同与应用开发设计人员,它的责任就是保证模型的可扩展和通用性;
2, 统一严格的模型设计规范,包括严格的命名规范,模型设计不可能由一个人来完成,有必要建立严格的规范体系。最重要的是命名规范、以及数据度量和维度标准定义。
3,严格进行数据源来源控制。互联网行业的数据具有以下特点:新增数据源非常频繁;生命周期也较短;数据量增长速度惊人,如果没有严格的控制,会导致数据仓库中的数据组织混乱,不可审计与追踪。
4,不断优化与沉淀仓库模型。新的业务与数据开始可能与其它源交互较少,支撑的业务面少,但是随着业务的发展,需要有模型设计团队的成员去优化改善,以及沉淀新业务的数据仓库模型;