数据仓库架构分层数据仓库分层原理

转载

mob64ca13f772f3 2023-08-13 17:58:47

一、为什么要分层

1）把复杂问题简单化：将复杂的任务分解成多层来完成，每一层只处理简单的任务，方便定位问题。

2）减少重复计算：规范数据分层，通过的中间层数据，能够减少极大的重复计算，增加一次计算结果的复用性。

3）隔离原始数据：不论是数据的异常还是数据的敏感性，使真实数据与统计数据解耦开。

数据仓库架构分层数据仓库分层原理_建模

1）保持数据原貌不做任何修改。

2）对数据采用压缩，减少磁盘空间

3）创建分区表，防止后续的全表扫描

主要采用维度建模中的星型模型，核心思想是维度退化，尽量让所有事实表周围只有一级维度。

在维度建模的过程中经过了四步：

1）选择业务过程：在业务系统中，根据产品经理的需求，选择对应的业务线，每条业务线对应一张事实表。

2）声明粒度：选择最小的数据粒度，一般JAVAEE后台过来的数据都是最小粒度。

3）确定维度：根据需求，对维度表进行适当聚合，多个维度退化成一个维度，让事实表周围只有一级维度，避免后续大量的join操作，这也是星型模型的本质。

4）确定事实：其实就是确定各业务中的度量值，例如订单金额、下单次数等。

统计各个主题对象的当天行为，服务于DWT层的主题宽表。

统计各个主题对象的累计行为。以分析的主题对象为建模驱动，基于上层的应用和产品的指标需求，构建主题对象的全量宽表。

对各大主题进行指标计算，数据来源于DWS和DWT层。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯