建模过程中税务数据分析数据建模剖析

转载

mob6454cc70a873 2023-11-02 14:26:30

数据建模就是数据组织和存储档案，强调从业务、数据存取和使用角度存储数据。

数据模型十分重要，好处有：

为什么要设计数据分层：需要一套行之有效的数据组织和管理方法来让我们的数据体系更有序

复杂问题简单化：将一个复杂的任务分解成多个步骤来完成，每一层解决特定的问题。复杂的查询有多个子语句
清晰数据结构：每一个数据分层都有它的作用域和职责，在使用表的时候能够更方便地定位和理解
数据血缘追踪：当数据出现问题之后，快速准确地定位到问题，并清楚它的危害范围
减少重复开发：规范数据分层，开发一些通用的中间层数据，能够减少极大的重复计算，用空间换时间，通过大量的预处理来提升应用系统的用户体验（效率），因此数据仓库会存在大量冗余的数据。
统一数据口径：通过数据分层，提供统一的数据出口，统一对外输出的数据口径

OLTP (online transaction processing) 联机事务处理过程

面向的主要数据操作是随机读写，

主要采用满足3NF的实体关系模型存储数据，从而在事务处理中解决数据的冗余和一致性，

侧重基本的、日常的事务处理，包括数据的增删改查。

OLAP (Online Analytical Processing) 联机分析处理

主要数据操作是批量读写

事务处理中的一致性并不是所关注的，主要关注数据的整合，以及在复杂大数据查询处理的性能

需要以大量历史数据为基础，再配合上时间点的差异，对多维度及汇整型的信息进行复杂的分析。

用实体关系（Entity Relationship）模型描述企业业务，在范式理论上符合3NF，是站在企业角度面向主题的抽象。

用ER数据建模的出发点是整合数据，将各个系统中的数据以整个企业角度按照主题进行相似性组合和合并，并进行一致性处理，为数据分析决策服务，但不能直接用于决策分析。

3NF：

第一范式：原子性，字段不可分。是指数据库表的每一列都是不可分割的基本数据项，同一列中不能有多个值，即每一个属性都是原子的，不能再分，也可以理解为不能表中套表。
第二范式：唯一性，要求每个非主属性完全依赖于主键，不存在对主键的部分函数依赖。
第三范式：不存在属性对主键的传递依赖

建模阶段：

从决策分析的需求出发构建模型。关注如何快速地完成需求分析，同时具有较好的大规模复杂查询的响应性能。典型代表：星形模型、雪花模型

建模阶段：

星形模式

雪花模式

星座模式

多对多
维度空间内的事实表可能不止一个，一个维表可能被多个事实表用到
￮好处：能够共享维度 和 设置细节/聚集事实表
￮ 共享维度：公司希望用分析销售主题的方法分析劣质产品，不需要重新建模，只需要加入一个新的劣质产品事实表
￮ 细节事实表：每条记录表示单一事实，通常设置TID属性，查询灵活但速度慢
￮ 聚集事实表：每条记录聚合多条事实，无TID属性，速度快但查询功能受到一定限制

强调可审计的基础数据层，也就是强调数据的历史性、可追溯性和原子性，不过度追求一致性处理。
基于主题概念进行结构化组织

Hub：骨架，核心业务实体。由实体key、数据仓库序列代理键、装载时间、数据来源组成。
Link：韧带，代表Hub之间的关系，作为一个独立的单元抽象（和ER模型最大的区别），可以直接描述1:1，1:n的关系。由代理键、装载时间、数据来源组成
Satellite：血肉，是Hub的详细描述内容。由Hub的代理键、装载时间、来源类型、详细描述组成