前言
通过数据湖的建设,用户不再需要到各个源系统调用数据,而是统一从数据湖调用;由于入湖的数据,很零散且都是未经过清洗加工的原始数据,用户很难知道数据之间的关联关系;数据联接分层的建设就显得顺理成章了。
数据联接架构
1、多维模型设计
依据明确的业务关系,建立基于维度、事实表以及相互间连接关系的模型,实现多角度、多层次的数据查询和分析。
多维模型设计主要包括如下4个步骤。
确定业务场景
分析业务需求,识别需求中所涉及的业务流及其对应的逻辑数据实体和关联关系,比如如果是采销负责人,首先要识别需要监控的是具体业务环节是商品或者部门
声明粒度
声明的粒度表示数据单元的细节程度或者综合程度,这个环节是维度和事实表设计的重要步骤。
维度设计
维度是用于观察和分析业务数据的视角,支持对数据进行汇聚、钻取、切片分析;
维度有层次结构、层级、成员、属性组成。维度可以分为基础树和组合树,维度基础树提供统一定义的、完整的层级结构和成员;维度组合树根据业务使用场景进行定制。
此外维度设计需要满足这三个特性:单一性、单向性、正交性
- 单一性:有且仅有一个视角,在同一维度中不能穿插其他经营分析的视角
- 单向性:上大下小,维度只能支撑自上而下的分解和自下而上的收敛;每个成员不能具备向上和向下两个方向的收敛逻辑;
- 正交性:成员两两不相交,同一成员不能同时拥有多个上级成员;
事实表设计
事实表存储业务过程时间的性能度量结果,有粒度属性、维度属性、事实属性和其他描述属性组合;
- 粒度属性是事实表的主键,通常由原始数据的主键或一组维度属性生成;
- 维度属性:是维度中继承的属性,可以只继承主键作为事实表的外键,也可以继承维度中全部或其他部分的属性。
- 事实属性:可以是对该粒度的事实进行定量的属性,大多数的事实表包括一个或者多个事实字段。注意事项:
- 同一事实表中不能存在多种不同粒度的事实,比如进行聚合的时候会出错;
- 不要包含与业务过程无关的事实,比如订单表中不要包含支付金额,这个应该是支付表
- 对于不可相加的事实,需要分解为可加的事实,比如比率,应该分解为分子和分母;
- 事实的数值单位要保持一致;
- 其他属性:主要是创建人、创建时间、最后修改人、最后修改时间等审计字段,如果有其他地方记录,这些信息可以不落到事实表中;
2、图模型设计
待完善
3、标签设计
标签是根据业务场景的需求,通过对目标对象(含静态、动态特性)运用抽象,归纳,推理等算法得到的高度精炼的特征标识,用户差异化管理与决策;目前标签更多助力于战略分级、智能搜索、优化运营、精准营销、优化服务、智慧经营等;
标签主要分为如下三类,
- 事实标签:描述实体的客观事实,关注实体的属性特征,如员工的性别,年龄;此类标签是客观和静态的;
- 规则标签:是对数据加工处理后的标签,是属性与度量结合的统计结果,如货物是否超重,产品是否热销,此类标签是相对客观和静态的;
- 模型标签:是洞察业务价值导向的不同特征,是对于实体的评估和预测,如消费者的消费潜力是否旺盛,此类标签是结合算法生成的,是主动和动态的;
标签管理分为标签体系的建设和打标签
标签体系建设
- 选定打标签的业务目标对象
- 根据标签的复杂度进行标签层级的设计
- 设计详细的标签以及标签值
打标签
- 打标签数据存储结构:打标签是建立标签值与实例数据的关系,可以对一个业务对象,一个逻辑数据实体、一个物理表或者一条记录打标签;
- 此外为了方便用户视角查询、关联、消费标签,可以增加用户表,将标签归属到该用户下,这里的用户可以是人、组织、部门等;
- 打标签的实现方法
- 事实标签:根据标签值和属性允许值的关系自动打标签
- 规则标签:设计打标签逻辑,由系统自动打标签
- 模型标签:设计打标签算法模型由系统自动打标签
4、指标设计
指标是衡量目标总体特征的统计数值,能表征企业某一业务活动中业务状况的数值指标器
通过指标计算逻辑是否含有叠加公式,可以把指标分为原子指标和复合指标(衍生指标)
指标拆解
5、算法模型设计
算法模型是根据业务需求,运用数学方法对数据进行建模,得到业务最优解,主要用于业务智能分析
参考:
《华为数据之道》