有赞数据仓库背景业务系统使用 mysql 数据库数据仓库基于 Hive 构建业务快速变化,员工数量持续增加
第一版:手工维护的表格在有赞大数据平台发展初期,业务量不大,开发者对业务完全熟悉,从 ETL 到统计分析都可以轻松搞定,当时没有想过要做一个元数据系统。随着公司规模扩大,开始有专职的数据分析师,作为大数据平台的新用户,希望能够记录和查看核心表的信息。最简单的方法就是去业务数据库
转载
2024-08-26 10:28:12
31阅读
# 数据仓库规范
## 什么是数据仓库
数据仓库是一个用于存储和管理企业数据的系统,它用于支持企业的决策制定和分析过程。数据仓库通常集成了来自不同数据源的数据,并通过ETL(抽取、转换、加载)过程将数据转换成可供分析的格式。
数据仓库中存储的数据通常是历史数据,用于支持企业在过去、现在和未来的决策制定。通过数据仓库,企业可以进行数据挖掘、报表分析、趋势预测等操作,从而更好地了解企业的业务情况
原创
2024-03-01 03:31:28
68阅读
元数据即是数据的数据,是用来描述数据的,即和数据识别,产生,使用这一流向过程相关的直接的间接的所有相关的数据都可以称之为元数据,而不单单是数据表相关信息。比如:以大数据数仓常见的架构为例:源数据通常通过ETL工具如kettle或canal或其他工具将数据抽到大数据平台中,存储在hdfs上,再经过数据分析(经典数仓按照ods->dwd->dws->ads)形成最终要使用的数据,最后
转载
2023-09-13 19:57:37
70阅读
# 元数据仓库:数据管理的新前沿
在信息化时代,数据已成为企业最重要的资产之一。而为了有效地管理和利用这些数据,元数据仓库应运而生。本文将为您详细介绍元数据仓库的概念、作用以及在实际应用中的示例,并分享一些基本的代码实现。
## 什么是元数据仓库?
元数据仓库(Metadata Repository)是一个专门用于存储和管理元数据的系统。元数据是描述数据的数据,它提供了数据的结构、格式、内容
什么是元数据?元数据(Meta Data),主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及 ETL 的任务运行状态。如何管理元数据?一般会通过元数据资料库(Metadata Repository)来统一地存储和管理元数据,其主要目的是使数据仓库的设计、部署、操作和管理能达成协同和一致。构建数据仓库的主要步骤之一是 ETL。这时元数据将发挥重要的作用,它定义了源数据系统到
转载
2023-08-26 22:59:50
105阅读
一、数据埋点规范
1、数据传输与协议
标准JSON格式,经过:https(aes加密+gzip压缩)处理,上报到服务端。
2、埋点规范与约束
1)采用事件模型,一切都是事件。所有的数据都以事件形式上报,形成“基础信息 + 事件信息”这种数据模型,包括:SDK自采集、用户行为、App自动行为、APM、Debug等数据,都统一以事件形式上报;2)properties的属性key尽量复用。比如:商品id
转载
2023-11-29 14:59:52
230阅读
&n
转载
2023-12-11 12:15:10
47阅读
数据仓库元数据管理一、元数据的定义元数据(metadata) 即数据的数据,是描述数据仓库结构和数据仓库建立方法的数据,主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及ETL的任务运行状态。一般会通过元数据资料库(Metadata Repository)来统一地存储和管理元数据,其主要目的是使数据仓库的设计、部署、操作和管理能达成协同和一致。。元数据可以帮助数据仓库管理员
转载
2023-08-29 16:05:05
65阅读
一、什么是元数据元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(data about data),一组用于描述数据的数据组,该数据组的一切信息都描述了该数据的某方面特征,则该数据组即可被称为元数据。业务含义、统计口径、数据来源、计算逻辑等就是元数据。现在数据对于公司的决策十分的重要,随着业务的发展,业务线会慢慢庞大起来,随着开发人员的变更以及增多,没有元数据治理,很难保证数据
转载
2023-12-03 14:05:48
136阅读
数据仓库理论篇数据仓库Data Warehouse - 数仓是一种思想,数仓是一种规范,数仓是一种解决方案数据处理方式数据处理大致可以分为两大类:联机事务处理OLTP(On-Line Transaction processing)
联机分析处理OLAP(On-Line Analytical Processing)OLTP(联机事物处理)面向于业务(事务)的,主要用于捕获数 据,主要对数据进行CUR
转载
2023-12-21 09:04:17
116阅读
笔者是一个痴迷于挖掘数据中的价值的学习人,希望在平日的工作学习中,挖掘数据的价值,找寻数据的秘密,笔者认为,数据的价值不仅仅只体现在企业中,个人也可以体会到数据的魅力,用技术力量探索行为密码,让大数据助跑每一个。 1. 概述数据模型是数据管理的分析工具和交流的有力手段;同时,还能够很好地保证数据的一致性,是实现商务智能(Business Intelligence)的重要基础
转载
2024-01-02 21:39:35
32阅读
什么是BI:即商业智能(Business Intelligence),是指通过对数据的收集、管理、分析以及转化,使数据成为可用的信息,从而获得必要的洞察力和理解力,更好地辅助决策和指导行动。BI 使得企业的决策者能够对企业信息进行有效、合理地分析和处理,为决策提供可靠的依据。BI应用包括决策支持、查询和报表、联机分析处理OLAP、统计分析、预测和数据挖掘等活动。什么是ETL:ETL(Extract
转载
2023-10-17 19:29:01
86阅读
00背景 规范约束是数仓建设的全流程,以及后续的迭代和运维的参照。事实上,数仓规范文档,应该随着架构设计文档,在数仓开发启动之前,分发给所有相关...
转载
2022-03-10 09:31:50
487阅读
数据仓库系列文章(持续更新)数仓架构发展史数仓建模方法论数仓建模分层理论数仓建模—宽表的设计数仓建模—指标体系数据仓库之拉链表数仓—数据集成数仓—数据集市数仓—商业智能系统数仓—埋点设计与管理数仓—ID Mapping数仓—OneID数仓—AARRR海盗模型数仓—总线矩阵数仓—数据安全数仓—数据质量数仓—数仓建模和业务建模凡事无规矩不立,所以你会经常看到各种各样的规范,面...
转载
2022-05-15 09:24:53
10000+阅读
在如今数据驱动的时代,建设一个高效、灵活、可扩展的数据仓库是企业数据管理的核心任务之一。数据仓库不仅能助力企业进行数据分析,还能有效支持决策制定。但在实际的建设过程中,我们往往会面临各种规范性的问题。下面就分享一个关于“数据仓库建设规范”问题的完整解决方案,包括环境准备、分步指南、配置详解、验证测试、优化技巧和扩展应用。
## 环境准备
在开始构建数据仓库之前,我们需要确保软硬件环境的准备妥当
12 月 9 日,阿里云宣布数据库产品 HybridDB 正式商业化。 MPP 大规模并行处理数据仓库的服务。它基于 Pivotal 公司的开源数据库项目 Greenplum DatabaseOLAP 分析聚合函数,提供灵活的混合分析能力。提供在线扩容、备份、性能监测等服务。无需再自行维护复杂的大规模并行数据集群。”以线性扩展分析性能,提高计算能力。7 月公测以来的数据显示,JSON 和 G
目录1.表属性规范-11.常规表2.中间表3.临时表4.维度表5.手工表6.指标2.表属性规范-21.ODS层表名 2.DW事实表表名3.DW/DM维度表表名4.元数据表名3.其他数据库对象1.表属性规范-11.常规表常规表是我们需要固化的表,是正式使用的表,是目前一段时间内需要去维护去完善的表。规范:分层前缀[dwd|dws|ads|bi]_业务域_主题域_XXX_粒度。 业务域、主题
转载
2024-05-15 06:17:42
704阅读
8. 数仓开发之 DIM 层商品维度表流程汇总图SKU信息表(sku_info)SPU信息表(spu_info)一级分类表(base_category1)二级分类表(base_category2)三级分类表(base_category3)品牌表(base_trademark)SKU平台属性值表(sku_attr_value)SKU销售属性表(sku_sale_attr_value)建表语句数据装
转载
2023-10-16 13:05:17
148阅读
数据仓库系列文章(持续更新)数仓架构发展史数仓建模方法论数仓建模分层理论数仓建模—宽表的设计数仓建模—指标体系数据仓库之拉链表数仓—数据集成数仓—数据集市数仓—商业智能系统数仓—埋点设计与管理数仓—ID Mapping数仓—OneID数仓—AARRR海盗模型数仓—总线矩阵数仓—数据安全数仓—数据质量数仓—数仓建模和业务建模凡事无规矩不立
转载
2022-05-15 09:48:17
10000+阅读
解释PayPal的工作方式(IPN和PDT流程)。 第一 章第三章 第二章 本章从头到尾介绍一个真实的项目:“通过付款进行注册”,以更好地说明PayPal帐户设置以及与注册表格和数据库的集成。 项目场景 首先,我们有一个注册表。 正确填写表格(通过所有验证)后,用户单击“注册”按钮。 然后重定向到PayPal,用户支付注册费用。 付款后,PayPal将重定向到结果页面,并在10秒后