数据仓库实践杂谈(十八)——关于报表报表绝对是让人痛苦的东西。格式复杂、需求多变,没事就增加几个。虽然说起报表感觉很老土,但确实是需求量最大的一个东西。貌似做报表多的人,基本上都会做一个自己的工具,至少也会做一个引擎,按照自己的理解用一种结构化加动态的方式去定义所需要的报表,可以灵活的选择所需要的数据,设计展现样式生成报表。当年有幸开始给银行做报表,一不小心做了很多年,也算是总结出一套报表处理的机
转载
2023-10-20 19:37:15
98阅读
在没有真正的数据仓库数据库之前,现在所有的数据仓库其实都只是一个基于维度模型创建的关系型数据库,但是数据仓库数据库本身有一些区别与比如OLTP数据库的独特特性,比如最显著的就是数据量最大的称为事实的表(一般都有百万甚至上亿的数据量)居于连接的中心,其周围是很多的基数比较小的称为维度的表(可能只有几百行数据),然后居于中心的大数据量的事实表通过外键连接到十几甚至几十个小数据量的维度表。针对数据仓库的
转载
2023-08-04 20:21:37
171阅读
数据库总结一、数据库简介1、数据库简介数据库(Database,DB)是按照数据结构来组织,存储和管理数据的仓库。典型特征:数据的结构化、数据间的共享、减少数据的冗余度、数据的独立性关系型数据库:使用关系模型把数据组织到数据表(table)中。现实世界可以用数据来描述。常见的关系型数据库产品:Oracle(Oracle)、DB2(IBM)、SQL Server(MS)、MySQL(Oracle)。
转载
2024-01-03 13:25:33
44阅读
数据仓库常用表拉链表宽表等详解全量表:全量表没有分区,表中的数据是前一天的所有数据,比如说今天是24号,那么全量表里面拥有的数据是23号的所有数据,每次往全量表里面写数据都会覆盖之前的数据,所以全量表不能记录历史的数据情况,只有截止到当前最新的、全量的数据。快照表:也叫切片数据,那么要能查到历史数据情况又该怎么办呢?这个时候快照表就派上用途了,快照表是有时间分区的,每个分区里面的数据都是分区时间对
转载
2023-08-10 16:57:48
78阅读
在数据仓库的设计指导思想中,数据仓库的概念定义是非常重要的,数据仓库概念规定了数据仓库所具有的几个基本特性,这些特性也正是对数据仓库设计结果进行检验的重要依据。 在一般的数据仓库应用系统中,根据系统体系结构的不同,数据仓库设计的内容和范围不尽相同,并且设计方法也不尽相同,下面的两幅图示分别表示带有ODS的数据仓库应用系统体系结构和不带ODS的数据仓库应用系统体系结构。本文将说明两个体系结构上
上一节我们了解了数仓中常见的两大建模体系:关系建模和维度建模,并论述了维度建模的4个步骤。数仓(二)关系建模和维度建模数仓(三)简析阿里、美团、网易、恒丰银行、马蜂窝5家数仓分层架构其实数仓建模中还有些其他建模体系:像DataVault、Anchor模型,这两个模型感兴趣的可以自己查些资料。这一篇我们来学习一下数仓中非常重要的内容:数仓的分层架构体系。一、数据集市(Data Mart)在学习数仓架
转载
2023-08-21 20:32:50
148阅读
在这个信息爆炸式增长的时代,挖掘数据的潜在价值尤为重要,越来越多的人将目光聚集于商务智能BI领域。通过数据分析软件对来自不同的数据源进行统一的处理和管理,并以灵活的方式展示数据之间的联系,辅助企业进行决策。在BI越发重要的今天,如何学习BI应用并熟练掌握它呢?总结一下,大致需要从五个方向着手:1)学习数据库知识,掌握基础技能sql直白来讲,BI就是玩数据的,从数据中获取各种所需信息。因为BI的出发
转载
2024-08-26 07:44:15
55阅读
前言大家好,我是云祁!今天和大家聊聊数据仓库中维度表设计的那些事。维度表是维度建模的灵魂所在,在维度表设计中碰到的问题(比如维度变化、维度层次、维度一致性、维度整合和拆分等)都会直接关系到维度建模的好坏,因此良好的维表设计就显得至关重要,今天就让我们就一起来探究下关于维表设计的相关概念和一些技术。维度变化维度表的数据通常来自于前台业务系统,比如商品维度表可能来自于 ERP 或者超市 POS 系统的
转载
2024-08-08 10:25:31
38阅读
数据仓库的物理模型较常见的操作型数据库的物理模型有很大不同。最明显的区别是:操作型数据库主要是用来支撑即时操作,对数据库的性能和质量要求都比较高,为了防止“garbage in,garbage out”,通常设计操作型数据库的都要遵循几个范式的约束,除非少数情况下为了性能进行妥协,才可能出现冗余。而数据仓库的建立并不上为了支撑即时操作,或者说,数据仓库的数据是来源于即时操作产生的数据,而不是直接来
转载
2023-08-13 19:47:37
141阅读
夫道、德、仁、义、礼,五者一体也。 ——黄石公《素书·第一章·原始》 文章目录前言一、ODS接入二、DIM设计三、DWD设计四、DWS设计五、ADS设计总结 前言记录数据仓库模型报表设计过程中遇到的坑及其设计可以遵循的规则。持续更新中。一、ODS接入ods接入时不做过多的处理,可以选择直接贴源或者做一些普遍存在的问题处理(比如空值的展示样式统一,关系型数据库中字符串数据类型直接使用sqoop接入时
转载
2024-03-24 14:02:24
46阅读
title: 01-数据库的基础知识 publish: true数据库的概念数据库:database(DB),是一种存储数据的仓库。具有如下特性:数据库是根据数据结构组织、存储和管理数据。数据库能够长期、高效的管理和存储数据。数据库的目的就是能够存储(写)和提供(读)数据。数据库分类数据库分为两类:关系型数据库:把复杂的数据结构归结为简单的二元关系,即二维表格形式(二维表)。注重数据存储的持久性。
转载
2024-02-26 19:50:45
25阅读
数据仓库搭建之数据仓库设计1.数据仓库的分层规划本项目的分层规划如下图所示:对于原始数据层(ODS):该层我们存放的是未经处理的原始数据,结构上与源系统保持一致,这是数据仓库的数据准备区。对于明细数据层(DWD):该层我们是基于维度建模理论进行构建的,用于存放维度模型中的事实表,保存各个业务过程的最小粒度的操作记录。对于公共维度层(DIM):该层我们是基于维度模型建模理论进行构建的,存放的是维度模
转载
2023-08-08 16:46:29
523阅读
文章目录一. 维度表技术基础1.1 维度表结构1.2 维度代理键1.3 自然键、持久键和超自然键1.4 下钻1.5 退化维度1.6 非规范化扁平维度1.7 多层次维度1.8 文档属性的标识与指示器1.9 维度表中的空值属性1.10 日历日期维度1.11 扮演角色的维度1.12 杂项维度1.13 雪花维度1.14 支架维度二. 使用一致性维度集成2.1 一致性维度2.2 缩减维度2.3 跨表钻取2
转载
2023-12-30 08:54:33
47阅读
1)在数据仓库领域有一个概念叫Transaction fact table,中文一般翻译为“事务事实表”。事务事实表是维度建模的数据仓库中三种基本类型事实表中的一种,另外两种分别是周期快照事实表和累积快照事实表。 事务事实表与周期快照事实表、累积快照事实表使用相同的一致性维度,但是它们在描述业务事实方面是有着非常大的差异的。事务事实表记录的事务层面的事实,保存的是最原子的数据,也称“原子
转载
2024-07-03 05:25:49
28阅读
文章目录一.表的种类及其概念1.实体表2.维度表3.事实表二.数据同步策略1.全量同步策略2.增量同步策略3.新增及变化策略4.特殊策略 一.表的种类及其概念1.实体表一般是指一个现实中存在的业务对象,实体表它放的数据一定是一条条客观存在的事物数据,比如用户,商家,商品等(某东上的某某人参丸就是一个实体)3。2.维度表一般是指业务中的一些状态,代码的解释表(也称为码表)。维度表可以看成是用户用来
转载
2023-06-02 15:44:50
135阅读
<script type="text/javascript">
</script><script type="text/javascript" src="http://pagead2.googlesyndication.com/pagead/show_ads.js"> </script>
建造数据仓库要做些什么?
一
度表示你要对数据进行分析时所用的一个量, 比如你要分析产品销售情况, 你可以选择按类别来进行分析,或按区域来分析. 这样的按..分析就构成一个维度。前面的示例就可以有两个维度:类型和区域。另外每个维度还可以有子维度(称为属性),例如类别可以有子类型,产品名等属性。下面是两个常见的维度表结构:产品维度表:Prod_id, Product_Name, Category, Color, Size, Pr
转载
2024-05-15 13:25:47
69阅读
数据库是最常听到的名词之一了,但是当提到数据仓库的时候,就会疑问,数据仓库是数据库吗? 如果不是,数据仓库是什么,用来干什么的呢? 平时遇到这个问题一般还真是不好简单明了的回答,因为也的确不是一两句话说的清的。那么数据仓库到底是什么呢,跟数据库有什么区别呢? 数据仓库是什么呢?数据仓库是面向主题的 集成的 相对稳定的 反映历史变化的数据集合,目的在于支持决策面向主题面向主题跟面向应用相对
转载
2023-08-19 00:20:50
306阅读
数据仓库之事实表一、事实表分类1. 以粒度划分(1) 事务事实表(Transaction Grain Fact Table)(2) 周期快照事实表(Periodic Snapshot Grain Fact Table)(3) 累积快照事实表(Accumulating Snapshot Grain Fact Table)(4)三种事实表的区别2. 以用途划分(1)原子事实表(Atom Fact Ta
转载
2023-10-28 06:15:43
104阅读
1、数据仓库基础知识1.1什么是数仓数仓的概念:数据仓库简称数仓,在《建立数据仓库》中是这样定义数据仓库的:数据仓库是面向主题的,数据集成的,相对稳定的(非易失的),反映历史变化(时变)的数据集合,用于支持管理决策。数据仓库是决策支持系统的结构化数据环境。决策支持系统基于数据仓库进行联机分析处理。应用场景:满足企业中所有数据的统一化存储,通过规范化的数据处理来实现企业的数据分析应用。1.2为什么有
转载
2023-11-18 23:54:33
66阅读