title: 01-数据库的基础知识 publish: true数据库的概念数据库:database(DB),是一种存储数据的仓库。具有如下特性:数据库是根据数据结构组织、存储和管理数据。数据库能够长期、高效的管理和存储数据。数据库的目的就是能够存储(写)和提供(读)数据。数据库分类数据库分为两类:关系型数据库:把复杂的数据结构归结为简单的二元关系,即二维表格形式(二维表)。注重数据存储的持久性。
转载
2024-02-26 19:50:45
25阅读
1. 结构分层1.1 数据加载层一般数据源来自不同业务库、埋点、第三方数据源,存储一般使用mysql pgsql1.2 数据运营层数据量一般比较大,常用hdfs ,使用hive hbase1.3 数据仓库层存储需求和ods 类似1.4 数据应用层需要较高的反应速度,mysql pgsql redis2. 数据模型数据模型主要分为三层:ODS层存放的是接入的原始数据,DW层是存放我们要重点设计的数据
转载
2023-08-16 00:25:56
17阅读
今天这篇文章,给大家讲述一下数据仓库的架构模式,作为我们一起探讨的内容。希望大家留言、评论,我们一起学习。一 说到数据仓库,那么我们先来了解一下数据仓库的基本概念。数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。通俗一点说就是,数据仓库就是集合了各源系统的数据,同时对数据进行ETL,并最终作为数据服务
转载
2023-08-03 23:39:35
53阅读
1)在数据仓库领域有一个概念叫Transaction fact table,中文一般翻译为“事务事实表”。事务事实表是维度建模的数据仓库中三种基本类型事实表中的一种,另外两种分别是周期快照事实表和累积快照事实表。 事务事实表与周期快照事实表、累积快照事实表使用相同的一致性维度,但是它们在描述业务事实方面是有着非常大的差异的。事务事实表记录的事务层面的事实,保存的是最原子的数据,也称“原子
转载
2024-07-03 05:25:49
28阅读
1. 构建带有批处理的ETL管道在传统的ETL管道中,从源数据库到数据仓库分批处理数据。从头构建企业ETL工作流具有挑战性,因此您通常依赖于诸如Stitch或Blendo等ETL工具,它们可以简化并自动化大部分流程。要构建一个批量处理的ETL管道,你需要:创建引用数据:创建一个数据集,定义数据可能包含的允许值集。例如,在国家数据字段中,指定允许的国家代码列表。从不同来源提取数据:后续ETL步骤成功
转载
2023-09-26 19:15:40
42阅读
Oracle数据仓库的体系结构可以分成三个层次: 数据获取层:Oracle Database Enterprise ETL Option + Oracle Database Data Quality Option 在Oracle Database 10g 同一个软件中实现了从数据模型设计,数据质量管理,ETL 流程设计和元数据管理的全部功能。所有的 ETL 过程可以通过Oracle数据仓库中提供的
转载
2023-05-26 16:50:18
87阅读
数据仓库之各种表在数仓项目中最大的感觉就是各种表各种分类,有丢丢搞坨坨不清,本文目的就是梳理一下数据仓库的各种“表”。在此之前需要弄清楚OLTP和OLAP的恩恩怨怨,以及为什么要从OLTP到OLAP呢?OLTP(On-Line Transaction Processing),操作型处理,也叫联机事务处理,也可以称面向交易的处理系统,它是针对具体业务在数据库联机的日常操作,通常对少数记录进行查询、修
转载
2023-08-21 22:46:00
56阅读
表的分类实体表:一般是指一个现实存在的业务对象,比如用户,商品,商家,销售员等等。维度表:一般是指对应一些业务状态,编号的解释表。也可以称之为码表。比如地区表,订单状态,支付方式,审批状态,商品分类等等。事务型事实表:一般指随着业务发生不断产生的数据。特点是一旦发生不会再变化。一般比如,交易流水,操作日志,出库入库记录等等。周期型事实表,一般指随着业务发生不断产生的数据。与事务型不同的是,数据会随
转载
2023-07-11 10:18:37
208阅读
数据仓库底层表结构是数据仓库中非常重要的一部分,它直接影响着数据仓库的性能和稳定性。在数据仓库中,底层表结构的设计要考虑到数据的存储、索引和查询等方面,以确保数据能够高效地被存储和访问。
### 底层表结构的重要性
底层表结构是数据仓库中存储数据的基础,一个合理的底层表结构设计可以提高数据仓库的性能和可维护性。在设计底层表结构时,需要考虑以下几个方面:
1. 数据存储:底层表结构需要能够有效
原创
2024-07-12 05:40:47
70阅读
数据集市数据集市的概念数据集市与数据仓库的区别数据集市设计参考资料 数据集市的概念数据集市是数据仓库的一种简单形式,通常由组织内的业务部门自己建立和控制。一个数据集市面向单一主题域,如销售、财务、市场等。数据集市的数据源可以是操作型系统(独立数据集市),也可以是企业级数据仓库(从属数据集市)。数据集市与数据仓库的区别不同于数据集市,数据仓库处理整个组织范围内的多个主题域,通常是由组织内的核心单位
转载
2024-10-09 18:10:17
16阅读
一、DWD层明细事实表设计事实表有粒度大小之分,基于数据仓库层次架构,明细事实表一般存在于dwd层,该层事实表设计不进行聚合、汇总动作,仅做数据规范化、数据降维动作,将多个实事表的内容汇总到一张表中,同时数据保持业务粒度,确保数据信息无丢失。数据降维: 为了提高模型易用性,将常规维度表中的常用属性数据冗余到相应的事实表中,从而在使用的时候避免维表关联的方式,既为数据降维。事实表的设计主要是根据业务
转载
2023-11-06 22:17:18
213阅读
1、数据仓库系统组成数据仓库系统以数据仓库为核心,将各种应用系统集成在一起,为统一的历史数据分析提供了坚实的平台,通过数据分析和报表模块的查询和分析工具olap,决策分析、数据挖掘完成对信息的提取,以满足决策的需求.1)数据仓库数据仓库是整个数据系统的核心,用来存放数据,并对数据检索提供支持,对比操作型数据库,数据仓库的特点就是海量数据的支持以及快速检索的技术.2)抽取工具抽取工具既将信息从各种各
转载
2023-08-21 14:53:23
75阅读
在没有真正的数据仓库数据库之前,现在所有的数据仓库其实都只是一个基于维度模型创建的关系型数据库,但是数据仓库数据库本身有一些区别与比如OLTP数据库的独特特性,比如最显著的就是数据量最大的称为事实的表(一般都有百万甚至上亿的数据量)居于连接的中心,其周围是很多的基数比较小的称为维度的表(可能只有几百行数据),然后居于中心的大数据量的事实表通过外键连接到十几甚至几十个小数据量的维度表。针对数据仓库的
转载
2023-08-04 20:21:37
171阅读
一.元数据概述(1)元数据定义按照传统的定义,元数据( Metadata )是关于数据的数据。元数据打通了源数据、数据仓库、数据应用,记录了数据从产生到消费的全过程。元数据主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及 ETL 的任务运行状态。在数据仓库系统中,元数据可以帮助数据仓库管理员和开发人员非常方便地找到他们所关心的数据,用于指导其进行数据管理和开发工作,提高工
转载
2023-07-18 08:47:58
239阅读
1 数仓建模在数仓建设过程中的位置这张截图源自之前从 0 到 1 建设数据仓库的经验总结,采用的是瀑布模式的展现方式,但实际操作中经常会使用螺旋迭代模式,因为很难有人能够一步到位的考虑清楚所有细节。通过业务调研我们熟悉了相关业务过程,需求调研我们明确了本阶段数据建设的需求、内容和边界,数据调研也就是数据探查我们对需要的数据源做了整体摸排,不清楚的就赶紧搞清楚、不对的就赶紧搞对、缺失的就想办法找补回
转载
2023-11-17 22:10:19
65阅读
一、数据仓库的分层架构数据仓库的数据来源于不同的源数据,并提供多样的数据应用,数据自下而上流入数据仓库后向上层开放应用,而数据仓库只是中间集成化数据管理的一个平台。1,源数据层(ODS)操作性数据(Operational Data Store) ,是作为数据库到数据仓库的一种过渡,ODS的数据结构一般与数据来源保持一致,可以增加字段用来进行数据管理,存储的历史数据只是只读的,提供业务系统查询使用,
转载
2023-06-20 09:51:15
127阅读
按照官方解释:数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。(写得挺牛逼以至于我根本理解不了)一、提出问题 为了更好地理解,在这里先提几个问题。 1、如果你要的数据分
转载
2023-10-18 15:27:07
70阅读
随着互联网规模不断的扩大,数据也在爆炸式地增长,各种结构化、半结构化、非结构化数据的产生,越来越多的企业开始在大数据平台下进行数据处理。本文主要从总体思路、模型设计、数据架构、数据治理四个方面介绍了如何利用大数据平台的特性,构建更贴合大数据应用的数据仓库。— 01 —总体思路随着互联网规模不断的扩大,数据也在爆炸式地增长,各种结构化、半结构化、非结构化数
转载
2023-06-20 09:52:08
233阅读
前言 随着敏捷开发的发展,Devops成为每个组织的事实上的标准,我们能否使数仓开发敏捷起来?让我们研究一下数仓的核心,数据建模(主要是DataVault模型)。DataVault模型是否有助于数仓的健壮性和可扩展性?在讨论这些要点之前,这里有一个快速的背景知识。
DataVault是一种建模方法,由
Hubs(业务键),Links(关系) 和
Satellite(上下文
转载
2024-01-01 06:25:48
76阅读
众所周知,做数据分析、BI建设,都离不开数据仓库建设,数仓建设的本质目的是支撑分析决策。今天跟着我来学学数据仓库的基础知识,通过本文的阅读,你将获得以下方面的认知:什么是数仓数仓的核心概念数仓的分层架构数据仓库概述数据仓库,顾名思义,就是存储数据的仓库。 现实中的仓库会有不同的分区和归类,分区下有多个货架,货架上堆放着各种各样的商品。对于数据仓库来说,分区归类就类似于数据仓库的基础架构,
转载
2023-08-08 01:19:51
87阅读