大家好,给大家整理了一下大数据数仓高级面试题,希望大侠们能够喜欢。数仓高内聚低耦合是怎么做的定义高内聚:强调模块内部的相对独立性,要求模块内部的元素尽可能的完成一个功能,不混杂其他功能,从而使模块保持简洁,易于理解和管理。低耦合:模块之间的耦合度要尽可能的低,避免模块之间的复杂依赖,使得每个模块都可以独立存在,从而减少模块间的相互影响,提高系统的可维护性。做到低耦合、高内聚一般复杂的公共逻辑可以采
小节一:数仓介绍小节二:离线数仓应用应用架构本小结介绍下离线数仓的一个应用架构一个简单的离线数仓架构图如下这里粗粒度的划分了异构数据源、数据传输、数据仓库、应用分析、及整体管理几层。其中源数据主要指的数仓的数据来源,有数据库数据、文件类型数据、还有接口等http传输的数据。数据库数据大多都是业务的数据,例如mysql、oracle等;文件类型大多是日志数据、离线csv等格式化数据;http传输主要
转载
2023-08-08 11:12:56
291阅读
数据仓库概念的提出都要追溯到上世纪了,我们认为在大数据元年之前的数仓可以称为传统数仓,而后随着海量数据不断增长,以及Hadoop生态不断发展,主要基于Hive/HDFS的离线数仓架构可以兴起并延续至今,近几年随着Storm/Spark(Streaming)/Flink等实时处理框架的更新迭代乃至相互取代,各厂都在着力构建自己的实时数仓,特别是近两年,随着Flink声名鹊起,实时数仓更是名声在外并且
转载
2024-06-10 10:19:25
216阅读
一:数据仓库(概述)所有的表设计都要参照业务总线矩阵 三: 维度建模理论之事实表
事实表通常比较“细长”,即列较少,但行较多,且行的增速快。事实表作为数据仓库维度建模的核心,紧紧围绕着业务过程来设计。其包含与该业务过程有关的维度引用(维度表外键)以及该业务过程的度量(通常是可累加的数字类型字段)。事实表主要包含维度外键和度量事务事实表,周期快照事实表,累计快照事实表
数据仓库的概念,最早是在1991年被提出,而直到最近几年的大数据趋势下,实时数据处理快速发展,使得数据仓库技术架构不断向前,出现了实时数仓,而实时数仓又分为批数据+流数据、批流一体两种架构。1、离线数仓 离线数仓,其实简单点来说,就是原来的传统数仓,数据以T+1的形式计算好放在那里,给前台的各种分析应用提供算好的数据。到了大数据时代,这种模式被称为“大数据的批处理”。 只不过原本的单
转载
2023-10-12 08:39:51
151阅读
目录前言:1.实时数仓1.02.实时数仓2.03实时数仓3.0 前言:数据处理现状:当前基于Hive的离线数据仓库已经非常成熟,数据中台体系也基本上是围绕离线数仓进行建设。但是随着实时计算引擎的不断发展以及业务对于实时报表的产出需求不断膨胀,业界最近几年就一直聚焦并探索于两个相关的热点问题:实时数仓建设和大数据架构的批流一体建设。1.实时数仓1.0传统意义上我们通常将数据处理分为离线数据处理和实
转载
2024-08-21 18:53:52
189阅读
一、质疑分层不合理云上大数据数仓解决方案:1、离线数仓--基于hive 2、实时数仓--基于kafka中间件 每一步都会缓存至datahub二、数仓概念1、数仓的数据源和输出系统分别是什么数据源:用户行为数据、业务数据、爬虫(灰色地带,需要经过授权)数据输出:报表、用户画像、推荐等2、版本选型Apache:开源、免费、需要自己解决兼容性问题--大厂和比较有实力的公司
转载
2024-07-02 07:11:43
175阅读
文章目录新增用户业务指标每日新增用户明细表留存用户业务指标用户留存明细表 新增用户业务指标留存用户:指某段时间的新增用户,经过一段时间后,仍继续使用应用认为是留存用户新增会员:第一次使用应用的用户,定义为新增会员;卸载再次安装的设备,不会被算作一次新增。计算关系:先计算新增会员 => 再计算留存用户在DWD用户每日启动明细表中,新增用户数+旧的所有用户信息=新的所有用户信息,此时的计算关系
转载
2023-10-01 11:17:26
234阅读
目录0. 相关文章链接1. 数据仓库在整个应用中的位置2. 此次重构的数据仓库具体分层架构3. 数据仓库为什么要分层4. 此次重构的数据仓库命名规范4.1. 表命名4.2. 表字段类型0. 相关文章链接 离线数仓文章汇总 1. 数据仓库在整个应用中的位置 数据仓库在企业是处于非常重要的位置;往前接收经由埋点而获取的用户行为日
转载
2024-08-13 15:59:49
23阅读
1.离线数仓离线数仓架构基本都是基于 Hive进行构建,数据分层方式如下:ODS Operational Data store,贴源层(原始数据层)从各个业务系统、数据库或消息队列采集的原始数据,只做简单处理,尽可能维持数据原貌DWDData Warehouse Detail,数据明细层将贴源层的原始数据进行清洗补全后存入该层,数据粒度保持不变DIM Dimension,维度层根据数据的实际情况抽
转载
2023-09-22 16:11:10
239阅读
# 离线数仓业务架构科普
在现代数据处理与分析中,离线数仓(Offline Data Warehouse)扮演了至关重要的角色。它们用于存储和分析大量历史数据,以支持业务决策与数据挖掘。在这篇文章中,我们将探讨离线数仓的业务架构,并通过代码示例来加深理解。
## 离线数仓的基本架构
离线数仓的基本架构通常包含几个关键组件:
1. **数据源**:包括结构化数据(如关系型数据库)和非结构化数
原创
2024-10-11 05:56:03
149阅读
大纲 一、数仓基本概念 1、数据仓库架构 我们在谈数仓之前,为了让大家有直观的认识,先来谈数仓架构,“架构”是什么?这个问题从来就没有一个准确的答案。这里我们引用一段话:在软件行业,一种被普遍接受的架构定义是指系统的一个或多个结构。结构中包括软件的构建(构建是指软件的设计与实现),构建的外部可以看到属性以及它们之间的相互关系。这里参考此定义,把数据仓库架构
转载
2023-11-01 21:25:24
454阅读
1. ODS 数据准备层功能:ODS层是数据仓库准备区,为DWD层提供基础原始数据,可减少对业务系统的影响建模方式及原则:从业务系统增量抽取、保留时间由业务需求决定、可分表进行周期存储、数据不做清洗转换与业务系统数据模型保持一致、按主题逻辑划分2. DWD 数据明细层功能:为DW层提供来源明细数据,提供业务系统细节数据的长期沉淀,为未来分析类需求的扩展提供历史数据支撑建模方式及
转载
2024-04-16 09:00:07
159阅读
# 在线数仓与离线数仓架构图实现指南
在数据驱动的架构中,数仓的设计分为在线和离线两种类型。在线数仓(OLAP)用于实时数据查询,而离线数仓(ETL)用于批处理和分析。本文将引导你逐步实现一个在线数仓和离线数仓的架构图。
## 整体流程
下面是实现在线数仓和离线数仓架构图的整体流程:
| 步骤 | 描述 |
|------|-----
数仓 1.0 ,2.01.Lambda架构Lambda将数据处理流分为在线分析和离线分析两条不同的处理路径,两条路径互相独立,互不影响。离线分析处理T+1数据,使用Hive/Spark处理大数据量,不可变数据,数据一般存储在HDFS等系统上。如果遇到数据更新,需要overwrite整张表或整个分区,成本比较高。在线分析处理实时数据,使用Flink/Spark Streaming处理流式数据,分析处
转载
2024-09-04 21:27:24
117阅读
如何快速的将hadoop上海量的数据快速的以可视化的方式展示给用户,很多传统的数据仓库或者OLAP在处理这种场景也是各种方式。我们这里数据平台采用了一种特殊的方式, 大大简化了数据产出的难度,提高了数据开发的成本。 核心模块 下图是常见的离线计算的数据流向图:
这种大数据处理的框架的好处是隔离性好,数据存储在应用的关系型数据库之后,查询性能较好,在关系型数据库上建
主要是实时计算 stream strom和Flink都有介绍 这里主要是sprak Spark CoreSpark 通过引人弹性分布式数据集( RDD )以及 RDD 丰富的动作操API ,非常好地支持了 DAG 和迭代计算 Spark 通过内存计算和缓存数据非常好地支持了迭代计算和 DAG 计算的数据共享,减少了数据读取的 IO 开销,大大提高了数据处理速度。
转载
2023-12-14 20:00:11
70阅读
声明: 1. 本文为我的个人复习总结, 并非那种从零基础开始普及知识 内容详细全面, 言辞官方的文章 2. 由于是个人总结, 所以用最精简的话语来写文章 &nbs
转载
2023-12-28 22:11:31
95阅读
目录前言一、ODS层 (用户行为数据)1. 创建日志表 ods_log2. Shell 中单引号和双引号区别3. ODS 层日志表加载数据脚本二、ODS 层 (业务数据)1. 创建业务表2. ODS 层业务表首日数据装载脚本3. ODS层业务表每日数据装载脚本 前言保持数据原貌不做任何修改,起到备份数据的作用。数据采用 LZO 压缩,减少磁盘存储空间。100G 数据可以压缩到 10G 以内。创建
转载
2024-03-11 13:14:51
130阅读
一、Hadoop相关1.简述hive 的计算引擎2.数仓常用的计算引擎比较 3.简述shuffer过程 4.如何处理半结构化和非结构化数据 例如:采用FastDFS分布式来存储非结构化数据,然后mysql中存储对应的urlhadoop中 照片,pdf无法处理的,邮件,weblog如果可以转化成文本可以处理,导入hdfs,然后通过hadoop处理, 处理的方式有写mapreduce,pig,hive
转载
2024-08-21 07:56:17
73阅读