用户问题1.企业内各业务部门的系统之间不是集成的,那些业务主管想让他们的数据进入数据仓库中,而且他们都想马上就能实现。而数据仓库经理只能逐个的满足他们的要求,要避免引起业务主管的愤怒,也要避免他们开发自己的数据仓库,数据仓库经理应该如何来处理这种局面?2.企业的IT部门雇佣了一名咨询人员来开发一个数据仓库,但是该企业的业务部门不支持这个项目。IT部门告诉这名咨询人员继续工作,即使业务部门计划赶他走
转载
2023-09-28 10:24:16
125阅读
离线数仓面试题?1、ODS:存放原始数据,直接加载原始日志,数据,数据保持原貌不做处理。2、DWS:结构和粒度与原始表保持一致,对ODS层数据进行清洗(去除空值,脏数据)3、DWS:以DWD层为基础,进行轻度汇总。4、ADS:为各种统计报表提供数据。为什么要对数仓进行分层?1、把简单问题复杂化将一个 ...
转载
2021-08-21 13:47:00
729阅读
2评论
一、分析1.什么是逻辑数据映射?它对 ETL 项目组的作用是什么?逻辑数据映射(Logical Data Map)用来描述源系统的数据定义、目标数据仓库的模型以及 将源系统的数据转换到数据仓库中需要做操作和处理方式的说明文档,通常以表格或 Excel 的格式保存如下的信息:目标表名: 目标列名: 目标表类型:注明是事实表、维度表或支架维度表。SCD 类型:对于维度表而言。三种 SCD(Slowly
转载
2023-10-18 06:38:18
441阅读
数据仓库项目管理面试题整理 搜了一下网络上都是一个主题一个网页,自己看了觉得不方便,所以整理到一起放上来方便自己看。本部分内容整理于Sid Adelman的著作Impossible Data Warehouse Situations。其中的问题都是从业人员在工作中经历的实际问题。这些问题同样也可以作为数据仓库项目经理的面试问题。这些问题很多没有固定的答案,不同的人会有不同的想法。重要
转载
2024-01-02 22:09:38
71阅读
1.数据仓库为什么要分层?作为一名数据的规划者,我们肯定希望自己的数据能够有秩序地流转,数据的整个生命周期能够清晰明确被设计者和使用者感知到。直观来讲就是如下的左图这般层次清晰、报表依赖关系直观。但是,大多数情况下,我们完成的数据体系却是依赖复杂、层级混乱的。如下的右图,在不知不觉的情况下,我们可能会做出一套表依赖结构混乱,甚至出现循环依赖的数据体系。因此,我们需要一套行之有效的数据组织和管理方法
转载
2023-11-15 22:45:03
194阅读
数据仓库Hive一、Hive简介数据仓库:面向主题、集成的、相对稳定的、反应历史变化的数据集合,用于支持管理决策。传统数据仓库面临挑战:无法满足海量数据存储需求;无法有效处理不同类型数据;计算可处理能力不足。 Hive满足上述挑战,且Hive架构在底层的Hadoop核心组件基础之上。借助HDFS和MapReduce两个Hadoop核心组件。借助SQL语言的新的查询语言HiveQL。Hive两大特性
转载
2023-07-13 16:34:51
175阅读
26.全量表(df),增量表(di),追加表(da),拉链表(dz)的区别及使用场景全量表:每天的所有的最新状态的数据。1、全量表,有无变化,都要报;2、每次上报的数据都是所有的数据(变化的 + 没有变化的)9月10号全量抽取到ods层create table wedw_ods.order_info_20200910( order_id string COMMENT '订单id',order_status string COMMENT '订单状态',create_time
原创
2021-07-09 11:01:06
1144阅读
# 如何实现数据仓库的面试题
作为一名刚入行的小白,虽然初看数据仓库的概念和相关技术会感到迷茫,但只要你了解每一环节的具体操作,便能够理清思路。本篇文章将通过流程图、关系图和代码示例,教你如何逐步实现与数据仓库相关的面试题。
## 整体流程
下面是实现数据仓库的整体流程:
| 步骤 | 描述 |
|------|----------------
原创
2024-09-22 05:57:31
45阅读
# 如何实现数据仓库面试题目
作为经验丰富的开发者,我将教会你如何实现数据仓库面试题目。在开始之前,让我先告诉你整个过程的流程,如下表所示:
| 步骤 | 操作 |
| --- | --- |
| 步骤一 | 创建数据库和数据表 |
| 步骤二 | 导入数据到数据表 |
| 步骤三 | 编写SQL查询语句 |
| 步骤四 | 执行SQL查询语句 |
| 步骤五 | 分析查询结果 |
| 步骤六
原创
2023-09-13 04:59:17
81阅读
1.维表和宽表的考查(主要考察维表的使用及维度退化手法)维表数据一般根据ods层数据加工生成,在设计宽表的时候,可以适当的用一些维度退化手法,将维度退化到事实表中,减少事实表和维表的关联2.数仓表命名规范通用规范表名、字段名采用下划线分隔词根(consultorder->consult_order) 每部分使用小写英文单词,属于通用字段的必须满足通用字段信息的定义。 表名、字段名需以字母为开头。 表名、字段名最长不超过64个英文字符。 优先使用词根中已有关键字(数仓标准配...
原创
2021-06-11 17:38:24
1412阅读
Step2:划分原子指标和派生指标原子指标 + 原子指标 = 派生指标Step3:进行指标命名规范需要遵循两个原则:易懂与统一易懂,就是看到指标的名称,就可以基本判断这个指标归属于哪个业务过程;统一,就是要确保派生指标和它继承的原子指标命名是一致的。对于原子指标,标名称适合用“动作 + 度量”的命名方式(比如注册用户数、购买用户数)对于派生指标,应该严格遵循“时间周
1.维表和宽表的考查(主要考察维表的使用及维度退化手法)维表数据一般根据ods层数据加工生成,在设计宽表的时候,可以适当的用一些维度退化手法,将维度退化到事实表中,减少事实表和维表的关联2.数仓表命名规范通用规范表名、字段名采用下划线分隔词根(consultorder->consult_order) 每部分使用小写英文单词,属于通用字段的必须满足通用字段信息的定义。 表名、字段名需以字母为开头。 表名、字段名最长不超过64个英文字符。 优先使用词根中已有关键字(数仓标准配...
原创
2021-06-11 17:38:25
1423阅读
数据仓库面试基础知识1、什么是数据仓库?权威定义:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。1)数据仓库是用于支持决策、面向分析型数据处理; 2)对多个异构的数据源有效集成,集成后按照主题进行重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改2、数据仓库和数据库的区别?从目标、用途、设计来说1)数据库是面向事务处理的,数据是由日常
转载
2023-08-07 11:57:03
140阅读
建设数据仓库的八个步骤 1.系统分析,确定主题操作出现的频率,即业务部门每隔多长时间做一次查询分析。在系统中需要保存多久的数据,是一年、两年还是五年、十年。用户查询数据的主要方式,如在时间维度上是按照自然年,还是财政年。用户所能接受的响应时间是多长、是几秒钟,还是几小时。由于双方在理解上的差异,确定问题和了解问题可能是一个需要多次往复的过程,信息部门的人员可能需要做一些原型演示给业务部门
转载
2023-08-21 10:21:12
54阅读
安全1.一个企业建立了一个数据仓库系统,用来分析企业的部门及产品相关盈利能力。数据仓库实现不久,项目经理被CFO叫到办公室,被要求解释为什么一位职位低下的金融分析师能够在数据仓库中查看详细的工资记录,这些数据在公司中只有副总裁才可以访问。显然,这个数据仓库中没有建立安全计划。面对这种局面,这家企业怎么才能扭转这种局面呢?2.一位数据仓库咨询人员告诉一家企业,他们必须考虑数据仓库内的安全问题,并应该
转载
2010-08-10 16:54:00
82阅读
创建数据库create database 数据库; 删除数据库drop database 数据库; 选择数据库use 数据库; 创建数据表create table 表 (字段1,字段2......); 删除数据库drop table 表; 插入数据insert into 表(字段名1,字段名2........)values 字段值; 查询
转载
2024-03-08 12:09:07
43阅读