前言此版本面试题相较于之前增加了很多数仓以及算法相关的题,同时新增了数据湖,必备SQL题,Clickhouse,Doris,大数据算法设计等面试题。版本更新如下: 版本时间描述V1.02020-12-18创建V1.22021-01-17新增:spark 面试题V1.32021-01-18新增:kafka 面试题V1.42021-01-20新增:hbase 面试题V1.52021-01-30新增:
超全面试总结——数据仓库如何理解数仓为什么要数据仓库建模为什么要设计数据分层通用的数据分层设计分层的原则是什么?数据集市和数据仓库的区别数据库和数据仓库有什么区别?维度建模三种模式 星形、雪花、星座事实表事实表设计方法维度表什么是缓慢变化的维度维度表设计方法如何维度建模最常见的三种数据仓库建模体系什么是ETL?常用的ETL工具联机分析处理 OLAPOLAP和OLTP的区别元数据(Metadata
转载
2023-08-08 13:04:54
184阅读
1.什么是数据仓库?如何构建数据仓库?(如果这个问题回答的好,后面很多问题都不需要再问)2.如何建设数据中台?可简单说下理解与思路3.数据仓库、数据中台、数据湖的理解4.传统数仓的程度(建模工具、ETL工具、BI报表工具、调度系统)5.传统数仓和大数据数仓的异同?有哪些大的变化?6.印象最深刻的项目?为什么?亮点与优势?7.数仓最重要的是什么?8.实时数仓做过吗?采用什么架构?lambda有哪些优
转载
2023-12-09 23:43:39
128阅读
所有面试的前奏:先简要的介绍一下自己!这句话基本上是所有面试官问的第一个问题,这个问题我的应对策略是:1. 简要介绍何时毕业于哪所学校(姓名,籍贯可选择) 2. 从近往远介绍开始介绍工作经验 3. 大厂大项目靠前介绍,其他情况靠后 4. 小项目简要介绍一两句话概括 5. 重要介绍和自己面试岗位匹配的项目,并且需要调理分明后续就是按照你上面介绍的项目具体询问各种细节问题,下面罗列一下自己遇到的相关面
转载
2023-08-25 18:40:56
49阅读
1. 什么叫数据仓库?数据仓库的特点? (相信inmon的数据仓库概念的四个特点是最基本的吧,当然需要加上自己的理解) 首先,用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库; 其次,对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。 数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate
转载
2023-09-25 08:50:22
157阅读
1.数仓与关系数据库区别 1.数据库有相对复杂的表格结构,存储结构相对紧致,少冗余数据,而数据仓库则是相对简单的表格结构,存储结构相对松散,多冗余数据。 2.数据库在读和写两方面都有优化,数据仓库一般只是读优化 3.数据库单次操作作用于少量的数据,数据仓库单次操作会作用于大量的数据 4.数据库支持单条数据的修改,数据仓库不支持 5.数据库可以和用户进行交互,数据仓库不行2.数据仓库为什么需要分层?
转载
2023-12-28 05:51:26
86阅读
数据仓库的概念输入数据分类业务数据 客户端交互,一般用关系数据库存储用户行为数据 来自客户端,使用埋点的方式,存储为日志文件: 前端页面,点击network–>筛选log–>URL解析–>一个请求,向后端发送商品名称 特点:点击多次,数量大;写入后台后,客户端不会查–>使用关系型数据库不划算爬虫数据 来自其他平台,尽量少用数据仓库总体介绍Hive数仓(数据的备份、清晰、聚合
转载
2023-10-27 12:28:17
71阅读
数据,对一个企业的重要性不言而喻,如何利用好企业内部数据,发挥数据的更大价值,对于企业管理者而言尤为重要。作为最传统的数据应用之一,数据仓库在企业内部扮演着重要的角色,构建并正确配置好数据仓库,对于数据分析工作至关重要。一个设计良好的数据仓库,可以让数据分析师们如鱼得水;否则可能使企业陷入无休止的问题之中,并在未来的企业竞争中处于劣势。随着越来越多的基础设施往云端迁移,数据仓库是否也需要上云?上云
转载
2024-01-11 11:42:51
64阅读
一 常见的缓存形式 :1.文件缓存 (为了避免I/O开销,尽量使用内存缓存)2.内存缓存 二 为什么要使用缓存缓存数据是为了让客户端很少甚至不访问数据库服务器进行的数据查询,高并发下,能最大程度降低对数据库服务器的访问压力一般的数据请求:用户请求->数据查询->连接数据库服务器并查询数据->将数据缓存起来(缓存方式: HTML , 内存 , [JSON, 序
转载
2023-12-18 11:00:50
100阅读
用户问题1.企业内各业务部门的系统之间不是集成的,那些业务主管想让他们的数据进入数据仓库中,而且他们都想马上就能实现。而数据仓库经理只能逐个的满足他们的要求,要避免引起业务主管的愤怒,也要避免他们开发自己的数据仓库,数据仓库经理应该如何来处理这种局面?2.企业的IT部门雇佣了一名咨询人员来开发一个数据仓库,但是该企业的业务部门不支持这个项目。IT部门告诉这名咨询人员继续工作,即使业务部门计划赶他走
转载
2023-09-28 10:24:16
125阅读
数据质量1.一个数据质量分析师正在试图分析一个数据仓库之中数据的质量状况。这个数据仓库的数据量非常的大,数据质量分析师准备用抽样的方式进行分析。但是他不知道需要抽样多少数据,如何抽样,以及如何向用户解释抽样分析的结果是准确的。这位数据质量分析师应该如何来进行工作呢?2.一个电信公司有一个含有14TB数据的数据仓库。这家公司估计到,该数据中有10TB以上的数据可能是冗余的。这家公司没有命名约束,其中
转载
2023-12-27 11:09:08
38阅读
目录1-为什么要做ID-Mapping2-ID-Mapping的核心技术3-总结 1-为什么要做ID-Mapping为啥要做ID Mapping?其实技术都是为了解决实际业务问题的。如果没有数据孤岛的问题,也就不会有这波澜壮阔的数字技术发展和改革。举个例子:在 10 多年前的时候,当时IT界都还在做“四库十二金”的项目。就是把一个地区的所有地址给弄干净。这可就费劲了,因为同一个地址有 N 多种写
转载
2023-09-26 12:18:23
161阅读
1.1 什么是数据仓库
业界公认的数据仓库概念创始人W.H.Inmon在《建立数据仓库》一书中对数据仓库的定义是:数据仓库就是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程、数据仓库中的数据面向主题,与传统数据库面向应用相对应。主题是一个在较高层次上将数据归类的标准,每一个主题对应一个
转载
2024-06-03 20:56:10
50阅读
数仓分层介绍
原创
精选
2022-08-28 09:33:24
774阅读
点赞
数据仓库分层
原创
2022-10-30 18:09:23
236阅读
点赞
数据仓库项目管理面试题整理 搜了一下网络上都是一个主题一个网页,自己看了觉得不方便,所以整理到一起放上来方便自己看。本部分内容整理于Sid Adelman的著作Impossible Data Warehouse Situations。其中的问题都是从业人员在工作中经历的实际问题。这些问题同样也可以作为数据仓库项目经理的面试问题。这些问题很多没有固定的答案,不同的人会有不同的想法。重要
转载
2024-01-02 22:09:38
71阅读
# 阿里数据仓库面试实现流程
## 目录
- [介绍](#介绍)
- [流程步骤](#流程步骤)
- [代码实现](#代码实现)
- [总结](#总结)
## 介绍
在阿里数据仓库(AliDataWarehouse)的面试中,我们需要展示我们在数据仓库领域的知识和技能。这篇文章将详细介绍如何实现阿里数据仓库面试,包括流程步骤和相应代码实现。
## 流程步骤
以下是阿里数据仓库面试的流程步骤
原创
2023-08-14 16:10:33
137阅读
安全1.一个企业建立了一个数据仓库系统,用来分析企业的部门及产品相关盈利能力。数据仓库实现不久,项目经理被CFO叫到办公室,被要求解释为什么一位职位低下的金融分析师能够在数据仓库中查看详细的工资记录,这些数据在公司中只有副总裁才可以访问。显然,这个数据仓库中没有建立安全计划。面对这种局面,这家企业怎么才能扭转这种局面呢?2.一位数据仓库咨询人员告诉一家企业,他们必须考虑数据仓库内的安全问题,并应该
转载
2010-08-10 16:54:00
82阅读
大数据背景众所周知,当前是一个数据爆炸的时代,大数据背景下的数据治理是每一个企业应该重点考虑的问题。例如金融机构、电信运营商这种“传统”行业每日需要处理的数据量都已经十分巨大了,中小型互联网公司都已经握着上千万日活了,就更不要说腾讯,阿里这样的互联网巨头。传统行业的数据治理以电信运营商为例,一个省级的电信运营商在好多年前一年积累的信息量就已经达到数个PB了,在数据爆炸的时代,我们通过移
转载
2024-08-20 12:00:55
16阅读
# SQL 数据仓库面试:基础知识与实用示例
在数据密集型的今天,数据仓库(Data Warehouse)作为数据存储和分析的核心架构,越来越受到企业的重视。参加 SQL 数据仓库的面试时,候选人需要掌握一些基本概念、常用语法以及数据仓库的设计原则。
## 什么是数据仓库?
数据仓库是一个面向主题、集成的、相对稳定的数据集合,它支持决策支持系统(DSS)的需求。与传统的数据库不同,数据仓库