对于数据仓库的理解,数据仓库主要为的解决什么问题?
数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision-Support)。
(为什么要面向主题?面向主题是数据仓库的第一特性,主要是指合理地组织数据以实现分析。对于源数据而言,其数据组织形式是多样的,像点击流的数据格式是未经优化的,前台数据库的数据是基于OLTP操作组织优化的,这些可能都不适合分析,而整理成面向主题的组织形式才是真正地利于分析的,比如将点击流日志整理成页面(Page)、访问(Visit或Session)、用户(Visitor)三个主题,这样可以明显提升分析的效率。
数据仓库中的数据是按照一定的主题域进行组织的,每一个主题对应一个宏观的分析领域,数据仓库排除对决策无用的数据,提供特定主题的简明视图。)
数据仓库模型的理解?
数据模型就是数据组织和存储方法,它强调从业务、数据存取和使用角度合理存储数据。只有数据模型将数据有序的组织和存储起来之后,大数据才能得到高性能、低成本、高效率、高质量的使用。
数据仓库分层设计的好处是什么?
数据仓库一般要进行分层的设计,其能带来五大好处:
清晰数据结构:每一个数据分层都有它的作用域,这样我们在使用表的时候能更方便地定位和理解。
数据血缘追踪:能够快速准确地定位到问题,并清楚它的危害范围。
减少重复开发:规范数据分层,开发一些通用的中间层数据,能够减少极大的重复计算。
把复杂问题简单化:将复杂的任务分解成多个步骤来完成,每一层只处理单一的步骤,比较简单和容易理解。当数据出现问题之后,不用修复所有的数据,只需要从有问题的步骤开始修复。
屏蔽原始数据的异常:不必改一次业务就需要重新接入数据。
另外的答案:
1)用空间换时间,通过大量的预处理来提升应用系统的用户体验(效率),因此数据仓库会存在大量冗余的数据。
2)如果不分层的话,如果源业务系统的业务规则发生变化将会影响整个数据清洗过程,工作量巨大。
3)通过数据分层管理可以简化数据清洗的过程,因为把原来一步的工作分到了多个步骤去完成,相当于把一个复杂的工作拆成了多个简单的工作,把一个大的黑盒变成了一个白盒,每一层的处理逻辑都相对简单和容易理解,这样我们比较容易保证每一个步骤的正确性,当数据发生错误的时候,往往我们只需要局部调整某个步骤即可。
数据建模考虑的点是什么,然后随机给了你一个业务场景问问你如果建立模型大致怎么设计?
维度建模的过程,给了一个直播场景,让我如何去建维度模型。
对于数据中台的理解,和数据仓库和数据湖的区别?
数据仓库、数据湖、数据中台终于有人说清楚了,建议收藏! - 云+社区 - 腾讯云https://cloud.tencent.com/developer/article/1513820
SORT BY和ORDER BY的区别
Sort By、Order By、Cluster By及Distribute By的区别 - 大数据面试宝典_大数据面试题_ 大数据时代_大数据培训_ 大数据技术与应用
order by是全局排序,sort by是每个reduce排序,如果reduce数目为1,则order by 等同于 sort by。
分桶和PARTITION的区别,并且分桶和PARTITION的各自机制是什么
HIVE数据倾斜的原理和不同场景下的解决方案是什么,MPP架构数据下的数据倾斜解决方案是什么?
环形缓冲区了不了解?说一下他的那个阈值高低的影响
哪些操作引起shuffle
spark里的reduce by key和group by key两个算子在实现上的区别并且说一下性能
spark和flink对比 为什么spark streaming做不到毫秒级响应
知道hive的sql语句怎么转成MR可执行任务的吗
kafka大致的架构 为什么高可用 高吞吐 zero copy原理
有没有写过hive的UDF 怎么写的
计算框架了解吗 flink的checkpoint机制
spark的rdd原理。spark怎么把你的算子转化成rdd的?rdd之间的一些关系。rdd怎么提交到内存上计算的。
DWS层和ADS层有什么区别
hashmap的结构
对元数据管理和数据资产管理的理解?
你认为你来做这个岗位的优势和劣势是什么?
谈谈你对这个岗位所需技能的理解,假如你来到这个岗位未来半年你的工作思路是什么?
以你对传统数仓的理解,什么样的业务会有实时性的需求?
针对蚂蚁金服的具体业务部门,让你谈一谈你对这块业务的理解和数据如何给业务产生价值?