数据仓库经典案例数据仓库问题

关注 hackernew

数据仓库经典案例数据仓库问题

转载

hackernew 2024-01-02 21:56:41

文章标签 数据仓库经典案例面试数据数据仓库 spark 文章分类 数据仓库大数据

对于数据仓库的理解，数据仓库主要为的解决什么问题？

数据仓库是一个面向主题的（Subject Oriented）、集成的（Integrate）、相对稳定的（Non-Volatile）、反映历史变化（Time Variant）的数据集合，目的是构建面向分析的集成化数据环境，为企业提供决策支持（Decision-Support）。

（为什么要面向主题？面向主题是数据仓库的第一特性，主要是指合理地组织数据以实现分析。对于源数据而言，其数据组织形式是多样的，像点击流的数据格式是未经优化的，前台数据库的数据是基于OLTP操作组织优化的，这些可能都不适合分析，而整理成面向主题的组织形式才是真正地利于分析的，比如将点击流日志整理成页面（Page）、访问（Visit或Session）、用户（Visitor）三个主题，这样可以明显提升分析的效率。

数据仓库中的数据是按照一定的主题域进行组织的，每一个主题对应一个宏观的分析领域，数据仓库排除对决策无用的数据，提供特定主题的简明视图。）

数据仓库模型的理解？

数据模型就是数据组织和存储方法，它强调从业务、数据存取和使用角度合理存储数据。只有数据模型将数据有序的组织和存储起来之后，大数据才能得到高性能、低成本、高效率、高质量的使用。

数据仓库分层设计的好处是什么？

数据仓库一般要进行分层的设计，其能带来五大好处：

清晰数据结构：每一个数据分层都有它的作用域，这样我们在使用表的时候能更方便地定位和理解。

数据血缘追踪：能够快速准确地定位到问题，并清楚它的危害范围。

减少重复开发：规范数据分层，开发一些通用的中间层数据，能够减少极大的重复计算。

把复杂问题简单化：将复杂的任务分解成多个步骤来完成，每一层只处理单一的步骤，比较简单和容易理解。当数据出现问题之后，不用修复所有的数据，只需要从有问题的步骤开始修复。

屏蔽原始数据的异常：不必改一次业务就需要重新接入数据。

另外的答案：

1）用空间换时间，通过大量的预处理来提升应用系统的用户体验（效率），因此数据仓库会存在大量冗余的数据。

2）如果不分层的话，如果源业务系统的业务规则发生变化将会影响整个数据清洗过程，工作量巨大。

3）通过数据分层管理可以简化数据清洗的过程，因为把原来一步的工作分到了多个步骤去完成，相当于把一个复杂的工作拆成了多个简单的工作，把一个大的黑盒变成了一个白盒，每一层的处理逻辑都相对简单和容易理解，这样我们比较容易保证每一个步骤的正确性，当数据发生错误的时候，往往我们只需要局部调整某个步骤即可。

数据建模考虑的点是什么，然后随机给了你一个业务场景问问你如果建立模型大致怎么设计？

维度建模的过程，给了一个直播场景，让我如何去建维度模型。

如何深入浅出理解数据仓库建模？ - 知乎

对于数据中台的理解，和数据仓库和数据湖的区别？

数据仓库、数据湖、数据中台终于有人说清楚了，建议收藏！ - 云+社区 - 腾讯云

https://cloud.tencent.com/developer/article/1513820

SORT BY和ORDER BY的区别

Sort By、Order By、Cluster By及Distribute By的区别 - 大数据面试宝典_大数据面试题_ 大数据时代_大数据培训_ 大数据技术与应用

order by是全局排序，sort by是每个reduce排序，如果reduce数目为1，则order by 等同于 sort by。

分桶和PARTITION的区别，并且分桶和PARTITION的各自机制是什么

Hive分区与分桶 - 知乎

HIVE数据倾斜的原理和不同场景下的解决方案是什么，MPP架构数据下的数据倾斜解决方案是什么？

环形缓冲区了不了解？说一下他的那个阈值高低的影响

哪些操作引起shuffle

spark里的reduce by key和group by key两个算子在实现上的区别并且说一下性能

spark和flink对比为什么spark streaming做不到毫秒级响应

知道hive的sql语句怎么转成MR可执行任务的吗

kafka大致的架构为什么高可用高吞吐 zero copy原理

有没有写过hive的UDF 怎么写的

计算框架了解吗 flink的checkpoint机制

spark的rdd原理。spark怎么把你的算子转化成rdd的？rdd之间的一些关系。rdd怎么提交到内存上计算的。

DWS层和ADS层有什么区别

hashmap的结构

对元数据管理和数据资产管理的理解？

你认为你来做这个岗位的优势和劣势是什么？

谈谈你对这个岗位所需技能的理解，假如你来到这个岗位未来半年你的工作思路是什么？

以你对传统数仓的理解，什么样的业务会有实时性的需求？

针对蚂蚁金服的具体业务部门，让你谈一谈你对这块业务的理解和数据如何给业务产生价值？

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：前端引入jquery版本报错前端jquery重不重要

下一篇：一次指数平滑预测python 一次指数平滑预测模型

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费直播
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册