一、数据仓库(ETL)数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision-Support)【将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据, ETL是BI(商业智能)项目重要的一个环节】。其实数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原
原创
2023-06-01 16:41:10
1016阅读
第一章1.1 数据获取与数据分析的区别1.2 数据仓库与商业智能的目标1.3 维度建模简介1.4 Kimball的DW/BI架构1.5 其他DW/BI架构1.6 维度建模神话 1.1 数据获取与数据分析的区别信息用作两个目的:操作型记录的保存&分析型决策的制定操作型系统(1)要求:确保组织正常运转(2)优化:更快地处理事务(3)规律:一次处理一个事务记录,标准化流程执行,不必维护历史数据
转载
2024-07-18 08:25:24
46阅读
数据仓库建设:数据模型是抽象描述现实世界的一种工具和方法,是通过抽象的实体及实体之间联系的形式,来表示现实世界中事务的相互关系的一种映射业务建模,生成业务模型,主要解决业务层面的分解和程序化。领域建模,生成领域模型,主要是对业务模型进行抽象处理,生成领域概念模型。逻辑建模,生成逻辑模型,主要是将领域模型的概念实体以及实体之间的关系进行数据库层次的逻辑化。物理建模,生成物理模型,主要解决,逻辑模型针
转载
2024-08-26 14:34:53
61阅读
什么是数据仓库 数据仓库(Data Warehouse,DW),是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。 它是为单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。什么时候需要用到数据仓库?一个公司里面不同项目可能用到不同的数据源,有的存在MySQL里面,又的存在MongoDB里面,甚至还
转载
2023-11-17 20:32:20
62阅读
数据仓库介绍概念1)DW, data warehouse,数据仓库,也称为数仓。2)数仓,就是存储数据的一个
原创
2023-05-08 15:41:15
254阅读
前置需求的技术HadoopHiveHueSqoopOozie项目简介项目叫做:知行教育大数据分析平台(数仓开发项目)目的:对海量的业务数据进行指标分析。结果:对分析的结果做可视化的展示项目的痛点数据量比较大,传统的业务数据库比如MySQL难以支撑,我们需要:分布式的、支持SQL的一种数据库(Hive)数据分散,需要将数据集中存储数据设计是针对业务设计的,分析比较困难,我们需要将它转换为分析比较好用
转载
2023-12-22 20:57:04
84阅读
数据仓库项目是以关系数据库为依托,以数据仓库理论为指导、以 OLAP为多层次多视角分析,以 ETL工具进行数据集成、整合、清洗、加载转换,以前端工具进行前端报表展现浏览,以反复叠代验证为生命周期的综合处理过程。最终目标是为了达到整合企业信息信息,把数据转换成信息、知识,提供决策支持。
数据仓库不是一门纯粹的技术,如果从 Oracle、 SQLServer等专业数
原创
2009-10-15 23:26:00
1227阅读
背景数据治理工作的情况基本描述的差不多了,实际工作中也进行的差不多了,因此,在数据质量问题基本探查清楚,数据标准制定以后,就可以开始下一步的工作了。现有DW的情况,除了保存了历史数据以外,基本与ODS或者说业务系统的结构没有太大区别。而业务系统都是面向实时交易进行数据库设计的,这种设计显然不能满足数据仓库的查询、分析特性,因此,还是采用行业比较认可也相对成熟的维度建模思想作为设计主导
数据仓库的概念数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。1.面向主题:不同于操作型数据库,主题是个抽象概念,是指用户使用数据仓库进行决策时所关心的重点方面。涉及业务流程的方方面面,而不像操作型数据库一样相互隔离。2.集成的:操作型数据库通常与某些特定的应用相关,而数据库往往相互独立,他们是异构的。数据仓库是对原有的分散数据进行了整合,进行了数据类型转化
转载
2024-06-05 21:04:11
37阅读
Day01 数据仓库项目简介 文章目录Day01 数据仓库项目简介一、项目简介及需求1. 数据仓库概念2. 项目需求以及架构设计二、技术选型、框架选型、集群规模等1. 项目技术如何选型?2. 框架的版本如何选型(Apache/CDH/HDP)3. 服务器是使用物理机还是云主机4. 确定一下集群的规模5. 数据生成模块6. 数据采集模块的搭建(集群搭建) 本次项目首先从一个数据采集项目然后才到数据仓
转载
2023-08-29 20:41:23
54阅读
第2章 大数据平台2.1 大数据平台基础架构大数据基础平台基于烽火自主知识产权FitData产品,FitData主要集成了基础计算资源、网络资源、存储资源,在统一的安全体管理体系下,将这些资源再进行深度加工、处理、关联,形成多种类型的基础服务能力,构建
转载
2023-06-19 15:31:48
448阅读
文章目录零 DIM层最终建模结果一 商品维度表(全量)1 商品维度表2 建模过程分析3 建表语句4 装载数据(1)逐步分析(2)完整装载sql二 优惠券维度表(全量)1 建表语句2 数据装载三 活动维度表(全量)1 建表语句2 数据装载四 地区维度表(特殊)1 建表语句2 数据装载五 时间维度表(特殊)1 建表语句2 数据装载(1)创建临时表格(2)上传到HDFS(3)导入(4)校验 零 DIM
转载
2023-08-27 09:47:03
119阅读
数据仓库数仓有二位大神,Bill Inmon 和 Ralph Kimball。 Bill Inmon所写的书Buliding the data warehouse【中文版为数据仓库】, Ralph Kimball所写的The data Warehouse Toolkit【中文版为数据仓库工具箱】。 可以说 Bill Inmon 将Ralph Kimball 的理念,尤其是维度建模的理念融合了进去。
转载
2023-11-06 13:29:59
43阅读
1. 数据仓库的相关概念OLAP大部分数据库系统的主要任务是执行联机事务处理和查询处理,这种处理被称为OLTP(Online Transaction Processing, OLTP),面向的是顾客,诸如:办事员、DBA等。而数据仓库主要面向知识工人(如经理、主管等)提供数据分析处理,这种处理被称为OLAP(Online Analysis Processing)。OLTP管理的是当前数据,比较琐碎
转载
2023-10-13 21:46:23
187阅读