1、安装环境vmware、centos 7、jdk 1.8、scala 2.12.11、hadoop 3.1.3、spark 3.0.0(spark 版本对 jdk、scala 版本有要求,详见官方文档)2、运行环境搭建该部分主要是 vmware的安装、centos 7 的安装和配置、 jdk、sdk 的安装以及系统变量的配置。 对于centos 7的配置主要是设置静态 IP 地址。在虚
转载
2024-02-26 20:45:37
133阅读
0x00 前言下面的内容,是笔者在学习和工作中的一些总结,其中概念性的内容大多来自书中,实践性的内容大多来自自己的工作和个人理解。由于资历尚浅,难免会有很多错误,望批评指正!概述数据仓库包含的内容很多,它可以包括架构、建模和方法论。对应到具体工作中的话,它可以包含下面的这些内容:以Hadoop、Spark、Hive等组件为中心的数据架构体系。各种数据建模方法,如维度建模。调度系统、元数据系统、ET
转载
2023-08-10 00:32:45
107阅读
数据仓库是所有产品的数据中心,公司体系下的所有产品产生的所有数据最终都流向数据仓库,可以说数据仓库不产生数据,也不消费数据,只是数据的搬运工。 记得很久以前曾有一位前辈和我说过:“进来的数据是垃圾数据,出去也是垃圾数据”。在实际环境中,往往我们一条业务线会由多个不同的系统支撑组成(例如:很多电商后端业务线都区分为库存系统、售后系统、采购系统、CRM系统等)。这些系统由于本身设计的缺陷或业
转载
2023-07-22 14:08:20
151阅读
数据仓库大数据平台简介通常说的大数据平台主要包括三部分:数据相关的工具、产品和技术:批量数据采集传输sqoop,spark离线数据处理Hadoop,Hive,Spark实时流处理Storm,Spark Streaming,Flink数据资产:公司业务本身产生和沉淀的数据公司运作产生的数据(如财务、行政)第三方数据:外界购买、交换或者爬虫而来的数据数据管理:有了工具和数据,需要进行管理才能让数据价值
转载
2023-11-01 16:42:15
123阅读
1.数据立方体的有效计算 a.方体总数=∏(Li+1)(1<=i<=n)。其中Li为每个维的层数,n为维数。 b.方体的计算选择。 不物化:不预计算任何“非基本”方体。 完全物化:预计算所有方体,但是需要花费海量的空间来存储。 部分物化:有选择的计算方体的一个自己。 c.索引OLAP数据 为了提供有效的数据访问,数据仓库支持索引结构和物化视图即上面所述。
转载
2024-06-20 19:45:10
32阅读
大数据仓库是数据中台内容端建设的载体,将医保各业务数据
原创
2022-11-08 18:25:30
263阅读
数据仓库和技术首先对于数仓我们应该知道,相比较于传统数据库来说,它需要的操作要相对简单一些,在数仓中没有联机更新数据的需要,只有一些非常少的锁定需要 然后了解一下数据仓库都有什么需求1、管理大量的数据对于数仓而言,最本质的特点就是管理大数据量的数据,传统数据库一张表可能记录十万百万条数据,而数仓中一张hive表在TB级别是允许的 在谈及到数据仓库的时候,技术和效率是我们要考虑的,除此存储和处理的开
转载
2023-08-30 13:39:46
74阅读
1. 摘要对于大数据而言,数据仓库承载着整个企业的全业务的数据。早期数仓在关系型数据如Oracle,MySql上。到大数据时代,基于hadoop生态的大数据架构,数仓基本上都是基于hive的数仓。对于很多大数据开发者而言,特别是早期,很多开发者认为hive数仓就是和业务相关,隐射Hdfs数据文件的一张张表。针对于hive数仓而言,最终看到的确实是一张纸表,但这些表是如何根据业务抽象出来的、表之间的
转载
2023-08-09 23:05:35
306阅读
数据仓库是一个用于存储和管理大量数据的系统,它可以帮助组织和企业更好地理解和利用数据。而Spark是一个快速而强大的数据处理引擎,可以用于在数据仓库中进行数据分析和处理。本文将介绍数据仓库和Spark的基本概念,并提供一些代码示例帮助读者更好地理解。
## 什么是数据仓库
数据仓库是一个用于存储和管理大量结构化和非结构化数据的系统。它通常用于支持数据分析和决策制定,使组织和企业能够更好地理解和
原创
2023-12-26 07:21:04
59阅读
从结构的角度看,有三种数据仓库模型:企业仓库、数据集市、和虚拟仓库。企业仓库:企业仓库搜集了关于主题的所有信息,跨越整个组织。它提供企业范围内的数据集成,通常来自一个或多个操作的系统,或外部信息提供者,并且是跨功能的。通常,它包含详细数据和汇总数据,其大小由数千兆字节,到数百千兆字节,数兆兆字节,或更多。企业数据仓库可以在传统的大型机上实现,如UNIX 超级服务器或并行结构平台。它需要广泛建模,可
转载
2023-11-13 13:55:50
59阅读
大数据最全知识点整理-数据仓库篇1、什么是数据仓库(数仓的定义)2、数据仓库特点面向主题集成性稳定性反映历史变化3、数据库和数据仓库的区别4、数仓构建流程1) 数据调研、划分主题域2) 明确统计指标3) 构建总线矩阵4) 构建明细模型5) 构建汇总模型6) ETL以及代码实现7) 数仓应用、结果验证8) 数仓管理5、数仓分层概述6、数仓为什么要分层把复杂问题简单化清晰数据结构:空间换时间、减少重
转载
2023-09-13 12:37:58
166阅读
数据仓库为什么学习数据仓库数据仓库(DW)面向主题提取主题(一)提取主题(二)集成非易失随时间变化数据仓库和数据库的区别OLTP和OLAP的区别数据仓库分层数据仓库结构(一)数据仓库架构(二)数据仓库架构(三)数据仓库的解决方案数据ETLETL工具数据仓库的建模选择业务流程声明粒度确认维度确认事实星型模型(一)星型模型(二)雪花模型(一)雪花模型(二)示例数据抽取(一)数据分析(一)数据分析(二
转载
2024-01-16 01:06:19
43阅读
有网友问云计算,大数据,数据库,数据仓库之间是什么关系,在这里我就我的理解简单解释一下:首先简单的看一下云计算与大数据的概念.1)云计算:云计算本质上是一种计算资源集中分布和充分共享的效用计算模式,其中集中是为了计算资源的集约化管理,分布是便于扩展计算能力.集中分布式是针对云服务提供商的,充分共享是针对用户,在云计算中,虽然对于每个云用户来说都拥有一台超级计算机,但本质上,这些用户是充分共享了云服
转载
2023-10-27 02:06:11
49阅读
MPP 传统数仓:1 Oracle :节点之间共享磁盘资源优点:很常见,学习资料广泛,运维方便。缺点:单个集群支持100左右节点,适合数据量小的场景2 DB2 :集群版本DPF-IBM商业数据库,与IBM硬件兼容好,一般伴随商业选增中被企业使用;3 Teradata :一体机形式销售自带数据引擎和查询工具,性能优秀,稳定易用,是大型企业商业数仓选型4 Greenplum :开源产品 ,性价比高大数
转载
2023-09-05 20:08:54
120阅读
为什么要对数据仓库分层: a)用空间换时间,通过大量的预处理来提升应用系统的用户体验(效率),因此数据仓库会存在大量冗余的数据;b)如果不分层的话,如果源业务系统的业务规则发生变化将会影响整个数据清洗过程,工作量巨大c)通过数据分层管理可以简化数据清洗的过程,因为把原来一步的工作分到了多个步骤去完成,相当于把一个复杂的工作拆成了多个简单的工作,把一个大的黑盒变成了一个白盒,每一层的处理逻辑都相对简
转载
2023-09-06 16:27:06
140阅读
大数据技术原理与应用——数据仓库8.1 数据仓库的概念根本目的数据仓库概念数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。 数据仓库的数据都来自于数据源,数据源中的数据需要经过抽取、转换、加载这样一个过程,把它加载到数据仓库,这个抽取、转换、加载这个过程一般简称为 ETL,加载到数据仓库以后,可以通过里面的 OLAP 服务器和数据挖掘引擎对上层用户提供服务构
转载
2023-08-27 22:24:33
109阅读
1、知识点1.1 RDBMSRelational DataBase Magement System 关系型数据库管理系统 相关技术栈:SQL、SQL databases(MySQL、Postgres、Oracle等),Data Modeling(FB DE)1.2 SQL结构化查询语言1.3 Batch ETLExtract,Transform,Load 从数据仓库中提取数据,使用slicing和
转载
2023-11-20 08:09:26
50阅读
一 数据库 是一种逻辑概念,用来存放数据的仓库,通过数据库软件来实现,数据库由许多表组成,表是二维的,一张表里面可以有很多字段,数据库的表,在与能够用二维表现多维关系。二 数据仓库 是数据库概念的升级。从逻辑上理解,数据库和数据仓库没有区别,都是通过数据库软件实现的存放数据的地方,只不过从数据量来说,数据仓库要比数据库
转载
2024-02-26 22:18:39
30阅读
随着大数据技术的不断更新和迭代,数据管理工具得到了飞速的发展,相关概念如雨后春笋一般应运而生,如从最初决策支持系统(DDS)到商业智能(BI)、数据仓库、数据湖、数据中台等。今天多变的市场竞争环境,企业也正在寻找具备创新性、灵活性的中台能力。什么是数据中台?数据中台最核心的是OneData体系。这个体系实质上是一个数据管理体系,包括全局数据仓库规划、数据规范定义、数据建模研发、数据连接萃取、数据运
转载
2024-01-17 09:18:39
109阅读
文章目录搭建数仓MySql的安装配置root用户的密码高可用的MySQL1.到/usr/share/mysql下找mysql服务端配置的模版2.编辑my.cnf3.重启mysql服务4.在主机上使用root@localhost登录,授权从机可以使用哪个用户登录5.查看主机binlog文件的最新位置6.在从机上执行以下语句(目前主机是103)7.在从机上开启同步线程8.查看同步线程的状态安装hiv
转载
2023-08-21 10:26:31
85阅读