Hive环境搭建数仓中所有数据交给hive管理,所以数仓环境其实就是Hive环境计算交给SparkSQL1. 两种计算模式比较Hive on Spark:Hive既作为存储元数据Hive负责SQL的解析优化语法是HQL语法执行引擎变成了Spark,Spark负责采用RDD执行。Spark on Hive :SparkSQL对接Hive数据源Hive只作为存储元数据Spark负责SQL解析优化语法是
转载
2023-07-20 20:08:19
119阅读
一、数仓分层1、ODS层:原始数据层ODS(O=original D=data S=store)1)设计要点存储来自多个业务系统、前端埋点、爬虫获取的一系列数据源的数据。我们要做三件事:【1】保持数据原貌不做任何修改,保留历史数据,起到数据备份的作用。【2】使用lzo压缩。100G的数据压缩之后大概为20G。【3】创建分区表,防止后续的全表扫描,一般按天存储。2)ODS层数据组成【1】前端埋点日志
转载
2024-05-23 16:39:27
192阅读
数据仓库架构分层1. 数据仓库架构数据仓库标准上可以分为四层:ODS(临时存储层)、PDW(数据仓库层)、DM(数据集市层)、APP(应用层)。1)ODS层:为临时存储层,是接口数据的临时存储区域,为后一步的数据处理做准备。一般来说ODS层的数据和源系统的数据是同构的,主要目的是简化后续数据加工处理的工作。从数据粒度上来说ODS层的数据粒度是最细的。ODS层的表通常包括两类,一个用于存储当前需要加
转载
2024-06-11 01:32:09
92阅读
架构图: 组成:SQL语句到任务执行需要经过解释器,编译器,优化器,执行器 解释器:调用语法解释器和语义分析器将SQL语句转换成对应的可执行的java代码或业务代码 编译器:将对应的java代码转换成字节码文件或jar包 优化器:从SQL语句到java代码的解析转化过程中需要调用优化器,进行相关策略优化 执行器:当业务代码转换完成之后上传到集群中执行职责:元数据管理
转载
2024-05-09 21:30:16
79阅读
目录1.简介2.方案架构3.离线还原数据3.1.数据落盘至hdfs3.2 Merge操作3.3 Merge sql 代码3.3.1 首先创建一个快照表来存放test库的binlog日志3.3.2 创建一个待还原的ods层hive表3.3.3 在hive中还原出与mysql相同的数据(binlog+历史数据)3.3.3.1 binlog demo3.3.3.2 全量数据合并3.3.3.3 写入数据
转载
2023-07-20 20:07:15
165阅读
在线教育(7) 目录在线教育(7)1. Hive函数2. Hive 优化2.1 Hive 基础优化2.1.1 HDFS 副本数2.1.2 yarn的基础配置2.1.3 MapReduce基础配置2.1.4 hive的基础配置2.1.5 hive压缩的配置2.1.6 hive的执行引擎切换2.2 Hive 数据倾斜优化2.2.1 group by 数据倾斜2.2.2 join 数据倾斜2.2.3 如
转载
2023-07-20 20:08:42
171阅读
hive的安装与简单入门1 HIVE简单介绍1.1什么是 Hive Hive:由 Facebook 开源用于解决海量结构化日志的数据统计。 Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类 SQL 查询功能。 本质是:将HQL 转化成 MapReduce 程序 1.2Hive 架构原理 1.3Hive 在加载数据的过程中不会对数据进行任何处理,甚至不
转载
2024-05-10 12:00:46
44阅读
目录一、集群规划二、下载与设置三、初始化元数据四、hive启与停五、tez的配置 本节讲解Hive的安装与配置。配置文件下载一、集群规划在node01 安装,同步到node02,node03node01node02node03hivehivehive二、下载与设置# 1. 下载hive
[jack@node01 u02]$ wget https://mirror.bit.edu.cn/apach
转载
2023-07-20 20:07:56
65阅读
一、数据模型数据模型就是数据组织和存储方法,它强调从业务、数据存取和使用角度合理存储数据。Linux的创始人Torvalds有一段关于“什么才是优秀程序员”的话:“烂程序员关心的是代码,好程序员关心的是数据结构和它们之间的关系”。只有数据模型将数据有序的组织和存储起来之后,数据才能得到高性能、低成本、高效率、高质量的使用。关于数仓的建模有两种基本的模型:1、关系建模(Inmon)关系建模是数据仓库
一、数据仓库基础概念1、数仓概述数据仓库(数仓、DW):一个用于存储、分析、报告的数据系统。OLAP(联机分析处理)系统:面向分析、支持分析的系统。数据仓库的目的:构建面向分析的集成化数据环境,分析结果为企业提供决策支持。数据仓库本身并不“生产”任何数据,其数据来源于不同外部系统同时数据仓库自身也不需要“消费”任何的数据,其结果开放给各个外部应用使用2、数仓特征面向主题:主题是一个抽象的概念,是较
转载
2024-06-07 09:22:47
65阅读
Hive数据库简介: Hive是由Facebook开发的一款数据仓库工具,于2007年发布,并于2008年开源。随着时间的推移,Hive不断发展壮大,其发展史如下:[1][Apache Hive] :2008年10月,Facebook宣布将Hive作为开源项目贡献给Apache软件基金会。[2]:2010
转载
2023-11-22 20:57:06
98阅读
分层设计 ODS(Operational Data Store):数据运营层 “面向主题的”数据运营层,也叫ODS层,是最接近数据源中数据的一层,数据源中的数据,经过抽取、洗净、传输,也就说传说中的 ETL 之后,装入本层。本层的数据,总体上大多是按照源头业务系统的分类方式而分类的。 一般来讲,为了 ...
转载
2021-10-08 22:56:00
322阅读
2评论
环境 Leo采用的环境为: Ubuntu-Kylin-16.04 jdk1.8.0_151 Hadoop
转载
2024-03-07 22:25:55
53阅读
最近我们公司在建立数仓,想要建立一套以Greenplum为核心的混合架构数据仓库。在这里,只想谈谈我对数据仓库的一些看法。什么是数据仓库面向主题的,集成的,相对稳定的,反映历史变化的数据集合,用于支持管理决策。 为什么需要数仓首先,我们公司是做高校大数据的。高校的数据源形式多样,oracle、sqlserver、mysql,excel、dbf等等,异构性强。以前我们的做法是将
转载
2024-09-18 19:42:32
88阅读
目录Hive的介绍Hive的产生背景Hive概述Hive架构Hive的体系架构Hive的部署架构Hive与RDBMS数据库的区别Hive的部署搭建(阿里云)最终的hive-site配置Hive DDLHive DML Hive的介绍Hive的产生背景根据博主前面对于MapReduce的讲解,可以回想一下,我们做一个再简单不过的wordcount(我们都可以用java的计算函数几行代码搞定),需要
转载
2023-07-10 22:12:18
184阅读
一、数据仓库的用途整合公司所有业务数据,建立统一的数据中心产生业务报表,用于作出决策为网站运营提供运营上的数据支持可以作为各个业务的数据源,形成业务数据互相反馈的良性循环分析用户行为数据,通过数据挖掘来降低投入成本,提高投入效果开发数据产品,直接或间接地为公司盈利二、数仓运行架构图三、数据集市与数仓的区别数据集市(Data Market):是一种微型的数据仓库,它通常有更少的数据,更少的主题区域,
转载
2023-09-23 09:41:46
151阅读
最近看了尚硅谷的hive高级课程,学有所获,特此与大家分享hive高级进阶-hive优化+hive执行流程hive执行流程: hql语句 -> cliDriver ->DrivercliDriver: 1.解析客户端-e,-f等参数 2.定义标准输入输出流 3.按照';'划分hql语句Driver: 1.将HQL语句转换为AST 2.将AST转换为OperationTree 3.将Op
转载
2024-02-20 11:50:38
84阅读
数据仓库VS数据库数据仓库的定义:数据仓库是将多个数据源的数据经过ETL(Extract(抽取)、Transform(转换)、Load(加载))理之后,按照一定的主题集成起来提供决策支持和联机分析应用的结构化数据环境数据仓库VS数据库:数据库是面向事务的设计,数据仓库是面向主题设计的数据库一般存储在线交易数据,数据仓库存储的一般是历史数据数据库设计是避免冗余,采用三范式的规则来设计,数据仓库在设计
1、hive环境搭建1.1、hive引擎简介Hive引擎包括:默认MR、tez、sparkHive on Spark:Hive既作为存储元数据又负责SQL的解析优化,语法是HQL语法,执行引擎变成了Spark,Spark负责采用RDD执行。Spark on Hive : Hive只作为存储元数据,Spark负责SQL解析优化,语法是Spark SQL语法,Spark负责采用RDD执行。1.2、hi
转载
2024-04-10 13:14:52
42阅读
简介hive是facebook开源,并捐献给了apache组织,作为apache组织的顶级项目(hive.apache.org)。 hive是一个基于大数据技术的数据仓库(DataWareHouse)技术,主要是通过将用户书写的SQL语句翻译成MapReduce代码,然后发布任务给MR框架执行,完成SQL 到 MapReduce的转换。可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功
转载
2023-07-15 00:04:19
122阅读