一、数仓分层1、ODS层:原始数据层ODS(O=original D=data S=store)1)设计要点存储来自多个业务系统、前端埋点、爬虫获取的一系列数据源的数据。我们要做三件事:【1】保持数据原貌不做任何修改,保留历史数据,起到数据备份的作用。【2】使用lzo压缩。100G的数据压缩之后大概为20G。【3】创建分区表,防止后续的全表扫描,一般按天存储。2)ODS层数据组成【1】前端埋点日志
转载
2024-05-23 16:39:27
192阅读
一、数仓搭建 - DWS 层1.1 业务术语1)用户 用户以设备为判断标准,在移动统计中,每个独立设备认为是一个独立用户。Android 系统根据 IMEI 号,IOS 系统根据 OpenUDID 来标识一个独立用户,每部手机一个用户2)新增用户 首次联网使用应用的用户。如果一个用户首次打开某 APP,那这个用户定义为新增用 户;卸载再安装的设备,不会被算作一次新增。新增用户包括日新增用户、周新增
转载
2024-07-26 08:49:36
89阅读
一般将hive作为大数据中离线数据的存储,并把hive作为构建数据仓库的环境。可我们也要了解一个事实,hive不支持行级操作,无法像RMDB那样进行updata、delete,add操作。当你将hive作为数据库来使用时,这种设定可能不是你喜欢的。此外,hive的高延迟也会让你头疼,所以都会配备一些即时查询的工具,如presto。在hive上,如何实现我们的调度和etl,则是另一块工作了。这个等到
转载
2023-07-24 15:39:34
114阅读
Hive环境搭建数仓中所有数据交给hive管理,所以数仓环境其实就是Hive环境计算交给SparkSQL1. 两种计算模式比较Hive on Spark:Hive既作为存储元数据Hive负责SQL的解析优化语法是HQL语法执行引擎变成了Spark,Spark负责采用RDD执行。Spark on Hive :SparkSQL对接Hive数据源Hive只作为存储元数据Spark负责SQL解析优化语法是
转载
2023-07-20 20:08:19
114阅读
## Hive数仓 数据更新
在数据仓库中,数据更新是一个非常重要的环节。数据更新通常包括了数据的插入、更新和删除等操作,以保证数据仓库中的数据是最新最准确的。在Hive数仓中,数据更新也是非常常见的操作,本文将介绍如何在Hive数仓中进行数据更新的相关内容。
### Hive数仓简介
Hive是一个建立在Hadoop之上的数据仓库工具,它提供了类似SQL的查询语言HiveQL来方便用户查询
原创
2024-03-10 06:06:31
69阅读
上一篇文章介绍了sqoop全量同步数据到hive,同时上一篇文章也给出了本人写的hadoop+hive+hbase+sqoop+kylin的伪分布式安装方法连接,上篇文章连接:Sqoop全量同步mysql/Oracle数据到hive。 本片文章将通过实验详细介绍如何增量同步数据到hive,以及sqoop job与crontab定时结合无密码登录的增量同步实现方法。一、知识储备在生产环境中,系统可能
转载
2023-10-16 07:32:38
642阅读
数据仓库架构 源数据落地区【SDF,source data file】 数据仓库层【DW,data warehouse】 &nbs
转载
2023-10-08 08:26:20
100阅读
# 如何更新Hive数仓数据
在数据仓库中,数据的更新是一个非常重要的操作。在Hive中,我们可以通过多种方式来更新数据,例如使用INSERT、UPDATE、DELETE等操作。在本文中,我们将介绍如何更新Hive数仓中的数据,并提供一个实际的示例。
## 更新数据的方式
Hive提供了多种方式来更新数据:
1. 使用INSERT语句插入新数据
2. 使用UPDATE语句更新已有数据
3.
原创
2024-05-20 04:23:58
135阅读
Hive 已是目前业界最为通用、廉价的构建大数据时代数据仓库的解决方案了,虽然也有 Impala 等后起之秀,但目前从功能、稳定性等方面来说,Hive 的地位尚不可撼动。其实这篇博文主要是想聊聊 SMB join 的,Join 是整个 MR/Hive 最为核心的部分之一,是每个 Hadoop/Hive/DW RD 必须掌握的部分,之前也有几篇文章聊到过 MR/Hive 中的 join,其实底层都是
转载
2024-01-30 12:43:26
47阅读
数据仓库架构分层1. 数据仓库架构数据仓库标准上可以分为四层:ODS(临时存储层)、PDW(数据仓库层)、DM(数据集市层)、APP(应用层)。1)ODS层:为临时存储层,是接口数据的临时存储区域,为后一步的数据处理做准备。一般来说ODS层的数据和源系统的数据是同构的,主要目的是简化后续数据加工处理的工作。从数据粒度上来说ODS层的数据粒度是最细的。ODS层的表通常包括两类,一个用于存储当前需要加
转载
2024-06-11 01:32:09
90阅读
架构图: 组成:SQL语句到任务执行需要经过解释器,编译器,优化器,执行器 解释器:调用语法解释器和语义分析器将SQL语句转换成对应的可执行的java代码或业务代码 编译器:将对应的java代码转换成字节码文件或jar包 优化器:从SQL语句到java代码的解析转化过程中需要调用优化器,进行相关策略优化 执行器:当业务代码转换完成之后上传到集群中执行职责:元数据管理
转载
2024-05-09 21:30:16
79阅读
目录1.简介2.方案架构3.离线还原数据3.1.数据落盘至hdfs3.2 Merge操作3.3 Merge sql 代码3.3.1 首先创建一个快照表来存放test库的binlog日志3.3.2 创建一个待还原的ods层hive表3.3.3 在hive中还原出与mysql相同的数据(binlog+历史数据)3.3.3.1 binlog demo3.3.3.2 全量数据合并3.3.3.3 写入数据
转载
2023-07-20 20:07:15
165阅读
在线教育(7) 目录在线教育(7)1. Hive函数2. Hive 优化2.1 Hive 基础优化2.1.1 HDFS 副本数2.1.2 yarn的基础配置2.1.3 MapReduce基础配置2.1.4 hive的基础配置2.1.5 hive压缩的配置2.1.6 hive的执行引擎切换2.2 Hive 数据倾斜优化2.2.1 group by 数据倾斜2.2.2 join 数据倾斜2.2.3 如
转载
2023-07-20 20:08:42
171阅读
hive的安装与简单入门1 HIVE简单介绍1.1什么是 Hive Hive:由 Facebook 开源用于解决海量结构化日志的数据统计。 Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类 SQL 查询功能。 本质是:将HQL 转化成 MapReduce 程序 1.2Hive 架构原理 1.3Hive 在加载数据的过程中不会对数据进行任何处理,甚至不
转载
2024-05-10 12:00:46
44阅读
# Hive数仓 更新和删除记录操作指南
## 概述
在Hive数仓中,更新和删除记录是常见的操作需求。本文将介绍更新和删除记录的整体流程,并提供每个步骤所需的代码和解释。
## 流程概览
下表展示了更新和删除记录的整体流程。
| 步骤 | 描述 |
| --- | --- |
| 1 | 创建一个新的分区表 |
| 2 | 将要更新或删除的数据导入到新表中 |
| 3 | 执行更新或删除操
原创
2023-12-25 07:08:42
105阅读
目录一、集群规划二、下载与设置三、初始化元数据四、hive启与停五、tez的配置 本节讲解Hive的安装与配置。配置文件下载一、集群规划在node01 安装,同步到node02,node03node01node02node03hivehivehive二、下载与设置# 1. 下载hive
[jack@node01 u02]$ wget https://mirror.bit.edu.cn/apach
转载
2023-07-20 20:07:56
65阅读
一、数据模型数据模型就是数据组织和存储方法,它强调从业务、数据存取和使用角度合理存储数据。Linux的创始人Torvalds有一段关于“什么才是优秀程序员”的话:“烂程序员关心的是代码,好程序员关心的是数据结构和它们之间的关系”。只有数据模型将数据有序的组织和存储起来之后,数据才能得到高性能、低成本、高效率、高质量的使用。关于数仓的建模有两种基本的模型:1、关系建模(Inmon)关系建模是数据仓库
分层设计 ODS(Operational Data Store):数据运营层 “面向主题的”数据运营层,也叫ODS层,是最接近数据源中数据的一层,数据源中的数据,经过抽取、洗净、传输,也就说传说中的 ETL 之后,装入本层。本层的数据,总体上大多是按照源头业务系统的分类方式而分类的。 一般来讲,为了 ...
转载
2021-10-08 22:56:00
322阅读
2评论
Hive数据库简介: Hive是由Facebook开发的一款数据仓库工具,于2007年发布,并于2008年开源。随着时间的推移,Hive不断发展壮大,其发展史如下:[1][Apache Hive] :2008年10月,Facebook宣布将Hive作为开源项目贡献给Apache软件基金会。[2]:2010
转载
2023-11-22 20:57:06
98阅读
一、数据仓库基础概念1、数仓概述数据仓库(数仓、DW):一个用于存储、分析、报告的数据系统。OLAP(联机分析处理)系统:面向分析、支持分析的系统。数据仓库的目的:构建面向分析的集成化数据环境,分析结果为企业提供决策支持。数据仓库本身并不“生产”任何数据,其数据来源于不同外部系统同时数据仓库自身也不需要“消费”任何的数据,其结果开放给各个外部应用使用2、数仓特征面向主题:主题是一个抽象的概念,是较
转载
2024-06-07 09:22:47
62阅读