前言     本章介绍hive内部、外部、分区和UDF等。1.hive介绍    1.Hive虽说是数据仓库,其实可以认为就是一个mysql数据库,hive中的名对应的是hdfs上的文件目录名,内容就是对应目录下的文件。    2.hive的hdfs路径     在hive-site.xml中,由参数hive.metastore.warehouse.dir指定,我的是/hivedat
# Hive ORC 数据文件 Bucket 的实现过程 在使用 Hive 时,你可能会发现 ORC 的数据文件数量有时会超过 Bucket 的数量。这可能会影响查询性能和存储效率。本文将介绍如何实现 "Hive ORC 数据文件 Bucket " 的流程,并通过表格展示每一步的详细步骤。 ## 实现流程 | 步骤 | 描述 |
原创 1月前
29阅读
Hive分区数据压缩1.背景目前公司的Hive分区采用的TextFile格式存储,占用的存储空间较大,考虑到存储成本,需要对存储的历史数据进行压缩。2.压缩格式选择2.1 snappy压缩优点:高速压缩速度和合理的压缩率;支持Hadoop native库。缺点:不支持split;压缩率gzip要低;Hadoop本身不支持,需要安装;linux系统下没有对应的命令。应用场景:当MapReduc
转载 2023-08-10 15:30:48
113阅读
      有的时候我们需要把数据从一张复制到另外一张。这两张可能是同一服务器同一用户同一数据中的两张,也有可能是不同服务器不同数据库的两张。下面是我碰到最简单的一种情况:同一服务器同一用户同一数据库中的两张,下面以ab代替。一、目标存在的情况下。如从a复制到bb已经存在。oracle   &
转载 2023-07-04 21:04:55
538阅读
# 如何使用Hive将A的数据更新到B ## 简介 在Hive中,可以通过INSERT OVERWRITE语句将一个的数据完全覆盖另一个,实现数据更新的功能。本文将向你介绍如何使用Hive实现“hive 用A的数据更新B”。 ## 流程 以下是整个操作的步骤,我们可以通过表格展示流程: | 步骤 | 操作 | | ---- | ---- | | 1 | 创建新B | | 2 |
原创 5月前
46阅读
# 使用Hive中的B数据更新A数据的实现步骤 在大数据处理的工作中,Hive是一个广泛使用的数据仓库工具。今天,我们将学习如何用B的数据更新A的数据。以下是整个流程的概述。 ## 整体流程 下面是完成这项任务的几个主要步骤: | 步骤 | 描述 | |------|----------------------------| | 1
原创 1月前
27阅读
1 Hive的数据压缩1.1 数据的压缩说明1.2 压缩配置参数1.3 开启Map输出阶段压缩1.4 开启Reduce输出阶段压缩2 Hive的文件存储格式2.1 列式存储和行式存储2.2 TEXTFILE格式2.3 ORC格式2.4 PARQUET格式2.5 主流文件存储格式对比实验2.5.1 TextFile2.5.2 ORC2.5.3 Parquet3 存储和压缩结合3.1 创建一个非
Cluster By 的作用和用法1. order byset hive.mapred.mode=nonstrict; (default value / 默认值)set hive.mapred.mode=strict;  order by 和数据库中的Order by 功能一致,按照某一项 & 几项 排序输出。  与数据库中 order by 的区别在于在hive.ma
今天在做SSIS的ETL工作时,其中一个left join组件的运行结果总是会多出一些记录。分析了一下,该问题的原因是右中作为关联的那一列数据有重复。left join的运行策略可以理解为根据左的每一条记录的关联字段去对照右的关联字段,如果右的关联字段存在重复,就会生成重复的记录。如果左存在重复而右无重复,则不会多出来记录。举个例子,如果左a和右b的数据分别如下所示aIDName
今天接到开发妹子的需求,导入指定月份的数据到测试服mysql指定的中(名称不一样)首先看了下线上的的整体大小mysql> SELECT sum(DATA_LENGTH)+sum(INDEX_LENGTH)  FROM information_schema.TABLES where TABLE_SCHEMA='库名' AND TABLE_NAME='名';+---------
原创 2014-08-18 15:58:44
2192阅读
1点赞
1评论
目录0. 相关文章链接1. 创建 Hive 外表2. 查询 Hive 外表2.1. 设置参数2.2. COW 查询2.2.1. 实时视图2.2.2. 增量视图2.3. MOR 查询2.3.1. 实时视图2.3.2. 读优化视图2.3.3. 增量视图0. 相关文章链接 Hudi文章汇总 
本文翻译于:https://cwiki.apache.org/confluence/display/Hive/Hive+Transactions   需要提醒的是,当前Hive版本是 0.14.0。之所以要添加这篇文章,是为后续的文章做铺垫。摘要:Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库,并提供简单的SQL查询功能,可以将SQL语句
一、分区1.1 概念Hive 中的对应为 HDFS 上的指定目录,在查询数据时候,默认会对全进行扫描,这样时间和性能的消耗都非常大。分区为 HDFS 上表目录的子目录,数据按照分区存储在子目录中。如果查询的 where 字句的中包含分区条件,则直接从该分区去查找,而不是扫描整个目录,合理的分区设计可以极大提高查询速度和性能。这里说明一下分区Hive 独有的概念,实际上这个概念非常常见
### 如何实现“spark sql 读orchive慢”问题解决方案 作为一名经验丰富的开发者,我将向你介绍如何解决“spark sql 读orchive慢”的问题。首先,我们需要了解整个流程,然后逐步进行操作。 #### 流程概述: | 步骤 | 操作 | | ------ | ------ | | 1 | 创建orc | | 2 | 创建hive | | 3 | 通过spa
原创 5月前
59阅读
垂直拆分垂直拆分是指数据表列的拆分,把一张列比较多的拆分为多张 通常我们按以下原则进行垂直拆分:把不常用的字段单独放在一张;把text,blob等大字段拆分出来放在附表中;经常组合查询的列放在一张中;垂直拆分更多时候就应该在数据设计之初就执行的步骤,然后查询的时候用join关键起来即可;水平拆分水平拆分是指数据行的拆分,的行数超过200万行时,就会变慢,这时可以把一张的的数据拆成
1)hive中内部和外部的区别内部:又叫管理的创建,和删除都由hive自己决定。外部结构上同内部,但是存储的数据时自己定义的,外部在删除的时候只删除元数据,原始数据时不能删除的。内部和外部的区别主要体现在两个方面:删除:删除内部,删除元数据和数据;删除外部,删除元数据,保留数据。使用:如果数据的所有处理都在 Hive 中进行,那么倾向于 选择内部,但是如果 Hive
# MongoDB A导入B:新手指南 作为一名经验丰富的开发者,我很高兴能帮助你了解如何将MongoDB中的A数据导入B。在本文中,我将向你展示整个流程,并提供相应的代码示例和解释。 ## 流程概览 首先,让我们通过一个表格来了解整个流程的步骤: | 步骤 | 描述 | | --- | --- | | 1 | 连接到MongoDB数据库 | | 2 | 选择AB | | 3
原创 2月前
27阅读
      最近在学习python ,看到了pythod的oracle,不仅可以一次fetch多条,也可以一次insert多条,想写一个复制A数据到B的程序来看看实际效率能不能提高。写完发现,非常惊艳!效率提升了近一倍! 当然可能会认为这个没有实际意义,其实不然。     从A复制数据到B有很多中方法,一般直接inser
转载 2023-07-04 21:04:23
198阅读
目录视图视图概述视图操作建高阶语句高级查询select关联查询joinHive的集合操作 视图有学过SQL的小伙伴相信对视图这一概念并不陌生。事实上,Hive中的视图和SQL中视图的概念作用等基本一致,下面也见到介绍一下这一概念。视图概述通过隐藏子查询、连接和函数来简化查询的逻辑结构;它是一个虚拟,从真实中选取数据;只保存定义,不保存数据;如果删除或更改基础,则查询视图会失败;视图是只读
转载 2023-09-08 14:57:23
104阅读
hive的分类:内部:管理/managed_table,的创建、的数据的删除都是由hive自己决定的,像mysql中的,内部在进行删除的时候, 元数据和原始数据都会被删除。 外部:external_table,和内部对立,hive中的不肯同时是内部又是外部的,该结构上同内部一样, 但是数据hive自己不能决定,外部在进行删除的时候,只能删除元数据而原始数据还是存在与
  • 1
  • 2
  • 3
  • 4
  • 5