一.hive的事务 (1)什么是事务 要知道hive的事务,首先要知道什么是transaction(事务)?事务就是一组单元化操作,这些操作要么都执行,要么都不执行,是一个不可分割的工作单位。 事务有四大特性:A、C、I、D (原子性、一致性、隔离性、持久性) Atomicity: 不可再分割的工作单位,事务中的所有操作要么都发,要么都不发。 Consistency: 事务开始之前和事务结束以后,
转载 2023-09-08 18:00:16
50阅读
# 使用HiveSQL实现事务表 作为一名经验丰富的开发者,我将教会你如何使用HiveSQL来实现事务表。事务表是一种支持事务操作的数据库表,它可以确保数据的一致性和完整性。 ## 事务表的流程 下面是实现事务表的流程,我将用表格展示步骤: 步骤 | 描述 --- | --- 1. 创建数据库 | 在Hive中创建一个新的数据库,用于存储事务表。 2. 创建事务表 | 在数据库中创建一个新
原创 2024-01-12 11:57:36
59阅读
事务的四个特性   1.automicity:原子性   2.consistency:一致性   3. isolation:独立性   4.durability:持久性  5.支持事务有几个条件需要满足:1.所有的事务都支持自动提交;2.只支持ORC格式的数据;3.桶表  7.配置hive的参数使其支持事务:   在hive-site.xml文件中进行如下的配置 <propert
转载 2023-10-06 23:37:17
145阅读
# Hivesql为什么要建事务表 ## 引言 作为一名经验丰富的开发者,你要教给一位刚入行的小白如何实现“Hivesql为什么要建事务表”。事务表在Hive中起到了关键的作用,能够保证数据的一致性和可靠性。本文将介绍事务表的概念、流程以及每一步需要做的事情,包括需要使用的代码和注释。 ## 事务表的概念 在Hive中,事务表是指支持ACID(原子性、一致性、隔离性和持久性)特性的表。它们可以
原创 2024-01-14 07:08:26
69阅读
文章目录一、系统内置函数二、常用内置函数空字段赋值 NVLCASE WHEN THEN ELSE END多列变一列(列转列)一行变多行(行转行)窗口函数函数介绍按需求查询数据Rank常用日期函数常用取整函数常用字符串操作函数集合操作 UDF: 一进一出 UDAF: 多进一出 UDTF: 一进多出 (“多” 指的是输入数据的行数。)一、系统内置函数查看系统自带的函数show functions;显
转载 2023-08-19 18:28:27
122阅读
目录HIVEsql复杂用法举例1.保存select查询结果的几种方式:2.行转列,根据主键对某列进行合并3.列转行,将某列数据拆分成多行4.hive实现wordcount5.级联查询实现累积报表(笨办法)6-12均为9.hive 窗口分析函数6.窗口分析函数  sum() over() :可以实现在窗口中进行逐行累加(简单办法)7.分组排序求topn8.各种打序号方法9.LAG函数&nb
转载 2023-09-26 16:03:06
1684阅读
hiveSQL语法 hivesql lead
转载 2023-05-18 22:34:26
97阅读
我们先来看看这两个函数的语法:lead(col,n,default) over()说明: 用于统计窗口内向下第n行的值参数1: 为要取值的列名参数2: 为向下第n行,默认值为1,这个值是固定的,不能动态的变化参数3: 为默认值,当向下第n行的值为NULL时,取默认值,如果不指定,则默认值为NULLlag(col,n,default) over()说明: 用于统计窗口内向上第n行的值,与lead()
转载 2023-08-18 23:20:31
108阅读
一、Hive介绍  Apache官网给出的logo,一半是Hadoop大象的头,一半是蜜蜂的身体,也是寓意着它是基于Hadoop,哈哈,纯属个人理解,进入正题。数据仓库工具,可以将sql语句转换成MapReduce任务来运行。可以用来数据提取、转化、加载(ETL),这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。  Hive定义了简单的类sql查询语言,成为HiveQL,它允许
转载 2023-07-14 23:41:42
101阅读
如下是关于如何在HiveSQL中使用“IN”操作符的教程。 ## 目录 1. 引言 2. 操作流程 3. 代码实现 1. 创建一个示例表 2. 使用“IN”操作符查询数据 4. 总结 ## 1. 引言 在HiveSQL中,使用“IN”操作符可以在一个查询中匹配多个值。它可以与WHERE子句一起使用,以便过滤数据集。本教程将向你展示如何在HiveSQL中使用“IN”操作符。 #
原创 2024-02-11 07:10:29
91阅读
一、sql中的group by 用法解析:Group By语句从英文的字面意义上理解就是“根据(by)一定的规则进行分组(Group)”。作用:通过一定的规则将一个数据集划分成若干个小的区域,然后针对若干个小区域进行数据处理。注意:group by 是先排序后分组!举例说明:如果要用到group by 一般用到的就是“每”这个字, 例如现在有一个这样的需求:查询每个部门有多少人。就要用到分组的技术
转载 2023-08-18 23:19:51
333阅读
目录0-面试题1-答案详细解析1.1-自我介绍1.2-到北京工作的医院1.3-SQL题,给一张城市和交易额表,一张城市对应省份表, 取出 省份 总 交易额大于 500 的 省份 的名字1.4-SQL题,基于刚才, 得出 省份 总 交易额 [0,500 ] , [500,1000 ] , [1000,+oo ] 在以下三个区间的 省份 的 数量1.5-SQL题,还是基于刚才, 按从小到大的顺序得出
转载 2023-07-20 19:11:08
113阅读
同事总结的hive sql 优化  Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。  使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别,  所以需要去掉原有关系型数据库下开发的一些固有思维。  基本原则:  1:尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段select ...
谨记:union all 只检查前后表的字段类型在顺序上一致,不会检查别称是否一致 愚蠢的处理:昨天,重另一个哥们接过一段SQL(SQL篇幅很大),需要在一天内将该段SQL的逻辑移植更换我现有的简单处理,草草看过SQL,然后干别的事情去了。半天后,稍稍整理了一下那段SQL,发现通过抽层,可以很好的把这段SQL嵌入到我现有的代码,SQL改动不大。一顿修改,很快可以执行成功了。于是,简单的补
转载 2023-06-30 10:54:11
99阅读
首先,hive本身有一个UDF,名字是datediff。我们来看一下这个日期差计算的官方描述,(下面这个是怎么出来的):hive> desc function extended datediff; OK datediff(date1, date2) - Returns the number of days between date1 and date2 date1 and date2 are
转载 2015-03-11 21:40:00
183阅读
1.使用multi-table-insert写法对union all进行优化(1)原SQL(目标是往一个新表user_new里,插入最大值和最小值的数据)insert into table user_new select sex, max(age) as stat, 'max' as class from user group by sex union all select sex, min(ag
转载 2023-08-21 09:20:43
205阅读
1、数据查询//提高聚合的性能SET hive.map.aggr=true;SELECT count(*),avg(salary) FROM employees;//木匾不允许在一个查询语句中使用多于一个的函数(DISTINCT。。。)表达式SELECT count(DISTINCT symbol) FROM stocks; 表生成函数:explode(APPAY array)  返回0
一、Hive-sql 常用优化MapReduce 流程:Input->split->map->buffer(此处调整其大小)->spill->spill过多合并->merge->combine(减少reduce压力)->shuffle(copy、merge)->spill->disk->reduce->Output1.1、常用
转载 2023-08-08 12:33:56
112阅读
## 科普文章:HiveSQL模糊查询 ### 引言 在数据分析和处理的过程中,我们经常需要进行模糊查询以找出符合特定条件的数据。在关系型数据库中,HiveSQL是一种常用的查询语言。本文将介绍HiveSQL中的模糊查询功能,并提供代码示例进行说明。 ### HiveSQL简介 HiveSQL是基于Apache Hive的SQL查询语言,它可以用于查询和分析大规模的结构化数据。HiveSQ
原创 2023-10-26 06:53:29
56阅读
# Hive SQL Stuff 教程 作为一名经验丰富的开发者,我很高兴能为你提供一份详细的“Hive SQL Stuff”教程。Hive 是一个基于 Hadoop 的数据仓库工具,它允许我们使用类似 SQL 的语言(称为 HiveQL)来查询和分析存储在 Hadoop 上的大数据。 ## 步骤流程 首先,让我们通过一个表格来了解整个 Hive SQL Stuff 的流程: | 步骤 |
原创 2024-07-30 07:24:06
24阅读
  • 1
  • 2
  • 3
  • 4
  • 5