hive笔记(二)DML插入 1.向表插入数据 load data [loacl] inpath ‘/usr/p/student.txt’ [overwrite]|into table student;(overwrite是覆盖,直接into是追加) 2.insert插入数数据并查询 insert overwrite|into table stu3 partition(month=‘202102’
转载 2023-10-14 14:00:11
1223阅读
Hash表是一种可以将查找元素时间复杂度降为O(1)高效算法。 基本原理:将所有的数据通过hash函数映射到hash表里面,如果需要查找元素时候再通过hash函数来计算出来元素在hash表里面的位置,从而一次将需要元素找到。 存在问题 如果有两个或者更多元素通过hash函数映射hash位置是相同那么就会出现问题。 解决办法 线性探测: 在产生hash冲突时候,在hash表里
转载 2024-10-08 12:05:56
49阅读
# Hive中Lag函数用法详解 在大数据分析中,Hive作为一个数据仓库工具,广泛应用于获取和分析结构化数据。Lag函数是数据分析中频繁使用一个窗口函数。在这篇文章中,我们将探讨HiveLag函数用法,并通过代码示例来帮助大家理解。 ## 什么是Lag函数? Lag函数主要用于获取结果集中前一行或者前几行数据。在时间序列分析、用户行为分析等场景中,Lag函数可以帮助我们进行各类
原创 2024-09-10 05:22:58
274阅读
Oracle——distinct用法 下面先来看看例子:table表字段1     字段2   id        name   1        &nbsp
转载 2023-08-09 16:33:20
81阅读
关于with cube ,with rollup 和 grouping通过查看sql 2005帮助文档找到了CUBE 和 ROLLUP 之间具体区别:CUBE 生成结果集显示了所选列中值所有组合聚合。ROLLUP 生成结果集显示了所选列中值某一层次结构聚合。再看看对grouping解释:  当行由 CUBE 或 ROLLUP 运算符添加时,该函数将导致附加列输出值为 1;当行不
# Hive with用法 Hive 是一个基于 Hadoop 数据仓库工具,用于对存储在 Hadoop 文件系统中大数据进行查询和管理。Hive 提供了类似于 SQL 查询语言,称为 HiveQL,使得用户可以方便地进行数据查询和分析。 在 Hive 中,`with` 子句是一个非常有用特性,它允许用户定义临时查询结果,以便在后续查询中重复使用。这不仅可以提高查询可读性,还可
原创 2024-07-30 07:30:43
228阅读
字符串查找,数据开发过程中使用比较频繁。复杂字符串查找,可以用正则表达式来解决,这个在之前文章中,也有积累过,但是不是每一次字符串查找都需要用正则表达式,因为正则表达式规则还是比较难理解,对于初学者或者是刚开始做数据开发工作小伙伴来说,还是比较复杂。今天,记录这几个,简单易懂且常用字符串查找函数,供各位小伙伴在数据开发过程中可以学习使用。一、like1,语法格式:A like
BETWEEN作用BETWEEN 操作符用于选取介于两个值之间数据范围内值。BETWEEN边界BETWEEN运算符选择给定范围内值。值可以是数字,文本或日期。BETWEEN运算符是包含性:包括开始和结束值,等价于>= AND <=BETWEEN语法SELECT column_name(s) FROM table_name WHERE column_name BETWEE
全文索引——CONTAINS 语法 我们通常在 WHERE 子句中使用 CONTAINS ,就象这样:SELECT * FROM table_name WHERE CONTAINS(fullText_column,'search contents')。 我们通过例子来学习,假设有表 students,其中 address 是全文本检索列。 1. 查询住址在北京学生 SELECT stud
转载 2023-11-15 19:03:50
125阅读
Hive3.1.2Beeline执行过程前言由于阿里云DataPhin中台不能识别非DataPhin创建表,不得已,笔者使用sql Clientbeeline方式,实现了导入普通Hive表数据到DataPhinHive表:beline -u "jdbc:hive2://HiveHost:10000/default;principal=hive/一串HOST@realm域" -e " in
转载 2023-08-04 23:45:37
158阅读
hive LZO压缩本文环境介绍:软件版本备注centos6.5hadoop2.7.12.7.*即可hive2.3.6lzo2.10需要独立安装1 lzo压缩1.1 lzo简介1.1.1 lzo定义LZO 是致力于解压速度一种数据压缩算法,相比于压缩比它更加追求速度,LZO 是 Lempel-Ziv-Oberhumer 缩写。 这个算法是无损算法,参考实现程序是线程安全。 实现它一个自由
1. order by在hive中order by是进行全局排序,这也就是说会最后会在一个reduce 中进行统一排序,所以说使用order by进行全局排序尽量不要对数据量很 大 表进行全局排序,这样效率会很低,会对进行排序那一个reduce所在 节点造成内存压力。 使用order by会受到如下属性约束:set hive.mapred.mode=nonstrict; set hiv
转载 2023-12-09 16:15:35
302阅读
如何编写复杂sql推荐此下网址: https://cloud.tencent.com/developer/article/1033405 https://zhuanlan.zhihu.com/p/47528345 --Oracle常用函数Hive语法总结1.nvl(【空值处理)如果expr1为NULL,返回值为 expr2,否则返回expr1格式:NVL(expr1,expr2)2.G
转载 2023-11-13 13:09:39
287阅读
Hive中提供了越来越多分析函数,用于完成负责统计分析。 今天简单整理一下,以务以后自己快速查询,也给看到朋友作个参考。 分析函数主要用于实现分组内所有和连续累积统计。
1:计算两个时间相差多少天:hive内置函数datediff  例子Demo:datediff('2009-07-28','2009-07-30')=2 2:也可以写自定义函数 package cdel.edu.hive.udf.demo04; import java.text.ParseException; impo
转载 2023-11-18 21:14:27
125阅读
一、连续N天登录问题一般采用开窗函数来实现 首先需要用到窗口函数向下取值 窗口函数lead 功能:用于从当前数据中基于当前行数据向后偏移取值 语法:lead(colName,N,defautValue) colName:取哪一列值 N:向后偏移N行 defaultValue:如果取不到返回默认值分析:将所有的登录时间也就是那一天登录,分组排序,然后向后取值,再通过date_add()函数
转载 2023-07-12 13:57:03
46阅读
# Hive中AS用法Hive中,AS是一种关键字,用于给查询结果中列或表起别名。AS使用可以使查询结果更易读,提高代码可读性。本文将介绍AS用法,并给出一些代码示例。 ## AS基本用法Hive中,可以使用AS给查询结果中列起别名。例如,以下是一个简单查询: ```sql SELECT name AS employee_name, age AS employee_a
原创 2023-09-28 05:01:08
547阅读
Hive`nvl`函数用于处理空值,它可以用来替换空值,以确保数据完整性。在实际数据分析和ETL过程中,使用这个函数能够显著提高数据处理准确性。接下来,我们将详细探讨Hive中`nvl`用法,包括其技术原理、架构分析、性能优化及实例分析。 ### 流程图 在深入分析之前,我们可以先了解一下`nvl`函数使用流程,如下所示: ```mermaid flowchart TD
原创 7月前
158阅读
# 理解 Hive get_json_array 函数 在大数据分析中,Apache Hive 是一个非常流行数据仓库工具,它提供了一个粒度较高 SQL 查找可能性,可以用来处理 Hadoop 数据。今天,我们将学习如何在 Hive 中使用 `get_json_array` 函数,从 JSON 数据中获取数组。作为一名刚入行小白,这可能会感觉有些复杂,但我会通过一个简单流程和示例代
原创 2024-09-25 05:01:18
209阅读
# 使用HiveAND和OR操作符 在Hive中,我们经常需要使用AND和OR操作符来筛选数据或进行复杂逻辑操作。这两个操作符可以帮助我们快速有效地查询所需数据,提高数据处理效率。 ## AND操作符 AND操作符用于连接两个或多个条件,只有当所有条件都为真时,才会返回True。在Hive中,AND操作符表示为"AND"。 下面是一个示例,假设我们有一个表格存储了旅行者信息,包
原创 2024-03-09 05:22:28
150阅读
  • 1
  • 2
  • 3
  • 4
  • 5