Hive概述
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。
Hive本质是:将HQL转化成MapReduce程序。
Hive处理的数据存储在HDFS中,分析数据底层的实现可以是MapReduce、tes或者Spark,其执行程序运行在Yarn上。
Hive优缺点
优点:
1.使用简单,类SQL语法易于使用。
2.可扩展性,可以随时扩展集
转载
2023-07-23 23:08:49
404阅读
05年项目使用spark+hadoop,最近公司分享给小伙伴们,就整理出文档供大家学习交流。整理hdfs+hi
原创
2023-06-01 15:33:46
89阅读
???欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内
原创
2024-04-17 09:56:20
53阅读
字符串函数字符串长度函数:length 语法: length(string A)返回值: in
原创
2023-04-20 16:44:47
89阅读
# Hive常用端口
在使用Hive进行大数据分析时,会涉及到一些常用的端口。了解这些端口的用途和配置是非常重要的。本文将介绍Hive常用端口,并给出代码示例说明。
## 1. Hive服务端口
Hive服务有两个常用的端口,一个是用于Hive metastore的默认端口,另一个是HiveServer2的默认端口。
### 1.1 Hive metastore端口
Hive metas
原创
2024-01-01 06:31:17
2216阅读
1、解析URL字符串的: parse_url 用法: select parse_url("",[HOST,PATH,QUERY,REF,PROTOCOL,FILE,AUTHORITY,USERINFO]) 举例 : select parse_url('http://facebook.com/path ...
转载
2021-08-20 17:59:00
891阅读
2评论
b
内容较多,见《Hive官方文档》
https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF
转载
2022-04-13 11:38:47
124阅读
Hive 常用函数 关系运算 // 等值比较 = == <=> // 不等值比较 != <> // 区间比较: select * from default.students where id between 1500100001 and 1500100010; // 空值/非空值判断:is null ...
转载
2021-08-31 17:08:00
78阅读
2评论
字符串函数字符串长度函数:length Java代码 语法: length(string A) 返回值: int
转载
2022-08-20 00:00:14
55阅读
hive>quit; show databases; use analysis; show tables; desc tab_name; --查看表的结构及表的路径 s
原创
2022-06-01 06:37:13
216阅读
hive建表语句: CREATE TABLE `hive_ttt_999`( `id` bigint COMMENT 'ID,主键', `name` string COMMENT '姓名', `address` string COMMENT '地址', `mobile` string COMMENT ...
转载
2021-08-31 14:50:00
172阅读
2评论
Hive调优的几个入手点:Hive是基于Hadoop框架的,Hadoop框架又是运行在JVM中的,而JVM最终是要运行在操作系统之上的,所以,Hive的调优可以通过如下几个方面入手:操作系统调优- Hadoop主要的操作系统是Linux,Linux系统调优包括文件系统的选择、cpu的调度、内存构架和虚拟内存的管理、IO调度和网络子系统的选择等等。JVM的调优- JVM调优主要包括堆栈的大小、回收器
转载
2023-06-06 22:16:01
236阅读
现在虽然有很多SQL ON Hadoop的解决方案,像Spark SQL、Impala、Presto等等,但就目前来看,在基于Hadoop的大数据分析平台、数据仓库中,Hive仍然是不可替代的角色。尽管它的相应延迟大,尽管它性能可能不够优秀,但是它太方便、功能太强大了,做离线批量计算、ad-hoc查询甚至是实现数据挖掘算法,而且,和HBase、Spark、Tez都能整合使用。如果你是做大数据分析平
转载
2023-08-13 14:31:48
53阅读
文章目录查询优化谓词下推笛卡尔积MR 程序优化参数客户端显示以及 job 任务名和优先级map 与 reduce 内存调整动态分区参数设置开启支持正则表达式mapper 输入文件合并的参数设置 map 输出和 reduce 输出进行合并的参数设置设置 reduce 个数设置 map 个数join 统计聚合之类的 sql ,防止数据倾斜开启 map 输出阶段压缩可以减少 job 中 map 和 R
转载
2023-08-18 22:24:46
93阅读
目录1.查看数据库2.进入数据库3.查看表4.删除表5.删除数据库6.创建数据库7.创建分区表8.加载数据9.查询表所有10.查看表结构11.启动MySQL:12.创建表:13.查看MySQL启动状态14.添加分区15.复制表结构16.查看非当前使用的数据库有哪些表17.查看数据库中以xxx开头的表18.查看分区信息19.查看表的详细建表语句20.修改表名21.DQL顺序22.展示数据库 fm_d
转载
2023-05-22 11:43:31
36阅读
HIVE-TEZ引擎配置安装基础环境准备参考安装流程1. TEZ环境准备1. 编译工具2. HADOOP3. PROTOBUF安装流程4. LZO安装流程5. TEZ安装流程2. TEZ配置1. HADOOPtez-site.xmltez.sh2. HIVEhive-site.xmlhive-env.sh日志JAR包冲突END! 基础环境准备由于该文章主要关注TEZ引擎的安装,相关组件均只说明版
一、hive常用参数0.常用参数 --@Name:
--@Description:
--@Type:全量加载
--@Author:---
--@CreateDate:
--@Target:
--@SourceTable:
--@ModifyBy:
--@ModifyDate:
--@ModifyDesc:
--@Copyright
--设置作业名
set mapred.job.name =
转载
2023-07-14 11:30:22
192阅读
1、hive.exec.mode.local.auto 决定 Hive 是否应该自动地根据输入文件大小,在本地运行(在GateWay运行) true 2、hive.exec.mode.local.auto.inputbytes.max 如果 hive.exec.mode.local.auto 为 true,当输入文件大小小于此阈值时可以自动在本地模式运行,默认是
转载
2023-07-28 11:47:50
131阅读
hue如何安装配置,配置好后怎么使用工作流,解决一些报错在配置前确保有一个可被连接到的数据库; 安装前的准备工作:根据你自己的需求,保证安装前一些组件可以启动; 根据你的需求吧,如果你只想用这个hue可视化界面练习下hivesql,那么你把hive,和hdfs启动起来就行;在集成其他功能组件的时候,每集成一个就测试下hue看看能否使用安装配置HUE我使用的是3.9.0的版本如果你想了解官网对hue
转载
2023-11-23 13:54:01
144阅读
hive 调优
1,数据存储调优 1.1 设置压缩: 设置中间数据/输出结果压缩传输,使用snappy格式。hive-site.xml:set hive.exec.compress.output = true # 输出结果压缩
set hive.exec.compress.intermediate = true # 中间结果压缩具体压缩
转载
2023-07-20 20:53:20
130阅读