1、UDF:用户定义(普通)函数,只对单行数值产生作用;实现方法:1. 继承UDF类 2. 重写evaluate方法/** * @function 自定义UDF统计最小值 * @author John * */ public class Min extends UDF { public Double evaluate(Dou
hive三种部署模式1、使用内置的derby数据库做元数据的存储使用内置的derby数据库做元数据的存储,操作derby数据库做元数据的管理。使用derby存储方式时,运行hive会在当前目录生成一个derby文件和一个metastore_db目录。这种存储方式的弊端是在同一个目录下同时只能有一个hive客户端能使用数据库,目录不同时元数据也无法共享,不适合生产环境只适合练习。2、 本地模式使用
一、hive -e ‘sql语句’ (shell命令) 适合比较短的sql语句调用,优点是可以直接在shell中调用静音模式 -S 在执行HiveQL过程中,不在显示器输出MR的执行过程hive -S -e ‘sql语句’ > test.txt 将执行结果直接输入到本地文件 二、hive -f sq
转载 2019-01-15 10:12:00
150阅读
2评论
1.模式Hive 中 metastore(元数据存储)的三种模式:a)内嵌 Derby 模式b)直连数据库模式c)远程服务器模式2.erver,
原创 2022-07-02 00:04:11
83阅读
众所周知,hive 提供了三种join方式,common join/map join/ smb join,那么如何选择最合适的join 类型?1.  common join是最常见的join 类型,需要执行shuffle操作,根据join条件对数据进行重新分布,shuffle操作需要网络IO/磁盘IO操作,若在数据量较大并且分布不均匀会导致数据倾斜,对任务执行效率产生影响。其使用场景是对于两表数量
原创 2021-02-06 21:33:00
1506阅读
前提:hive的bin目录已添加到hive的环境变量中1.第一交互方式:Hive交互shell直接 hive 回车2.第二交互方式:Hive JDBC服务启动hiveserver2服务前台启动hive --service hiveserver2后台启动nohup hive --service hiveserver2 &beeline连接hiv...
1.Common/Shuffle/Reduce Join Reduce Join在Hive中也叫Common Join或Shuffle Join如果两边数据量都很大,它会进行把相同key的value合在一起,正好符合我们在sql中的join,然后再去组合,如图所示。 2.Map Join 2) 需要
转载 2019-01-15 10:05:00
268阅读
Hive的meta数据支持以下三种存储方式,其中两属于本地存储,一为远端存储。远端存储比较适合生产环境。Hive官方wiki详细介绍了这三种方式,链接为:Hive Metastore。 一、本地derby这种方式是最简单的存储方式,只需要在hive-site.xml做如下配置便可 <?xml v
转载 2021-06-08 14:01:00
293阅读
2评论
hive 配置metastore三种方式
原创 2022-12-28 15:27:52
178阅读
Hive的meta数据支持以下三种存储方式,其中两属于本地存储,一为远端存储。远端存储比较适合生产环境。Hive官方wiki详细介绍了这三种方式,链接为:Hive Metastore。 一、本地derby这种方式是最简单的存储方式,只需要在hive-site.xml做如下配置便可 <?xml v
转载 2021-06-19 14:08:00
135阅读
2评论
前提:hive的bin目录已添加到hive的环境变量中1.第一交互方式:Hive交互shell直接 hive 回车2.第二交互方式:Hive JDBC服务启动hiveserver2服务前台启动hive --service hiveserver2后台启动nohup hive --service hiveserver2 &beeline连接hiv...
一、Hive安装有三种模式: 内嵌模式:元数据保持在内嵌的derby模式,只允许一个会话连接(一般生产环境不用) 本地独立模式:在本地安装Mysql,把元数据放到mySql内 远程模式:元数据放置在远程的Mysql数据库Hive 将元数据存储在 RDBMS 中,一般常用 MySQL 和 Derby。默认情况下,Hive 元数据保存在内嵌的 Derby 数据库中,只能允许一个会话连接,只适合简单的测
一、基本概念1、数据库与数据仓库 数据库:mysql、oracle、sqlserver、DB2、sqlite、MDB; 数据仓库:Hive,是MR的客户端,也就是说不必要每台机器都安装部署Hive。2、Hive的特性 操作接口是采用SQL语法,HQL,避免了写MapReduce的繁琐过程。3、Hive体系结构 (1)Client:终端命令行,其中,JDBC不常用,非常麻烦(相对于前者) (2)me
转载 2023-07-13 16:07:04
66阅读
文章目录企业级优化1、Fetch抓取2、本地模式3、执行计划4、表的优化4.1 小表大表join4.2 大表join大表空key过滤空key转换Sort Merge Bucket join(SMB)4.3 MapJoin4.4 Group by4.5 Count(Distinct) 去重统计4.6 行列过滤5、合理设置Map和Reduce数5.1 复杂文件增加Map数5.2 小文件合并5.3 合
转载 2023-08-18 22:47:35
428阅读
一、UDF1、背景:Hive是基于Hadoop中的MapReduce,提供HQL查询的数据仓库。Hive是一个很开放的系统,很多内容都支持用户定制,包括:  a)文件格式:Text File,Sequence File  b)内存中的数据格式: Java Integer/String, Hadoop IntWritable/Text  c)用户提供的 map/reduce 脚本:不管什么语言,利用
转载 11月前
60阅读
Hive 安装(第一Hive 官网地址 文档查看地址 下载地址 安装部署 上传、解压、改名 到opt/module/hive 添加环境变量 vim /etc/profile.d/my_env.sh 添加内容 #HIVE_HOME export HIVE_HOME=/opt/module/hiv ...
转载 2021-08-02 16:43:00
272阅读
2评论
今天我们再谈谈Hive中的三种不同的数据导出方式。根据导出的地方不一样,将这些方式分为三种:(1)导出到本地文件系
原创 2022-10-30 08:48:12
778阅读
Hive三种模式(内嵌模式、本地模式、远程模式)内嵌模式:内嵌derby数据库(一个会话连接,常用于简单测试)它的安装方法如下:1、下载hive(下载之前一定要去官网http://hive.apache.org/downloads.html看看安装的hadoop版本和hive版本兼容表,找到适合自己的那一款)下载地址:http://mirror.bit.edu.cn/apache/hive/&n
文章目录 前言一、hive用户授权机制二、Hive安全配置、代码实现:只允许特定用户登录客户端均能对hive集群的库表进行授权的操作四、示例前言本文主要论述hive的用户及表安全配置,涉及到点主要有:hive的用户授权机制、hive安全配置、hive用户与linux用户关系以及通过代码实现特定用户登录客户端对hive集群的库表进行授权的操作。一、hive用户授权机制大家知道hive把元数据存储
转载 2023-08-16 18:27:04
190阅读
    
转载 2023-07-13 16:33:39
66阅读
  • 1
  • 2
  • 3
  • 4
  • 5