热门 最新 精选 话题 上榜
最近的一次培训,用户特意提到Hadoop环境下HDFS中存储的文件如何才能导入到HBase,关于这部分基于HBase Java API的写入方式,之前曾经有过技术文章共享,本文就不再说明。本文基于Hive执行HDFS批量向HBase导入数据,讲解Hive与HBase的整合问题。这方面的文章已经很多,但是由于版本差异,可操作性不大,本文采用的版本均基于以下版本说明中的版本。
原创 2022-05-04 17:43:17
190阅读
大数据工具篇之Hive与HBase整合完整教程
创建表use database_name;drop table if exists new_table_name;create table new_table_name as select * from origin_table_name;从Hive数据仓库
原创 2022-04-28 21:09:31
442阅读
数据仓库理论一和二,主要讲流量域; 数据仓库理论三和四,主要讲业务域,即业务库里的数据。一、sqoop导入数据处理字典表,小杂表:全量导入 实体表(量级很大),事实表(每天都变化的业务表):增量导入增量导入后的数据,存储在数仓的 ODS 层中,对于统计分析,不便利;需要滚动合并生成全量快照。1、将数据全量导入建表并全量导入2、将每天的增量数据使用sqoop导入,放在ODS层导入增量脚本:#####
原创 精选 2022-04-24 14:38:16
458阅读
大数据之数据仓库建设(三)
无论是数仓开发还是数据分析,写一手好的SQL是一项基本的技能。毋庸置疑,编写性能较好的SQL是非常重要的,但是,SQL的可读性同样是不容小觑的。一个有着混乱格式的SQL脚本,往往需要花费较长的时间去弄清楚脚本的具体逻辑。如果你曾经被祖传的毫无章法的SQL脚本狂虐过,你一定心有感触。本文将分享几个SQL格式的规范,当然仁者见仁智者见智,其实没有严格的标准,如果有,那就是保证易于阅读和易于维护。大小写
原创 精选 2022-04-24 14:01:30
664阅读
#创建表人信息表 person(String name,int age)
原创 2022-04-22 22:00:03
118阅读
摘要Hive内部提供了很多函数给开发者使用,包括数学函数,类型转换函数,条件函数,字符函数,聚合函数,表生成函数等等,这些函数都统称为内置函数。
转载 2022-04-22 21:59:04
115阅读
HIVE授权管理,类似于操作系统权限可以授予给不同的主题,如用户(USER),组(GROUP),角色(ROLES),Hive还是支持相当多的权限管理功能,满足一般数据仓库的使用,同时HIVE能支持自定义权限。     HIVE授权并不是完全安全,在其目前的形式来...
原创 2022-04-22 16:08:41
4910阅读
1、Hive自定义临时函数步骤(1) 在类中创建自定义函数。自定义UDF需要继承'org.apache.hadoop.hive.ql.exec.UDF',实现evaluate函数,evaluate函数支持重载。(2) 将该类所在的包导出成jar包,放入linux目录下...
原创 2022-04-22 16:08:02
146阅读
概述只要是配置了正确的文件类型和压缩类型(比如Textfile+Gzip、SequenceFile+Snappy等),Hive都可以按预期读取并解析数据,提供SQL功能。SequenceFile本身的结构已经设计了内容进行压缩。所以对于SequenceFile文件的压缩,并不是先生成SequenceFile文件
转载 2022-04-22 16:07:49
791阅读
Hive分区的概念与传统关系型数据库分区不同。传统数据库的分区方式:就oracle而言,分区独立存在于段里,里面存储真实的数据,在数据进行插入的时候自动分配分区。Hive的分区方式:由于Hive实际是存储在HDFS上的抽象,Hive的一个分区名对应一个目录名
转载 2022-04-22 16:07:07
815阅读
1点赞
索引是hive0.7之后才有的功能,创建索引需要评估其合理性,因为创建索引也是要磁盘空间,维护起来也是需要代价的创建索引hive> create index [index_studentid] on table student(studentid)> a...
原创 2022-04-22 16:06:45
274阅读
1、空值数据倾斜场景: 如日志中,常会有信息丢失的问题,比如全网日志中的 user_id,如果取其中的 user_id和 bmw_users 关联,会碰到数据倾斜的问题。解决方法 1: user_id 为空的不参与关联Select * From log aJoin ...
原创 2022-04-22 16:05:24
323阅读
Hive 不支持 where 子句中的子查询, SQL 常用的 exist in 子句需要改写。这一改写相对简单。考虑以下 SQL 查询语句:SELECT a.key, a.valueFROM aWHERE a.key in54(SELECT b.keyFRO...
原创 2022-04-22 16:05:00
460阅读
一. Hive概述1、为什么使用HiveHadoop生态系统的诞生为高效快速地处理大数据带来曙光,但是需要写MapReduce或者Spark任务,入门门槛较高,需要掌握一门编程语言例如Java或者Scala。 我们长久以来习惯于传统的关系型数据库,并且结构化查询语言(...
原创 2022-04-22 16:04:48
507阅读
Hive之——基本操作案例
问题导读1.hive除了包含用户接口、元数据,还包含哪些内容?2.hive包含哪些操作?3.hive数据能否被修改?4.hive优化有哪些常用方法?摘要:  Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具
转载 2022-04-22 16:03:39
156阅读
今天,就带着大家一起学习如何在Hive中自定义函数,得到自己想要的结果。好了,废话不多说,直接开始。一、自定义函数流程要想在Hive中完成自定义函数的操作,要按照如下的流程进行操作:定义Java类并实现org.apache.hadoop.hive.ql.exec.UDF——>覆写evaluate——>将Java工程上传到Hive所在服务器(我这里是CentOS 6.5)——>启动H
原创 2022-04-22 16:01:49
407阅读
Hive之——自定义函数
两个字段,第一个字段是学生名字,第二个是所选课程的ID号,表名叫stuname courseIdzs1,1zs2,2zs3,3zs4,4create table stu(name string, id int) row format delimited fields terminated by ',';load data local inpath '/home/zkpk/te
原创 2022-04-22 16:00:08
116阅读
Hive之——Join操作
问题1:Caused by: javax.jdo.JDODataStoreException: Required table missing : "`VERSION`" in Catalog "" Schema "". DataNucleus requires this table to perform its persistence operations. Either your MetaD
原创 2022-04-22 15:59:53
924阅读
1.Hive1.1在hadoop生态圈中属于数据仓库的角色。他能够管理hadoop中的数据,同时可以查询hadoop中的数据。  本质上讲,hive是一个SQL解析引擎。Hive可以把SQL查询转换为MapReduce中的job来运行。  hive有一套映射工具,可以把SQL转换为MapReduce中的job,可以把SQL中的表、字段转换为HDFS中的文件(夹)以及文件中的列。
原创 2022-04-22 15:59:35
256阅读
使用视图降低查询复杂度例如:嵌套查询:from (select * from people join cart on(cart.pepople_id = people.id) where firstname = 'join' )a select a...
原创 2022-04-22 15:57:36
162阅读
向管理表中装载数据load data local inpath '${env:HOME}/california-employees' overwrite into table employees pritition (country='US', stat...
原创 2022-04-22 15:57:20
98阅读
Hive之——数据操作
使用explain在查询语句前加上explain关键字,然后来查询下查询计划和其他一些信息。这个查询本身是不会执行的。hive> explain select sum(number) form onecol;explain extended使用...
原创 2022-04-22 15:57:04
150阅读
select.. from 语句比如:employees表如下:create table employees(name string,salary float,subordinates array<string>,deductions ...
原创 2022-04-22 15:56:46
258阅读
Hive会为每个数据库创建一个目录。数据库中的表将会以这个数据库目录的子目录形式存储。有一个例外就是default数据库中的表,因为这个数据库本身没有自己的目录。数据库所在的目录位于属性hive.metastore.warehouse.dir所指定的顶层目录之...
原创 2022-04-22 15:56:24
133阅读
Hive之数学函数round(double d)--返回double型d的近似值(四舍五入),返回bigint型;round(double d,int n)--返回保留double型d的n位小数double型近似值(四舍五入);floor(double d)--返回<=d的最大bigint值;ceil(double d)--返回>=d的最小bigint 值;c...
转载 2022-04-22 15:55:55
96阅读
Hive连接数据库的配置<configuration><property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:my...
原创 2022-04-22 15:55:36
101阅读
将hive 里面的lib下的hive-exec-**.jar 放到sqoop 的lib 下即可解决问题。
原创 2022-04-22 15:55:20
143阅读
Hive 是基于 Hadoop 的一个数据仓库,可以将结构化的数据文件映射为一张表,并提供类 sql 查询功能,Hive 底层将 sql 语句转化为 MapReduce 任务运行。下载 Hive2.3.4 到 maste r的 /home/dc2-user 并解...
原创 2022-04-22 15:54:57
305阅读
基于UDAF执行的转换的不同,在不同阶段的返回值类型也可能是不同的。在写UDAF的时候一定要注意内存使用的问题。通过配置参数mapred.child.java.opts可以调整执行过程的内存需求量,但是这种方式并非总是奏效:<property>...
原创 2022-04-22 15:54:38
186阅读
这里,我使用的Hive版本是2.3.4。SerDe是序列化/反序列化的简写。在内部Hive引擎使用定义的InputFormat来读取一行数据记录。这行记录之后会被传递给SerDe.deserialize()方法进行处理。下面这个例子使用一个RegexSerd...
原创 2022-04-22 15:54:22
171阅读