1 Hive的架构2 Hive和数据库比较Hive和数据库除了拥有类似的查询语言,再无类似之处。1)数
原创 2022-11-11 10:14:14
65阅读
hive加载数据 1、使用 hdfs dfs -put '本地数据' 'hive表对应的HDFS目录下' 2、使用 load data inpath hive shell命令行// 将HDFS上的/input1目录下面的数据 移动至 students表对应的HDFS目录下,注意是 移动、移动、移动l ...
转载 2021-08-31 16:53:00
95阅读
2评论
文章目录Hive知识点总结1、什么是Hive?2、Hive的意义(最初研发的原因)?3、Hive的内部组成模块,作用分别是什么?4、Hive支持的数据格式?5、进入Hiveshell窗口的方式?6、Hive数据库、表在HDFS上存储的路径是什么?7、like与rlike的区别?8、内部表与外部表的区别?9、分区表的优点是,分区字段的要求是?10、分桶表的优点是,分桶字段的要求是?11、数据导入表
转载 2023-08-10 16:12:30
57阅读
山大软工实践hive(14)-总结回顾一下,虽然我前面几篇都去看别人的解析,看算法思想,没有解析源码,但这一部分是十分必要的,如果我不知道输入的OPTree是个什么结构,不知道优化器的一些优化思想,哪怕我从一开始直接搜索Optimizer找到了优化器,也会全程不知道该干什么。而如果我从总体流程上寻找逻辑优化从哪里开始,是更困难的。 而导致我一开始这么困难的原因是任务分工,小组人员彼此不能看同一部分
1.没有接触,不知道这个事物是什么,所以不会产生任何问题。2.接触了,但是不知道他是什么,反正我每天都在用。3.有一定的
转载 2022-09-12 01:05:59
82阅读
什么是HiveHive:由Facebook开源用于解决海量结构化日志的数据统计。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将HQL转化成MapReduce程序。 1)Hive处理的数据存储在HDFS 2)Hive分析数据底层的实现是MapReduce 3)执行程序运行在Yarn上Hive的优缺点优点操作接口采用类SQL语法
转载 2023-07-12 16:33:11
103阅读
日志记录了程序运行的过程,是一种查找问题的利器。Hive中的日志分为两种1. 系统日志,记录了hive的运行情况,错误状况。2. Job 日志,记录了Hive 中job的执行的历史过程。系统日志存储在什么地方呢 ?在hive/conf/ hive-log4j.properties 文件中记录了Hive日志的存储情况,默认的存储情况:hive.root.log
原创 2022-10-30 08:47:59
177阅读
关系运算符 运算符 类型 说明 A = B 所有原始类型 如果A与B相等,返回TRUE,否则返回FALSE A == B 无 失败,因为无效的语法。 SQL
转载 2023-05-21 20:16:45
80阅读
## Hive函数总结 Hive是基于Hadoop的数据仓库工具,用于处理大规模数据集并进行数据分析。在Hive中,函数是一种非常重要的工具,用于对数据进行转换、聚合和计算。本文将总结一些常用的Hive函数,并提供代码示例。 ### 1. 内置函数 Hive提供了一系列内置函数,包括字符串处理、日期处理、数学计算等方面。下面是一些常用的内置函数及其使用示例: - 字符串处理函数: ```
原创 2023-12-23 07:17:40
27阅读
转自:http://www.cnblogs.com/end/archive/2013/01/15/2861448.html优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。 长期观察hadoop处理数据的过程,有几个显著的特征:1.不怕数据多,就怕数据倾斜。2.对j
转载 精选 2015-09-08 01:18:23
1341阅读
今天,配置了hive的环境,了解到,hive的一个使用 hive安装分为几步 首先,下载解压hive安装包,我使用的是hive-1.x版 然后就是conf下的几个文件的修改,基本需要注意的就是,你的mysql的连接方式 使用过javaweb的我们,应该是可以看懂的 需要注意的几点就是如果你是虚拟机,
原创 2021-07-23 16:07:33
335阅读
从接触hive到今天也快一年了。把工作中的用到一些经验例如以下: 1)牢记一点hive仅仅是一个基于hadoop的数据仓库工具,把sql转换成mapreduce,它的强项在于数据统计、方便灵活开发測试。对于复杂的etl逻辑建议用暂时表分阶段去处理或者编写mapreduce程序处理。 2)关注hive
转载 2017-06-03 19:45:00
230阅读
2评论
hive优化总结
转载 2023-04-27 01:30:26
74阅读
1.hive是什么?    hive是建立在Hadoop之上的数据仓库架构,    它提供了一系列的工具,对数据进行提取转化加载(ETL),这是一种可以对存储在hadoop中的大规模的数据的存储,查询和分析的机制。    它提供了类sql语言,可以让熟悉sql的开发人员查询数据。    同时这个语言也允许熟悉MapRe
原创 2014-03-11 10:36:21
586阅读
  hive为何要修改数据库: deby只支持一个SESSION会话,如果hive使用默认的deby,那么在linux客户端开启第二个Hive命令行的时候,会报错, 而mysql是支持多会话的数据库。  hive对应的列为何不规定长度:   不确定这些字段的长度, 而且最终存储在hdfs文件中(联想与txt)txt中也没法规定一个间隔列到底要固定存放多宽的举例。...
原创 2023-04-21 11:47:20
271阅读
转载请注明出处:https://blog.csdn.net/l1028386804/article/details/88674278一、Hive命令说明1.执行完立刻退出使用hive -e 的形式hive -e 'select count(*) from test'2.不需看到其他无关紧要的信息hive -S -e 'select count(*) from test'...
原创 2019-03-20 13:57:19
130阅读
一、Hive命令说明1.执行完立刻退出使用hive -e 的形式hive -e 'select count(*) from test'2.不需看到其他无关紧要的信息hive -S -e 'select count(*) from test'...
原创 2022-04-22 15:49:53
453阅读
的数据存储特点(1)数据存储是基
转载 2023-05-14 14:27:01
72阅读
Hadoop. It provides tools
转载 2022-09-23 20:46:09
217阅读
文章目录优化点1. 抓取机制2. 本地模式 mapreduce (小文件10倍性能的提升)Join查询优化(重点记住)4. group by 优化: map端聚合 (预聚合+负载均衡)(重点记住)5. MapReduce引擎并行度调整6. 执行计划7. 并行执行8. 严格模式_ 推测执行总结 Hive优化的前提是:你先了解清楚MapReduce这个知识点,了解Map;shuffle;Reduce
转载 2023-08-18 22:23:16
192阅读
  • 1
  • 2
  • 3
  • 4
  • 5