大数据hiver入库数据量处理级别 hive大数据量排序

转载

mob6454cc61981e 2024-06-15 14:03:38

本文是笔者在面试过程中被问到次数最多的一些问题,特此记录

在hive语法中,常用的排序有:sort by,order by,cluster by,distribute by

sort by:数据在进入reduce前就进行排序,数据量过大的情况下,性能优于order by
order by:对输入的数据进行排序,是一个全局的排序,只会产生一个reduce,如果数据量庞大,则会导致运行速度变得非常慢
distribute by:按照指定的字段进行划分到不同reduce中
cluster by:相当于sort by + distribute by

hive自定义函数分为三类:UDF UDAF UDTF

4.hive HQL执行顺序?

5.hive内部表和外部表的区别?

创建表的时候,如果创建的是内部表,数据来源会被剪切掉表中
如果创建的是外部表,数据来源不会丢失,相当于是copy到表中

内部表的元数据和数据都是由表本身保存,删除表后元数据和数据都会丢失
外部表的元数据是保存在hdfs之上,数据由表保存,删除表后数据不会丢失,但是元数据会丢失

安装mysql的原因是因为我们要将hive的元数据给保存到MySQL中,hive元数据默认是保存在hive自带的数据库derby中,derby的缺陷是只允许单用户访问,而且只有2M的大小,并不符合我们的要求,所以我们要将元数据给保存到MySQL中

Hadoop分为HDFS和MR以及yarn,hive是建立在hdfs上进行数据分析的数据仓库,而hive提供的hql可以将sql语句转化为MR在集群中执行,数据存储用的是HDFS,数据计算用的是MR

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客