KIKI王的博客_hive_51CTO博客

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费直播
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册

# hive

hive.exec.parallel 设置job并行执行

通过设置hive.exec.parallel参数，使得在同一sql中的job可以并行的执行，因为在某些场景下，同一sql中，有时子查询之间并无关联。默认情况下为false可以在执行HQL之前，set该参数，hive.exec.parallel=具体某个数值。#####虽然可以保证并行运行，但是会耗费更多的资源。

并行执行

hive.exec.parallel

原创 2014-09-05 14:09:27 5459 阅读

Hive - hive.groupby.skewindata环境变量与负载均衡

HiveQL 去重操作和SQL一样，HiveQL中同样支持DISTINCT操作，如下示例：(1) SELECT count(DISTINCT uid) FROM log(2) SELECT ip, count(DISTINCT uid) FROM log GROUP BY ip(3) SELECT ip, count(DISTINCT uid, uname) FROM log GROUP BY i

关键字

Error

count

different

转载精选 2014-03-11 12:49:40 1365 阅读

hive调优

1.优化时，把hive sql当做map reduce程序来读，会有很好的效果。2.对job数比较多的作业运行效率比较低，即使有几百行的表，如果多次关联，多次汇总，作业执行时间还是比较长的。3.对count（distinct），效率较低。优化可以从几个方面着手：1.好的模型设计事半功倍2.解决数据倾斜问题3.减少job数量4.设置合理的map reduce的task数，能有效提升性能（10w级的计

程序

count

reduce

模型设计

转载精选 2014-03-11 12:39:17 469 阅读

hive--------总结

1.hive是什么？ hive是建立在Hadoop之上的数据仓库架构，它提供了一系列的工具，对数据进行提取转化加载（ETL），这是一种可以对存储在hadoop中的大规模的数据的存储，查询和分析的机制。它提供了类sql语言，可以让熟悉sql的开发人员查询数据。同时这个语言也允许熟悉MapRe

程序

仓库

中间件

服务端

sql语言

原创 2014-03-11 10:36:21 520 阅读