hive中decode hive中decode报错类型

转载

mob64ca141139a2 2023-09-13 22:36:24

文章标签 hive中decode hive 大数据 hadoop 数据倾斜 文章分类 Hive 大数据

hive中decode hive中decode报错类型_数据倾斜

问题描述
使用hive跑数时，出现return code 3的错误，但没有报出代码中具体位置的错误。
问题原因
具体原因不是非常清楚，但是网上提到的原因最有可能的是数据倾斜导致的，具体的表现就是任务执行的时间非常长，并且执行了非常长的时间之后还失败了，出现code 3错误。

这类错误一般不是代码有逻辑或语法问题，而是数据层面的问题，向code 2也是这样，之前碰到的code 2，就是有一个大表和一个超大表做join，导致数据量超大，集群承受不住而爆出。

解决方案
我目前采取的方案可以解决问题，主要是修改设置项：

set hive.auto.convert.join = false;
set hive.ignore.mapjoin.hint = false;
set hive.exec.parallel = true;

而且把distinct的使用给去除，解决return 3 的问题，不过有些作业会报return 2的错误

hive 1.0+版本是默认开启mapjoin的，可能大表小标关联时，小表并不小，所以使用mapjoin时反而出现了异常。

所以此时不使用mapjoin，直接使用common join，但使用common join在存在数据倾斜的情况下，会导致最终结果出来得非常慢（本来mapjoin是用来解决小表很小时的这个问题的）。因此，开启并行，让sql出现多个可并行的任务时，并行执行，从而提升common join的效率，以空间换取时间。