hive impala区别建表语句 hive和impala语法区别

转载

attitude 2023-07-12 09:28:07

文章标签 hive impala区别建表语句 hive 数据执行过程 文章分类 Hive 大数据

hive和impala的区别

关于hive和impala是否一样的问题：
1、执行计划不同
impala：就像一颗计划树一样，是发布计划到各个impalad执行查询，因此impala有更好的并发性；
hive：就像管道一样，将执行计划组装成map-reduce模型（map-shuffle-reduce-map-shuffle-reduce…），中间会产生不必要的sort和shuffle，根据MapReduce执行框架本身的特点，过多的中间过程会增加整个查询的执行时间。
2、数据流不同
impala：采用拉的形式，后面节点会通过getNext主动像前面节点获取数据，再通过流的方式返回给客户端，处理完一条就可以展示一条，不需要等到全部处理完成，更符合SQL交互式查询；
hive：采用推的方式，前面节点主动将计算好的数据推给后续节点。
3、使用内存不同
impala：内存不足时，会直接返回错误，不会利用外存，所以impala在做Query时会受到一些限制，最好还是和Hive配合使用；impala在多个阶段之间利用网络传输，在执行过程中不会存在写入磁盘的操作（insert除外）。
hive：在执行过程中内存不足的情况下，会使用外存，以保证Query会顺利执行完，每一轮MapReduce结束，中间结果也会写入HDFS，同样由于MapRecude执行架构的特性，shuffle也会有写入本地磁盘的操作。
4、调度不同
impala：由自己完成，目前只有一种调度器simple-schedule,它会尽量满足数据的局部性，扫描数据的进程尽量靠近数据本身所在的物理机器。
hive：调度任务依赖于Hadoop的调度策略。
5、容错不同
impala：在查询过程中，没有容错逻辑，如果在执行过程中发生故障，直接返回错误，impala的特性是实时查询，一次查询失败，再查一次就好啦，再查一次的成本也很低。但整体的impala是能很好的容错，所有的impalad是对等的结构，用户可以向所有的impalad提交查询，如果一个impalad查询失效，其上运行的所有查询都将失败，但用户可以重新提交由其他impalad代替执行，不会影响服务。对于State Store目前只有一个，但当State Store失效，也不会影响服务，每个impalad都缓存了State Store的信息，只是不能再更新集群状态，有可能会把任务分配给已经失效的impalad，导致本次查询失败。
hive：依赖于Hadoop的容错能力。
6、适用面不同
impala：实时数据分析，不支持UDF，能处理的问题域有一定的限制，一般与hive配合使用，对hive的数据结果集进行实时分析。
hive：复杂的批处理查询任务，数据转换任务。
参考链接：https://www.idongde.com/c/0d7CbdF837ac8b93.shtml