终于！Apache Hudi与Impala完成整合

原创

leesf 2021-12-22 13:45:01 ©著作权

©著作权归作者所有：来自51CTO博客作者leesf的原创作品，请联系作者获取转载授权，否则将追究法律责任

Hudi: Apache Hudi是一个开源的，支持插入、更新、删除的增量数据湖处理框架，可助力构建企业级数据湖。

Impala: Apache Impala是一个开源的大规模并行处理SQL查询引擎，能查询存储在Hadoop的HDFS和HBase中的PB级大数据。

Impala作为查询引擎可架设在Hudi表之上，Impala社区关于支持对Hudi表的查询的commit已经提交至master主干分支，这表明在下个Impala版本中便可正式使用该特性，也意味着用户可使用Impala查询Hudi表中数据，悉知Hudi也是第一个被Impala支持查询的数据湖框架。至此Hudi支持的查询引擎有Hive/SparkSQL/Presto/Impala，已经涵盖了越来越多的SQL查询引擎，Hudi周边生态也越发完善，发展也越来越迅速。

JIRA：IMPALA-8778: Support read Apache Hudi Read Optimized tables

Commit: https://github.com/apache/impala/commit/ea0e1def6160d596082b01365fcbbb6e24afb21d

如果你已经使用了Impala和Hudi，那么不妨尝试使用Impala来查询Hudi表数据。

如果你想参与Apache Hudi社区，可参考：快速参与下一代数据湖顶级项目ApacheHudi 和一行代码成为Apache Contributor，可前往Apache Hudi项目主页：https://github.com/apache/incubator-hudi 进行 fork & star，也可前往https://hudi.apache.org了解更多关于Hudi的知识。

终于！Apache Hudi与Impala完成整合_数据