Apache Hudi 是由 Uber 开源的在分布式文件系统上提供对大型分析数据集的摄取、管理以及查询的数据湖框架。2019 年 1 月加入 Apache 孵化器进行孵化,5 月份,Hudi 晋升为 Apache 顶级项目。本文主要从 “增量处理”的角度切入来谈谈 Hudi 对于数据湖的重要性。更多关于 Apache Hudi 的框架功能、特性、使用场景以及最新进展等可关注 QCon 全球软件开
转载 2024-05-07 18:00:17
94阅读
Hudi文中部分代码对应 0.14.0 版本发展背景初始的需求是Uber公司会有很多记录级别的更新场景,Hudi 在Uber 内部主要的一个场景,就是乘客打车下单和司机接单的匹配,乘客和司机分别是两条数据流,通过 Hudi 的 Upsert 能力和增量读取功能,可以分钟级地将这两条数据流进行拼接,得到乘客-司机的匹配数据。 为了提升更新的时效性,因此提出了一套新的框架作为近实时的增量的解决方案 &
Apache Hudi集成Apache Zeppelin实践
原创 2021-12-22 11:03:31
213阅读
千呼万唤始出来,Meetup 直播终于来啦~本次线上 Meetup 由 Apache Kylin 与 Apache Hudi 社区联合举办,将于 3 月 14 日晚进行直播,邀请到来自丁...
转载 2021-08-19 15:43:33
200阅读
手慢无~
转载 2021-12-22 11:32:42
221阅读
mod_actions 基于媒体类型或请求方法,为执行CGI脚本而提供 mod_alias 提供从文件系统的不同部分到文档树的映射和URL重定向 mod_asis 发送自己包含HTTP头内容的文件 mod_auth_basic 使用基本认证 mod_auth_digest 使用MD5摘要认证(更安全,但是只有最新的浏览器才支持) mod_authn
转载 2024-02-28 09:26:25
47阅读
Apache Kylin × Apache Hudi Meetup
转载 2021-07-27 15:17:18
342阅读
       如同其他所有的网络服务一样,Apache 同样使用各种安全性控制,例如存取地址控制和身份控制。这里我们先讲地址和目录控制。  Apache 将目录作为单元来进行存取控制,每个目录在/etc/httpd/conf/httpd.conf 中  使用一个段落,首先的是/目录,这实际是设置缺省值:  Options FollowSymLinks&nbs
转载 2023-08-07 23:56:22
57阅读
Apache Hudi使用简介目录Apache Hudi使用简介数据实时处理和实时的数据业务场景和技术选型Apache hudi简介Copy On Write TableMerge On Read Table数据文件.hoodie文件使用Aapche Hudi整体思路Hudi表数据结构Hudi记录IdCOW和MOR基于hudi的代码实现同步历史数据至hudi表同步hudi表结构至hive meta
转载 2021-01-31 19:40:42
1106阅读
2评论
Apache Hudi使用简介 数据实时处理和实时的数据 实时分为处理的实时和数据的实时 即席分析是要求对数据实时的处理,马上要得到对应的结果 Flink、Spark Streaming是用来对实时数据的实时处理,数据要求实时,处理也要迅速 数据不实时,处理也不及时的场景则是我们的数仓T+1数据 而 ...
转载 2020-12-27 19:47:00
610阅读
2评论
1. 背景Apache Hudi将流处理带到大数据,相比传统批处理效率高一个数量级,提供了更新鲜的数据。在数据湖/仓库中,需要在摄取速度和查询性能之间进行权衡,数据摄取通常更喜欢小文件以改善并行性并使数据尽快可用于查询,但很多小文件会导致查询性能下降。在摄取过程中通常会根据时间在同一位置放置数据,但如果把查询频繁的数据放在一起时,查询引擎的性能会更好,大多数系统都倾向于支持独立的优化来提高性能,以
Apache Hudi未来演进之路
原创 2021-12-21 16:00:42
300阅读
使用rollback保证数据正确性,分析其实现
原创 2021-12-22 14:31:46
586阅读
分析Hudi的savepoint机制
原创 2021-12-22 14:35:38
1008阅读
Apache Hudi(简称:Hudi)使得您能在hadoop兼容的存储之上存储大量数据,同时它还提供两种原语,使得除了经典的批处理之外,还可以在数据湖上进行流处理。
转载 2023-11-15 15:15:31
114阅读
Apache Hudi Apache Hudi 在基于 HDFS/S3 数据存储之上,提供了两种流原语: 插入更新 增量拉取 一般来说,我们会将大量数据存储到HDFS/S3,新数据增量写入,而旧数据鲜有改动,特别是在经过数据清洗,放入数据仓库的场景。而且在数据仓库如 hive中,对于update的支 ...
转载 2021-08-12 08:53:00
457阅读
2评论
前言介绍本文之前,先给大家说一些简单的大数据概念。在大数据体系中,我们常用的
原创 2022-08-05 10:15:13
437阅读
Flink-Hudi 集成Maven<dependency> <groupId>org.apache.hudi</groupId> <artifactId>hudi-flink1.14-bundle</artifactId> <version>0.13.0</version&gt
原创 2023-07-10 09:46:06
382阅读
Apache Hudi 是一种数据湖平台技术,可提供构建和管理数据湖所需的多种功能。Hudi 提供的一项重要功能是自动管理文件大小,用户不需要手动维护。由于查询引擎不得不多次打开/读取/关闭文件,以计划和执行查询,因此拥有大量小文件将使其难以实现良好的查询性能。但是对于流数据湖用例而言,固有的摄入量将最终具有较小的写入量,如果不进行特殊处理,则可能导致大量小文件。During Write vs A
转载 2021-10-28 16:27:42
1034阅读
1. Hudi表对应的Hive外部表介绍Hudi源表对应一份HDFS数据,可以通过Spark,Flink 组件或者Hudi客户端将Hudi表的数据映射为Hive外部表,基于该外部表, Hive可以方便的进行实时视图,读优化视图以及增量视图的查询。2. Hive对Hudi的集成这里以Hive3.1.1、 Hudi 0.9.0为例, 其他版本类似•将hudi-hadoop-mr-bundle-0.9.
原创 2021-12-21 15:21:06
290阅读
  • 1
  • 2
  • 3
  • 4
  • 5