实时数据仓库的发展、架构和趋势 这篇文章从实时数仓开始讲到批流一体,谈了谈对大数据架构体系发展趋势的看法。文章最后讲到了基于数据湖Iceberg实现的存储层统一方案,以及要实现此方案Iceberg需要满足的一些技术上的要求,引出本专题的主角Iceberg。为什么要写这样一个专题?一方面是因为目前自己主要负责这块的工作,算是一个工作的总结和整理;另一方面也是希望能够让更多大数据相关的业务同
目录教程来源于尚硅谷1. 简介1.1 概述1.2 特性2. 存储结构2.1 数据文件(data files)2.2 表快照(Snapshot)2.3 清单列表(Manifest list)2.4 清单文件(Manifest file)2.5 查询流程分析3. 与Flink集成3.1 环境准备3.1.1 安装Flink3.1.2 启动Sql-Client3.2 语法 教程来源于尚硅谷1. 简介1.
转载 2024-06-01 13:06:26
811阅读
目录1. 表metadata API2. 表Scanning2.1 File Level2.2 Row level3. 表update操作4. Transactions5. Types数据类型5.1 基础数据类型5.2 集合数据类型6. Expressions表达式7. Iceberg各模块说明 下面以Hadoop Catalog为例进行讲解1. 表metadata APIimport org.
t20 ├── data │ ├── 00000-0-9c7ff22e-a767-4b85-91ec-a2771e54c209-00001.parquet │ └── 00000-0-ecd3f21c-1bc0-4cdc-8917-d9a1afe7ce55-00001.parquet └── met ...
转载 2021-05-19 01:35:00
250阅读
2评论
 在介绍如何使用Iceberg之前,先简单地介绍一下Iceberg catalog的概念。catalog是Iceberg对表进行管理(create、drop、rename等)的一个组件。目前Iceberg主要支持HiveCatalog和HadoopCatalog两种Catalog。其中HiveCatalog将当前表metadata文件路径存储在Metastore,这个表metadata文
转载 2023-10-11 09:47:56
172阅读
【笔记】Apache Iceberg 原理介绍 | 阿里云 x StarRocks社区联合Meetup0. 前言1 Hive挑战2. Iceberg的解决方案 0. 前言Iceberg是为了解决Hive上云诞生的一个工具。 原理是一种用于跟踪超大规模表的新格式,是专门为对象存储(如 S3)而设计的。 核心思想:在时间轴上跟踪表的所有变化。强烈推荐看下这篇学习日志,看下iceberg如何读写,实际
转载 2024-01-18 20:06:04
268阅读
为了更好的使用 Apache Iceberg,理解其时间旅行是很有必要的,这个其实也会对 Iceberg 表的读取过程有个大致了解。不过在介绍 Apache Iceberg 的时间旅行(Time travel)之前,我们需要了解 Apache Iceberg 的底层数据组织结构。Apache Iceberg 的底层数据组织我们在 《一条数据在 Apache Iceberg 之旅:写过程分析》 这篇
# 理解并实现 Apache Iceberg 架构 Apache Iceberg 是一个开源表格式存储的项目,旨在解决数据湖中的数据管理和性能问题。它支持数据的版本控制、 schema 演变、分区管理等功能,为大数据处理和分析提供了极大的便利。本篇文章将带你逐步实现 Apache Iceberg 架构,整个实现过程可以分为以下几个步骤: ## 流程概览 | 步骤 | 描述
原创 10月前
180阅读
1. 概述Apache Iceberg is an open table format for huge analytic datasets. Iceberg adds tables to Presto and Spark that use a high-performance format that works just like a SQL table.官方的定义,iceberg是一种表格式。
转载 2023-10-18 13:15:02
143阅读
# 实现 Iceberg 数据湖架构的指南 ## 什么是 Iceberg 数据湖? Apache Iceberg 是一种开源表格式,旨在简化大规模数据湖(data lake)上的数据管理。它如同一个中间层,使得用户能够更高效地查询和操作存储在不同后端(如 Amazon S3、HDFS等)中的数据。接下来的流程指导你如何构建 Iceberg 数据湖架构。 ## 实现 Iceberg 数据湖的步
原创 9月前
114阅读
简介DeltaLakeDeltaLake是一个致力于在数据湖之上构建湖仓一体架构的开源项目。 DeltaLake支持ACID事务,可扩展的元数据存储,在现有的数据湖(S3、ADLS、GCS、HDFS)之上实现流批数据处理的统一。 官网地址:https://delta.io 当前版本:1.1.0HudiHudi是新一代的流式数据湖平台,在开源的文件系统之上引入了数据库的表、事务、高效的更新/删除、索
转载 2023-12-19 13:11:37
68阅读
“数据湖”、“湖仓一体”及“流批一体”等概念,是近年来大数据领域热度最高的词汇,在各大互联网公司掀起了一波波的热潮,各家公司纷纷推出了自己的技术方案,其中作为全链路数字化技术与服务提供商的袋鼠云,在探索数据湖架构的早期,就调研并选用了Iceberg作为基础框架,在落地过程中深度使用了Iceberg并进行了部分改造,在这个过程中,我们积累出了一些经验和探索实践,希望通过本篇文章与大家分享,也欢迎大家
  假设我们的表是存储在 Hive 的 MetaStore 里面的,表名为 iteblog,并且数据的组织结构如上如所示。1.查询最新快照的数据•通过数据库名和表名,从 Hive 的 MetaStore 里面拿到表的信息。从表的属性里面其实可以拿到 metadata_location 属性,通过这个属性可以拿到 iteblog 表的 Iceberg 的 metadata 相关路
转载 2023-08-12 23:01:23
193阅读
           
原创 2022-09-24 01:05:39
263阅读
一、Iceberg概念及特点       Apache Iceberg是一种用于大型数据分析场景的开放表格式(Table Format)。Iceberg使用一种类似于SQL表的高性能表格式,Iceberg格式表单表可以存储数十PB数据,适配Spark、Trino、Flink和Hive等计算引擎提供高性能的读写和元数据管理功能,Iceberg是一种数据湖解决方
转载 2024-01-12 09:06:32
157阅读
在现代数据处理架构中,Apache Hive 和 Apache Iceberg 已成为备受关注的技术组合。本文将深入探究 Hive 集成 Iceberg架构及其实施过程,帮助我们更好地理解这一技术的运作模式及其潜在的优势。 ### 背景描述 随着大数据时代的到来,企业需要更加灵活和高效的数据处理工具。在这个背景下,Hive 和 Iceberg 的结合起到了至关重要的作用。Hive 提供了一
原创 6月前
77阅读
Spark3.1.2与Iceberg0.12.1整合Spark可以操作Iceberg数据湖,这里使用的Iceberg的版本为0.12.1,此版本与Spark2.4版本之上兼容。由于在Spark2.4版本中在操作Iceberg时不支持DDL、增加分区及增加分区转换、Iceberg元数据查询、insert into/overwrite等操作,建议使用Spark3.x版本来整合Iceberg0.12.1
转载 2023-06-19 14:48:35
256阅读
1.写数据文件接口关系  Iceberg写数据文件时的类调用关系:TaskWriter -> BaseRollingWriter -> FileWriter -> FileAppender -> Iceberg封装的文件类型实现类 -> 具体文件类型的实现类2.TaskWriter  根据对Flink的分析,Iceberg写入是基于TaskWriter进行的publi
转载 2024-06-09 01:37:07
209阅读
hive整合iceberg 1.6 Hive与Iceberg整合 Iceberg就是一种表格式,支持使用Hive对Iceberg进行读写操作,但是对Hive的版本有要求,如下:
转载 2022-11-09 14:43:00
243阅读
1、Iceberg简介本质:一种数据组织格式1.1、应用场景①面向大表:单表包含数十个PB的数据②分布式引擎非必要:不需要分布式SQL引擎来读取或查找文件③高级过滤:使用表元数据,使用分区和列级统计信息修建数据文件1.2、集成方式:通过Lib与Flink、Spark集成。 Icrbeg非常轻量级,与Flink、Spark整合时通过一个Jar包整合。2、数据存储文件解析核心:每一个对表产生改变的操作
  • 1
  • 2
  • 3
  • 4
  • 5