Delta Lake 是一个存储...
翻译 2021-06-12 11:14:17
996阅读
Delta Lake 是一个存储...
翻译 2021-06-12 11:14:16
853阅读
最近,Delta Lake 发布了一项新功能,也就是支持直接使用 Scala、Java 或者 Python 来查询 Delta Lake 里面的数据,这个是不需要通过 Spark 引擎来实现的。Scala 和 Java 读取 Delta Lake 里面的数据是通过 Delta Standalone Reader[1] 实现的;而 Python 则是通过 Delta R
转载 2023-12-15 13:38:00
80阅读
Delta Lake 是一个存储层,为 Apache Spark 和大数据 workloads 提供 ACID 事务能力
转载 2020-03-05 09:12:13
5005阅读
百花齐放的大数据生态17,18是计算引擎火热的两年,19年已然是红海了。计其他引擎还在ETL,交互查询,流上厮杀时,Spark已经在...
原创 2023-03-17 19:56:40
102阅读
# Spark Delta Lake实现指南 ## 简介 在本篇文章中,我将向你介绍如何使用Spark Delta LakeDelta Lake是一个开源的数据湖解决方案,它提供了一种可靠的方式来管理大规模数据湖中的数据。Delta Lake支持ACID事务,具有数据版本控制和管理功能,以及与Spark的无缝集成。 ## 实现步骤 下面是使用Spark Delta Lake实现的步骤:
原创 2023-08-29 08:30:23
204阅读
Delta Lake 写数据是其最基本的功能,而且其使用和现有的 Spark 写 Parquet 文件基本一致,在介绍 Delta Lake 实现原理之前先来看看如何使用它,具体使用如下:df.write.format("delta").save("/data/yangping.wyp/delta/test/") //数据按照 dt 分区 df.write.format("delta").par
转载 2023-06-01 15:47:27
161阅读
1. DeltaLake是什么        Delta Lake 是 DataBricks 公司开源的、用于构建湖仓架构的存储框架。能够支持 Spark,Flink,Hive,PrestoDB,Trino 等查询/计算引擎。作为一个开放格式的存储层,它在提供了批流一体的同时,为湖仓架构提供可靠的,安全的,高性能的保证
©著作权归作者所有:来自51CTO博客作者臭臭粑粑的原创作品,如需转载,请注明出处,否则将追究法律责任什么是Delta Lake?看看Delta Lake官网给出的定义:Delta Lake就是一个开源的存储框架,而且是用来构建Lakehouse架构的存储框架。这里简单说一下Lakehouse架构这个概念,Databricks应该是在2020年左右提出的,Databricks的联合创始人们2021
原创 2024-02-24 12:04:58
112阅读
Apache Spark 集群模式一览 本文档给出了在集群上运行Spark的简短介绍,可以帮助读者深入理解组件. Components 组件driver program). 具体地说, 在集群中运行的时候, SparkContext 能够连接到各种类型的集群管理器  (cluster managers,无论是Spark自己的单独集群管理器 或者 Mesos/YARN),&nb
## Hive 与 Delta Lake Hive 是一个建立在 Hadoop 之上的数据仓库基础设施,提供了类似于 SQL 的查询语言 HiveQL,可以用来处理大规模数据。而 Delta Lake 是一个开源的存储层,构建在 Apache Spark 之上,为数据湖和数据仓库提供了 ACID 事务能力。本文将介绍 Hive 和 Delta Lake 的基本概念,以及它们在大数据处理中的应用。
原创 2024-03-15 03:48:39
181阅读
01DeltaLake 简介Delta Lake 是 DataBricks 公司开源的、用于构建湖仓架构的存储框架。能够支持 Spark,Flink,Hive,PrestoDB,Trino 等查询/计算引擎。作为一个开放格式的存储层,它在提供了批流一体的同时,为湖仓架构提供可靠的,安全的,高性能的保证。Delta Lake 关键特性:ACID事务:通过不同等级的隔离策略,Delta Lake 支持
# Delta Lake: 将Hive表升级为事务性表格 Delta Lake是一个开源的数据湖引擎,用于管理大数据湖中的批处理和流式数据。它提供了一种可靠的、高性能的、可伸缩的方式来处理和管理数据湖中的数据。Delta Lake通过添加事务性、一致性、可恢复性和幂等性功能来扩展Apache Hive表,这使得它成为处理大规模数据的理想选择。 ## Hive表的局限性 Apache Hive
原创 2023-08-03 17:20:16
133阅读
Delta Lake 是 DataBricks 公司开源的、用于构建湖仓架构的存储框架。能够支持 Spark,Flink,Hive,PrestoDB,Trino 等查询/计算引擎。作为一个开放格式的存储层,它在提供了批流一体的同时,为湖仓架构提供可靠的,安全的,高性能的保证。
原创 精选 2022-05-11 10:18:23
902阅读
使用SQL操作DeltaLake过往记忆大数据过往记忆大数据DeltaLake0.7.0是随着ApacheSpark3.0版本发布之后发布的,这个版本比较重要的特性就是支持使用SQL来操作Delta表,包括DDL和DML操作。本文将详细介绍如何使用SQL来操作DeltaLake表,关于DeltaLake0.7.0版本的详细ReleaseNote可以参见这里。使用SQL在HiveMetastore中
原创 2021-03-30 20:13:18
345阅读
Delta Lake 0.7.0 是随着 Apache Spark 3.0 版本发布之后发布的,这个版本比较重要的特性就是支持使用 SQL 来操作 Delta 表,包括 DDL 和 DML 操作。本文将详细介绍如何使用 SQL 来操作 Delta Lake 表,关于 Delta Lake 0.7.0 版本的详细 Release Note 可以参见这里。使用 SQL 在 Hive Metastore
原创 2021-04-05 17:22:16
441阅读
简介: 为了消灭数据孤岛,企业往往会把各个组织的数据都接入到数据湖以提供统一的查询或分析。本文将介绍流利说当前数据接入的整个过程,期间遇到的挑战,以及delta在数据接入中产生的价值。 背景 流利说目前的离线计算任务中,大部分数据源都是来自于业务 DB,业务DB数据接入的准确性、稳定性和及时性,决定
转载 2021-01-20 10:27:00
40阅读
2评论
背景流利说目前的离线计算任务中,大部分数据源都是来自于业务 DB,业务DB数据接入的准确性、稳定性和及时性,决定着下游整个离线计算 pipeline 的准确性和及时性。同时,我们还有部分业务需求,需要对 DB 中的数据和 hive 中的数据做近实时的联合查询。在引入阿里云 EMR Delta Lake 之前,我们通过封装 DataX 来完成业务 DB 数据的接入,采用 Master-Slave 架
转载 2021-01-21 11:37:58
324阅读
2评论
简介: 为了消灭数据孤岛,企业往往会把各个组织的数据都接入到数据湖以提供统一的查询或分析。本文将介绍流利说当前数据接入的整个过程,期间遇到的挑战,以及delta在数据接入中产生的价值。背景流利说目前的离线计算任务中,大部分数据源都是来自于业务 DB,业务DB数据接入的准确性、稳定性和及时性,决定着下游整个离线计算 pipeline 的准确性和及时性。同时,我们还有部分业务需求,需要对 DB 中的数
转载 2021-01-21 14:26:33
274阅读
2评论
简介DeltaLakeDeltaLake是一个致力于在数据湖之上构建湖仓一体架构的开源项目。 DeltaLake支持ACID事务,可扩展的元数据存储,在现有的数据湖(S3、ADLS、GCS、HDFS)之上实现流批数据处理的统一。 官网地址:https://delta.io 当前版本:1.1.0HudiHudi是新一代的流式数据湖平台,在开源的文件系统之上引入了数据库的表、事务、高效的更新/删除、索
转载 2023-12-19 13:11:37
68阅读
  • 1
  • 2
  • 3
  • 4
  • 5