1.数据湖的简单介绍:1.1 官网https://delta.io/看一张官网的图1.2 特点:1.不限格式,来之不拒,均可流入
2.集中存储、到处可访问。
3.高性能分析能力 -- 借助于Spark、MR、SparkSQL等高性能分析计算引擎,可以对海量的数据进行分析。
4.原始数据存储
5.数据湖是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。1.3 数据湖,
转载
2024-04-09 19:45:05
162阅读
今天这篇文章主要介绍数据湖(data lake)的定义,其次介绍各大云厂商的解决方案以及目前的开源解决方案。定义看下维基百科的定义:数据湖是一个以原始格式(通常是对象块或文件)存储数据的系统或存储库。数据湖通常是所有企业数据的单一存储。用于报告、可视化、高级分析和机器学习等任务。数据湖可以包括来自关系数据库的结构化数据(行和列)、半结构化数据(CSV、日志、XML、JSON)、非结构化数据(电子邮
转载
2024-01-21 20:21:58
56阅读
作者简介郑锴,花名铁杰,阿里巴巴高级技术专家,Apache Hadoop PMC。深耕分布式系统开发和开源大数据多年,目前专注于在阿里云上研发业界领先的 Hadoop/Spark 大数据平...
转载
2021-06-12 00:15:16
274阅读
作者简介郑锴,花名铁杰,阿里巴巴高级技术专家,Apache Hadoop PMC。深耕分布式系统开发和开源大数据多年,目前专注于在阿里云上研发业界领先的 Hadoop/Spark 大数据平...
转载
2021-06-12 00:15:17
698阅读
本文内容来自由阿里云计算平台事业部与阿里云开发者社区联合主办的大数据+AI meetup 2020第二站·上海讲师郑锴的分享《数据湖存储架构选型》
转载
2021-06-13 22:03:15
289阅读
作者简介 郑锴,花名铁杰,阿里巴巴高级技术专家,Apache Hadoop PMC。深耕分布式系统开发和开源大数据多年,目前专注于在阿里云上研发业界领先的 Hadoop/Spark 大数据平台和数据湖解决方案产...
转载
2020-11-24 18:07:00
274阅读
2评论
数据湖架构浅谈
一、大数据技术和工具归类: 部分术语翻译: Administration: 管理平台(此处应指大数据管理平台) Data Security: 数据安全 Data Governance: 数据管控 Data Computing: 数据计算 Data Collection: 数据采集 Data Storage: 数据存储 BI/DATA Visualization:
转载
2024-01-12 09:53:42
57阅读
各厂商的数据湖解决方案数据湖作为当前的一个风口,各大云厂商纷纷推出自己的数据湖解决方案及相关产品。本节将分析各个主流厂商推出的数据湖解决方案,并将其映射到数据湖参考架构上,帮助大家理解各类方案的优缺点。一、 AWS数据湖解决方案图7. AWS数据湖解决方案 图7是AWS推荐的数据湖解决方案。整个方案基于AWS Lake Formation构建,AWS Lake Formation本质上是一个管理性
转载
2024-01-05 20:54:51
11阅读
1、数据湖是什么?能干什么?为啥是数据湖? 数据湖发展至今,已经成为一个当下大数据行业比较火爆的话题,并且很多大公司介入开始使用和研究,下面这篇博文带你深入了解相关的概念,有助2、从0到1本地搭建数据湖环境 本地
转载
2024-08-21 09:15:18
73阅读
数据湖是非结构化和结构化数据池,按原样存储,没有特定的目的,可以建立在多种技术上,如Hadoop,NoSQL,Amazon Si
原创
2024-01-08 15:50:13
120阅读
系列专题:数据湖系列文章 随着互联网的加速发展和移动互联网的快速兴起,数据采集更方便、数据种类更丰富,行为轨迹、语音视频等非结构化数据爆发式增长,数据规模进一步扩大。在新形势下,传统的数据库、数据仓库等处理技术无法适应快速响应、实时分析的数据需求,难以处理日志、语音等非结构化数据,企业迫切需要一个新型大数据解决方案——“
转载
2023-09-21 07:43:21
119阅读
自2010年国际上首次提出“数据湖”概念以来,数据湖就被视为大数据的终极挑战。所谓数据湖,即把所有的数据以原始格式存储在一个统一的地方,以供后续使用。数据湖的出现,是为了应对城市和企业无法及时处理各种海量数据而先行将数据存储起来,后续使用的时候随需取用。“数据湖”被视为打破城市和企业的数据孤岛的重要基础设施,而且由于“数据湖”中存储了全量全域数据而更能为人工智能所用,从而创造更大的价值,例如用人工
转载
2024-02-05 11:45:38
32阅读
最近几年数据湖热度很高,当搞大数据的同学聚在一起时候,经常会谈到这方面的话题,可能有的同学说“我们在做 Hudi 数据湖,你们用 Delta 还是 Iceberg?”,也会有同学说“我在阿里云上搞了一个OSS数据湖”、“什么,你们数据湖用 HDFS?”、“我们在阿里云上搞 JindoFS,优化数据湖”、“最近搞了个湖仓一体”等等的讨论。数据湖的相关讨论可以说是千人千面,每一个技术同学面对数据湖的时
转载
2024-01-24 22:05:27
111阅读
数据湖概述数据湖这一概念,最早是在2011年由CITO Research网站的CTO和作家Dan Woods首次提出。其比喻是:如果我们把数据比作大自然的水,那么各个江川河流的水未经加工,源源不断地汇聚到数据湖中。业界便对数据湖一直有着广泛而不同的理解和定义。“数据湖是一个集中化存储海量的、多个来源,多种类型数据,并可以对数据进行快速加工,分析的平台,本质上是一套先进的企业数据架构。”"数据湖"的
今天跟大家分享的大数据产品叫Apache Hudi,Hudi是Hadoop Updates and Incrementals的简写,它是由Uber开发并开源的Data Lakes解决方案。下面首先放一张Hudi在Hadoop体系架构中的位置图:1. 什么是数据湖?首先介绍一下什么是数据湖,提到数据湖,不得不说一下数据仓库。关系型数据库大行其道的年代,随着各个业务系统增多,在应对一些分析场景时,慢慢
转载
2023-08-11 11:18:22
230阅读
系列专题:数据湖系列文章1. 背景 国内的大型互联网公司,每天都会生成几十、几百TB,甚至几PB的原始数据。这些公司通常采用开源的大数据组件来搭建大数据平台。大数据平台经历过“以Hadoop为代表的离线数据平台”、“Lambda架构平台”、“Kappa架构平台”三个阶段。 
转载
2023-08-16 22:23:02
401阅读
HUDI数据湖,俩个核心两点:1、采用读时模式设计,支持动态schema,动态表结构变更。(对比写时模式)2、标准化统一和解决了大规模的数据存储问题。3、高容错的任务调度管理策略,不用担心job失败重跑,也不用担心job重跑的效率问题。 下面一步步分析,离线数据仓库痛点有哪些?和思路1、job任务出问题,从出错的job重跑2、写时模式,表字段并更怎么办?3、多个存储如何打通?kafka不
转载
2024-05-30 11:09:42
127阅读
1. 背景 国内的大型互联网公司,每天都会生成几十、几百TB,甚至几PB的原始数据。这些公司通常采用开源的大数据组件来搭建大数据平台。大数据平台经历过“以Hadoop为代表的离线数据平台”、“Lambda架构平台”、“Kappa架构平台”三个阶段。 可以把数据湖认为是最新一代大数据技术平台
转载
2023-09-27 13:12:59
65阅读
DeltaLake是一个开源的存储层,它为大数据的读写带来了ACID的能力,通过快照隔离机制为HDFS提供了读写一致性的保证,同时DeltaLake提供内部版本的跟踪更能,使得用户可以轻松进行快照、版本回滚。 数据湖是近些年提出的新的数据架构,将大量的数据存储到数据湖中,数据湖可以认为是一个可以无限扩展的存储和计算架构。然而在数据湖实践落地的过程中也存在以下问题数据质量问题,数据进入数据湖由于没有
转载
2023-07-07 15:28:50
51阅读
自2011年“数据湖”概念被提出,业界便对数据湖一直有着广泛而不同的理解和定义。“数据湖是一个集中化存储海量的、多个来源,多种类型数据,并可以对数据进行快速加工,分析的平台,本质上是一套先进的企业数据架构。”——这是对数据湖比较清晰且完整的定义。然而,从定义上看不出数据湖对企业的重要性,本文从数据湖架构的发展,数据平台对企业的重要性,华为数据湖方案等角度阐明数据湖的对企业的价值。一、 &
转载
2024-02-04 21:02:13
77阅读