本文是字节跳动数据平台开发套件团队在 Flink Forward Asia 2021: Flink Forward 峰会上的演讲,着重分享了字节跳动数据湖技术上的选型思考和探索实践。
本文是字节跳动数据平台开发套件团队在 Flink Forward Asia 2021: Flink Forward 峰会上的演讲,着重分享了字节跳动数据湖技术上的选型思考和探索
数据湖与实时数据湖是什么?各个行业企业都在构建企业级数据湖,将企业内多种格式数据源汇聚的大数据平台,通过严格的数据权限和资源管控,将数据和算力开放给各种使用者。一份数据支持多种分析,是数据湖最大的特点。如果数据湖的数据,从数据源产生后,可以在1分钟以内实时进入到数据湖存储,支持各种交互式分析,这种数据湖通常叫做实时数据湖,如果可以做到15分钟之内,也可称为准实时数据湖。构建实时数据湖,正在成为5G
本文整理自抖音集团数据工程师苏兴老师在 Flink Forward Asia 2024 流式湖仓(一)专场中的分享。
在当今数据驱动的时代,企业对数据的实施性能力提出了前所未有的高要求。为了应对这一挑战,构建高效、灵活且可扩展入探讨袋鼠云数栈如何通过三大核...
原创
2024-07-01 11:20:11
9阅读
本文整理自计算平台软件研发工程师钟宇江老师在 Flink Forward Asia 2024 流式湖仓(一)专场中的分享。
|0x00 什么是数据湖数据湖的概念最初是由大数据厂商提出的,可以简单理解为一个集中存储数据的数据库,不论是结构化数据or非结构化数据,海量数据or少量数据,都能够支持存储和计算。就像在湖中有多个支流进入一样,结构化数据、非结构化数据、日志数据、实时数据,都流入了同一种数据存储结构之中,并进行不同类型的分析处理,以指导做出更好的决策。数据湖通常采用Hadoop作为数据的承载对象,随着企业规模的扩大
转载
2024-01-02 15:01:28
174阅读
数据湖iceberg-day011.1 什么是数据湖1.1.1 什么是数据湖数据湖是一个集中式的存储库,允许你以任意规模存储多个来源、所有结构化和非结构化数据,可以按照原样存储数据,无需对数据进行结构化处理,并运行不同类型的分析,对数据进行加工,例如:大数据处理、实时分析、机器学习,以指导做出更好地决策。1.1.2 大数据为什么需要数据湖当前基于Hive的离线数据仓库已经非常成熟,在传统的离线数据
转载
2024-08-01 10:47:47
140阅读
前言Apache Paimon 最典型的场景是解决了 CDC (Change Data Capture)数据的入湖,看完这篇文章,你可以了解到:为什么从
转载
2024-05-24 11:21:37
364阅读
本文整理自淘天集团高级数据开发工程师朱奥老师在 Flink Forward Asia 2024 流式湖仓论坛的分享。
数据湖概述数据湖这一概念,最早是在2011年由CITO Research网站的CTO和作家Dan Woods首次提出。其比喻是:如果我们把数据比作大自然的水,那么各个江川河流的水未经加工,源源不断地汇聚到数据湖中。业界便对数据湖一直有着广泛而不同的理解和定义。“数据湖是一个集中化存储海量的、多个来源,多种类型数据,并可以对数据进行快速加工,分析的平台,本质上是一套先进的企业数据架构。”"数据湖"的
最近几年数据湖热度很高,当搞大数据的同学聚在一起时候,经常会谈到这方面的话题,可能有的同学说“我们在做 Hudi 数据湖,你们用 Delta 还是 Iceberg?”,也会有同学说“我在阿里云上搞了一个OSS数据湖”、“什么,你们数据湖用 HDFS?”、“我们在阿里云上搞 JindoFS,优化数据湖”、“最近搞了个湖仓一体”等等的讨论。数据湖的相关讨论可以说是千人千面,每一个技术同学面对数据湖的时
转载
2024-01-24 22:05:27
111阅读
:本文整理自 vivo 互联网大数据专家、Apache Paimon Committer 徐昱老师在 Flink Forward Asia 2024 流式湖仓专场(一)中的分享。
系列专题:数据湖系列文章 随着互联网的加速发展和移动互联网的快速兴起,数据采集更方便、数据种类更丰富,行为轨迹、语音视频等非结构化数据爆发式增长,数据规模进一步扩大。在新形势下,传统的数据库、数据仓库等处理技术无法适应快速响应、实时分析的数据需求,难以处理日志、语音等非结构化数据,企业迫切需要一个新型大数据解决方案——“
转载
2023-09-21 07:43:21
119阅读
阿里云智能开源表存储负责人,Founder of Paimon,Flink PMC 成员李劲松在云栖大会开源大数据专场的分享。
原创
精选
2023-12-24 18:14:38
345阅读
本文整理自阿里云智能集团苏轩楠老师在 Flink Forward Asia 2024 论坛中的分享。
希望通过笔者以下的经历,回顾流计算一步一步扩大场景的过程,并引出 Apache Paimon 的前生今世。
原创
2023-07-30 08:06:05
447阅读
环境centos7,hudi0.9.0,jdk8,hadoop-2.7.1,spark-3.0.1 Maven安装 (1)把apache-maven-3.6.1-bin.tar.gz上传到linux的/opt/software目录下 (2)解压apache-maven-3.6.1-bin.tar.gz到/opt/module/目录下面[atguigu@hadoop102 software]$ ta
转载
2023-05-23 15:42:06
109阅读
【本文系转载,非本人原创,仅供参考学习】数据湖平台简介数据湖平台是一套混合架构,以传统Oracle与华为FusionInsight HD&LibrA为主,依托统一融合的数据平台,全流程拉通公司产品的研发制造、供应储存、安装交付多环节数据,增强数据交互,使能数字孪生,自动化、智能化提升公司运作效率。该平台围绕数据分如下三大逻辑模块:系统架构如下:数据建设准则数据接入原则以应用驱动为主,优先建
转载
2024-05-20 09:04:41
47阅读
本文整理自阿里云智能开源表存储负责人,Founder of Paimon,Flink PMC 成员李劲松在云栖大会开源大数据专场的分享。本篇内容主要分为四部分:数据分析架构演进介绍 Apache PaimonFlink + Paimon 流式湖仓流式湖仓Demo演示数据分析架构演进目前,数据分析架构正在从Hive到Lakehouse的演变。传统数仓包括Hive、Hadoop正在往湖、Lakehou
原创
2023-11-23 16:28:35
265阅读
## 数据湖架构搭建指南
### 1. 数据湖架构搭建流程
在搭建数据湖之前,了解整个流程是至关重要的。以下是搭建数据湖的一般步骤:
| 步骤 | 描述 |
|------|------|
| 1 | 需求分析与规划 |
| 2 | 选择数据湖平台 |
| 3 | 数据存储设计 |
| 4 | 数据采集与处理 |
| 5 | 数据管理与访问 |
| 6 | 监控与优化 |
### 2. 各
原创
2024-10-25 04:27:18
148阅读