本文是字节跳动数据平台开发套件团队在 Flink Forward Asia 2021: Flink Forward 峰会上的演讲,着重分享了字节跳动数据技术上的选型思考和探索实践。 本文是字节跳动数据平台开发套件团队在 Flink Forward Asia 2021: Flink Forward 峰会上的演讲,着重分享了字节跳动数据技术上的选型思考和探索
数据与实时数据是什么?各个行业企业都在构建企业级数据,将企业内多种格式数据源汇聚的大数据平台,通过严格的数据权限和资源管控,将数据和算力开放给各种使用者。一份数据支持多种分析,是数据最大的特点。如果数据数据,从数据源产生后,可以在1分钟以内实时进入到数据存储,支持各种交互式分析,这种数据通常叫做实时数据,如果可以做到15分钟之内,也可称为准实时数据。构建实时数据,正在成为5G
转载 7月前
19阅读
本文整理自抖音集团数据工程师苏兴老师在 Flink Forward Asia 2024 流式仓(一)专场中的分享。
原创 1月前
41阅读
在当今数据驱动的时代,企业对数据的实施性能力提出了前所未有的高要求。为了应对这一挑战,构建高效、灵活且可扩展入探讨袋鼠云数栈如何通过三大核...
原创 2024-07-01 11:20:11
9阅读
本文整理自计算平台软件研发工程师钟宇江老师在 Flink Forward Asia 2024 流式仓(一)专场中的分享。
|0x00 什么是数据数据的概念最初是由大数据厂商提出的,可以简单理解为一个集中存储数据数据库,不论是结构化数据or非结构化数据,海量数据or少量数据,都能够支持存储和计算。就像在中有多个支流进入一样,结构化数据、非结构化数据、日志数据、实时数据,都流入了同一种数据存储结构之中,并进行不同类型的分析处理,以指导做出更好的决策。数据通常采用Hadoop作为数据的承载对象,随着企业规模的扩大
转载 2024-01-02 15:01:28
174阅读
数据iceberg-day011.1 什么是数据1.1.1 什么是数据数据是一个集中式的存储库,允许你以任意规模存储多个来源、所有结构化和非结构化数据,可以按照原样存储数据,无需对数据进行结构化处理,并运行不同类型的分析,对数据进行加工,例如:大数据处理、实时分析、机器学习,以指导做出更好地决策。1.1.2 大数据为什么需要数据当前基于Hive的离线数据仓库已经非常成熟,在传统的离线数据
转载 2024-08-01 10:47:47
140阅读
前言Apache Paimon 最典型的场景是解决了 CDC (Change Data Capture)数据的入,看完这篇文章,你可以了解到:为什么从
转载 2024-05-24 11:21:37
364阅读
本文整理自淘天集团高级数据开发工程师朱奥老师在 Flink Forward Asia 2024 流式仓论坛的分享。
原创 3月前
85阅读
数据概述数据这一概念,最早是在2011年由CITO Research网站的CTO和作家Dan Woods首次提出。其比喻是:如果我们把数据比作大自然的水,那么各个江川河流的水未经加工,源源不断地汇聚到数据中。业界便对数据一直有着广泛而不同的理解和定义。“数据是一个集中化存储海量的、多个来源,多种类型数据,并可以对数据进行快速加工,分析的平台,本质上是一套先进的企业数据架构。”"数据"的
最近几年数据热度很高,当搞大数据的同学聚在一起时候,经常会谈到这方面的话题,可能有的同学说“我们在做 Hudi 数据,你们用 Delta 还是 Iceberg?”,也会有同学说“我在阿里云上搞了一个OSS数据”、“什么,你们数据HDFS?”、“我们在阿里云上搞 JindoFS,优化数据”、“最近搞了个仓一体”等等的讨论。数据的相关讨论可以说是千人千面,每一个技术同学面对数据的时
:本文整理自 vivo 互联网大数据专家、Apache Paimon Committer 徐昱老师在 Flink Forward Asia 2024 流式仓专场(一)中的分享。
原创 3月前
65阅读
 系列专题:数据系列文章         随着互联网的加速发展和移动互联网的快速兴起,数据采集更方便、数据种类更丰富,行为轨迹、语音视频等非结构化数据爆发式增长,数据规模进一步扩大。在新形势下,传统的数据库、数据仓库等处理技术无法适应快速响应、实时分析的数据需求,难以处理日志、语音等非结构化数据,企业迫切需要一个新型大数据解决方案——“
阿里云智能开源表存储负责人,Founder of Paimon,Flink PMC 成员李劲松在云栖大会开源大数据专场的分享。
原创 精选 2023-12-24 18:14:38
345阅读
本文整理自阿里云智能集团苏轩楠老师在 Flink Forward Asia 2024 论坛中的分享。
希望通过笔者以下的经历,回顾流计算一步一步扩大场景的过程,并引出 Apache Paimon 的前生今世。
原创 2023-07-30 08:06:05
447阅读
环境centos7,hudi0.9.0,jdk8,hadoop-2.7.1,spark-3.0.1 Maven安装 (1)把apache-maven-3.6.1-bin.tar.gz上传到linux的/opt/software目录下 (2)解压apache-maven-3.6.1-bin.tar.gz到/opt/module/目录下面[atguigu@hadoop102 software]$ ta
转载 2023-05-23 15:42:06
109阅读
【本文系转载,非本人原创,仅供参考学习】数据平台简介数据平台是一套混合架构,以传统Oracle与华为FusionInsight HD&LibrA为主,依托统一融合的数据平台,全流程拉通公司产品的研发制造、供应储存、安装交付多环节数据,增强数据交互,使能数字孪生,自动化、智能化提升公司运作效率。该平台围绕数据分如下三大逻辑模块:系统架构如下:数据建设准则数据接入原则以应用驱动为主,优先建
转载 2024-05-20 09:04:41
47阅读
本文整理自阿里云智能开源表存储负责人,Founder of Paimon,Flink PMC 成员李劲松在云栖大会开源大数据专场的分享。本篇内容主要分为四部分:数据分析架构演进介绍 Apache PaimonFlink + Paimon 流式仓流式仓Demo演示数据分析架构演进目前,数据分析架构正在从Hive到Lakehouse的演变。传统数仓包括Hive、Hadoop正在往、Lakehou
原创 2023-11-23 16:28:35
265阅读
## 数据架构搭建指南 ### 1. 数据架构搭建流程 在搭建数据之前,了解整个流程是至关重要的。以下是搭建数据的一般步骤: | 步骤 | 描述 | |------|------| | 1 | 需求分析与规划 | | 2 | 选择数据平台 | | 3 | 数据存储设计 | | 4 | 数据采集与处理 | | 5 | 数据管理与访问 | | 6 | 监控与优化 | ### 2. 各
原创 2024-10-25 04:27:18
148阅读
  • 1
  • 2
  • 3
  • 4
  • 5