数据仓库是一项发展历程漫长的技术,主要为企业的业务决策提供支持与服务。随着数字化业务的扩张,企业的数据量呈现爆发式增长,数据开始从 BP 发展到 PB 级别,此时,适应海量数据的实时计算、可灵活扩展的实时数仓几乎成为企业的“刚需”。它作为数据智能的基础环节,在快速获取数据反馈帮助企业更快的做出决策,更好的进行产品迭代的过程中起到了不可替代的作用。
  • 实时数仓从 0 开始落地,有什么可参考的方法或者路径吗?

  • 有哪些一线的生产实践案例?

  • 实时数仓支撑技术的整体架构是什么?

  • 有哪些技术难点和坑?

 

12月13日-15日,Flink Forward Asia 2020 在线峰会实时数仓专场,来自腾讯、阿里巴巴、PingCAP、360、滴滴、蔚来汽车、比特大陆、顺丰、美团、腾讯看点、网易等多位数仓技术专家分享实时数仓的生产环境应用实践及平台智能化的探索与思考。

 

(大会官网)

腾讯看点基于 Flink 构建万亿数据量下

的实时数仓及实时查询系统

 

王展雄 | 腾讯看点数据团队高级工程师

 

当业务发展到一定规模,实时数据仓库是一个必要的基础服务。从数据驱动方面考虑,实时数据分析系统的重要性也不言而喻。但是当数据量巨大的情况下,拿腾讯看点来说,一天上报的数据量达到万亿级的规模,要实现极低延迟的实时计算和亚秒级的多维实时查询是有技术挑战的;要保证数据 Exactly-Once 的准确性,和轻量级的快照也是不容易的。

 

本次分享将介绍信息流场景下,实时数据系统的架构实现。

 

网易流批一体的实时数仓平台实践

 

叶贤勋 | Apache Flink Contributor,Apache Iceberg Contributor,网易杭州研究院资深平台开发工程师

 

1. 实时计算演进以及业务背景。

2. 实时数仓平台建设:包括 WEB IDE, 统一元数据中心(元数据管理、元数据登记)、数据血缘、智能诊断、Flink on K8s、混合部署等。

3. 基于 arctic 的批流一体实践:基于 Iceberg / Hive 网易自研了支持根据主键 upsert/delete 的名为 arctic 的批流一体的存储体系, 已开始应用于音乐以及物流等实际业务场景。

4. 未来规划与展望。

 

Apache Flink 在汽车之家的应用及实践

 

邸星星 | 汽车之家实时计算平台负责人

 

1.背景  

  • 1.1 之家实时计算的发展历程  

  • 1.2 核心应用场景及使用现状

2.AutoStream 平台  

  • 2.1 总体架构介绍  

  • 2.2 基于 SQL 的开发流程: DDL + DML + UDX + 在线调试  

  • 2.3 Catalog 的统一元数据管理  

  • 2.4 监控报警及历史日志收集  

  • 2.5 健康评分机制:基于 CPU 利用率、内存利用率、延迟情况、GC 等多维度进行评分  

  • 2.6 自助诊断:动态日志级别 + 线程栈 + 堆内存 + 火焰图  

  • 2.7 基于 Checkpoint 复制的快速容灾

3.基于 AutoStream 的实时生态  

  • 3.1 优势  

  • 3.2 CDC 接入及分发平台:基于 Flink 实现精确一次的 CDC 数据接入和分发  

  • 3.3 Kafka 双活:基于 Flink + MirroMaker2 + SDK 实现 Kafka 多集群架构

4.未来规划  

  • 4.1 实时多维分析  

  • 4.2 探索基于数据湖技术的批流一体

 

Flink 在顺丰的实践应用

 

龙逸尘 | 顺丰科技大数据平台研发工程师

 

本次议题主要分享顺丰基于 Flink 的实时数仓实践。包括三部分:

 

1.顺丰实时数仓的建设思路

2.Hudi on Flink 的首次引入,以及如何加速数仓宽表建设

3.顺丰实时数仓的平台化建设工作

 

基于 Flink 的滴滴实时数仓实践

 

潘澄 | 滴滴基础平台部资深研发工程师

 

1.介绍滴滴实时数仓现状

2.介绍滴滴实时数仓建设相应方法论

3.介绍滴滴数据平台侧对于实时数仓的支持

4.介绍滴滴数据引擎侧对于实时数仓的支持

 

腾讯基于 Flink + Iceberg 

全场景实时数仓的建设实践

 

苏舒 | Apache Iceberg Contributor,腾讯数据平台部高级工程师

 

随着企业对数据驱动业务需求的深入,也随着海量数据分析技术的成熟,数据仓库已是企业内部进行数据洞察的标准服务。但是传统基于 Hadoop 技术的数据仓库从数据导入到数据分析每个环节都有较大的延迟,使得数据分析的时效性大大变低;同时对于数据分析场景的拓展,传统单一的数仓架构也没法满足多变的数据分析需求。为此业界也在探索新一代更为通用的数仓/数据湖架构,腾讯内部使用 Flink 结合 Apache Iceberg 在此做出了诸多探索与实践,针对各个不同大数据生态系统的对接,小文件问题,元信息管理等问题做出诸多实践性工作。

 

本次将为大家介绍如何腾讯内部如何利用 Flink + Iceberg 技术并结合腾讯内部的大数据平台构建新一代的全场景实时数仓-数据湖分析系统 DLA。

 

从零到一构建电商实时数据中台

 

董大凡 | 亚马逊高级研发工程师

 

本次议题主要介绍了电商团队使用 Apache Flink 构建数据中台支持亿级数据写入的应用与实践。重点包括一下几个部分:

1.大数据场景下传统数据仓库的局限性以及对数据平台的新需求2.构建基于 Flink 实时数据中台的总体设计与系统架构3.Flink 最佳实践以及在建设数据中台过程中的技术反思 

实时 OLAP,从 0 到 1

高正炎 | 比特大陆后端工程师

 BTC.com 是一家区块链数据与服务提供商,目前提供各种区块链方向的解决方案。在业务发展的过程中,有着各种实时和准实时以及 OLAP 的需求场景,面临着从 0 到 1 的挑战;Flink 作为计算基础设施组件,业务目前覆盖了在线业务支持、实时报表统计等,处于不断发展中。本次主要介绍 BTC.com 实时计算的起步与当前的 OLAP 技术架构。  

Apache Flink & TiDB 

联合实时数仓的探索与实践

齐智 | PingCAP 工程师 1. TiDB 与 Flink
  • 介绍 TiDB:高度兼容 MySQL 的 HTAP 数据库。

  • TiDB 与 Flink 交互:高效、简洁的实时数仓平台。

  • 架构与简单例子。

2. 更深层次交互
  • TiDB Dynamic Scan Source

  • TiDB Catalog

  • TiDB 

  • TiCDC 

  • Flink

3. 业务案例:介绍若干使用 Flink 与 TiDB 的用户案例,包括架构图,简要描述。 

基于 Flink SQL 构建流批一体

的 ETL 数据集成

伍翀 | Apache Flink PMC Member & Committer,阿里巴巴技术专家徐榜江 | Apache Flink Contributor, 阿里巴巴高级开发工程师 Change Data Capture (CDC) 已经是非常流行的捕获数据库变更的方式,这已经应用在非常广泛的场景中,包括同步数据,数据备份,数仓构建,实时物化视图等等。在以前,消费和解析这种 changelog 还是比较麻烦的,而自 Flink 1.11+ 后,就可以用 Flink SQL 这种非常方便的工具去支持 CDC 了。在实时数仓的构建中,数据库的变更数据是非常重要的数据基石之一。在本次演讲中,我们将介绍如何基于 Flink SQL 以及 CDC 功能,重新构建新的实时 ETL,简化实时数仓的构建链路。我们会介绍这种新型实时 ETL 与传统 ETL 的优势和区别。我们还讲介绍一些基于 Flink SQL + CDC 的最佳实践案例,包括实时数据同步,数据库上的实时物化视图维护,基于 CDC 的实时维表关联等等。

 

ULTRON — 360基于 Flink 的实时数仓平台

朱广彬 | 360数据架构资深专家,商业化数据架构负责人  Ultron 是360商业化大数据架构团队基于 Flink SQL 构建的实时数仓平台,以 FlinkSQL 为基础,集项目构建、集群部署、资产管理、数仓建模、任务开发、上线发布、运维监控等功能于一身,提供一站式实时数仓解决方案。Ultron 面向数仓化设计,利用 Flink SQL,将所有资产抽象为表,构建数仓体系,与离线 Hive 数仓融合,探索批流合一的新数仓架构。本次分享介绍 Ultron 平台研发的背景与需求、架构设计思想、Ultron 平台化之路以及未来规划。

基于 Apache Flink 和 Apache Druid 

的实时多维分析系统在蔚来汽车的应用

吴江 | 蔚来汽车大数据部门高级工程师 1.业务背景2.架构
  • 系统设计的考量点

  • 漏斗模型

  • 首创状态空间的概念来解释 Flink 的状态机制设计

3.指标计算4.Flink 程序的部署5.多维分析   
  • Druid 实时接入

  • Druid 存储和多维聚合分析

6.展示以上为 Flink Forward Asia 2020 在线峰会开源生态专场内容节选,了12月13日,全球 38+ 一线厂商,70+ 优质议题,我们在 Flink Forward Asia 在线峰会等你~

 

Flink Forward Asia 2020 赞助与合作

 

- 赞助商 - 

 

基于 Flink 的12个实时数仓生产实践_sql

 

- 合作伙伴 - 

基于 Flink 的12个实时数仓生产实践_数据_02

 

 

基于 Flink 的12个实时数仓生产实践_实时计算_03