最近,Flink Forward Asia(FFA)峰会成功举行,有关Flink的讨论,又开始在国内热闹起来。

2022 年,Apache Flink 社区保持快速发展:GitHub Star 数突破 2 万,单月下载量突破 1400 万次; Apache Flink 项目所有 PR 中有 45% 来自中国开发者; Apache Flink 已成为实时流计算全球范围事实标准。 从峰会给出的数据来看:Flink确实已经发展的越来越好,无论是技术层面还是使用规模。

但要指望Flink哪天能够像Spark背后的母公司Databricks那样,估值几百亿美金,估计有点难。

因为从Flink被阿里收购的那一刻起,它的商业化就充满了困难。

01

Flink商业前景为何不如Spark

2019年,阿里巴巴以9000万欧元收购了Flink背后的公司 Data Artisans。

在这里插入图片描述 阿里收购Data Artisans

作为阿里掌管的Flink,开源版本到底做什么不做什么,阿里就有很大的发言权和控制权。

阿里巴巴如果要说服其他云厂商,比如腾讯云、华为云,或者AWS、 Azure等都上一个好用的Flink服务,其他人就会在想,你阿里巴巴掌握了开源,还能够在自己的云上做一个更好的闭源系统,我们怎么和你做竞争。

在这里插入图片描述 2021年全球云计算市场份额

开源项目由一家公有云公司主导,还是一个计算引擎,直接的结果,就是各大公有云公司都觉得没办法玩了。

所有的云厂商都有顾虑,都很难推出自己的针对开源Flink的增强版本。

而阿里巴巴当然是有机会推出针对Flink的增强的商业版本的,而且还能够很好兼容开源的Flink,但是客户未必敢用了。

知乎关于Flink的讨论

客户觉得,我一方面用了你的商业版本,一方面又必须/不得不上你的公有云,被你绑得死死的,那我怎么办?

所以:客户肯定是不到万不得已绝不上Flink,先用其他工具吧。万不得已要上Flink,最好也就上一个自己搭的开源版了。

02 Spark为什么能成功

Spark的母公司,Databricks之所以能成功,有一个很重要的因素,它是云厂商中立的。它既存在于AWS,也上了Azure,也登入了GCP甚至阿里巴巴的云端。

在这里插入图片描述 Azure Databricks

这样的做法,可以让很多企业放心,包括可以让各大云厂商放心使用。

Databricks可以搞一个商业版,里面有更多的功能,更好的和Spark兼容但是提供更高效的处理引擎等等,这没什么问题。

各大云厂商,也可以自己搞Spark的增强版,互相之间在不同云平台PK,问题都不大。

因为开源的Spark,还是在一家云中立公司的掌控中。这家公司本身,并没有特别偏好某个云。

03 Flink技术上确实已经足够强大

Flink凭借 " 有状态的流计算 " 这个核心理念和特色,诞生之初就快速打败了上一代流计算引擎 Storm。

通过合流式计算和状态管理两项技术,Flink 不仅提供了高性能的纯流式计算,同时也在框架层通过分布式一致性快照技术,为用户提供了数据精准一致性保证。

在这里插入图片描述 当前支持应用场景

而在批计算方面,Flink 已经完成绝大部分工作,并日益成熟。目前 Flink 已经能够完整跑通批处理标准测试集 TPC-DS,已经达到主流批处理引擎水平。

此外:Flink 在 SQL 层提供了流批一体语义表达能力,即用户可以写一套 SQL,从而同时用在实时和离线两个场景,从而得到全增量一体化的数据开发体验。

在这里插入图片描述 新功能

这几年,Flink 社区在国内外技术会议上不断宣传推广,让 Flink 得到大量采用,各种应用场景也变得更加广泛,生态快速发展。

Flink 不再仅仅是流计算引擎,而是让绝大部分数据分析师都可以利用 Flink批流一体 API 搭建实时数据集成、分析、风控和在线机器学习场景解决方案。

麦聪软件,全球领先的DaaS厂商,帮助企业构建开放体系湖仓架构,最大化支持原有数据库/数据仓库/数据湖/中台等。目前的400多家企业级客户中,30多家为世界500强集团客户。产品主要拥有统一数据管理和统一数据服务两大模块,包含构建数据资产目录,元数据管理,数据开发、数据质量、数据服务相关功能。

04总结

综上,Flink的技术是牛的,未来能发展的更好,但如果一个很好的计算引擎,没办法做到公有云厂商中立,那么在云计算市场的商业化就会难一点。

在这里插入图片描述 Databricks年度融资及估值变化

自从阿里巴巴买了Flink以后,也许最开心的就是Databricks。(19年阿里收购Flink,Databricks估值27.5亿美元,2021年其估值达到380亿美元)

大家怎么看,会建议自己的公司用Flink吗?