「有时,表达自己的意见,即使可能是错的,也比转述别人的真理要更有意义」 —— 陀思妥耶夫斯基

就在本月,大数据行业的一个标志性事件:Cloudera于10月8日正式宣布完成了从纳斯达克摘牌和私有化退市。这家曾在开源 Hadoop 大数据生态下风光一时的开源商业化公司,如今要面对那条再无波澜的价格曲线,想来应是无奈而不甘的。

黯然退市的 Cloudera, Hadoop的未来何去何从?_cloudera

无奈的是,退市当日Cloudera市值只剩 47亿美元,才与2014年 Intel 投资时的估值相当,七年南柯一梦;不甘的是,去年刚上市的另外一家大数据公司SnowFlake 的一千亿美元,与小弟惊人的市值相比,差了近20倍。凭什么?

黯然退市的 Cloudera, Hadoop的未来何去何从?_big data_02

要知道在当初,言大数据必言Hadoop。但即使是 Hadoop 在概念上几乎等同于大数据的时代里,也依然没能让 Cloudera 走向辉煌,仅如一颗流星划过了行业的天空,空留一声惆怅。到底问题出在哪里?

商业的本质其实很简单:收入增长和盈利的能力。而对于这两项的能力缺失,应是 Cloudera 的残酷现实。

自创立至今,Cloudera 既不能证明自己快速增长,也不能证明自己很好的盈利,自然就不受资本市场待见。且让我们来回顾下,这几年 Cloudera 在收入和盈利的泥潭里经过的一番挣扎。

Cloudera 成立于2008年,随后发行了第一个 Hadoop 集成版本 CDH。CDH 产品以企业版收费和开源版免费的方式拓展业务。2014年获得了 Intel 公司7.4亿美元的投资,估值高达 41 亿美元。就在同一年,Hadoop 体系下的另一家完全开源的软件,以服务收费的 Hortonworks 成功上市,市值达20亿美元。当时,两家市值合计达61亿美元,成为了 Hadoop 生态的历史高光时刻。

但随后的形势转变却让整个行业大跌眼镜,Hortonworks的股价一路下跌,而 Cloudera 则在2017则经历一场称为流血的上市。上市估值为 19亿美元,远低于英特尔三年前投资的估值,近乎腰斩。这一切说明不管大数据多火,但这两家公司事实上的业务增长却如此无力。

黯然退市的 Cloudera, Hadoop的未来何去何从?_cloudera_03

仅一年后的 2018 年,这对难兄难弟就宣布合并以试图挽回发展的颓势,合并时总市值为52亿美元,比2014年的高峰时刻已经低出近10亿美元。合并后的Cloudera 一度宣称其收入目标有望达到 10 亿美元,但不幸的是,直到这个月完成退市时,年收入才到 7.8 亿美元,而亏损依旧严重 1.56 亿美元。这离当初的目标相差甚远,而可以预期的转型道路将艰难而漫长。

到了Cloudera宣布完成退市时的市值仅剩47亿美金,这其中还包含了合并 Hortonworks 的市值,也才仅仅和 7 年前当初因特尔投资时那个 Cloudera 的估值相近。这真是一场游戏一场梦,游戏结束了,梦却还在原地打转。

而 Hadoop 生态体系里一度曾经出现过三家商业化公司。除了 Hortonworks、Cloudera 之外,还有一家公司叫 MapR。但MapR 也没有逃过经营惨淡的命运,因为无法融到资金,早在2019年就经历了一系列裁员后不得不卖身于 HPE 而收场。

黯然退市的 Cloudera, Hadoop的未来何去何从?_大数据_04

对于这三家公司的惨淡命运, 我们不禁想要进一步深究:这是 Hadoop 生态的一场技术失败,还是 Hadoop 生态的商业化失败?

让我们先来看看 Hadoop 体系:它是一个开源组件生态系统,一套技术工具集的总称。最初改变了企业存储、处理和分析数据的方式,主要包含分布式文件存储(HDFS)、资源调度(Yarn)和计算(MapReduce)等技术功能,随着技术的演进,组件也随后越来越多,变得相当复杂。

如果仅从技术的角度来看,Hadoop 让 Cloudera 身处尴尬的境地,应当说

还是存在一定的责任的,主要是技术的局限性和生态的复杂性。


1.Hadoop 的技术局限性:

作为当初从互联网技术领域中出生的Hadoop 技术,对于那些结构单一但交易海量的典型互联网交易数据,的确有着突出的技术优势和成本优势,比如 Facebook、百度、雅虎,都使用 Hadoop 技术进行数据处理等工作。但一旦面向企业级市场时,由于企业中复杂的业务、数据结构及数据,Hadoop 想要全面替代传统的数据仓库,无疑是单薄和力不从心的。

  1. Hadoop 开源生态的复杂性:

作为一项开源技术,虽然免费下载,但 Hadoop 本身却很复杂,对于许多有大数据处理需求的公司来说,让 IT 部门基于 Hadoop 进行开发的成本太高,难度也太大。一个Hadoop生态里的开源项目多达几十个,这对于开源社区治理的挑战无疑是巨大的。


对于一项生意来说,如果要保证商业上的成功,技术确实是重要的,但技术却绝不是唯一重要的。我们观察到,依赖于 Hadoop 开源生态的 Cloudera 遭遇的困境,除了技术之外,更有其业务模式上的致命弱点。

开源是一种哲学和开发模式,对于有些人而言,开源甚至接近于宗教的精神信仰,但开源并不能保证你能获得足够多的资金来发展和维持你的产品。开源如何发展生意,让企业能盈利,基本上有两条路可选:服务型公司或者软件型公司。但还得找到一个可以让用户付费的方式:可持续的技术服务费或者软件订阅费。

  1. 未能建立清晰而坚定的业务模式

Cloudera 原有的发行版 CDH,分为社区免费版和企业版,其基础软件包是开源 的,工具是专有的,面向使用大数据的业务人员。企业版在3个月的试用期后,需按照部署节点的数目按月交费。而 Hortonworks 是一个纯粹的开源公司,提供全免费的开源版,面向大数据技术专家通过收取会员技术服务的方式来运营。

合并后的 Cloudera 面临着其原有业务模式和 Hortonworks 的模式的不同,虽然在2019年宣布将它所有的产品的许可都改成了遵循 AGPL 和 Apache 2.0 许可模式,但在过程中,由于业务模式摇摆不定而错失宝贵的机会。

  1. 未能及时而正确地理解云商业

一是没有及时而坚决地向云转型,二是在面临公有云产商的竞争时,没有有效利用许可模式来狙击云厂商。

Hadoop 的问题在于虽然人们可以自由下载,但它非常复杂。因为复杂,让 Cloudera 有了市场的机会,构建了 Hadoop 的集成发行版,但它却一直沉溺于用传统的方式做成安装包来试图减轻用户使用的复杂性。而随着云服务的崛起,基于云的大数据解决方案越来越多,并一定程度上体现了更高的效率,让 Cloudera 的推出 Hadoop 系统慢慢变成了不是那么非有不可。

而云计算的侵蚀让 Cloudera 陷入困境的另一个原因。虽然它自第一天上市时就意识到了它的竞争对手来自 AWS 云服务和 Microsoft Azure 这样的公有云巨头,但其自身在转型的过程中却拖泥带水。而当面临那些云巨头的竞争时,由于 Hadoop 的开源许可采用 Apache 的开源许可证,导致它不能像 MongoDB 这样的开源数据库公司在同样面临云厂商的竞争时可以更容易修改开源许可证来阻击公有云厂商的竞争。

  1. 未能清醒和理智地避开资本高估值陷阱

有首流行歌曲唱到,“你是我血液里的毒,思念让我穿肠破肚,你已不会站在我的角度,想我承受这爱你的苦” 。这几句歌词非常形象地描绘出了高估值就是 Cloudera 血液里的毒,被过分宣扬的 Hadoop 大数据技术让它穿肠破肚,一待各路资本入局,就已经根本不会站在它的角度,只让它最后承受成长的痛苦。

黯然退市的 Cloudera, Hadoop的未来何去何从?_hadoop_05

如今,退市的 Cloudera 虽然处境尴尬,但依旧负重前行。试图从伤痛中重振的 Cloudera 对自己的转型这样来定位:依托开源社区的创新推动,致力于为全球最大的企业用户提供企业数据云,赋能用户将复杂数据转化为数据洞察和智能应用,从 Edge 到 AI。我们依稀可以见到,在时代的滚滚洪流面前,开源大数据发展那若隐若现的走向和趋势,但愿明天美好如是。

不过我们始终相信:

开源,可以让今天不可能的事情,也许在明天成为可能。

  • End -