数据智能产业创新服务媒体
——聚焦数智 · 改变商业
前言
现在人们谈论大数据,常常会从新世纪的谷歌三篇论文开始,其实大数据这词很早就出现了。早在1980年,美国未来学家托夫勒的著作《第三次浪潮》中就提到了大数据,并且判断:大数据将是人类第三次信息化革命浪潮中的华彩乐章。当然,那个时代的大数据只是专家学者笔下一个名词,和现代人们生活、工作息息相关的大数据技术还有很大差距。
直到互联网的普及,互联网公司在面对海量数据要处理时,才出现了大数据技术,才有能力处理大规模数据。而这段历史离不开一个公司、一个人和一个产品:Google、Doug Cutting、Hadoop。
另外说明一点,虽然人们现在常说的Hadoop更多是指大数据生态技术,而不单纯只是Hadoop本身,但本文主要简单介绍Hadoop产品本身及其商业发展。
大数据定义
大数据到底是什么?其实到现在为止也没有一个明确的含义,虽然有众多机构组织给出了定义。看几个比较流行的:
- 维基百科
规模庞大、结构复杂,难以通过现有商业工具和技术在可容忍的时间内获取、管理和处理的数据集。
- 美国国家标准技术研究院(NIST)
传统数据架构无法有效地处理新数据集,具有规模巨大(Volume)、种类繁多(Variety)、增长速度快(Volocity)和变化频繁(Variability)的特征,且需要一个可扩展体系结构来有效存储、处理和分析的广泛的数据集。
- IBM
数量(Volume)、速度(Velocity)、多样性(Variety)和可变性(Variability)、价值(Value)等特征,也就是大数据的“5V特性”。
- Oracle
大数据指快速 (Velocity) 涌现的大量 (Volume) 多样化 (Variety) 数据,其特性可简单概括为 3V。
从上面众多的大数据定义中,虽然都没有给出明确的定义,但对大数据可以得到几个特征:
- 大量(Volume):分析数据的大小和数量
- 低价值密度(Value):从业务的角度来看,这是最重要的“V”,大数据的价值通常来自洞察力发现和模式识别,从而带来更有效的运营,更牢固的客户关系以及其他清晰可量化的业务利益
- 多样(Variety):不同数据类型的多样性和范围,包括非结构化数据、半结构化数据和原始数据
- 高速(Velocity):公司接收、存储和管理数据的速度, 例如,在一天、一小时或其他单位时间内收到的社交媒体帖子或搜索查询的特定数量
- 真实(Veracity):数据和信息资产的“真实性”或准确性,通常决定高管级别的信心
理论依据
今天我们今天常说的大数据技术,它来的理论基础起源于Google在2004年前后的三篇论文,也就是我们经常听到的大数据技术“三驾马车”:
- 新的文件系统 -- Google File System
- 新的计算模型 -- Google MapReduce
- 新的存储架构 -- Google BigTable
这三篇论文网上有非常丰富的解读,这里就不再赘述,只简单罗列三篇论文与Hadoop生态中的组件对应关系:
产品历程
早期
在大数据的发展历史上,绕不过Doug Cutting。Doug是Apache Lucene、Nutch、Hadoop、Avro项目的创始人,为Apache社区作出了重要贡献。另外,Hadoop是Doug Cutting儿子一个玩具大象的名字。
上世纪90年代,全球互联网呈爆炸式增长,“网页搜索”成为当时热门领域。1998年,Doug开始研发Lucene项目,这是一个开放源代码的全文检索引擎的库,提供了完整的查询引擎和索引引擎。它主要解决这类场景问题,假如有1000篇文章,给一个关键词“李白”,从中搜索出包含关键词“李白”的文章。这就是在搜索领域里典型场景,Lucene就是为了解决了这个问题(当前大火的搜索引擎Elasticsearch数据库也是基于Lucene来实现的)。千禧年后,Doug开始研发Nutch项目,用于爬取整个互联网信息,配合Lucene对爬取的结果建立索引,从而提供互联网搜索服务。然而,在面对海量互联网数据需要存储和计算时,Doug变得一筹莫展。
一个人的成功固然离不开个人的努力,但也要考虑历史的进程,在互联网大时代背景下,踩在大型组织的肩膀上,一代大数据宗师Doug走出了一条康庄大道。2004年,搜索领域的新兴霸主—— Google 发表《The Google File System》论文,介绍了 Google 内部对分布式文件系统存储的理解以及实现方式。在GFS的指导下,Doug在Nutch项目中实现NDFS(Nutch Distributed File System 分布式文件存储系统),后来它有个更响亮的名字——HDFS(Hadoop Distributed File System)。之后,Doug又在 Google MapReduce 论文的基础上实现了Nutch 的分布式计算MapReduce模型。
时间到了2006年,Doug Cutting 将Nutch 项目中大数据分布式组件分离出来,启动了一个独立的项目,这就是后来赫赫有名的 Hadoop 产品。主要包括Hadoop 分布式文件系统 HDFS 和大数据计算引擎 MapReduce 。同年,另一个搜索巨头 Yahoo! 开始全面转移到Hadoop阵地,并聘请Doug作为架构师。
成长
新生事物的成长通常是螺旋式的,Hadoop亦是如此。早期的版本Hadoop并不容易运维和使用,比如进行大数据的逻辑计算 MapReduce 就需要使用者通过开发语言去实现逻辑,与标准的数据库SQL语言无法统一。于是在2008年,当时的互联网巨头 Yahoo! 开发了一个新的系统——Pig。它是一个基于类 SQL 语句的脚本语言,通过编译可以直接生成MapReduce所需的逻辑程序,从而在 Hadoop上运行。相比于通过开发语言编写MapReduce简单许多,但是使用者还是要学习这种新的类SQL脚本语言。
几乎同时,另一家互联网新贵Facebook,也加入到使用Hadoop阵营,还是为了实现对接标准SQL,他们开发一种新的分析工具——Hive。此后,只要会写SQL就能直接使用大数据平台,这大大降低了使用的门槛,同时推动了大数据技术的发展。
另外,早期Hadoop版本MapReduce既是执行引擎又是资源调度框架,这使得MapReduce非常臃肿,也不利用服务器资源的复用,将执行引擎和资源调度分离似乎更合理,这就是后来的Yarn。2012年,Yarn成为一个独立的项目开始运营,随后被各类大数据产品支持,成为Hadoop平台上最主流的资源调度系统。
到此,Hadoop基础四大组件成型:分布式文件系统HDFS、分布式计算模型MapReduce、作业调度与集群资源管理的框架Yarn、工具模块Common。
完善
还是2012年,UC 伯克利一位博士,在使用 MapReduce 进行大数据实验计算时,发现实时性能非常差,不能满足实时计算需求。为了改进,于是开发出了性能卓越的替代产品——Spark 。由于它在大数据实时计算性能的表现,一经推出就受到了业界的认可。
此外,在2010年之后诞生于社区的 HBase、Storm、Sqoop、Flume、Oozie等组件,这时的Hadoop已经从传统的Google 三驾马车GFS、MapReduce 、BigTable ,发展为几十个相关组件的庞大生态,也迎来了Hadoop生态商业化的春天,然而谁也没有想到它的春天短暂且不美丽。
Hadoop生态部分组件
商业化
Hadoop 生态体系里曾经出现过三家商业化公司。早在2008年,Cloudera成为第一个Hadoop商业化公司。次年,便发布Hadoop首个发行版——CDH(Cloudera's Distribution including Apache Hadoop)。之后获得多轮融资,期间2014年获得Intel7.4亿美元的投资,估值到达41亿美元,到达顶峰。同年,另一家成立于2011年也是基于Hadoop的创业公司——Hortonworks成功上市,市值达20亿美元。这年两家公司市值合计达61亿美元,成为了 Hadoop 生态的商业高光时刻,然而谁也没有想到这是出道即巅峰。
此后数年,Hortonworks的股价一路下跌,Cloudera 则在2017经历一场堪称流血的上市。上市估值仅为19亿美元,近乎腰斩的低于英特尔三年前投资的估值。残酷的资本市场似乎并不关心大数据概念有多火,更看重商业公司是否有高速增长的业务。
一年后的 2018 年,Hortonworks和Cloudera宣布合并,试图挽回发展的的颓势,合并时总市值为52亿美元,远不如比2014年的高峰时刻。合并后的Cloudera宣称其年收入有望达到 10 亿美元,但不幸的是,一直到去年(2021年)退市,年收入才勉强达到8.8亿美元,而亏损依旧接近2亿美元。这离18年的的目标相差甚远,Cloudera的转型道路将艰难而漫长。
2021年Cloudera完成退市,此时市值仅剩47亿美金,这还包含了合并Hortonworks的市值,但也才仅仅和 7 年前特尔投资Cloudera时的估值相近,这真是南柯一梦。
除了 Hortonworks、Cloudera 之外,另一家Hadoop 生态体系的公司叫MapR。他成立于2009年的,也没有逃过经营惨淡的命运,因为长期无法融到资金,在2019年就经历了一系列裁员后卖身于HPE。
回顾这三家公司可以称之为惨淡的商业命运,再对比兴起于云计算时代Cloud Native 大数据平台--Snowflake & Databricks,其中Snowflake 2021年底市值一度突破1200亿美元,未上市的Databricks今年获得16 亿美元 H 轮融资,最新估值到达380亿美元。这之间的差异值得国内各数据库商业厂家深思。
未来发展
总结Hadoop过去,它的成功主要有两点:一是从技术上开创了分布式计算时代,二是Apache基金会和Hadoop蓬勃的开源社区。虽然现在很多人认为,Hadoop最大的竞争对手是Spark。DougCutting也曾表示:Spark的确在MapReduce方面比Hadoop拥有更强的性能。但Hadoop是包括分布式文件系统(HDFS)和任务调度(YARN)等众多组件系统,而Spark仅仅是替代了MapReduce计算模型,他们并不存在竞争关系,而是互相融合、促进的发展。
大数据的时代才刚刚开始,人类只是刚刚意识到了大数据的重要性,而大数据技术本身的发展和完善仍然还要走很长的路。而对于像Cloudera这样以Hadoop为基础的,在大数据领域取得先发优势的企业来说,无论是大数据还是开源社区,它故事才知是刚刚开始,未来仍旧不可估量。
引用
Oracle :What is Big Data?
NIST:Big Data Information
IBM :The 5 V’s of big data
https://www.databricks.com/speaker/doug-cutting
Apache Hadoop - Wikipedia