今日介绍一家大数据AI超级独角兽公司,以及它如何与当前生物基因组学相结合。它就是Databricks,没错,俗称“砖厂”。
Databricks简介
Databricks公司诞生于2013年,是属于Spark的商业化公司,创始人来自Apache Spark大数据处理系统的创始团队,包括加州大学伯克利分校的AMP实验室。
Databricks以Apache Spark开源技术为基础,致力于提供基于Spark的云服务,可用于数据集成,数据管道等任务。总的来说,Databricks是一家大数据基础软件公司。构建统一分析平台,致力于向Lakehouse架构(湖仓一体,即数据湖技术与数据仓库技术结合为一体)迈进。
Databricks 已经与亚马逊、Google、微软、阿里等全球领先的云服务厂商建立合作关系,合计为5000多个客户提供服务。相比于第一代表格式Hive,Databricks的Delta Lake和Apache Iceberg、Apache Hudi被认为新一代数据湖在开源表格式应用上的“三剑客”。对于其他企业而言,基于成熟的开源架构进行改造,使用社区发布的最佳工具,能够最大限度降低企业构建数据湖的成本,避免重复造轮子。
目前Netflix、Apple、AWS等主要基于Apache Iceberg,国内如阿里巴巴、字节跳动、蚂蚁、中移苏研、华为、腾讯等企业则主要热衷于Hudi,而对Delta Lake的贡献维护,81.3%都来自于Databricks。
Delta Lake的出现是本身基于湖仓架构演进而来:从最早的传统数仓(EDW),到为满足低成本存储的数据湖(Data Lake),再到如今的云原生湖仓、湖仓一体(Lakehouse),可以看到过去40年里大数据架构仍在不断演进。
那么谁能够成为当下Lakehouse架构的最早受益者?从用户侧的反馈,湖仓架构的最大短板其实不完全在于技术,如果企业对数据处理要求不高,传统的数仓就能够满足,对升级到湖仓并非迫切性需求。
Databricks的融资速度非常之快,曾在2021年连续获得两轮10亿美元级别的大额融资,估值高达380亿美元。趁着2023年AI大火的东风,Databricks 又获得超 5 亿美元融资,估值高达 430 亿美元,其中包括英伟达。不少投资人认为,上市后的 Databricks 将对齐目前市场估值 760 亿美元的 Snowflake,成为未来全球最有影响力的大数据厂商。
Databricks的成功离不开三点优势:一是产品理念上始终坚持的统一架构模式,面向数据科学、人工智能领域的不断探索;二是在开源(COSS)运营手段上的推动和北美环境的独特优势,有庞大且忠诚的开发者社区;三是基于按订阅制付费的SaaS模式,且面向多云环境提供服务。
Databricks从成立开始就坚持三个原则:All in Cloud、不做数据仓库、不做定制化和 Support。
Databricks与基因组学的结合
Databricks为商业大数据而设计,比如其数据仓库主要面向BI,而生物基因组学领域有其特定的数据格式、特点及分析要求,因此二者结合需进行一定程度的二次开发。
在主要公有云中,Databricks已经与之结合非常紧密,尤其是Azure:https://learn.microsoft.com/zh-cn/azure/databricks/。而各大云厂商,都不同程度地针对基因组数据(特别针对医疗领域)做了一些基础设施工具开发。因此,Databricks与基因组学数据是可行的。
而且,Databricks本身也是有相关基因组学工具开发的。比如在2021年,与Regeneron Genetics Center合作,目标是通过为社区构建下一代基因组学数据分析工具来推进研究。它们从 Hail、Plink 和 bedtools 等生物信息学库中汲取灵感,并结合了用于大规模数据处理的一流技术,如Glow现在的计算效率是行业领先的遗传关联研究工具的10倍。
如何在Databricks上做GWAS?具体可查看其官网案例:
一点思考
医学开始应用,那农业育种能用上类似Databricks的大数据、云计算和AI产品吗?国外应该有,但绝不是仅仅在育种这么小的环节上用,必然要扩展到种植管理、农业服务等上下游产业链来进行,这样有效数据量才能上来。
国内从短期看,还是很难应用的。一是中国的农业育种实在太穷了,连测个芯片都没几家公司愿意花钱,更别提高深度重测序和高通量表型。这些数据量尚且达不到这种平台需要的资源,如果没有源源不断的数据流入和治理,云计算AI根本无用武之地,甚至cover不到成本。不是不行,时候未到。什么时候头部几家大厂开始有意识尝试了,也许育种智能化和工业化就来临了。然而,当真正到应用了才布局时,兴许已晚,这就看大家有没有魄力投入提前布局。
参考资料
播客“What's Next | 科技早知道”客座主播徐皞对Databricks 华人联合创始人辛湜(Reynold Xin)分别于2022和2023年做过两期采访,比较深入地交流了Databricks的方方面面,包括近期流行的AIGC,非常值得收听。
- S6E06 硅谷徐老师|对话Databricks联合创始人Reynold Xin:380 亿美元估值背后的长期主义
- 超级独角兽 Databricks 联合创始人:从对决 Snowflake,到人类如何与 AI 共存 | S7E21 硅谷徐老师
其他参考资料:
作者:生物信息与育种,若要及时了解动态信息,请关注同名微信公众号:生物信息与育种。