Daniel Avancini 通过概述数据堆栈的历史和现代数据堆栈的特征,提供了一些关于现代数据堆栈的意义的见解。
译自What Does the Modern Data Stack Actually Mean?,作者 Daniel Avancini。
如果你要列出人们喜欢到处乱用但通常难以精确定义的 IT 流行语,现代数据栈将是一个不错的候选词。尽管现在有很多关于为了更有效地处理数据而对数据栈进行现代化的重要性的讨论,但对于组织来说,确切了解现代数据栈是什么样子——或者它与传统数据栈有什么不同——可能非常具有挑战性,因为他们正在寻求对其数据方法进行现代化。
我不能声称自己是现代数据栈官方定义的仲裁者,因为没有官方定义。最终,这是一个有点主观的概念。但作为在现代数据管理领域拥有丰富经验的人,我想我认为我对过去十年左右数据栈的演变以及真正定义现代数据栈的内容略知一二。
因此,请允许我通过概述数据栈的历史,然后讨论现代数据栈的关键特征,提供一些关于现代数据栈实际含义的见解。
数据栈的(非常)简史
数据栈是一组工具,组织使用这些工具来收集、处理、分析、解释和存储数字信息。由于企业一直在处理数字数据很长一段时间——在许多情况下,至少可以追溯到 1980 年代或 1990 年代——因此数据栈已经存在了一段时间。
在数字数据的早期,大多数数据栈都采用平台的形式,这些平台被设计为端到端的数据收集、分析和存储解决方案。这些通常是在本地运行的解决方案,并且需要大量特定技能来管理。
然后,在 2000 年代,组织开始转向云端,这导致了他们开发和部署软件的方式发生快速转变。然而,数据栈落后了。许多公司在 2010 年代的大部分时间里仍然依赖于传统的本地数据平台。
这种情况只是缓慢且渐进地发生了变化,公司逐个地用更现代的数据栈替换其传统解决方案。在典型的组织中,走向现代数据栈的旅程始于实施数据仓库,这使得数据存储更加灵活和可扩展。然后是基于云的数据处理工具,它使组织摆脱了对本地基础设施的依赖,从而进行数据转换和分析。最终,基于云的数据编目、可见性和治理解决方案开始广泛使用,完成了向完全现代数据栈的迁移。
现代数据栈的定义特征
现在你已经了解了导致许多组织实施现代栈的历史过程以及现代数据栈包含的关键工具类型,让我们来谈谈是什么让这种解决方案不同于“非现代”数据栈。
对我来说,现代数据栈的关键区别特征包括:
- 模块化选择工具的能力:现代数据栈让组织可以混合和匹配解决方案,而不是依赖于特定供应商的端到端数据管理平台和生态系统。例如,你可以使用一家公司的仓库和另一家公司的处理工具。
- 以云为中心架构:在现代数据栈中,数据默认情况下在云中生存和管理。当然,本地工作负载也受支持,但云是事实上的重点。
- 敏捷流程:与现代软件开发类似,敏捷理念已占据主导地位数十年,推动数据管理的流程是敏捷的、灵活的和迭代的。
- 协作:类似地,现代数据栈支持协作方法,让多组利益相关者可以使用中央工具集处理数据。这支持DataOps,这是数据管理世界对 DevOps 的看法。
数据栈的未来
这些是让现代数据栈对当今企业如此有价值的特征——它们解释了为什么,尽管有一些声称现代数据堆栈变得无关紧要(很大程度上是因为生成式 AI 会让以传统方式管理和解释数据变得不那么重要),但我们所知的现代数据堆栈不太可能很快消失。
相反,在我帮助企业实现数据堆栈现代化的工作中,我看到企业对现代数据堆栈技术的投资兴趣稳步增长。生成式 AI 可能很时髦,但数据仓库、处理、可视性和治理解决方案才是企业实际花钱的地方。
结论
在某种程度上,现代数据堆栈的含义取决于观察者的角度。尽管如此,现代数据管理和治理工具与过去几十年使用的工具之间还是有一些明显的区别。从这个角度来看,现代数据堆栈不仅仅是一个流行语。它是帮助企业利用数据做更多事情的重要因素。
本文在云云众生(https://yylives.cc/)首发,欢迎大家访问。