生成式人工智能的下一代基础设施是集群系统_数据中心

生成式人工智能的下一代基础设施是集群系统_数据中心_02

生成式人工智能的下一代基础设施是集群系统_解决方案_03

GenAI 的存储和网络

本研究报告探讨了生成式人工智能 (GenAI) 在转变人工智能数据中心方面的关键作用。强调了存储和网络在支持人工智能/机器学习工作负载方面的重要性。

我们强调需要高容量、经济高效的存储,以处理不同数据处理阶段的不同 I/O 模式。

还讨论了检索增强生成 (RAG) 及其存储影响的日益增长的相关性。我们研究了从专有高性能 Infiniband 到行业标准以太网的转变,强调了以太网的可扩展性和性能改进。

我们将总结一下,确定组织在构建人工智能数据中心时面临的关键挑战,例如为加速器提供数据、保护数据和大规模管理数据,并强调集成、优化的基础设施解决方案的重要性。

AI 数据中心的未来:为 GenAI 工作负载集成高级存储和网络

人工智能 (AI) 和机器学习 (ML) 已达到关键点,对现代数据中心的设计和运营产生了重大影响。生成式人工智能 (GenAI) 代表了一次重大飞跃,需要在计算能力、网络和存储方面提供大量基础设施支持。

本文概述了存储和网络在人工智能数据中心中的关键和不断变化的作用,并提供了克服与这些基础设施相关的独特挑战的见解。

存储在人工智能数据中心中的作用

AI 和 ML 工作负载本质上是数据密集型的,因此需要能够容纳大量数据和多样化 I/O 模式的强大存储解决方案。AI 数据中心存储的以下关键方面至关重要:

数据积累和提取:人工智能模型需要大量数据,通常来自全球。高效且经济高效的存储解决方案对于处理数据提取的规模和协议至关重要。

预处理:此阶段涉及清理和格式化数据,这既需要大量读取,也需要大量写入。高性能存储系统必须有效地支持这些操作。

训练:训练模型是一个读取密集型过程,但训练期间的检查点可能高度写入密集型。存储系统必须无缝管理这些需求以避免瓶颈。

推理:在推理过程中,模型被加载到 GPU 中,需要快速的高读取密集型访问和高吞吐量。创建大型模型存储库并支持频繁的模型加载和卸载至关重要。

RAG(检索增强生成):RAG 通过使用来自矢量数据库的动态数据增强模型,带来了新的存储挑战。这需要快速数据处理 (xPU) 和频繁嵌入新数据的能力,以保持模型准确性。

网络从 Infiniband 向以太网的转变

传统上,Infiniband 因其低延迟和可扩展性而成为高性能存储的首选网络解决方案。然而,最近的进展已将以太网定位为可行的替代方案:

性能奇偶校验:以太网已经发展到与 Infiniband 的性能相匹配,使其适用于高性能 AI 数据中心。

企业采用:随着 HPC 环境变得更加面向企业,以太网在企业网络中的主导地位推动了其在 AI 数据中心的采用。

可扩展性和灵活性:以太网的可扩展性和通过 RDMA 等协议支持 GPU 到 GPU 通信的能力使其成为现代 AI 工作负载的首选。

云集成:许多超大规模和私有云提供基于以太网的解决方案,促进人工智能数据中心的无缝集成和可扩展性。

构建AI数据中心的挑战与解决方案

构建人工智能数据中心面临着几个需要从战略上解决的挑战:

供给加速器:确保 GPU 和其他加速器高效地供给数据需要高性能的存储和网络解决方案。

数据安全:保护敏感数据至关重要,需要在存储和网络基础设施中采取强大的安全措施。

大规模数据管理:管理全球和混合环境中的大量数据需要能够有效处理数据移动和处理的高级数据管理解决方案。

避免常见陷阱:事后再考虑存储和网络可能会影响 AI 数据中心的性能。集成、优化的基础设施解决方案对于最大限度地发挥 AI/ML 工作负载的潜力至关重要。

GenAI 数据中心的未来在于先进存储和网络解决方案的无缝集成。通过解决 GenAI 工作负载带来的独特挑战并利用以太网技术的最新进展,组织可以构建强大、可扩展的 AI 数据中心。

存储和网络提供商之间的协作努力(以大型公共云提供商不断演变的角色、新的计算架构以及存储和网络提供商之间的合作伙伴关系为例)对于推动这一发展并为优化的 AI 基础设施设定行业基准至关重要。

TheCUBE 研究建议

为旨在优化其 AI 数据中心的组织提供了一系列战略建议。

综合规划:组织在设计 AI 数据中心时应从一开始就考虑存储和网络要求。

采用以太网:利用以太网的进步可以提供适合人工智能工作负载的可扩展且灵活的网络解决方案。

高性能存储解决方案:投资能够处理不同 I/O 模式并支持快速数据处理的存储系统至关重要。

协作努力:集成计算、存储和网络组件的行业协作和参考设计可以为 AI 数据中心提供优化的解决方案。

通过了解下一代需求,组织可以构建 GenAI 数据中心,它不仅能够处理当前的工作负载,而且还具有可扩展性和适应未来 AI 和 ML 技术进步的能力。