A800和H800都支持NVLink,但其具体实现、带宽和用途与之前的消费级(如RTX 4090)和数据中心级(如A100)GPU有显著不同。

下面进行详细解释:

1. 核心区别:A800/H800的NVLink是“节点内”互联

由于美国出口管制法规的限制,A800和H800的NVLink互连带宽被特意降低,并且禁用了通过NVLink进行多节点(服务器间)直接互联的能力

  • A100(上一代): 每个GPU有12条NVLink链路,总带宽为600GB/s。并且可以通过NVSwitch芯片,将多个服务器(最多256个GPU)的NVLink连接成一个巨大的融合网络(这就是NVIDIA的NVLink Switch System)。
  • A800/H800(受限版): 每个GPU的节点内NVLink带宽被限制在400GB/s。更重要的是,它们无法使用NVLink进行节点间的直接通信

2. A800 和 H800 在NVLink上的侧重点

虽然都受限制,但A800和H800的设计目标不同,导致它们在NVLink的配置上也有所差异。

NVIDIA A800
  • 定位: A100的“合规版”,主要用于AI训练和推理
  • NVLink配置: 和A100一样,在单个服务器节点内(例如DGX A800服务器有8颗A800 GPU),通过NVSwitch芯片全互联。每颗A800 GPU与节点内其他所有GPU都有400GB/s的高速带宽。
  • 用途: 这使得在单台服务器内进行大规模模型训练(如大语言模型)时,GPU之间可以极高效地通信,例如在模型并行或数据并行中交换梯度、参数等,不会因为PCIe带宽瓶颈而成为性能瓶颈。
NVIDIA H800
  • 定位: 专为大规模AI训练和HPC(高性能计算) 优化,是H100的“合规版”。
  • NVLink配置: H800使用了更先进的NVLink Chipset。在节点内,其互联带宽和拓扑结构比A800更强大。
  • 关键特性: H800支持第四代NVLink,尽管节点内带宽也被限制,但其架构更先进,为未来的扩展留下了空间。它的核心价值在于其NVLink Network能力,但受法规限制,其节点间互联是通过专用网络适配器实现的,而不是原生的NVLink。

3. H800如何实现多节点扩展?

既然H800不能直接用NVLink连接多个服务器,NVIDIA是如何解决多节点扩展问题的呢?

答案是:借助专用的网络适配器和交换机

  • InfiniBand: H800平台通常配备ConnectX-7网卡和Quantum-2 InfiniBand交换机。这提供了高达400Gb/s(未来可达800Gb/s)的网络带宽,并支持NVIDIA的Sharp™ 网络内计算技术,能大幅降低All-Reduce等集合通信操作的开销。
  • Ethernet: 同样,也可以通过Spectrum-4以太网交换机提供高速以太网连接。

虽然这不如A100/H100上原生的NVLink-over-Fabric那样直接,但通过优化的软件栈(如NCCL),H800集群仍然能实现非常高效率的多节点并行计算。

总结对比

特性

NVIDIA A100

NVIDIA A800

NVIDIA H800

节点内NVLink带宽

600 GB/s

400 GB/s(受限)

400 GB/s(受限)

节点间NVLink

支持(通过NVLink Switch)

不支持

不支持

多节点扩展方式

NVLink网络或InfiniBand/以太网

InfiniBand/以太网

InfiniBand/以太网

主要用途

通用AI/HPC

单节点/小规模AI训练推理

大规模AI训练和HPC

结论:

A800和H800确实支持并使用NVLink,但这是在单个服务器节点内部。它们利用NVLink在节点内实现GPU间的超高速通信,以支撑大规模模型训练。

而对于连接多个服务器节点构成超大规模集群,它们无法使用原生的NVLink,而是转而依赖高性能的InfiniBand或以太网网络。这是为了在遵守出口管制法规的同时,仍然为中国市场提供强大的AI计算能力。