“如坐针毡,如芒在背,如鲠在喉”也许是对当前美国对中国芯片限制最恰当的形容。

美国每次意识到需要对大规模并行计算引擎实施出口管制,以阻止中国购买此类设备并用它们构建超级计算机,运行高级HPC模拟和AI训练工作负载时,通常都为时已晚,并且对中国的算力能力限制并没有太大影响。

华为海思距离“平替”英伟达GPU还有多远?_ci

如果目标仅仅是稍微放慢中国高性能算力的步伐,那么对于美国商务部来说,实施的出口管制可以说是成功的。

但从长远来看,美国的供应商,例如英特尔和英伟达,都被迫因为法案限制而牺牲大量收入,从而失去了对中国超级计算的了解,换来的只是中国HPC中心以及现在的超大规模和云构建者可能仅有的一两年的延迟和烦恼。

这一切是否值得麻烦?

这是有争议的,近日华尔街日报发表了一篇报道,再次引发了这场辩论。

报道说华为技术旗下的芯片设计子公司海思半导体准备在10月份推出第三代Ascend 910系列GPU,并可能在2025年向超大规模和云构建者销售多达140万个这些设备。这些公司包括百度、腾讯、阿里巴巴和字节跳动。中国的四大公司由于2022年芯片限制法案的实施和去年进一步收紧的美国出口管制,他们无法从英伟达、AMD、英特尔等公司获得完整的AI加速器。

显然,这是巨大的GPU加速器的需求市场。即使这些第三代Ascend 910C设备只提供当前的“Hopper” H100和尚未发货的“Blackwell” B100 GPU的部分算力,它们也足以在AI领域做很多有价值的工作。

华为海思距离“平替”英伟达GPU还有多远?_超级计算_02

这是因为OpenAI在两年前在8000个Nvidia“Ampere” A100 GPU的集群上就训练了其GPT 4.0模型。这意味着如果海思能够超越A100,对于中国AI研究人员来说就足够用了,只要他们有足够的电力和更多的资金来获得一定量的计算能力就能够进行他们的AI训练。

我们来回看一下这个芯片法案限制事件。

回到2010年10月,当时中国的天津国家超级计算中心的天河-1A超级计算机成为世界上最快的浮点运算器,它由国防科技大学(NUDT)创建,由14336个英特尔至强处理器和7168个Nvidia的Tesla M2050 GPU协处理器组成,这些计算引擎的峰值性能高达4.7 petaflops。

华为海思距离“平替”英伟达GPU还有多远?_超级计算_03

天河-2超级计算机坐落在广州的国家超级计算中心,也是一个混合的机器,但它由16000个英特尔至强E5处理器和16000个“Knights Corner” Xeon Phi多核加速器组成。

当中国的HPC中心决定他们将基于即将推出的更强大的“Knights Landing” Xeon Phi芯片构建一个更强大的天河-2A机器时,这让美国政府感到不安,因为许多美国的大型HPC中心也将使用这些计算引擎。因此,商务部阻止英特尔向某些中国HPC中心出售Knights Landing芯片。

因此,天河-2A机器有17792个节点,每个节点都有一个英特尔至强CPU和一个国产的Matrix-2000加速器,该加速器使用DSP阵列作为其数学引擎。这台机器在FP64精度下的峰值性能略低于95 petaflops,出口管制除了迫使中国自己做出自己的加速器之外,没有产生任何效果。

华为海思距离“平替”英伟达GPU还有多远?_ci_04

对Nvidia、AMD和英特尔加速器实施的新的出口管制,同样无法有效遏制中国的进步,并将有效地刺激本土创新。

我们将近些年被限制的GPU产品整理了一个表格,比较了Nvidia的正常A100和H100加速器与过去两年它试图销售的限制版本。出于对比,我们还将海思的Ascend 910A和Ascend 910B GPU与它们进行了比较,并对Ascend 910C可能的性能做了一些猜测。请看:

华为海思距离“平替”英伟达GPU还有多远?_ci_05

为了躲过限制,针对两年前的A800,Nvidia只做了一件事,就是将GPU内存容量减半,将内存带宽减少25%,并切换到PCI-Express 4.0接口,并限制这些设备共享内存,A800的所有其他供应和速度都与常规A100相同。虽然有人怀疑性能有所降低,但并不多。

后来推出的H100,GPU的性能在大多数指标上是A100的1.6倍到3.4倍,但Nvidia最初保持了80 GB的内存容量不变,并将内存带宽增加了64%,功耗增加了75%。

去年,针对中国有两个版本的H800。由NVSwitch链接的SXM版本在FP64精度上被限制在1 teraflops,其它没有太多其他变化。基于PCI-Express的H800版本有一些其核心被停用,因此其性能下降了,其内存带宽也被限制了39%。

美国政府在去年晚些时候决定这还不够好,并加强了限制,对计算进行了更多的限制,但让HBM内存容量和带宽上升(相当矛盾)。基于SXM2外形的H20并不特别强大,基于“Lovelace” GPU架构的L20更糟。

目前,也许这是因为海思由于美国出口法规被迫从台积电转向本土仍在学习的半导体制造公司中芯国际作为其制造厂。

华为海思距离“平替”英伟达GPU还有多远?_超级计算机_06

目前没有看到太多关于海思的“Da Vinci” GPU架构的相关细节,但我们四处打听,找到了这个图表:

华为海思距离“平替”英伟达GPU还有多远?_超级计算机_07

目前看,Ascend 910有32个Da Vinci核心,每个核心都有一个4,096 FP16 multiply-accumulate(MAC)单元的立方体和8,192 INT8以及一个可以进行INT8、FP16和FP32操作的2,048位向量单元。

看看:

华为海思距离“平替”英伟达GPU还有多远?_超级计算机_08

有了台积电的N7 7纳米工艺的合理产量,Ascend 910A系列在能够交付30到32个这样的Da Vinci核心,这还不错。

但随后华为海思不得不转向中芯国际作为其铸造厂。根据各种报告,SMIC 7纳米工艺的产量大幅下降,即使核心数量和时钟速度有所增加,也很难提高性能。但在顶级部分,海思做到了。

我们认为Ascend 910B可能是一个6x6的Da Vinci核心网格,总共36个核心,而如今有20到25个核心的产品显示出非常低的产量。但我们认为,随着今年晚些时候推出的Ascend 910C,可能会在设计中增加两个HBM内存库以及更好的产量,以回到五年前的原始海思GPU所宣传的32个核心。

当然,这都是猜测。

但毫无疑问的是,受限制的Hopper GPU和Nvidia正在开发的潜在限制的Blackwell GPU在规格方面将无法与Ascend 910C很好地竞争。但这一切都看Ascend 910C的产量、定价、可用性和需求。我们在下半年很快就会有结果。

毫无疑问,中国可以轻松消费数百万的Ascend 910C加速器。但中芯国际能制造它们吗,价格是多少?如果不是,对于许多客户来说,Nvidia的H20或B20,甚至L20可能将是合适的代餐。

有趣的一点是:如果没有美国政府实施的出口管制,Nvidia今天在中国将几乎占有所有的GPU业务,就像它在世界其他地方一样。这些收入将回流到美国,被征税,中国公司将购买Nvidia GPU,尽管中国希望企业支持本土IT供应商,但考虑到所有的硬件和软件的情况,在大多数情况下Nvidia GPU是最容易且是最佳的选择。

在某种程度上,可以说美国正在玩火。无论如何限制,中国最终会都会得到它想要的,Ascend 910C很可能成为Nvidia GPU在中国的平替产品。

————END————