好多写AI会导致电力匮乏的消息,不绝于耳。然而大部分只能知其然,却不能知其所以然,为什么缺,怎么缺,缺多少,没什么答案也没什么可参考的。
我关注一个事情,一般先了解一下论点,然后重点看论据,最后再自己论证合理不。今天这篇文章主要聊一下数据层面上是谈一谈AI如何导致电力的供给紧张,以及业界的一些潜在的解决办法。
首先为什么缺?从国外的角度讲,如果现在新建AI算力中心,不太可能买B200,也不太可能买A100,基本主力是买H100。
这种卡我现在手里有10块
,虽说是PCIE的
一块H100的峰值功率一般大概在700W,我的是PCIE所以是400W
H100 2023年底全球销量50万块卡左右,2024年估计要翻到150万块到200万块左右。
如果H100都按SXM来算(实际上大多数买的也是SXM,要不也不会给我PCIE免费玩
)然后按着百分之60的年利用率做一个简单的乘法,可以算出来一年的耗电量是5,500G瓦时左右,也就是5.5TWh
5.5TWh是什么概念呢?立陶宛这种东欧国家一年的电量消耗是10多TWh,而我的统计口径还是按着保守估计2024年销售150块H100的方法来统计,随着产能爬坡,基本H100出了就被收走,如果2024年底,产能跟得上很有可能再翻一番达到300万片,届时H100一款产品的电力消耗就可以抵得上一个东欧国家所有生产生活的电力消耗,这还没统计跟GPU一起工作的CPU,内存,硬盘和相关的空调系统的耗电量。这个电力消耗也基本上在全美电力消耗排行城市榜能排进前5左右。
说回现实,以美国举例,即使现在没有把所有H100都部署起来的情况下,2022年的全美数据中心的用电量,已经占到了美国全国用电量的2.5%, 130TWh左右。接着拿国家或者城市做比,就相当于纽约市的用电量。
未来5-10年呢?乐观估计在AI开始全面部署的时候,大概可看见的未来,有3-5个纽约市的用电量的窟窿需要弥补。
来自波士顿咨询的预测,由于GENAI爆发式的增长,到2030年底,DC的电力消耗将由现在的2.5%的一个纽约市长到3个纽约市的电力消耗情况。相当于4千万个美国三口之家的用电量的之和。
这可能都是乐观估计了,因为报告是2023年9月的,我估计它现在在预测可能10几个百分点也有可能的。
这些虽然都是估计,但是一个确认的事实就是AI的用电量激增基本上2到3年翻一倍是很合理的共识。
如果把TWh折合到功率来计算的话,差不多2030年要到44.5GW的DC设备同时耗电。
再给一些具象化的数据做对比:
一个中小发电站的支持能力就是几M瓦,供纽约来用的所有电站能力也就是10个左右G瓦,这就是说要长出3-5个纽约的逻辑。
刚才讲了硬件,比如GPU或者NPU,那从业务层面上看,AI是怎么耗电的呢?
ChatGPT每天消耗的电量能到50万KWh,也就是咱们常说的50万度电呗,我估计大家不老看电表走字,这里再share一下数据,美国的一个普通家庭,一天的电力消耗也就是二三十度电,老美都是用电大户啊,各种电器,也就是光ChatGPT自己就吃光了25000个美国家庭的日用电量,这还没跟你算Gemini,Claude啥的呢,当然他们用户少,也可以忽略不计
其实ChatGPT和Google 比都是小巫见大巫,Google search自己就能把电量打到29BKWh, 差不多15亿个美国家庭的用电量,美国就没有这么多家庭....
然后现在Google基本把search都加了AI能力,国内百度也在做,而另一个层面ChatGPT也在做GPT search,所以这两玩意儿叠加,简直是对现有电网的一种折磨。
X上有个帖子,传言说MS的电力工程师又测试GPT6在一个region,容易把电网搞瘫痪之类的t。这个基本上可以判断是扯淡,因为就GPT5还八字没一撇,包括IB跨region,这纯纯扯淡,就是个不懂的人在那乱high。
但是我们可以思考一个问题,为什么10万台H100会给一个州的电力系统搞崩了,有没有这个可能。
首先说没可能,因为额定供电容量,如果允许你接,就肯定可以接,如果本身没有那么大的容量也接不进去10万台,你想毁人家主干供电,可能在你DC这变压器的保险丝就烧了,所以是不可能的。
从另一个角度看这个事,10万台H100,就是70M瓦, 刚才我们聊过,类似纽约这种,它的能力大概是10几个G瓦,70M瓦其实还好,如果是缓慢增长,电网未必能干断,但是怕就怕在AI的业务形态,主要是训练这块,都是突然就曝起,然后突然就下降,因为同一时刻计算和存储只能干一个事,计算的时候总耗电量刷就上去了,存CKPT的时候瞬间就下来了,或者如果在微观细分一下,attetion层和MLP层消耗的电量都不一样...
这种超大规模的抖动,一般的现有电力系统是吃不消的,目前看,我拿到的信息,没有特别好的解决办法。导致电网的稳定性特别差,而我们传统一样上的DC,它都是基本很稳定的用电态势,最多是白天和夜间的区别。
业界在研究对于这种瞬时的变化,目前看最优可能的方式就是外置储能设备,用储能设备来调整负荷的变化。
比起这种对供电系统的波动造成的危害以外,其实现在主要问题其实是缺电。
从美国过去20年来看,它每年供电增长也就百分之0.5%左右,所有的技术人员培训,方案设计也都是按这个来的,它是一个稳态,但是AI来了以后,从0.5台要涨10倍,每年可能5%的年复合增长率。
有人说那就把电场的能力调大点就行了呗。
现实世界哪有那么简单,先不说你怎么调大,就算你能调大,你还得解决传输问题吧,这些问题没解决之前,你DC无限要容量上限就是和居民抢电了,属于是。
Indiana投了小10亿刀专门建一个AI的DC,估计是为LLaMA5做准备了,Google 也投了10亿在爱尔兰,Amazon直接投了一个核动力的DC,MS的星际之门就更不用说了..
他们也想尽可能把DC建的离电场近一点,因为建一个DC大概周期是2年,但是建一个电场和围绕电场的供电线路,可能要5年。而且可以就近解决传输问题,缩短工期,听北美的朋友说,基本上出一个电场旁边的DC,如果你上午在考虑价格因素,下午再去,就卖没了,就是这么快...
可以说,事实上,现在电力的发展速度已经远远落后于AI的发展速度了。
怎么解决呢?
加大电力基础设置的新建升级改造呗。
但是对于北美来说这块确实如果就是对现有电网的升级和现有技术的支持,其实是有点难得。
我国在这块还是很牛的,我们有光伏,水利,风电,各种清洁绿能,但是这些其实都有很严重的季节和region限制,在储能和输电没有很好的配套发展起来的时候,指着这些对AI供电只能作为良好的补充了。
我国每年大概发10万亿度电,火电占70%左右,但是如果全拿火电冲AIDC,又和环保碳中和的理念冲突,所以我个人是极其看好核能的,因为它可能是我国或者说世界的唯一选择。
大家也不要谈核色变,之所以日本还有英国出事的原因,是因为现在的核电技术主要是走的核裂变的方式,核裂变这玩意其实早个80年前就能做到了,就是因为不安全,因为核裂变的链式反应太剧烈了,所以导致堆芯 不稳定,总把保护层烧了,这就是核电站泄露的原因。
而我们这边实际上四代堆在防护这块做了很多工作,也有很牛的IP,即使在裂变的时代,我们这也是相对安全的。
更看好的肯定是核聚变了,这个全世界都在看,比如Sam Altman 和 微软都投资的 helion energy,我国的中核。我个人觉得,这才是是能解决AI电力短缺的唯一的方案。
写在最后,好久没更新了,主要在忙写书和训练自己的模型,估计这些短期就会跟各位见面了,也祝各位读者五一劳动节快乐,我还会陆续更新的,GPU系列,强化学习系列,我没更新完的坑也都有补完计划的,敬请期待