在最新一期播客节目BG2里,微软首席执行官纳德拉亲口透露,公司正遭遇一个前所未有的窘境:微软手中握有大量GPU,可由于电力不足、空间有限,这些设备只能被闲置一旁。
但最大的问题不是算力过剩的现状——
最大的问题并非芯片供应,而是供电能力,以及我们能否足够迅速地建成靠近电源的数据中心。要是做不到这一点,你就会有大量芯片只能闲置在仓库里。
微软缺电,大量GPU闲置
在微软内部,大量NVIDIAAI芯片被闲置。
不是因为算力已经足够或者“过剩”了,而是现在的基础设施不足以支撑这些芯片运行起来。
一是因为缺乏电力。
第二个原因是缺乏能够立即投入使用的数据中心,也就是纳德拉所说的“warm shells”,指的是那些已经建成、拥有充足供电和冷却能力的机房外壳。
这并不是他第一次对外谈及微软的烦恼。
去年,当被问及微软在2024年是否仍然受到NVIDIA芯片的供应限制时,纳德拉是这么说的:
我们受到的是电力限制,而不是芯片供应限制。
到了今年,这似乎成为了所有大模型巨头们共同面临的问题。
奥特曼也在同期讨论中提到,行业面临的总体挑战不仅仅是算力问题,更多还有能源和基础设施的匹配问题。
而奥特曼对这个问题的敏感,比多数科技公司来得早。
过去两年,他陆续投资了裂变能源公司Oklo、聚变能源公司Helion,以及太阳能创业公司Exowatt。
只不过,这些新型能源技术离大规模商用还很远,短期内,数据中心仍得依赖燃气和可再生能源混合供电。
缺电之外:囤芯片也不再安全
过去五年,美国整体电力需求曲线突然被拉高。
在AI与云计算的推动下,数据中心建设迎来高峰期,其用电需求正以超乎预期的速度攀升,已大幅超出公用事业公司原先制定的新增发电规划。
供给端反应明显滞后。
传统电厂从立项到实现并网,一般要经历数年的周期;但AI产业的扩张节奏却是以季度为单位来衡量的。所以,为了能跟上算力快速扩张的步伐,越来越多的数据中心开发商不得不亲自下场,为AI业务提供电力支持。
因此,有越来越多的数据中心开发商倾向于采用被称为“计量表后”(behind-the-meter)的供电模式——把电力直接接入数据中心,绕开公共电网,以此来填补供能方面的缺口。
尽管如此,数据中心、电力与冷却系统的建设节奏还是远远跟不上现实需求。
光伏太阳能被认为是当前建设周期最短、部署最为灵活的能源类型,不过在时间进度方面,它和数据中心的节奏几乎一致——从选址、施工到并网,往往需要数月乃至一年的时间。
AI需求的变化往往只需要一次模型更新或一次产品发布。
举个具体点的例子来说吧:当算力曲线每季度刷新纪录时,能源系统还在审批表格上打转(无奈摊手.jpg)。
部分业内人士担忧,若未来AI需求增长速度减缓,目前为保障AI算力供应而进行大规模投资的电厂与储能项目,或许会面临闲置的风险。
但奥特曼并不这么看。
奥特曼认为,AI的用电需求不可能回落,只会持续增长。
也就是说,更高效、更便宜的算力,只会激发出更多应用场景。
如此来看,奥特曼似乎是一个杰文斯悖论信徒。
该悖论认为,资源的更高效利用将导致更大规模的使用,从而增加整体需求。
如果算力成本明天下降100倍,用量会增长远超100倍。越便宜的计算力,只会带来更大的总体需求。
为此,奥特曼呼吁美国政府每年增加100吉瓦发电能力,并将其视为“AI战略资产”。
与此同时,算力端的企业也在重新调整策略。
纳德拉明确表态,微软不会再囤积单一代GPU。
理由很现实——
一台昂贵的NVIDIA芯片,如果暂时插不上电,两、三年后又被新架构取代,那等于在折旧周期内就提前贬值。
而根据微软经验,数据中心设备的折旧周期通常是六年,盲目囤货不仅占用现金,还会造成资源浪费。
网友建议:不如开发点能耗降低的芯片?
自20世纪90年代末以来,美国电力生产一直徘徊在约约4万亿千瓦时/年。
但这个世界变化太快了:
人口增长了20%,部分物理电网老化,新的城市生活和科技进步都对电力需要提出了不断增长的需求。
如上所述,GPU生产可以按季度迭代,但电力系统、数据中心冷却与输电网络的建设,却是以年为单位的工程。
AI产业算力增长能否延续,关键已不在芯片产量,而在能源与基础设施是否能同步扩张。
这也让行业目光重新转向上游芯片厂商。
过去,NVIDIA等公司拼的是峰值性能:算力越强、速度越快越好。
但当限制从“算力短缺”变成“电力短缺”后,标准是否有可能开始反转?
reddit相关讨论帖中,有网友表达了自己的建议:
要是你面临的是电力方面的限制而非芯片本身的限制,那你肯定会倾向于选择工作时能耗最低的芯片,没错吧?要是你的设备已经因为能耗问题而被限制使用,这时候NVIDIA推出一款运行速度提升1.2倍、但能耗却降低25%的芯片,那这款芯片无疑会极具吸引力。
One More Thing
周一,微软上宣布,相关部门已经批准它向阿联酋运送NVIDIA芯片,用来建设训练AI模型所需的数据中心。
微软还表示,未来四年将在海湾国家投资80亿美元用于数据中心、云计算和其他人工智能项目。
中东地区资金丰厚,能源丰富,外媒分析,这笔交易也标志着AI基础设施正在从硅谷迁往能源充足的新兴市场。
或许去了那里,微软买下的NVIDIAGPU可以不再吃灰吧……