埃隆・马斯克的孟菲斯超级计算集群(Memphis Supercluster)已上线,据马斯克介绍称,该集群在单个 RDMA fabric 上使用 10 万张液冷 H100,是“世界上最强大的 AI 训练集群”。
如此庞大的算力自然需要惊人的电力供应,每个 H100 GPU 至少消耗 700 瓦电力,这意味着整个数据中心同时运行需要超过 70 兆瓦的电力,这还不包括其他服务器、网络和冷却设备的耗电量。令人惊讶的是,由于与当地电网的供电协议尚未敲定,马斯克目前使用 14 台大型移动发电机为这个巨型设施供电。
AI 和半导体分析师 Dylan Patel 最初在社交媒体上表示,由于电力限制,马斯克的孟菲斯超级计算集群可能无法运行。他指出,目前仅从电网抽取了 7 兆瓦电力,只能支持约 4000 个 GPU 运行。田纳西河谷管理局(TVA)将在 8 月 1 日之前向该设施提供 50 兆瓦电力,前提是 xAI 能签署相关协议。Patel 还观察到,xAI 场地的 150 兆瓦变电站仍在建设中,预计将于 2024 年第四季度完工。
然而,通过卫星图像分析,Patel 很快发推文称他发现了马斯克的解决办法 —— 使用 14 台 VoltaGrid 移动发电机连接到看起来像四个移动变电站的设备。
每台半挂车大小的发电机可提供 2.5 兆瓦电力,14 台总共能提供惊人的 35 兆瓦电力。加上从电网获得的 8 兆瓦电力,总共为 43 兆瓦,足以以有限功率运行 3.2 万个 H100 GPU。
如果田纳西河谷管理局在 8 月初为其提供所需的 50 兆瓦电力,马斯克将有足够的电力同时运行 6.4 万个 GPU。Patel 表示,运行 10 万个 GPU 需要 155 兆瓦电力,但 xAI 需要变电站才能达到这个水平。因此,要么变电站提前完工,要么马斯克将部署更多移动发电机来满足电力需求。
巨大的电力消耗及其对全球变暖的影响是目前 AI 数据中心面临的主要问题。仅 2023 年售出的所有数据中心 GPU 的耗电量就超过了 130 万个普通美国家庭耗电量的总和,给电网带来了巨大压力。而且,仅仅建设更多的发电厂并不能满足数据中心的需求,还需要建设高压输电线路、变电站等额外基础设施,才能将电力从发电厂输送到服务器。
除了建设 AI 计算所需电厂的时间和成本外,还必须考虑温室气体排放。虽然马斯克在孟菲斯超级计算集群部署的移动发电机使用天然气作为燃料(比煤炭或石油更清洁),但在运行过程中仍然会向大气中排放碳。
谷歌最近透露,由于数据中心能源需求,其碳足迹自 2019 年以来增长了 48%。因此可以预见,除非马斯克转向更清洁的能源生产方式,否则 xAI 也将面临同样的问题。
马斯克正全力推动 xAI 成为 AI 开发领域的领跑者,并为此不惜一切手段。希望使用移动发电机只是暂时的解决方案,孟菲斯超级计算机集群需要过渡到更清洁的能源,而田纳西河谷管理局可以提供这种能源。由于后者使用核能、水电和化石燃料发电的组合,如果 xAI 从其采购电力而不是依赖仅使用天然气的移动发电机,其碳足迹会更小。