马斯克出手，打造“地表最强AI训练集群”—新闻

作者：赵广立来源：中国科学报发布时间：2024/7/28 17:30:25

选择字号：小中大

马斯克出手，打造“地表最强AI训练集群”

以10万块英伟达“H100”液冷GPU构建的算力集群，将会产生怎样的洪荒之力？近日，SpaceX和特斯拉的创始人埃隆·马斯克在社交平台发文称，如此规模的超级算力集群正部署在美国田纳西州孟菲斯市的“xAI孟菲斯超算中心”。

要指出的是，“H100”是英伟达专为处理大型语言模型数据而开发的芯片，每块芯片价格约在3万美元左右。这也就意味着，马斯克此次筹建的超算中心仅基础芯片的成本就高达30亿美元。

10万片英伟达H100 GPU被同时部署在一台超级算力集群上是什么概念？可以通过一组对比数据来看：OpenAI用来训练GPT-4的算力系统，拥有2.5万块英伟达“A100”GPU；排名全球超算TOP500榜单第一的美国超算Frontier，算力核心中的GPU数量为3.78万片；微软的云系统集群“Eagle”也“只有”1.44万块英伟达H100 GPU。也就是说，如果比拼人工智能算力规模，xAI孟菲斯超算中心将是当之无愧的世界第一。

马斯克还提到了10万块H100 GPU的连接方式：通过单一RDMA（Remote Direct Memory Access，即远程直接内存访问网络）连接。这种方式可以把数据直接从一台计算机传输到另一台计算机，无需双方操作系统的介入，具有高吞吐、低延迟的网络通信等特点，非常适合在大规模并行计算机集群中使用。

据报道，目前孟菲斯工厂已有3.2万块GPU在线，xAI孟菲斯超算中心尚未满负荷运行。预计随着今年第四季度供电系统的建设完成，届时这台“巨兽”将会全速运行，对xAI旗下的大模型（Grok3）开展训练。

这样一台庞然大物，同时也将是“能源巨兽”。据孟菲斯电力、天然气和水务公司的首席执行官估计，xAI孟菲斯超算集群每小时使用的电力最高会达到150兆瓦，相当于10万户家庭的用电量。除了用电之外，xAI孟菲斯超算集群预计每天至少需要超过3700吨水来散热。对此，当地市民已经开始担忧，担心能源供应和水资源会出现断供情形。

在当前技术趋势下，大模型训练正演变成为算力“军备”的竞逐。据了解，OpenAI和微软也在计划部署更大规模的超算，一项名为“星际之门”算力规划，预计GPU数量将史无前例地达到百万级，成本高达千亿美元，计划在2028年推出。

map

编辑部推荐博文
问答之间｜idea被别人做过，要转变方向吗？科学网博主徐鑫力作，揭示科研成功秘诀 \| 赠书研究生学位论文如何顺利通过外审和答辩人形机器人的关键在于态势感知与势态知感的平衡这一化学突破可能会改变从医学到农业的一切南林任浩&多伦多大学颜宁等研究超级电容器更多>>