以10万块英伟达“H100”液冷GPU构建的算力集群,将会产生怎样的洪荒之力?近日,SpaceX和特斯拉的创始人埃隆·马斯克在社交平台发文称,如此规模的超级算力集群正部署在美国田纳西州孟菲斯市的“xAI孟菲斯超算中心”。
要指出的是,“H100”是英伟达专为处理大型语言模型数据而开发的芯片,每块芯片价格约在3万美元左右。这也就意味着,马斯克此次筹建的超算中心仅基础芯片的成本就高达30亿美元。
10万片英伟达H100 GPU被同时部署在一台超级算力集群上是什么概念?可以通过一组对比数据来看:OpenAI用来训练GPT-4的算力系统,拥有2.5万块英伟达“A100”GPU;排名全球超算TOP500榜单第一的美国超算Frontier,算力核心中的GPU数量为3.78万片;微软的云系统集群“Eagle”也“只有”1.44万块英伟达H100 GPU。也就是说,如果比拼人工智能算力规模,xAI孟菲斯超算中心将是当之无愧的世界第一。
马斯克还提到了10万块H100 GPU的连接方式:通过单一RDMA(Remote Direct Memory Access,即远程直接内存访问网络)连接。这种方式可以把数据直接从一台计算机传输到另一台计算机,无需双方操作系统的介入,具有高吞吐、低延迟的网络通信等特点,非常适合在大规模并行计算机集群中使用。
据报道,目前孟菲斯工厂已有3.2万块GPU在线,xAI孟菲斯超算中心尚未满负荷运行。预计随着今年第四季度供电系统的建设完成,届时这台“巨兽”将会全速运行,对xAI旗下的大模型(Grok3)开展训练。
这样一台庞然大物,同时也将是“能源巨兽”。据孟菲斯电力、天然气和水务公司的首席执行官估计,xAI孟菲斯超算集群每小时使用的电力最高会达到150兆瓦,相当于10万户家庭的用电量。除了用电之外,xAI孟菲斯超算集群预计每天至少需要超过3700吨水来散热。对此,当地市民已经开始担忧,担心能源供应和水资源会出现断供情形。
在当前技术趋势下,大模型训练正演变成为算力“军备”的竞逐。据了解,OpenAI和微软也在计划部署更大规模的超算,一项名为“星际之门”算力规划,预计GPU数量将史无前例地达到百万级,成本高达千亿美元,计划在2028年推出。
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。