大模型训练遇“算力荒”，“超智融合”来帮忙—新闻

作者：赵广立来源：中国科学报发布时间：2024/7/31 17:08:08

选择字号：小中大

大模型训练遇“算力荒”，“超智融合”来帮忙

论及当下计算技术的发展方向和趋势，“超智融合”当仁不让——在今年6月发布的2024年全球“最节能超算”榜单（Green500）上，位列榜单前三的超算都采用了“超智融合”的技术理念。

超智融合，顾名思义，意即“采用融合架构，集成超算和智算的功能”。在当前大模型训练不断需要大算力支持的时代背景下，超智融合理念落地意义重大。然而，如何科学地界定超智融合，实现超智融合的技术路径有哪些，实践中有哪些注意事项等问题，尚需进一步厘清。

为此，在中国智能计算产业联盟与全国信标委算力标准工作组近日共同主办的“2024中国算力发展专家研讨会”上，中国科学院院士陈润生、钱德沛，中国工程院院士郑纬民等行业内院士专家、学者和产业界代表共聚一堂，专门就“超智融合技术路线下的趋势与发展”展开研讨。

2024中国算力发展专家研讨会现场。中国智能计算产业联盟供图

呼唤超智融合的，不止于大模型“算力荒”

近日，埃隆·马斯克出手，在美国田纳西州孟菲斯市打造一座超级算力集群，以满足旗下大模型Grok3的训练需求。据称这一计划于2024年底落成的“算力巨兽”将集成10万块英伟达H100 GPU，堪称“地表最强AI训练集群”。

当前，沿着“规模效应”（Scaling Law）狂飙的大模型，正成为名副其实的“算力黑洞”。据外媒报道，OpenAI与微软也在计划十万乃至百万级GPU卡的算力集群，以满足GPT-6的训练。相形之下，我国大模型训练，面临着巨大算力缺口。

在前述研讨会上，郑纬民院士表示，对我国而言，除英伟达GPU之外，还有两类算力集群可以支持大模型训练：一类是基于国产AI芯片的集群系统，但目前国产AI芯片的生态系统尚不完善，无形中提高了应用门槛；另一类是国家超级计算设施——一些负载不饱和的国家超算系统可以利用空闲资源支持大模型训练，前提是要做好软硬件协同设计，降低超算训练大模型的成本和能耗。

然而，推进超智融合并不止于有望缓解大模型“算力荒”，其更是顺应智能时代发展应有之义。

北京应用物理与计算数学研究所研究员袁国兴认为，从现实发展的角度来看，超智融合理念顺应了AI时代的需要。一方面，应用侧对算力的需求越来越多元化，超智融合兼具高性能计算强大的计算处理能力和智算的算法优化能力，可以解决同时需要不同算力的应用需求；另一方面，随着模型复杂度、覆盖范围及所需精度的不断提升，超智融合算力也可以提升计算与训练结果的可信度。

不要“拉郎配”，要“有机融合”

对于如何实现超智融合，专家们提出了自己的观点。

“超算与智算的融合是必然的，但是这种结合是在需要的时候融合，而不是生硬地凑在一起——这样不解决效率问题，是没用的。”陈润生认为，在合适的时候，超算和智算一定会逐渐融合起来，“而且是有机地融合”。

陈润生是中国生物信息学研究第一人，计算设备、智能技术是他及团队不可或缺的工具。对于超智融合这个命题，他也不断在思考。

他提到，超算与智算二者之间其实有本质的区别——超算走得是“时间复杂度路线”，程序在高性能计算机上“跑”完，结果就出来了；智算则是“空间复杂度”，比如大模型的训练需要提前“学知识”。因此他认为，我国在大模型训练方面“应该在基础理论方面有所发展和创新”。

中国科学院计算机网络信息中心研究员陆忠华从2002年左右就参与超算相关研究，跟超算技术和应用“打了半辈子交道”。她也谈到，超智融合不是“拉郎配”，至于如何融合，要从需求侧、供给侧两端同时来看。

需求侧就是要视用户实际应用需要来裁夺如何分配算力响应，供给侧则需要更高的算力服务水平。陆忠华提到，希望供给侧的算力服务提供商能够在算法、生态等方面加大投入和建设，搭建好更易用的软件环境，立足国产算力平台做好超智融合。

研讨会上，国家信息中心信息化和产业发展部主任单志广提供的一组数据显示，从2022年到2027年，中国智能算力规模年度复合增长率是33.9%；有机构预测，一直到2030年，我国年新增算力中将有70~80%为智能算力。

“智算的猛增，势必引起算力结构的变化。”单志广说，在日益复杂的算力需求背景下，不仅是超智融合，还要研讨如何把传统云计算、超算、智算等更好地结合，以实现多元算力融合来满足不同应用的需求。他表示，由应用驱动的算力结构演化是一个重要话题，但是前提是要把它的形态、演进路径和能否发挥实效等问题弄清楚，“需要做系统化的研究”。他进一步提出，在未来开展相关研究时，要注意避免“分解谬误”和“合成谬误”，从算力资源自身（供给）和应用（需求）两个维度做深入研究。

钱德沛院士认为，超智融合在技术路径上需要从硬件、软件两方面综合考量，并要在符合国情的前提下，做好软件和硬件的协同，以最佳匹配组合支持特定应用。

“硬件方面，可能可重构或柔性是硬件形态的主要途径，不必是面面俱到，而是要根据应用性质重构或柔性打造高效的硬件单元；软件层面，要从基础大模型的理论出发，形成完整支撑AI的软件栈，这包括基础理论和方法、算法实现、开发框架、系统软件和编译，直到应用的开发和应用本身。”钱德沛说。

在他的构想中，超智融合的进程将会沿着超算支撑AI应用（for AI）、用AI技术改进超算（by AI）、超智实现内生融合（being AI）三个阶段演进。

“到了being AI阶段，计算机系统将内生智算属性，或者说智能是计算机的核心属性和基本组成，它的智能化的水平可能会远超今天的超算或智算。”钱德沛说。

超智融合的探索实践：国家超算互联网

今年4月，国家超算互联网平台正式上线。这是一个将全国众多超算中心和智算中心连接起来、提供一体化算力网络的服务平台。科研人员、仿真工程师、人工智能研发人员可以便捷地购买和使用算力资源、应用软件、应用平台、数据资产等，并按照软件类型、算力资源、时长等付费。

多元融合的算力在这个平台上汇聚、分发，直接面对用户需求……据了解，国家超算互联网自正式上线以来，已有超过200家应用、数据、模型等服务商入驻国家超算互联网，并提供超过3200款商品。这些商品覆盖科学计算、工业仿真、AI模型训练等领域，可满足全社会对先进计算服务的需求。

“很多的科学计算里面需要人工智能技术，不少人工智能应用也需要高精度、混合精度的计算。未来，单一精度的计算会变少，混合精度的计算会成为主流。”国家高性能计算机工程技术研究中心副主任曹振南说：“多元融合、超智融合将是算力基础设施发展的重要趋势。”

国家超算互联网是超智融合理念在网络层面的一个生动实践。近年来在“算力经济”驱使下，全国范围拔地而起了许多大大小小的超算、智算和数据计算中心。在国家超算互联网平台上，分布于全国的超算、智算中心等被链接起来，分散化的算力通过智能调度实现互联互通，并最终转化为社会发展所需的高效、便捷的算力服务。

在这一过程中，一系列新技术、新模式被探索应用，也有一些经验和案例的积累。在2024中国算力发展专家研讨会上，《2024中国算力发展研究报告之超智融合技术路线与趋势》编撰工作也宣告启动，相关实践案例也将为研究报告的撰写提供参考。

编辑部推荐博文
科研学习中的拖延与不专注：成因与应对 “蒹葭苍苍，白露为霜”中的“蒹葭”是啥？课堂到底需不需要管理？ NML文章集锦\| 钙钛矿太阳能电池（二）重组胶原蛋白制剂抗皮肤衰老功效的研究怀念兢兢业业、诲人不倦的导师更多>>