|
当算力中心界限开始模糊,以偏概全、以此代彼乱象迭出—— |
算力时代,谁主沉浮 |
|
当今,“算力”越来越成为科技进步、经济社会发展的底座,但“算力”并非千篇一律。
20世纪60年代,为解决大规模数值计算、仿真模拟等科学工程计算问题,超级计算中心应运而生,至今仍以大国重器的形象为诸多行业提供科学计算服务。
21世纪00年代,互联网信息服务、高并发访问等网络计算与数据存储所寄的云计算中心开始落地,各大公有云平台拔地而起、攻城略地。
21世纪10年代,人工智能(AI)计算中心开始出现,主要用来处理影像、语音、自然语言等识别问题,综合应用多种技术实现推理、训练模型开发。
这三类计算中心,虽然各自特点鲜明、用途有异,但超算与AI计算、云计算与超算、AI计算与云计算“我中有你、你中有我”的情形亦不鲜见,相互之间的界限逐渐模糊。然而,随之而来的以偏概全、以此代彼的乱象,竟逐渐成了一些地方建设算力中心的的“糊涂账”。
乱象源于缺乏相应测试标准
城市应该建设什么样的算力中心?如何推动算力中心健康发展?近日,在一场以“数智创新,算力赋能”为主题的2021算力中心健康发展研讨会上,中国工程院院士郑纬民等业内学者从不同角度提供了意见参考。
中国计算机学会高性能计算专家委员会秘书长、中科院计算所研究员张云泉在发言时提到,此前,某市建设了AI计算中心,号称算力是超级计算机的数万倍。“‘花钱少、算力高’这种不规范、不专业的对比让业内人士很反感。”
张云泉说, AI计算中心很热门,但如何能够引导其健康发展,“是当下行业面临的一个重要议题”。
国家信息中心2020年12月发布了《智能计算中心规划建设指南》(以下简称《指南》),定义“智能计算中心”是基于最新AI理论,采用领先AI计算架构,提供AI应用所需算力服务、数据服务和算法服务的公共算力新型基础设施。
“自从AI成为‘新基建’,各地政府争先恐后,出钱建设AI计算中心,但总的来说,应用还不是太明确。”郑纬民在上述研讨会上说,无论超算中心还是AI计算中心,最重要的是应用匹配:“当前最应该做的事,不是以新基建之名撺掇政府建设算力中心,而是要真正做出来几个实际应用。”
这代表了业界务实的态度。中科院数学与系统科学研究院研究员张林波也提出,很赞同各类算力中心应该各自发挥所长,做最适合的事情。但他话锋一转:“AI计算现在有点咄咄逼人,好多人甚至觉得AI计算能够取代传统的科学计算。”
“这是宣传不当引起的概念混淆。”张云泉认为,在高性能计算(HPC)、云、AI融合发展的趋势下,要清晰界定三类算力中心各自的内涵与外延,以及它们之间的相互关系,明晰不同计算精度算力与不同应用之间的匹配。
对算力概念的混淆曾闹出过啼笑皆非的事。一次,张云泉向某学会领导汇报HPC的研制,不料却遭到“批评”:“现在都什么时代了,你还在谈高性能计算,太过时了。”
概念混淆之后紧跟着的是价格乱象。一般而言,算力配置不同会导致造价迥异——即使同等算力,不同的CPU主频、带宽及时延要求也会让机器造价差别巨大,但一些厂商拿AI计算中心“花钱少、算力高”作为卖点吆喝,就不属此类了。
道理很简单:同样一个对外标称100P的算力中心,用建设AI计算中心的预算一定造不出超算中心的效果。
“概念混淆、价格混乱的主要原因是没有对应的测试标准,孰好孰坏一测就知道了。”张云泉建议,要在行业中推行与AI计算平台相适应的标准。
清华大学教授陈文光与张云泉在2020年推出了相应的AIperf测试标准,并致力于将其国际化。但他坦言:“推一个国际化的测试标准是很有难度的,后续还要努力。”
“蛮算”的AI计算
在实际应用中,传统超算最适合用于科学和工程计算,这类计算有可计算模型,可以发展有很高精度的算法,计算结果精度也非常高。但有些问题是科学计算所不能及的,如缺乏数学模型的问题和超高维问题。这时,以机器学习为代表的AI计算就派上了用场。
不过,张林波介绍,机器学习等是一种类似统计的方法,与科学计算相比其结果精度不高。另外,AI计算还有稳定性问题、模型泛化受限等问题。
他举例说,在新冠肺炎疫情暴发之初,许多人一窝蜂地用肺部影像识别来鉴定新冠病毒感染,发了很多论文,但后来发现这些论文的结论几乎没有可用的。
“图像识别是机器学习最擅长的领域,上述情况的原因可能是训练数据太小或是机理不清,但或许这才是AI计算要去深究的,比如摸清机理后设计更先进的算法等。”基于现阶段AI计算机的作用,张林波认为现在的“人工智能计算”简称为“智能计算”或“智算”有点误导人——“这样的AI计算并不‘智能’。”
“没有知识库、没有逻辑处理能力,当我们搞不清楚某问题的机理时,拿一个神经网络靠机器的规模去近似它,这不叫‘智算’,叫‘蛮算’。”张林波说。
国家气象信息中心副总工程师沈文海对此产生了共鸣。他提出,气象部门也在做AI应用方面的探索,但还都是各个单位各自为战——围绕某个痛点,如AI识别云图、台风规模和路径等,把数据拿来、接入计算资源、识别一番,确实有点“傻算”“蛮算”。
“我们缺乏一个长期计划或整个气象部门的AI规划。”沈文海认为,长此以往就有很大的弊端,一是没有对机理成因方面的探讨,二是低水平重复。
“制定一个覆盖整个气象部门的AI应用发展规划,确实很有难度,并且这会引发对算力中心的新需求。”沈文海说。
融合发展仍是趋势
对算力中心提出新需求的,还有时下热门的数字孪生。
数字孪生是机器学习领域非常重要的研究方向之一。在借由大量传感器将物理世界数字化、虚拟化的数字孪生世界里,AI可以做的事情很多,包括预测物理世界未来将如何进一步演进、衍生。
中科院半导体技术研究所研究员李卫军说,数字孪生“绝对需要超大的一个计算系统”,因为它不仅需要包含神经网络计算,也需要很多逻辑计算:“这是一个大型的逻辑计算与抽象思维相结合的应用场景。”
从本质上来说,高性能计算和AI计算都是在模拟人的智能:前者模拟人的逻辑计算能力,后者模拟的是人的抽象思维。只不过,超级计算机现在在逻辑计算方面比人的计算能力强亿万倍,而AI计算机目前却只能用深度神经网络来获得一个近似的结果。
显然,两种不同的能力也不能用同一种标准评价孰好孰坏。
李卫军认为,将来数字孪生要发展,很需要传统超算与AI计算实现融合,这是逻辑计算和抽象思维的一种融合,即便它需要怎样的计算结构和算法目前还不得而知。
在HPC和AI融合发展的道路上,排在全球超算TOP500榜单前列的“大机器”先走一步。
日本“富岳”超级计算机(Fugaku)和美国“顶点”(Summit)不仅科学计算能力出众,且能支撑大规模的AI计算(如图计算)需求。这缘于它们的异构架构——高性能CPU支撑其高精度浮点计算性能,大量加速芯片支撑深度学习应用。它们作为世界上最先进的计算机,多少代表着未来计算融合发展的方向。
但看似矛盾的是,AI与HPC的“分化”也是最近的事情。
张云泉介绍说,自从巨参数模型(如GPT模型)诞生以来,其算力需求对于现存的超级计算机是“致命的”——我国七八家国家级超算中心,都不具备解决千亿乃至万亿级模型参数计算的能力,这直接导致AI计算的架构和概念独立出来。
事实上,巨模型的计算问题,无论对超算和AI计算都提出了巨大挑战。张云泉认为,这意味着未来超级计算机的架构和形态还要继续演化。
陈文光认为,AI应用特别是基于巨模型的应用对网络、I/O能力等的要求非常高,从融合发展的方向看,这些应用的特殊要求反过来会影响HPC的设计,比如对带宽的要求和I/O的设计会有一些促进。
另外,陈文光提到,还应重视混合精度算力的发展。比如,AI算力的单精度性能高,就可以先用它解决一些低精度计算的问题,然后再拿去高性能计算机上完成高精度的计算要求,从而提升算力资源整体的性能和性价比。据透露,目前混合精度算力已被写入计算领域“十四五”规划相关的指南文件中。
自底向上来看,算力中心能提供何种计算能力,从根本上取决于芯片。比如AI芯片严格上属于专用芯片,那么国内一些以AI芯片为主的计算机,就注定无法胜任科学计算任务。
从事服务器芯片研发的中科院计算所研究员范东睿介绍说,即便AI芯片也有通用与专用之别。在他看来,专用芯片就应该越来越专,通用芯片就要做到能涵盖所有的精度和算法,让其各司其职。
“(一些供应商)把专用芯片当成通用芯片来讲故事,那就不好了。”范东睿说,目前国内对芯片的需求量越来越大,但作为核心器件,“芯片人”和“芯片厂”还是要有所坚持,“不能忽悠”。
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。