AI for Science：双向奔赴的AI—新闻

作者：赵广立来源：中国科学报发布时间：2024/10/31 13:57:51

选择字号：小中大

AI for Science：双向奔赴的AI

10月24日——距离2024年诺贝尔物理学奖和化学奖接连颁给人工智能（AI）领域的科学家这件事已经过去了整整两星期，科大讯飞董事长刘庆峰依然很振奋。

“两个诺奖一个是AI for Science，一个是Science for AI，‘人工智能改变科研范式’正成为科技界的共识和梦想。”在当天举行的第七届世界声博会暨2024科大讯飞全球1024开发者节上，刘庆峰以2024年诺贝尔奖作为开场白，声情并茂。

在他看来，AI for Science（可简写做AI4S）决定着有多少优秀的科技人才能被释放精力、能做更有意义的创新。因此，他觉得尽快将大模型相关技术为科学所用迫在眉睫。

“赋能科研是讯飞星火最重要的使命之一！”刘庆峰掷地有声。

2024年诺贝尔物理学奖授予人工神经网络的奠基者。图片来源：瑞典皇家科学院

离科学家最近的大模型

科大讯飞研究院院长刘聪对《中国科学报》表示，尽管一再谈及大模型已进入到关键应用落地的“深水区”，一直以来，科大讯飞也在努力将星火大模型打造成为一个距离科学家最近的大模型。

早在星火大模型问世不久，科大讯飞就携手中国科学院文献情报中心联合研发科技文献大模型及应用产品，并得到了后者的大力支持。2023年的1024开发者节——也就是1年前，“星火科研助手”正式上线。

和星火科研助手一起上线的有三个功能：成果调研、论文研读和学术写作。这些都是科研工作者的日常必需，星火科研助手也正是瞄准这些繁杂事务，为大家打造效率工具。今年，星火科研助手2.0又升级了论文预审和垂直领域知识服务等功能。

马永强是武汉大学信息检索与知识挖掘研究所2021级博士生，星火科研助手上线的当天他就在现场。他告诉《中国科学报》，当一个大模型瞄准了一个博士生最日常的需要，那就有理由相信它的确准备好为科研提供实实在在的帮助。

时隔一年，刘庆峰公布了星火科研助手的“一周年成绩单”：它的身影出现在中国科学院下属116个院所单位，注册使用者覆盖全国1000多所高校，其中包括95%的“双一流”高校师生。此外，讯飞星火的代码能力也已在全国332所院校开通使用。

对基础科研工作降本提效，是“大模型for Science”的第一阶段。刘聪说，在这一阶段，大模型虽然还没有涉及具体的科研任务，但随着应用迭代，其已经可以辅助一线科研工作者完成大部分“外部知识学习”和“知识整理”等工作，成为名副其实的科研“搭子”。

作为科研“搭子”，今年星火科研助手2.0新增了垂直领域服务能力和科研服务智能体中心。据介绍，垂直领域服务能力接入了储能、养殖、风电等垂直领域的论文、专利、资讯、期刊等13类多维数据，支持实时生成监测快报与态势报告，为科研工作者提供了洞悉行业最新动态、精准决策科研方向的强大支持；科研服务智能体中心则可以提供知识抽取、图表生成等多样化科研工具，进一步提升科研效率与质量。

“AI方法+Science数据”的双向奔赴

刘庆峰把AI4S的落地分为3个阶段。第一阶段的“科研基础工作提效”，是希望将科研工作者从繁复的论文调研、领域研究梳理、论文写作等工作中释放出来；第二阶段是基于深度神经网络对科学任务进行端到端精准建模，让大模型成为科研过程中的专用工具，在这方面AlphaFold无疑最为成功。第三阶段，大模型未来将会帮助设计科研方案——利用认知大模型学习领域科学知识并对科研实验方案进行辅助设计，并进一步自主创新出更多方法创意和灵感。

刘聪将第二阶段形象地概括为“AI的方法+Science的数据”的科研范式。

“在这个阶段并不需要太‘新’的AI技术，更重要的是跟科研场景的结合。”刘聪说，随着模型越来越大，一些新的算法也会出现；这些新情况正让科研任务变得更轻松。

目前，科大讯飞已联合团队开展了AI+生物科技、AI+科学装置的科研攻关。刘庆峰介绍说，他们联合中国科学技术大学刘海燕教授团队，开展了基于条件扩散生成模型的蛋白质主链设计工作。大模型的助力，把原来需要6个月的实验提速到只需1天完成，目前已成功设计了48个自然界不存在的全新蛋白质。他们还使用大模型助力核聚变研究——通过与中国科学院等离子体研究所李建刚院士团队合作，他们开展了基于Transformer强化学习的托卡马克等离子体控制，将模拟器预测时间从10天降低到1小时，并实现完整放电周期内平均预测误差从7%降到3%。

“这样的联合攻关，是一个‘双向奔赴’的过程。”刘聪对《中国科学报》说，这一新的科研范式要求双方需要互相了解对方的工作，因为这其中不仅涉及如何使用AI，还涉及到如何做以改进AI。

“不能简单地把AI当成一种工具，这是我们之前的一些经验。”刘聪说。同时，定义问题也非常关键，需要搞清楚科研中哪些问题适合使用AI，“要实现这一点，必须双向奔赴。”

从知识问答到知识推演

AI4S落地的第三阶段——辅助设计科研（实验）方案，大模型也已跃跃欲试。刘庆峰分享说，科大讯飞目前正在中国科学院相关项目支持下，作为支撑单位与中国科学技术大学联合开展“化学大模型”的攻关、与大连化学物理研究所联合开展“化工大模型”的攻关。

刘聪认为，这一阶段已经在尝试将大模型在第一和第二阶段的能力结合在一起，大模型扮演的角色也从此前的知识问答转变为知识推演。

“大模型要处理的数据类型更多元了，既包含一些用文字表达的知识，也包括一些基于实体的因果关系。比如让它去改良设计一个新的化学实验，它首先需要了解如何改良，还要利用外部知识‘知道’如何改良。”刘聪向《中国科学报》解释说，在这一阶段，科学家们需要将其中各种结构化信息提取得更加精炼，作为信息知识注入大模型供其迭代。

刘聪认为，回顾模型本身，如果模型的类似能力得到加强，未来其对专业数据的要求可能会降低——甚至，它会自己探索出新的数据，这些数据可能是它生成的，也可能来自于其他模型。比如，AlphaFold未来能够通过“消化吸收”实验解析的蛋白质结构数据，慢慢学会蛋白质折叠，虽然目前对于蛋白质折叠分子运动过程及其背后的分子动力学机理还没有办法通过AI来解释。

“目前AI4S的主战场仍然是处理相关的科学问题，但如果结合了管理、提出问题和更多场景化，AI4S在未来仍有很多发展机会。”刘聪说，科学家和工程师们要做的，就是需要对特定问题进行定义、分析、总结，缩小大模型探索的区域空间，从而帮助大家找到更快、更可用的解决方案。

“总之，大模型或其他模型进步的空间还很大，至少会有一些新的突破会发生。”刘聪猜测：“这种突破不一定是渐进式的，或许是突发式的，谁知道呢？”

编辑部推荐博文
问答之间｜idea被别人做过，要转变方向吗？饮酒与戒酒（二）瓶子酒科学家解开自私的B染色体之谜植物写真\|“森林明珠” 银杉上海交大郭益平课题组：用于结构健康监测和机器人感知的超高灵敏度各向 ... 给课堂以想象的空间更多>>