松山湖材料实验室研究员孟胜/刘淼团队在国家自然科学基金等项目的支持下,研发了一种基于深度学习图结构的通用预训练力场(graph-based pre-trained transformer force field,简称GPTFF)。相关成果近日发表于《科学通报(英文版)》(Science Bulletin)。
物质科学的核心问题之一是理解原子间的相互作用。如果我们能建立一个原子尺度的通用力场,便可创造一个原子间相互作用的求解器,从而通过分子动力学模拟诸多物质科学问题。科学家发明的量子化学/密度泛函理论通过求解薛定谔方程造就了一个模拟物质科学的大一统方法。通过此类方法,人们可以精确求解任意化合物体系中原子间相互作用,较为完美的解决了这个问题。但是密度泛函理论需要强大的算力,仅适用于数十至数百原子体系,无法线性扩展至大体系或复杂体系。而传统的分子动力学方法,虽然运算速度快,但是力场精度低、力场适用体系少,因此存在诸多限制。
为此,孟胜/刘淼团队研发了一种基于深度学习图结构的通用预训练力场GPTFF。该模型充分利用海量数据和transformer算法的注意力机制,具备出色的精度和泛化能力,可精确预测原子间相互作用,适用于几乎任意无机化合物的近平衡态,可用于大体系及复杂体系的分子动力学模拟。GPTFF模型支持开箱即用,用户可跳过模型训练步骤,直接开展化合物的结构优化、相变模拟、物质输运等科学问题。GPTFF开发团队已将该模型的算法、程序、模型参数开源,所有人都可下载使用。
据介绍,原子尺度的通用力场AI大模型,可广泛支持物质物理、材料、化学等诸多领域,它也被认为是物质科学的基座模型,有望变革性地改变物质领域的计算模拟方式。我国虽然有很多类似的项目及模型,但都采用欧美的开源数据集,无法从根本上实现自主可控,更无法实现超越。
GPTFF模型的训练数据源自自研的Atomly材料数据库(https://atomly.net/),包含近35万个无机材料数据,数据规模和质量位于世界顶级水准,知识产权自主可控,是我国唯一可对标欧美竞品的无机材料数据库。GPTFF的训练数据包含3780万个单点能量、117亿个力对和3.4亿个应力,数据具有高度的标准和一致性,保证了模型的高精度和强泛化能力。
此外,GPTFF能够实现对原子间相互作用的精确预测,原子间能量、受力以及应力的预测精度分别达到MAE=32meV/原子、71 meV/?和0.365 GPa,优于美国的同类AI模型(m3gnet和CHGNET)。可用于模拟晶体结构弛豫、固态电解质中的离子疏运、金属在应力下的相变等科学问题。(来源:中国科学报 朱汉斌)
相关论文信息:https://doi.org/10.1016/j.scib.2024.08.039