|
|
QB 华中农业大学章文教授综述人工智能药物发现中的分子优化 |
|
论文标题: A comprehensive review of molecular optimization in artificial intelligence-based drug discovery
期刊:Quantitative Biology
作者:Yuhang Xia, Yongkang Wang, Zhiwei Wang, Wen Zhang
发表时间: 12 February 2024
DOI:https://doi.org/10.1002/qub2.30
微信链接:点击此处阅读微信文章
药物发现旨在设计具有特定化学性质的新分子,以用于靶向治疗。药物分子优化可以改善药物的理化性质,提升药物的临床效果,是药物发现过程中的一个重要步骤。传统的药物发现存在周期长、成本高、风险大等问题,大量的工作致力于缩短药物的研发周期、降低费用和失败风险,其中计算机辅助药物设计是最有效的方法之一,其主要通过开发计算机程序来实现高效的药物数据分析、药物分子模拟等。近年来,以深度学习为代表的人工智能技术迅速发展,在分子优化方面表现出优异的性能,已然成为应对药物发现挑战的一种新思路。
近期,华中农业大学章文教授课题组在Quantitative Biology期刊发表了一篇题目名为“A comprehensive review of molecular optimization in artificial intelligence-based drug discovery”的综述文章。对人工智能药物发现中的分子优化研究进展进行了回顾,包括分子优化的数据来源、优化属性、优化方法和评估指标,并指出可解释性、多维度优化、模型泛化性等未来可能的分子优化研究方向。
全文概要
本文综述了基于人工智能的分子优化研究进展。首先,文章概述了分子优化任务的数据来源、待优化的分子属性和分子表示方法;接着介绍了三类主流的基于人工智能的分子优化方法及其评估指标;最后总结了现有方法面临的挑战,并指出分子优化未来可能的研究方向。
1. 分子优化数据集
常见的药物数据库有ZINC、ChEMBL、DrugBank等,记录了药物分子及其靶点的理化属性。基于上述数据库,研究者们构建了QM9、Tox21、BACE、BBBP、Lipo等多个分子优化公共数据集,记录分子的药代动力学属性(ADMET)、类药性(QED)、合成可及性(SA)等多种属性标注数据。在分子优化中,分子采用字符串或图表示,并通过ECFP、SMILES、GCN、Junction Tree等方法进行编码(图1,图2)。
图1 C7H8O的三种基于字符串的表示方法
图2 C7H8O的三种基于图的表示方法
2. 分子优化方法
近年来,随着大数据和人工智能技术的发展,人们尝试使用人工智能技术从大量数据中自动学习领域知识,指导分子优化,取得了令人瞩目的成果。如图3所示,基于人工智能的分子优化方法分为分子映射方法、分布匹配学习方法和分子局部搜索方法。
图3 基于人工智能的分子优化方法
模型评估是分子优化任务的一项重要工作,基于优化前后的分子,研究人员通常使用相似性(Similarity)、多样性(Diversity)、新颖性(Novelty)、优化属性得分(Optimized property score)、平均属性改进(Improvement) 和成功率(Success)等指标评估模型性能。
3. 分子优化现存挑战
尽管人工智能技术在分子优化方面展现出巨大的潜力,但仍存在诸多挑战。第一个挑战是现有分子优化数据集中的属性标注数据较为有限,模型只能在已知的训练数据框架内进行优化,当优化训练集以外的分子结构时,很难起到实质性效果,因而模型泛化性较差。其次,现有模型无法对优化后的分子做出合理解释,模型学到的优化知识与经验难以被药物化学家理解,这表明现有分子优化方法缺乏足够的可解释性。并且分子优化理应是一个多维度的优化问题(同时优化多个目标属性),然而目前大多数方法通常只能优化单个属性,即使在优化多个属性时也不能达到理想效果。
随着可解释性人工智能模型的不断完善,研究者有望从可解释性的角度在模型内部去探索分子结构-属性的对应关系,从而使大众相信预测结果。对于多维度优化问题,可通过探索更多的优化策略对药物空间进行全局属性搜索,从而找到多种属性的平衡点。目前也已经有较多学者在探讨分布外泛化问题,相信在不久后能建立出基于因果推断的分子优化模型,摆脱对数据的依赖性。
QB期刊介绍
Quantitative Biology (QB)期刊是由清华大学、北京大学、高教出版社联合创办的全英文学术期刊。QB主要刊登生物信息学、计算生物学、系统生物学、理论生物学和合成生物学的最新研究成果和前沿进展,并为
与计算机、数学、物理等交叉研究领域打造一个学术水平高、可读性强、具有全球影响力的交叉学科期刊品牌。
QB期刊目前已被ESCI, Scopus, CSCD等国内外重要数据库收录。Citescore2021=4.6,2023年将获得第一个影响因子(IF)。
《前沿》系列英文学术期刊
由教育部主管、高等教育出版社主办的《前沿》(Frontiers)系列英文学术期刊,于2006年正式创刊,以网络版和印刷版向全球发行。系列期刊包括基础科学、
、工程技术和人文社会科学四个主题,是我国覆盖学科最广泛的英文学术期刊群,其中12种被SCI收录,其他也被A&HCI、Ei、MEDLINE或相应学科国际权威检索系统收录,具有一定的国际学术影响力。系列期刊采用在线优先出版方式,保证文章以最快速度发表。
中国学术前沿期刊网
http://journal.hep.com.cn
特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。