|
|
FCS | 前沿研究:结合监督学习与稠密子图发现的蛋白复合物预测框架 |
|
论文标题:A framework combines supervised learning and dense subgraphs discovery to predict protein complexes(结合监督学习与稠密子图发现的蛋白复合物预测框架)
期刊:Frontiers of Computer Science
作者:Suyu MEI
发表时间:19 Nov 2021
DOI:10.1007/s11704-021-0476-8
微信链接:点击此处阅读微信文章
导读
本研究试图验证一个假设:相对于传统的蛋白互作网络方法,蛋白复合物可以以一种更加具有生物意义的方式,从蛋白共复合物网络上识别。本框架利用现有的TAP-MS实验数据,训练一个l2正则化逻辑回归模型,预测潜在的能形成蛋白复合物的蛋白互作,构成蛋白共复合物网络。在此基础上,利用有效但计算要求高的最大团图聚类算法(CFinder)或者高效的最大模块聚类算法(MMC),在蛋白复合物网络上推断具有层次的平衡聚类作为蛋白复合物。经验研究表明,本算法框架取得了较好的交叉验证与独立检验性能。本算法框架新颖之处并且优于现有方法之处在于,从蛋白复合物网络上获取的蛋白复合物相对于从蛋白复合物获取的蛋白复合物,更具有生物学相关性,为蛋白复合物识别提供了一种新的途径。
文章精要
摘要
Rapidly identifying protein complexes is significant to elucidate the mechanisms of macromolecular interactions and to further investigate the overlapping clinical manifestations of diseases. To date, existing computational methods majorly focus on developing unsupervised graph clustering algorithms, sometimes in combination with prior biological insights, to detect protein complexes from protein-protein interaction (PPI) networks. However, the outputs of these methods are potentially structural or functional modules within PPI networks. These modules do not necessarily correspond to the actual protein complexes that are formed via spatiotemporal aggregation of subunits. In this study, we propose a computational framework that combines supervised learning and dense subgraphs discovery to predict protein complexes. The proposed framework consists of two steps. The first step reconstructs genome-scale protein co-complex networks via training a supervised learning model of l2-regularized logistic regression on experimentally derived co-complexed protein pairs; and the second step infers hierarchical and balanced clusters as complexes from the co-complex networks via effective but computationally intensive k-clique graph clustering method or efficient maximum modularity clustering (MMC) algorithm. Empirical studies of cross validation and independent test show that both steps achieve encouraging performance. The proposed framework is fundamentally novel and excels over existing methods in that the complexes inferred from protein cocomplex networks are more biologically relevant than those inferred from PPI networks, providing a new avenue for identifying novel protein complexes.
相关内容推荐:
利用聚类演化的加权SVM集成算法识别MCI进程中的差异脑区 2021 15(6):156903
蛋白质网络:中心性、模块性、动态性及其应用研究 2021 15(6):156902
【FCS 优秀青年科学家论坛】蛋白质亚叶绿体定位的计算预测:十周年 2021 15(2):152901
【FCS 优秀青年科学家论坛】当前蛋白质-蛋白质相互作用预测中的计算方法的趋势调研 2020 14(4):144901
Frontiers of Computer Science
Frontiers of Computer Science (FCS)是由教育部主管、高等教育出版社和北京航空航天大学共同主办、SpringerNature 公司海外发行的英文学术期刊。本刊于 2007 年创刊,双月刊,全球发行。主要刊登计算机科学领域具有创新性的综述论文、研究论文等。本刊主编为周志华教授,共同主编为熊璋教授。编委会及青年 AE 团队由国内外知名学者及优秀青年学者组成。本刊被 SCI、Ei、DBLP、INSPEC、SCOPUS 和中国科学引文数据库(CSCD)核心库等收录,为 CCF 推荐期刊;两次入选“中国科技期刊国际影响力提升计划”;入选“第4届中国国际化精品科技期刊”;入选“中国科技期刊卓越行动计划项目”。
《前沿》系列英文学术期刊
由教育部主管、高等教育出版社主办的《前沿》(Frontiers)系列英文学术期刊,于2006年正式创刊,以网络版和印刷版向全球发行。系列期刊包括基础科学、 、工程技术和人文社会科学四个主题,是我国覆盖学科最广泛的英文学术期刊群,其中13种被SCI收录,其他也被A&HCI、Ei、MEDLINE或相应学科国际权威检索系统收录,具有一定的国际学术影响力。系列期刊采用在线优先出版方式,保证文章以最快速度发表。
中国学术前沿期刊网
http://journal.hep.com.cn
特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。