|
|
科研人员在蛋白酶特异性底物裂解位点预测方面取得进展 |
|
近日,西北农林科技大学信息工程学院李富义教授团队在蛋白酶特异性底物裂解位点预测方面取得重要研究进展,相关成果在线发表于Briefings in Bioinformatics。
了解蛋白酶的特异性底物裂解是准确了解蛋白酶功能机制的基础。蛋白酶的底物特异性通常可以通过肽特异性分析或高通量质谱技术来识别,但实验手段鉴定蛋白质裂解比较困难、耗时且成本很高,因此开发成本效益高的计算方法和工具作为实验工作的补充具有重要的价值。在此背景下,识别蛋白酶潜在靶底物的计算方法和工具可以帮助有效发现新的底物蛋白质或者裂解位点,并且指导蛋白酶—底物相互作用的假设驱动实验研究。
ProsperousPlus 模型框架图。(论文课题组供图)
该研究从MEROPS数据库中收集了110种蛋白酶的底物裂解位点数据并构建基准数据集,利用多种序列打分函数和序列编码方式生成蛋白质序列的多样性特征集,提出了一个自动机器学习(AutoML)框架,研发了基于机器学习算法的蛋白酶特异性底物裂解位点预测的综合计算平台 ProsperousPlus 。
为进一步研究裂解位点的多样性特征集预测能力以及蛋白酶特异性的关键特征,该研究使用无监督聚类算法分析了6种蛋白酶对应的8个序列打分函数产生的17个序列分数特征,并对 ProsperousPlus 模型进行可解释性分析。分析发现,本研究使用的序列分数特征对于预测不同类型的蛋白酶裂解位点非常有效,其中KNN、NNS、WLS和IC50等特征在多种酶的裂解位点预测方面有着突出的贡献。这可能是由于打分函数善于捕获特定的基序、段保守序列或在序列的生物活性中起关键作用的功能域。此外,研究对比了ProsperousPlus 和现有方法的预测性能,结果表明 ProsperousPlus 在大多数酶中实现了最优的预测性能,展现出具有竞争力的预测性能。
该研究基于PHP和Python研发了免费公开的多功能生物信息学平台。该平台除了具有供用户预测蛋白酶特异性底物裂解位点的预测功能外,还提供了 ProsperousPlus 的自动机器学习(AutoML)框架(训练、评估和选择模型)的训练和部署模型的功能。用户可以使用训练模型功能自定义蛋白酶类型来训练特定的蛋白酶底物裂解位点预测模型,并且在网站部署使用训练好的模型。此外,本研究还提供了 ProsperousPlus 的单机版软件,方便用户在自己的服务器或者计算机上使用。
相关论文信息:https://doi.org/10.1093/bib/bbad372
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。