■本报记者 王晨绯
中国科学院昆明动物研究所“计算生物与医学生态学科组”研究员马占山与美国马里兰大学博士叶承曦在基因测序领域的合作取得新的突破。针对第三代基因测序仪硬件错误率高达15%~40%的现实,该团队研发出了一套“线性复杂度”的算法,这套算法复杂性最低,基于该新算法完成了Sparc软件的开发。
Sparc软件能够有效弥补三代测序技术硬件超高错误率这一“硬伤”,大幅度提高三代技术的市场竞争能力,为迎接基因测序产业升级奠定优良的技术基础。
另外,Sparc 算法应用范围不止于基因组装技术;事实上,基因组学中诸多涉及纠错和变异检测的技术都可受益于Sparc算法的线性复杂度优势。
Sparc是马占山2011年回国后该团队在基因测序领域所研发公布的第三款重要软件。“过去五年来我们与马里兰大学团队合作,总共在基因测序领域研发公布了三款软件,SparseAssembler、DBG2OLC以及最新的 Sparc。”
其中,第一款是为二代测序技术设计,后两款为最新的三代技术所研发。此三款软件目前在各自所处的二代和三代测序技术领域其性能仍处于国际先进或领先水平。
基因组装软件的研发主要挑战除了计算极端耗时之外,还需要超大内存空间以及组装质量和可靠性问题,也就是纠错问题。基因组装一般需要超级计算机或计算集群。而这三个方面也是评判一款基因测序软件的基本标准。
前两款软件主要是在计算时间和节省内存空间方面的改进,与当时最优秀的同类软件相比较,其计算效率(也就是缩短计算时间、减少内存空间需求量)提高了10~1000倍。因此,采用该软件可使得原来需要超级计算机的基因组装计算,能够在普通服务器(甚至办公室工作站)上完成。
综合测试显示:采用测序深度仅为30x的三代基因测序数据,Sparc取得组装共识时错误率低于0.5%;同时与目前最优秀的同类软件相比,Sparc可节省计算时间和内存达80%。
马占山告诉《中国科学报》记者:“在三代测序领域的另一重要突破——如果大家都约定采用一致或类似的组装质量,我们的软件对于测序深度的要求一般仅为同类其他软件的一半,这意味Sparc/DBG2OLC有可能节省一半的测序成本。”
类似于二代测序技术,目前三代测序软件已经足以满足三代测序仪(硬件)的需求。“我们的技术其实已经解决了三代技术与二代技术相比较的弱点,那就是计算量大(计算极端耗时、需要超高速和超大内存的超级计算机或集群)和测序错误率超高的缺陷。而且,该技术也降低了成本。”因此,马占山认为三代测序技术今后推广更多是市场开拓问题,而不是技术问题。
值得一提的是,DBG2OLC 和 Sparc所开发的算法解决了最新三代技术最为复杂的关键技术难题。在测序硬件技术出现更新一代技术之前,这一领域软件的发展已经完全可以满足硬件技术的需求。特别是最新Sparc算法的“线性复杂度”意味着该问题最高效率级别的算法已经找到,为此,Sparc合作团队已经将软件研发转向生物医学的另一热点:肠道菌群与人体疾病和健康关系的研究。
《中国科学报》 (2016-07-04 第5版 创新周刊)