本报讯(记者黄辛)中科院生化与细胞所陈洛南研究组一项最新研究建立了基于流形思想,通过整合多种组学数据实现自动的信息融合与偏差校正,并从中识别出全局样本模式的方法。相关研究成果日前在线发表于国际学术期刊《生物信息》(Bioinformatics)。
随着测序技术的发展,组学数据呈现井喷式增长,大数据时代的来临给生物
带来了新的机遇和挑战。传统的基于单组学数据的研究,只能够有限地解释生物系统或者复杂疾病的特征;采用的数据类型不同,也往往得到不同的分析结论;这些均大大阻碍了高通量技术在临床方面的应用。因此,将不同类型的组学数据有效地整合,以综合和整体的视角来看待生物过程或者表型,已成为信息转化医学应用的一个重要突破口。
针对整合组学数据中存在的此种难题,陈洛南研究组开发了一套新的整合办法。该方法从数据本身出发,在保留各组学的生物特性的前提下,将各层数据反映出的样本模式进行自动非线性整合,并且由优化得到符合数据固有特征的全局样本模式。其中,各组学数据对于整合结果的贡献得以量化,数据偏差得以校正,可以有效地鉴别出数据内部结构特征。这种无特殊假设的计算模型,可真正实现数据驱动的整合。
陈洛南研究员表示,研究人员不仅在数字实验上验证了该方法的有效性,还成功应用到生物学数据的分析——癌症细胞系CCLE数据与临床病人TCGA数据上,揭示出整合后的癌症分型具有更显著的生物学或者临床预后的重要性。