中国工程院院士 王红阳
近年来,
进入了“大数据”时代,生命的整体性和疾病的复杂性使得信息化和大数据成为
研究的必然。大数据平台给了研究者从系统层面全面认识生命的机会和机遇,使众多科技人员更有信心地应对复杂生命现象的挑战。然而,当前大数据对医学,特别是临床实践的指导作用显然未达预期。我将就大数据产生和挖掘过程中存在的问题进行探讨。
首先讨论数据质量。目前诸多研究和公共资源提供了海量数据,但是不同数据的科学价值参差不齐。高质量数据往往具备样本可靠、信息完整、数据结构清晰、系统性多组学多层次等特点,例如TCGA和ICG等。
与此同时,大数据中也充斥着大量重复,缺乏必要注释和低质量数据,这些数据不仅科学价值有限,反而给研究者增添了数据甄别的负担和误用的风险。大数据的质量对于数据产生者,特别是对大型研究计划顶层设计和数据管理提出了更高的要求。
数据体量方面,虽然当前数据给人“够大”的直观感觉,但具体项目实施过程中,公共数据资源仍显得“捉襟见肘”。我们呼唤更大体量、更多维度的高质量数据能够共享,包括特殊病患的样本资源以及新技术生成的数据,如ATAC-seq等,造福人类健康。
大数据催生了计算机领域和医学领域的大合作,而两个领域学科特点与理念的差异阻碍了两者的高效融合。具体表现为计算机领域偏重医学问题建模而相对忽视医学研究进展,以癌症精准分型和标志物发现为例,典型的计算机研究偏爱从零开始的新算法开发,偏向“另起炉灶”,而医学研究者往往更关注在已有临床标志物的基础上的新发现和提升,而后者也更加贴近医学临床实践应用。生物信息学作为连接计算机和生物医学领域的桥梁,在关注两个领域最新进展的同时,更需要准确拿捏和填补两个领域“毫厘”之间的差异,使医学问题定位更加准确,算法更具应用性。
生物医学大数据的规模和产生速度已经超出了传统计算模型处理能力,幸运的是,近年来深度学习算法得到快速发展,其在多维数据整合、特征提取、因果推断等多个应用场景下具有显著优势。
近期的研究已将多种前沿机器学习算法应用于生物医学大数据挖掘,并取得了较好的效果。相信随着不同领域更深度的理解和交叉,新的数据分析技术的应用,大数据必将真正造福人类健康。未来医学研究可在学科交叉与实践迭代中,实现更高效的疾病防控和疾病管理,不断接近预防疾病和治愈疾病的最终目标。