中国科学院院士 贺林
随着新一代基因测序技术飞速发展和高通量实验等技术突破,生物医学数据从以基因组为代表的数据量发展到PB 甚至 EB 量级时代。但是这些数据的来源十分分散,导致质量参差不齐,又没有标准化的管理模式,难以有效的整合与分析。此外,由于这些数据没有汇交的机制,从而导致了数据的大量流失,重要数据缺乏安全保障。具体而言,有以下几点。
困境一,数量巨大、增长迅速。以测序仪为例,一台高通量的测序仪每天大概产生100GB的数据。人群队列研究、分子流行病学研究产生了大量长时间、广空间的数据,基因组、转录组、表观遗传组等海量
组学数据呈指数级的增长。
困境二,质量控制困难,难以标准化与结构化。随着数据规模的增加,传统的数据模型和数据组织方式,已经无法满足海量数据的结构、数量快速增长以及数据结构不断变化的管理需求,难以按照实际情况动态调整。
困境三,临床数据分散,难以高维度多层次交汇。中小型研究团队利用自身的数据采集能力和整合能力,建立了大量的种类繁多、规模悬殊、质量参差不齐的数据库和知识库。数据维度越来越高,需要更加准确的降维方法。
困境四,数据没有安全保障。欧美等发达国家和地区针对数据安全管理与个人隐私保护,均建立了相对成熟的法律体系与监管框架。我国至今设施建设仍未精准落地。
困境五,数据无共享平台,难以与国际交流。未来,我们需突破传统的以主题为基础建设的数据库的局限性,实现以搜索引擎为核心的数据跨库整合,更好地满足用户一站式的数据共享需求。
困境六,生物信息分析流程复杂,准确率低。目前生物信息流程分析缺乏规范和标准,当前的分析流程多有一定的局限性和较高的错误率,特别是在序列拼装方面,需要通过相关参数的调整或软件的升级提高分析的精度。
在遗传咨询这一领域,正在蓬勃发展的临床决策支持系统(CDSS)通过收集各医院信息化子系统的临床数据,将疾病的表征、患者体征和治疗方式的数据存储起来,建立特定疾病的知识库,并根据数据的智能分析,制定有效的诊疗路径,以帮助医生进行决策。
对于海量的数据,我们应该采取新的仓储式的数据仓库模式,在底层数据结构上以整合为导向,按照样本、宿主、环境等信息,形成弹性的数据结构,支持数据结构动态调整,为后期数据集成与整合工作奠定基础。在人才培养方面,可以开展校企合作等模式培养出社会需要型人才,以达到人尽其才,物尽其用的目的。