生物医学大数据蕴含极其丰富的信息和知识,对于人类健康具有重要意义。2001年,全球科学家经过10年攻关,花费30亿美元完成了人类第一个基因组草图的绘制。2007年,第一个亚洲人的全基因组测定完成,花费30万元。目前,测定一个人的全基因组序列(WGS)只需5000元。
与此同时,以高通量测序为基础的精准医学在临床应用上已经展现出巨大的作用,比如将高通量测序技术应用于产前筛查,能及时发现唐氏综合征、爱德华综合征和帕陶综合征等。
尽管生物医学大数据展现出举足轻重的作用,但人类对数据的了解和应用还只是“冰山一角”。中南大学计算机学院院长王建新表示,传统的分析方法已经难以适应生物医学大数据分析的需求,生物医学大数据的分析与应用成为当前国内外一个极具挑战性的问题。
海量数据分析之难
基于组学数据研究疾病的分子分型及特征是当前医学研究的重要发展方向,在肿瘤、神经系统疾病、免疫系统疾病、罕见病、新生儿筛查、靶向治疗、药物研发等多个领域都有广泛的应用。目前,研究者的思路主要是筛选疾病相关的分子生物学标志物,帮助专家寻找更好的治疗靶点和提高早期干预疾病的能力。然而,这种基于筛选的策略无异于“沙里淘金”。
“基因测序数据提示肿瘤患者可能对哪些靶向药敏感,但目前的靶向药种类有限,可用来提示药物敏感性的基因靶点也有限。基因测序对患者或许有用,但也很有可能并不能帮助患者找到合适的药物,临床医生习惯于评估常规实验室检查中有限的测量值或标记。可以说,人类只解开了零星几个谜底,基因图谱更多的是未知。”中国医学科学院肿瘤医院主任医师马飞表示。
也就是说,大数据使观测整个生物系统具备可能。然而,生物医学相关的组学数据都是典型的高维数据,对高维数据的处理能力不足,限制了研究人员对疾病的研究。那么,如何才能在大数据的加持下解开更多生命谜团,让人类基因图谱能够解释更多疾病的发生发展机制呢?
对此,广东省人民医院乳腺二科副主任医师杨梅表示,数据挖掘采用许多复杂的数学工具,这会使生物医学科学研究者“望而却步”。但在现实中,当临床医疗人员求助于计算机专家时,却又发现双方很难沟通。
“我们很难跟计算机专家表述清楚临床需要什么,信息鸿沟、知识背景的不同使得我们很难交流。”杨梅说。
临床方面的急迫需求无法传达给计算机科学家,计算机科学家也发现医生在科研上的需求往往被知识背景和工具所制约。例如,对于医生想要“筛选”出标志物的愿望,计算机科学家认为可能会有更好的方法。
数据采集与存储之难
生物医学大数据包括电子病历、电子健康记录等各类存储医学信息的生物学数据库以及高通量组学数据。
首都医科大学宣武医院胸外科首席专家支修益表示,精准医学始于数据的精准,数据质量直接决定大数据分析的结果。大数据是否能在精准医学中充分发挥作用,根本上取决于大数据的质量控制和标准化。
生物医学大数据的获取需要大量个体信息的集成,然而缺乏统一标准如测量工具、方法及时间不一致,导致在收集数据时容易出现遗漏或者偏差。
“不同测序公司、医院的取样环境要求、质控、检测指标不尽相同,这造成多方数据难汇总且准确性难保证的现状,亟需制定统一的标准及检测手段,确保数据的准确可靠。”支修益说。
目前,国内生物医学数据库建设已经起步,但主要是基于单一信息来源的数据库建设,还有自主构建、结构各异的专病数据库。这些数据库还需要在数据完备、标准共享等方面进行完善,与国际接轨。
支修益认为,全国统一检测标准的制定及各大数据库的连接涉及范围广、投资大,需要政府部门或行业组织牵头。此外,确保临床数据的准确性和质量是一项具有挑战性且耗时的任务,需要多年如一日的坚持。
此外,海量级数据还带来了存储计算处理的难题。单一个体作为一个生命大数据源,数据就可达到10TB(1TB=103GB)数量级,每个国际大型生命组学计划产生的数据都是PB级(1PB=106GB)。海量的数据储存在哪里?如何有效调用?这些都是亟待解决的难题。
数据融合扩展之难
随着患者的参与度越来越高,生物医学研究项目也越来越多。但如何让患者从中受益、如何进行利益共享,也是一个重要问题。
支修益认为,从全面描述疾病的特征,到阐述疾病的发病机制,再到患者个体的精准诊断和治疗,这一过程的实现需要打通数据鸿沟。目前,基因组数据尚未与临床数据相关联,临床中缺乏高度融合、高质量、立体多维的数据,各大医院病历数据的可扩展性、灵活性还较差。
马飞也表示,生物医学大数据涉及数据安全和个人隐私,目前跨地区、跨部门调取患者的就诊信息流程复杂,医生很难全面掌握患者多年的健康情况。另外,在当今的大数据时代下,由于计算机网络所具有的开放性、共享性,如何在保护患者隐私和安全性的同时,充分利用生物医学大数据、实现数据传输也是一个待解决的问题。
“现有的隐私保护技术主要基于静态数据集,而在现实中数据模式和数据内容时刻都在发生变化。因此需要开发适应更加复杂环境的实时动态数据利用和隐私保护技术。”支修益表示,对于不同数据集的整合挖掘及分析处理,是数据标准统一后亟待解决的又一难题。