赵宇(左)与牛钢讨论对基因数据的解读不能简化为“查字典”
20世纪初,美籍奥地利经济学家约瑟夫·熊彼特在《经济发展理论》一书中首次提到“创造性破坏”这一颇具颠覆性的概念,以表示伴随根本性创新而发生的转型。
21世纪的今天,汹涌而至的生物医学大数据洪流,势必为
的基础研究和医疗健康领域带来史无前例的“创造性破坏”。
为顺应数字化发展大势,“我们迫切需要具备系统性思维,充分利用最前沿的计算技术和人工智能软件,打破生物医学领域的坚冰,形成完整的自主安全可控的端、边和云的软硬件生态,保障中国人的生命数据始终掌握在中国人自己手里”,中国科学院计算技术研究所高性能计算机研究中心主任谭光明在接受《科学新闻》采访时表示。
生物医学大数据“牵手”临床
自DNA双螺旋结构被发现,到人类基因组计划完成,再到如今由大数据主导的“个性化医疗”,现代医学正从“经验试错、同病同治”的传统模式,向“同病异治、精准医学”的方向升级,而基因测序则成为这一革命性变化的助推器。
尽管如此,在中科哲源(中国科学院计算技术研究所孵化的一家构建生命数据解析平台的人工智能企业)首席运营官赵宇看来,针对基因检测的认知,目前仍处于两极化的状态。
赵宇向《科学新闻》进一步解释道:“一端是将它神秘化,因为医学大数据在短时间内迅速提升了几个数量级,往往让人难以接受;另一端则是将其简单化,即以为基因检测就像‘查字典’一样,针对某个基因进行点对点检测,但人体的复杂程度绝对是超乎想象的,真的有一本‘字典’可查吗?”
其实,对基因检测的认知,不过是人们对待生物医学大数据整体认知的一个缩影。
在医学领域,长期受循证医学思想的熏陶,医生一开始对个体化检测难免心存抵触。然而,现代医学的发展与进步越来越依赖于具体的数据采集与分析,这已成为不争的事实。
过去,在循证医学思想的引导下,临床诊疗方法只能相对有利于某个群体,而无法惠及具体个人。在缺乏可靠的外部证据的条件下,医生的经验往往更为重要。但当遇到一些罕见病或未知病因的疾病时,医生便会束手无策。
如今,结合临床数据,通过调用系统生物学方法,不仅可以更准确地预测个体患病风险和预后,有针对性地实施预防与治疗,还能进行疾病的早期检测与诊断,甚至还能针对一些罕见疾病推测目标症状的病因,并借助已有知识开展药物筛选与相应的疾病防治。
“将临床场景中的关键问题也就是痛点提炼出来,并将这些问题转化为可计算的问题。然后结合临床端数据,可以进一步在已经搭建好的算法平台上开发新的方法流程,用来解决临床问题。”谭光明指出。
作为我国最早开展生物信息学课题研究的团队之一,中国科学院计算技术研究所高性能计算机研究中心多年来以生物医学数据处理为研究方向。为满足生物医学信息识别的需求,该中心自主研发了高性能计算机曙光4000H,并“量身定制”了专用加速器,为我国生物医学大数据研究提供了有力支撑。
为医学打开“另一扇窗”
在与图灵达尔文实验室相遇前,中山大学附属肿瘤医院影像与微创介入中心主任赵明怎么也没料到,生物医学大数据竟会给自己带来“四维空间”的视角。
对于搞科研的人而言,找到一个合适的课题与方向可谓意义重大。可是,赵明却在寻找科研方向的道路上屡次碰壁,原因是“找到一个看似合适的课题时,一经检索却发现已有团队开始做了”。一开始便“输在起跑线”上,着实让他很烦恼。
一次偶然的遇见,赵明与图灵达尔文实验室擦出了“火花”,有了意外的收获。 “如果医生在实践中有亟需解决的临床科研问题,图灵达尔文实验室可以帮助医生快速完成实验设计、数据分析、结果交付等研究流程环节。”赵宇介绍道。
还不止于此。配备有高性能计算平台的图灵达尔文实验室,还建有完整的数据分析方法和模型,至今已分析了上万份肿瘤基因组数据(以全外显子组数据为主),并挖掘了百万篇生命医学科学家的研究成果,为临床科研工作者提供了有效的支撑。
“与你们合作,帮我打开了‘另外一扇窗’!”赵明感慨道。
获益于此的不止赵明,57岁的王女士也是一位受益人。2012年,王女士发现自己脖颈左侧出现迅速增大的肿瘤块,在某市人民医院就诊后接受了完整的甲状腺和中央区颈清除术,手术较为成功。然而3个月后,分期CT扫描发现,王女士右路肺门出现了一个新的团块,癌症发生了转移。用药6个月后的跟进扫描显示,团块直径得到缩减。
然而好景不长。18个月的药物稳定反应后,王女士再次接受CT扫描,这一次医生发现肿瘤仍在继续增长,并且患者已经出现对药物的耐受。在转移灶肿瘤恶化后,王女士接受了纵隔镜检查,去除了包含未分化甲状腺瘤的增大淋巴结。
由于出现了耐药性,因此在用药方面医生极为谨慎,但也渐渐无计可施。后来,图灵达尔文实验室对患者的肿瘤基因组进行了再解读,支持肿瘤生长的一种生长因子相关信号通路被发现,医生据此改变了用药策略。经过针对性用药后,王女士的肿瘤显著缩小。
实际上,这只是生物医学大数据在临床治疗实践中成功应用的案例之一。截至目前,在广东省人民医院、南方医科大学附属医院等诸多三甲医院开展的关于肺癌、乳腺癌和肝癌晚期临床治疗的实践,对于晚期肿瘤临床客观缓解率达到近70%,在肿瘤治疗药物的判断、药效监测、新药物靶点发现等方面取得了显著的成果。
“我们非常希望临床医生带着问题来找我们,我们有工具、有全新的视角。”谭光明进一步指出,“相信通过合作,未来会产生大量新的认知和成果,同时也能把已经产生的结果应用到临床,尽快产生社会效应。”
从“不能”到“能”再到“更好”
毫无疑问,数据驱动方法是当前生物医学研究中的显学。
与过去被动地分析各种数据不同,数据密集驱动范式下的生物医学研究是主动地从大数据中提炼出隐含的“生命密码”,同时结合大量前人疾病诊断和治疗的实践,从中提取规律性的知识,最终升华为科学的指南,再应用于临床医疗实践。
“生物医学大数据是从分子数据到表型数据的多维、立体数据。”中国科学院计算技术研究所副研究员、中国科学院计算技术研究所西部高等技术研究院常务副院长张春明告诉《科学新闻》。所以,为了解决复杂性问题,仅仅依赖在人类知识体系中“查字典”的做法是不够的。“如今,我们建立了以数据和知识双模驱动的‘生命信息引擎’,以全新的视角理解数据,为解决临床问题提供可能。”
据他介绍,该团队采取BT+IT的方法,在很多方面都有了较好的进展。例如针对一般基因检测无效的肺癌患者,他们采取了一种基于统计模型联合深度学习的数据驱动方法,将谁都不认识的基因突变转化为有生物学意义的肿瘤依赖的信号通路活性信息。他们发现,这些通路活性信息与药物分配方案之间的关系要比基因突变更紧密。应用了这些方法,他们在肺癌的脑、骨、内脏转移预测,原发耐药机制以及免疫药物引起的超进展机制等临床强烈关注的方面也都取得了很好的进展。
然而,有进步就要有付出。当采取数据驱动方法时,不可避免会大大增加计算的复杂性,同时也提高了对患者数据采集要求的数量级。因此,采取新方法必然会出现流程管理复杂、算力需求增大、计算成本高的问题。
“哲源科技基本上已经解决了这个问题。”赵宇告诉记者,目前该实验室已可以在单台服务器上用一小时将百GB的测序数据变为一份基因组解读报告。“我们希望能真正地将计算资源融合在临床端,为医生在复杂环境下做出快速准确的判断提供坚强的能力保障。”
虽然欣喜于已取得的诸多进展与成果,但张春明看到了“生命信息引擎”在更多产业方面的应用,他期望能够给人类已经上市的每一种药物装上“眼睛”,不让病人在诊疗过程中成为“小白鼠”。“放眼全球新药研发面临的靶点枯竭,‘生命信息引擎’期望能够从纷杂的数据里发现药物新靶点,并通过伴随方式全程指导药物临床试验,从而加速药物研发进程,增加药物成功概率。”