大型基因组数据库对于科学家寻找同疾病相关的遗传变异来说是必不可少的。不过,对于贡献了DNA的人来说,这会带来隐私风险。一项2013年的研究显示,黑客能利用网络上公开可用的信息,从被匿名的基因组数据中辨别出人们的身份。
为解决这些担忧,一个由美国麻省理工学院计算机科学家Bonnie Berger和Sean Simmons研发的系统利用了被称为差分隐私的方法。它通过向用户查询结果中添加少量噪音或者随机变异,模糊捐赠者的身份。研究人员在最新一期的《细胞系统》杂志上发表了他们的成果。
该系统会计算研究人员想要的统计数值,比如一个遗传变异同某种特定疾病存在关联的几率,或者同一种疾病最相关的5个遗传变异。然后,它向结果中添加随机变异,并且返回本质上带有轻微错误的信息。比如,在对同某种疾病相关的前5个遗传变异的查询中,系统可能会产生前4个遗传变异以及第6个或第7个变异。
用户并不知道哪个查询结果更正确,但仍能利用这些信息。只是对于想弄清楚数据背后的患者信息的人来说,变得更加困难了而已。
“当你在系统中加入一点点噪音,从很多方面来说,它同数据开始自带的噪音并没有太大的不同。”田纳西州范德堡大学计算机专家Bradley Malin表示,“在一定程度上,它仍然是可靠的。”几十年来,美国人口普查局和劳工部一直通过这种方式向它们的数据中添加噪音。
只要数据库足够大——含有来自几千或更多人的信息,同时研究人员保持在限制其能询问问题数量的“隐私预算”之内,利用此项技术的数据集中的个人隐私便不会受到侵害。用户将无法询问一个基因组中的几百个或上千个位置。
受该技术保护的数据库可被立即搜索到,而目前要获准调用由包括美国国立卫生研究院在内的各机构管理的数据库可能需要数月。
Simmons和Berger表示,即便带有噪音,在询问一些有针对性的问题时,该系统提供的答案仍然足够有用。“它主要被用于获取通过其他途径可能无法接触到的数据集。”Simmons介绍说。
比如,如果分析一个小型数据集的研究人员发现了同某种疾病存在关联的遗传变异,该系统能让他们利用规模大很多且通过其他方式无法获取到的数据集证实这一关联。它还能让研究人员预览某个数据集,从而在进行耗费时间的完整获取申请流程前判定其有用程度。
“我认为,这是一项极其卓越的数学工作。”哥伦比亚大学计算生物学家Yaniv Erlich表示,“理论上讲,它很不错。不过,从实际的角度来说,我并不确定它会派上用场。”
Erlich的一个担忧来自该系统的问题限制。在他看来,现在研究人员想要的是分析同某种疾病存在关联的前10个或100个遗传变异,而不是前5个。
与此同时,Erlich 表示,“人们并不喜欢在其数据中加入噪音”,因为产生这些信息需要经过很多艰苦的工作。噪音问题还会对基于此类信息的临床决策产生令人不安的影响。
Malin认为,该系统会在查询结果中添加大量噪音的可能性非常小。“这让人们感到有点不自在。”
不过,Simmons正试图改进这一系统,在实现相同的隐私保护效果的同时尽量添加较少的噪音。Berger则同哈佛大学—麻省理工学院博德研究所合作,确定减少隐私风险的方法。这或许可通过利用差分隐私技术实现。如果该研究所决定在更大范围内释放来自其数据库的基因组数据,这将会派上用场。
“最终,这就是我们真正关心的事情。”Simmons表示,“让这些数据尽可能被更加广泛地获取到。”