|
|
数据匿名化或不足以保护个人隐私 | 《自然-通讯》 |
|
论文标题:Estimating the success of re-identifications in incomplete datasets using generative models
期刊:Nature Communications
作者:Luc Rocher,Julien M. Hendrickx,Yves-Alexandre de Montjoye
发表时间:2019/07/23
数字识别码:10.1038/s41467-019-10933-3
微信链接:https://mp.weixin.qq.com/s/ndRujpvC-Tdyw31BZp7ygw
《自然-通讯》发表的一篇论文Estimating the success of re-identifications in incomplete datasets using generative models介绍了一种可以评估一个人的身份是否能够从一个不完整的匿名化数据库中被重新识别出来的方法。该论文认为目前的匿名化和数据共享方法可能不足以保护个人隐私或满足数据保护法律法规的要求,如欧盟的《通用数据保护条例》(GDPR)。
图1图源:VisualHunt
数据科学和人工智能有望变革我们日常生活的方方面面,如医疗、卫生保健、商业和治理。这些方法依赖于大规模的详细个人数据,但是收集和共享个人数据引发了有关个人隐私的担忧。针对这个问题,目前的解决方法包括匿名化处理和公布不完全的数据集。但是,近期发生了利用匿名数据集,包括浏览历史记录、手机和信用卡数据,成功重新识别出个体身份的情况,这表明上述措施可能还不够充分。
英国帝国理工学院的Yves-Alexandre de Montjoye及同事开发了一种统计方法,能够准确估算通过匿名数据集正确地重新识别个体身份的可能性。作者发现,只需要知道少数几个属性,如邮政编码、出生日期、性别和子女数量,一般就能够以高可信度重新识别出个体身份——即使数据集是不完整的。已知属性越多,识别的可能性越大。例如,99.98%的马萨诸塞州人口可以通过15个人口统计学属性识别出来。因此,他们总结认为只公布取样数据集或不完全数据集不足以保护个人隐私。
摘要:While rich medical, behavioral, and socio-demographic data are key to modern data-driven research, their collection and use raise legitimate privacy concerns. Anonymizing datasets through de-identification and sampling before sharing them has been the main tool used to address those concerns. We here propose a generative copula-based method that can accurately estimate the likelihood of a specific person to be correctly re-identified, even in a heavily incomplete dataset. On 210 populations, our method obtains AUC scores for predicting individual uniqueness ranging from 0.84 to 0.97, with low false-discovery rate. Using our model, we find that 99.98% of Americans would be correctly re-identified in any dataset using 15 demographic attributes. Our results suggest that even heavily sampled anonymized datasets are unlikely to satisfy the modern standards for anonymization set forth by GDPR and seriously challenge the technical and legal adequacy of the de-identification release-and-forget model.
(来源:科学网)
特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。