据物理学家组织网近日报道,欧洲分子生物学实验室-欧洲生物信息学研究所(EMBL-EBI)的研究人员创建了一种可将数字化信息存储数万年之久的新技术。其采用DNA作为介质,储存规模远远超出全球所有的信息量。该技术可以在大约一杯DNA里存储至少1亿小时的高清视频文件。相关研究结果发表在1月23日《自然》杂志在线版上。
世界上的数字信息将近3泽字节,即30万亿亿个字节。新的数字内容不断汇集对档案工作者构成了挑战。而硬盘价格昂贵且需要不断的电力供应,即使是最好的“无动力”归档材料如磁带,也会在10年之内“失忆”老化。这在
领域更是一个日益凸显的问题,包括记录大量DNA序列的科学数据卷宗。
EMBL-EBI的尼克·高曼说:“DNA是一种可靠的存储信息方法,因为我们可以从猛犸象的骨头中提取到它,其上的数据可以追溯到几万年之前。而令人难以置信的是它小而密集,不需要任何电源存储,因此传输、保存信息很容易。”
研究人员说,读取DNA是相当简单的,但将它写入是DNA存储成为现实的一个主要障碍。挑战主要来自两方面:首先,目前的方法唯有可能用短字符串加工DNA;其次,写入和读出DNA都很容易出错,尤其是当重复相同的DNA字母时。高曼和该研究的联合作者、EMBL-EBI副主任伊万着手创建了一种代码,以克服存在的问题。
伊万说:“我们知道需要使用唯一的DNA短字符串制作代码,而用这样一个方式创建运行相同的字母是不可能的。所以我们设想,把代码解散成两个方向上的很多重叠的片段,其携带的索引信息可以显示每个片段属于整体哪一部分的代码,然后做一个不允许重复的编码方案。这样一来,在不同的片段就不会出现同样的错误,即便有也非常罕见。”
这种新方法需要合成DNA的编码信息,总部位于加州的安捷伦科技公司自愿提供此服务。伊万和高曼发送其编码的版本包括:马丁·路德·金演讲“我有一个梦想”的MP3,一张EMBL-EBI的JPG照片;沃森和克里克开创性论文“分子结构核酸”的PDF版本;所有莎士比亚十四行诗TXT文本以及描述编码的文件。研究人员说:“我们从网络上下载文件,并用其来合成成千上万的DNA片段,结果看起来像一小块尘埃。安捷伦把合成后的样品邮寄给了EMBL-EBI。”研究人员能够毫无差错地排序DNA和解码文件,准确率可达100%。
高曼说:“我们用分子形式创建了一个容错代码,可以保存数万年,在适当的条件下或可能持续更长时间。只要有人知道代码是什么,并有一台机器可以读出DNA,就能够将原信息读回。”
理论分析表明,以DNA为基础的存储方案在规模上远远超出了目前的全球信息量,并为大规模、长期和不经常访问的数字典藏提供了一个理想的技术。事实上,目前技术进步的趋势是减少DNA合成在速度上的成本,计划在10年内实现50年归档的成本效益。虽然还有很多实际中有待解决的问题,但是DNA固有的密度和“长寿”优势,使之成为一个具有吸引力的存储介质。研究人员的下一步是完善编码方案,并探究其实用性,为商业上可行的DNA存储模型铺平道路。(来源:科技日报 华凌)
特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。