在如今这个经受着大数据洗礼的时代下,弄清楚如何以低成本方式存储数据已经成为愈发重要的核心议题。其中最奇特的方案也许就是最佳答案所在:在DNA分子中存储信息。
目前流行的长效冷存储方法可以追溯到上世纪五十年代,当时人们会把数据写入至披萨饼大小的磁带卷上。相比之下,DNA存储可能成本更低、能效更高、持久性更强。研究表明,用盐封存的DNA在室温环境下可以稳定保存几十年,如果在数据中心的受控环境内应该可以存放更长时间。另外,DNA本身不需要维护、存储DNA内的文件易于复制,而且存储成本几乎可以忽略不计。
更妙的是,DNA能够在几乎不可思议的袖珍空间内存储惊人的信息量。我们先来展望这样的未来:到二零二五年,人类估计将掌握三三泽字节数据——即三三后面加上二一个零。DNA存储能够在一个乒乓球的体积下存储全部这些信息,甚至还有不少富余空间。美国国会图书馆中一共七四零零万字节的信息完全可以塞进一粒小小的芝麻中,即乒乓球体积的六千分之一。而只需要半颗芝麻,就能存储Facebook上的所有数据。
听起来很科幻?并不会。DNA存储技术当下已经存在,但要真正全面推行,研究人员还需要克服技术整合中的种种艰难阻碍。要完成这项意义重大的工作,洛斯阿拉莫斯国家实验室的团队开发出一种用于分子存储的关键技术,配套软件能够使用自适应DNA存储规范(ADS Codex)将数据文件由计算机中的二进制形式转译为具有生物学意义的四字母代码。
ADS Codex也是情报高级研究计划署(IARPA)分子信息存储(MIST)项目的关键组成部分。MIST希望为政府及各私营部门的大数据操作提供成本更低、规模更大、持久性更强的存储解决方案,目前的短期发展目标是在二四小时内实现写入一 TB(百思特网一万亿字节)、读取一零 TB数据的性能,并且将成本控制在一零零零美元。
从计算机代码到因素代码
提起DNA,大多数人想到的首先是生命的蓝图——跟计算机扯不上半点关系。但DNA本身其实就是一条四字母编码,用于传递关于生物体的各项信息。DNA分子由四种碱基或者核苷酸组成,每一种用一个字母标记,分别为:腺嘌呤(A)、胸腺嘧啶(T)、鸟嘌呤(G)与胞嘧啶(C)。这些是所有DNA编码的基础,指引着地球上一切生物的繁衍生长。
DNA合成已经是一项相当成熟的技术,目前被广泛应用于医学、制药、生物燃料开发等领域。这项技术的实质,就是将碱基组织为由A、C、G、T的特定序列所指示的不同排列。这些碱基以相互缠绕的扭曲链(即双螺旋)结构形成分子。而字母本身的序列也由此建立起编码系统,可用于指导生物体的生长发育。
完整的DNA分子集将构成基因组,也就是肌体生长的蓝图。而通过从零开始合成DNA分子,研究人员发现百思特网他们可以指定编写出由字母A、C、G、T组成的长串,并随时读取序列信息。整个流程类似于计算机中的二进制信息存储方式,只是这一次我们需要将二进制计算机文件编码为四字母生物分子的形式。
这种方法已经被证实有效,但目前对DNA编码文件的读取与写入都需要很长时间。向DNA中添加单一碱基大约需要一秒钟,以这样的速度编写归档文件可能需要几十年时间。但研究人员正在开发速度更快的方法,包括一次性写入多个分子并进行大规模并发操作。
转译过程没有任何数据损失
ADS Codex准确说明了如何将零和一转录为A、C、G、T四个字母的组合序列。Codex还能将此序列解码回二进制形式。DNA可以通过多种方法合成,而ADS Codex则将这些合成方法进行了规范整理。
遗憾的是,与传统数字系统相比,使用DNA合成进行分子写入时的错误率非常高。这些错误的来源与数字写入完全不同,因此更难以纠正。在数字硬盘上,将零误写为一即代表错误,反之亦然。但对于DNA,问题主要来自插入与删除错误。例如,我们可能希望写入A-C-G-T,但实际上A没能正常写入,于是整个字母序列向左移动,变成了C-G-T。当然,也有可能一次写入,直接形成了A-A-A。
更多好内容,请关注:破作文 - pozuowen.com