DNA 将成为新时代的硬碟?

741人参与 |来源: |时间:2020-06-06
DNA 将成为新时代的硬碟?

人类在储存资料一直面对一个问题:资料在过去两年内储存的数目已经超过以往历史的纪录。资讯的急流有朝一日将会超过目前硬体所能储存的空间。而研究者竟然将脑筋动到大自然最原始的储存硬碟上:DNA。

听起来有点不可思议,但其实用 DNA 储存资料早就不是一件新鲜事了。自有生命以来,万物就开始利用 DNA 当作储存媒介。DNA 就像一座旋转阶梯,当作梯子的就是硷基 ATCG,由这 4 个硷基排列出的序列可以编码所有生命。而科学家尝试做的,就是将数位资讯的 0 和 1 转换成这 4 个字母。

一定会有人觉得何必这幺麻烦,那是因为 DNA 有其他硬碟没有的好处,首先它佔用的空间极小,而且非常持久,只要保存在冰冷乾燥的阴暗处,猛玛象的 DNA 都可以析出并定序。最重要的是,DNA 永不过时,不像 CD 或录音带会没落。

自 2012 年来科学家们一直尝试在用 DNA 储存资料,来自哈佛大学的遗传学家乔治‧茄契(George Church)和加州大学洛杉矶分校的生化学家斯理‧克苏里(Srirram Kosuri)及他们的团队将 DNA 的 4 个字母──ATCG 录製成数位化的 0 和 1,将一本有 5 万个字母的书转录在上千个片段的 DNA 上。看似成功,但实际上成效非常差,每克 DNA「只能」储存 1.28PB(1PB=1024TB)。使用其他方法也许能再改进一些,但没有人可以达到理想目标的一半。

理想上科学家们究竟要做到多好呢?他们认为每个 DNA 的核甘酸应该可以储存 1.8bits。想必有人会疑惑为何不是整数的 2,因为他们也考量到稀少却无法忽视的 DNA 读取失误。

来自哥伦比亚大学的电脑科学家雅尼夫‧埃利希(Yaniv Erlich),仍然坚持他可以更接近这个极限。他和纽约基因体研究中心的副研究员迪娜‧资林斯基(Dina Zielinski)将目光转向常用来编码和解锁的算法程式。他们利用 6 个档案,包含了一个完整的电脑运作系统、史上第一部电影《火车进站》……等等,接着将它们转换成二进制,压缩成一个压缩档,在分成数串二进位的代码。最终产生出一股 200 个硷基长、共 7 千股的数位清单。

他们将这些档案传给位于旧金山的生物科技公司 Twist Bioscience,请他们合成出 DNA 序列。两週后,两人就收到一小瓶转录档案的 DNA,为了将它解码,他们利用现代 DNA 定序科技:序列会被送进电脑转换回二进制,并利用标籤重组回 6 个原始档。根据埃利希宣称,他们的储存容量效率极佳,每个核甘酸就能编码高达 1.6bits,比其他对手好上 60%,更逼近理想目标的 85%。

然而用 DNA 储存资讯会一直面临一个问题:那就是序列定序同时也会毁损此序列,读取越多,DNA 也会逐渐消失。埃利希说:「假设我们决定编码《Let it Go》这首歌(电影《冰雪奇缘》主题曲),DNA 将会在一週内消耗殆尽。」另外,本质上 DNA 十分容易複製,然而将 DNA 编码的资料备份却是一件琐碎的事,因为每次备份都会有出错的风险。

但埃利希和兹林斯基设计出一种名为「DNA 喷泉」的演算法,可以将他们分类好的二进位代码包装进所谓的「水滴」中,他们还加了额外的标籤帮硷基在稍后重新排列成正确顺序。而複製错误的困扰因此迎刃而解,就算複製超过 10 份,他们仍可以完美修复。

巧合地,Netflix 和 Spotify 的串流服务平台也是利用喷泉代码解决相似的问题。做法大致就是将资料划分成「水滴」,只要得到足够的水滴,不管遗失哪部分都可以重新建构所有串流影音。埃利希还将之比喻成一块巨大的数独拼图,只要有些正方形区域,依然可以推断出完整的样貌。

DNA 储存也将会形成主流,而且会越来越便宜。目前 DNA 的定序确实昂贵,合成 DNA 更是所费不赀,但两者的价格一直在跌落。不过就算持续减价,合成 DNA 仍需要一定的技术,因为只有少数工厂支持相关研究的实验室。埃利希预测强况将会扭转,并表示:「别忘了第一部硬碟需要 4 个人才拿得动,经过 10 年已经变成指头大小。儘管目前只有少部分资金投入合成 DNA,但我希望藉由更优秀的装置,将 DNA 储存资料的潜能完全激发出来。」

也许在未来的某一天,我们周遭随处可见的硬碟,将被一瓶瓶 DNA 取代。

上一篇:
下一篇: