恐龙灭绝6000多万年后,科学家得到了一块带有史前蚊子的琥珀,从蚊子的血液中获得了恐龙的基因,从而复活了遥远的生物。
讲述这个故事的《侏罗纪公园》至今仍位列全球十大票房电影这一系列故事的原理很简单:DNA储存了恐龙的生物信息,科技让它重新表达
现在,想象另一个有DNA的故事:在宇宙的长河中,世纪它不见了另一种智慧生物出现了,TA去探索远古人类文明什么会承载人类文明的记忆气温在变,地球上庞大的数据中心只是遗迹
冻土里有一种DNA很轻,只有1kg它看起来像一些封装在胶囊里的白色粉末经过阅读,它记录了地球上曾经存在的海量信息视频,文字和代码展示了人类历史进程中无数的发明和文学作品
于是那个遥远文明的痕迹又在宇宙中展开了。
这又是一个科幻设定背后的技术是目前已经被关注的前沿方向:DNA存储信息
在自然界中,DNA负责储存遗传信息人类单个细胞的平均直径为5至200微米,其中的DNA可以包含一个人的所有遗传信息:30亿个碱基对
那为什么不能用碱基来存储其他信息呢这个科幻的想法正从实验室里走出来,被视为信息存储的未来方案
01.基因组数据太多了我该怎么办
原来是生物学家想解决生物发育的问题。
一年前,一群生物信息学家在德国的一家酒店里讨论数据存储问题,NickGoldman也在其中这是他在欧洲生物信息学研究所担任高级科学家的第二年
大规模基因组测序正在进行,由此产生的数据规模正在迅速增长存储和压缩这些数据很麻烦,现有的技术方案似乎不可行
据估计,人类基因组需要多达2—40EB的存储容量这可能超过一个世界级科技公司的云存储容量mdashmdash全球苹果用户存储在谷歌云中的数据总量约为8EB这8EB数据的每月存储成本为2.18亿美元
生物学家很沮丧。
有人灵光一现:是什么阻止了我们使用DNA存储数据。
这看起来像一个笑话,但生物学家意识到这不仅仅是一个笑话他们拿起手边的餐巾纸,用圆珠笔仔细计算可行性
DNA存储遗传信息的原理并不复杂它由四个核苷酸A,T,G和C组成,相互成对对应,形成双螺旋结构核苷酸序列记录了遗传信息
在数字世界中,所有信息本质上都是一串0和1,要在DNA中存储数字信息,简单理解就是将0和1的编码序列转换成核苷酸序列DNA存储的优势在于密度高,大约是你眼前一个逗号的大小一立方毫米的DNA可以存储9TB的信息
使用DNA存储数据并不是一个全新的想法一些科学家曾经尝试过但这是一个开创性的科学与艺术的跨界实验
1988年,艺术家乔·戴维斯和哈佛大学的一名研究人员制作了一对名为小维纳斯该模式存储在DNA短链中。
这个图案的代码很简单,白色的地方标记为0,黑色的线部分标记为1,文件大小只有35位,存储的是一条长度为28个核苷酸的DNA链。
那次酒店讨论两年后,也就是2013年,高盛团队公布了研究结果这次他们存储了5个不同格式的文件,总共0.75MB,为了保证信息被正确读取,科学家在存储时,每条信息都是按照4倍冗余存储的
这五份文件是:
—莎士比亚的154首十四行诗
—提出一篇关于DNA双螺旋结构的论文
一张照片。
——马丁·米德多特,金鹿我有一个梦想,演讲的26秒部分
—一串霍夫曼代码。
最近几年来,DNA的在线存储容量不断被突破2019年,美国初创公司Catalog在其DNA中存储了16GB的维基百科这家公司表示,它正在建立世界上第一个基于DNA的大规模数字数据存储和计算平台
02.编解码有很多事情要处理。
在一些生物学家看来,用DNA来储存是很Rdquo事情自然编码语言与我们在计算机领域使用的二进制语言非常相似在硬盘上,我们用0和1来表示数据,而在DNA中,我们有四种形式的核苷酸,A,C,T和G瑞士联邦理工学院的生物学家RobertGrass说
DNA存储的关键之一是用四个核苷酸映射数字0和1。
该方案可以非常简单比如:A对应00,C对应01,G对应10,T对应11然后根据需要的核苷酸序列,把核苷酸像珠子一样串在一起当你需要读取信息时,可以利用基因测序技术读出这串核苷酸序列,然后翻译成0和1的字符串此进程正在编码mdashDNA合成mdash测序mdash解码
这听起来像把大象放进冰箱过程,操作上还有很多问题需要考虑否则,科学家就不用一直研究新的编码方案了
在天然DNA中,A和T,C和G是成对的在单个DNA中,CG和AT的比例基本一致,约为50%如果C和G的含量过高,可能会造成DNA链的一些复杂的物理结构这将使DNA测序复杂化
而在珠子在这个过程中,出错率是不可避免的目前,大约每合成100个碱基就会出现一个错误这是目前化学合成技术造成的瓶颈合成的每个碱基的正确率都在99.9%以上但当基串变长,乘法概率为0.01%时,误差就难以避免了
目前合成DNA单链长度一般不超过100个碱基,极限在300个碱基左右可是,在自然界中,DNA中有成千上万个碱基对
也就是说,DNA虽然有很强的存储能力,但也不得不以很多短链的形式存在如果储存的信息量比较大,这些短DNA链就像一本松散的书它可以存储很多信息,但它是以页面的形式存在的
当然,DNA的短链可以拼接成长链这意味着一个额外的过程在测序的过程中,需要将长链断裂成短链这是因为目前的技术无法一次读取长链
在测序的过程中,也存在出错率虽然目前的错误率已经低至10—3个数量级,但与商用硬盘的读写错误率仍有至少9个数量级的差距
准确性受到合成和测序两种技术的影响科学家们想到设计编码方案来避免它:在编码中加入纠错机制这样,即使碱基合成和测序出现错误,DNA中存储的内容仍然可以被正确读出
03.走出实验室,还要考虑速度和成本。
DNA存储也试图走出实验室。
2020年10月,微软,西部数据和基因测序巨头Illumina,DNA合成初创公司Twist Bioscience共同成立了DNA数据存储联盟。
这是全球首个该领域的学术和产业链联盟这个联盟希望制定技术和格式标准,最终建立一个通用的业务系统
微软研究院于2015年设立了DNA存储项目,并聘请华盛顿大学计算机科学与工程学院副教授KarinStrauss担任高级首席研究经理。
2013年,她和同事参观了英国的EBI,了解到戈德曼和她的同事对DNA存储的研究,他们对这个方向产生了浓厚的兴趣施特劳斯说:DNA的密度,稳定性和成熟度让我们兴奋
在他们的研究中,他们想开发另一个功能:随机阅读在普通的DNA测序技术中,必须一次读取所有的碱基串才能获得信息要么不看,要么全看如果只想要一小块数据,会很麻烦
2016年,他们发表了一项研究,可以在已经存储DNA的信息中搜索指定的图像定位后,他们用酶复制出需要的DNA片段,然后只看这一小段
要让DNA存储离商用更进一步,就要解决合成速度和成本的问题目前合成速度是每秒存储几千字节,成熟的云存储方案已经有每秒一千兆字节以上
这意味着写DNA的速度需要提高6个数量级如何提高数据处理能力就像并行计算可以加快数据处理速度一样,科学家希望DNA在合成过程中可以并行同时处理
2021年,微软开发出第一个纳米级DNA存储器,可以在每平方厘米的面积上同时合成25×106个碱基序列这项新技术将同时合成的碱基序列数量从一个增加到了一千个这个吞吐量使得DNA合成的速度变成了每秒兆字节
更大的吞吐量意味着更低的成本现在DNA存储的成本是每万亿字节8亿美元磁带存储的成本已降至每TB 16美元以下相比之下似乎没有竞争力但现实生活中大型数据中心的维护成本极高,硬件需要定期更新DNA存储密度高,体积小,长期不变质的优势成为降维
所以量大读频低的冷数据,被认为是DNA存储的最新应用场景TwistBioscience最近在一份市场报告中强调,这项技术可以帮助大规模,低功耗在部署更加有效的情况下
其他乐观的科学家相信技术进步。
自2003年人类基因组计划完成以来,测序成本降低了200万倍2016年,面对每秒千字节的速度,高盛说:六个数量级对基因组学来说不是什么大事你只需要再等一会儿
那个Rdquo一会儿,它有多长这个领域似乎已经到了最后阶段,还在等待突破