中文 英语

DNA有望成为数据存储选择

存储大量数据的能力是可能的,但降低成本是一个挑战。

受欢迎程度

在2015年的技术会议上,科学家大卫·马科维茨提出了DNA可以被改造成数据存储材料的想法。观众的反应并不是他所希望的。

“他们会笑我下台,”马科维茨回忆道,但没有怨恨。面对质疑,他在美国情报界的研究机构IARPA工作。该机构预测未来对国家安全的挑战,并探索未来的解决方案。

IARPA是情报高级研究项目活动(Intelligence Advanced Research Projects Activity)的缩写。马科维茨说,IARPA在“看起来几乎不可信的方法”上冒险。

2014年,马科维茨就预见到了一个大问题,不仅是CIA、FBI和国家安全局等情报机构,其他政府部门,甚至是大型科技公司也会面临这个问题。许多公司正在生成价值艾字节的数据,但这种规模的数据存储供应对政府部门来说变得过于稀缺或过于昂贵,政府部门的预算无法呈指数级增长,以容纳他们正在收集的所有有价值的信息。

DNA,一种天然的纳米级信息编码材料,是一个可能的答案。2016年,马科维茨设计了一个程序来测试DNA数据存储作为硬盘和磁带等传统媒体替代品的可行性。各种研究团队已经将二进制代码“写入”合成的DNA序列中。

与此同时,行业分析师认为,全球数据创建总量突破了泽字节级别,并取得了增长势头,原因是人们担心传统存储媒体数据密度的改善正在放缓,而制造业产出可能无法跟上需求。

DNA可以提供无与伦比的数据密度。美国政府问责局(Government Accountability Office)在最近的一份报告中说,一立方英寸的干DNA可以包含11.2 eb的数据。这是5.7 gb DVD容量的近20亿倍,足够存储多个企业硬盘数据中心的内容。

但美国政府机构预算的监护人GAO也估计,目前读写基于dna的数据的价格标签为每兆字节3500美元,这是“基于硅的存储的数百万倍”。

马科维茨希望推动DNA数据存储技术的成本呈指数级下降,降低风险,以便私人公司投资自己的资金来改进和商业化。他领导的分子信息存储(MIST)项目已经资助了支持生物技术和半导体公司、学术界和政府部门之间合作的合同,这些合作需要许多技能来推进技术。

初创公司和成熟公司都在努力大幅削减两个核心过程的成本——合成DNA链以表示二进制代码,以及随后对DNA进行测序,以便将其翻译回二进制语言。

Twist Bioscience等公司通过合成被称为核苷酸碱基(简称碱基)的自定义DNA亚基序列,在DNA文件中存储了数百兆字节的数据。每个亚单位携带四种不同碱基中的一种——腺嘌呤、胸腺嘧啶、胞嘧啶或鸟嘌呤。

在一种数据编码方法中,碱基腺嘌呤代表00,胞嘧啶代表01,鸟嘌呤代表10,胸腺嘧啶代表11。读取ATTGC的合成DNA链将被翻译回二进制代码0011111001。

但是已经探索了各种各样的编码方案。例如,两家年轻的DNA合成公司Iridia和Catalog设计了不同长度的DNA序列,每个序列都可以被指定为代表选定的一行二进制数字。在DNA的自然编码系统中,一系列的三个碱基,如AGA,会导致一种特定的氨基酸,如精氨酸,添加到活细胞内正在构建的蛋白质上。

用于近地平线和远地平线
短期内,DNA最有可能的用途是用于很少需要读取的数据的冷档案存储,比如必须保存几十年的电影。根据Twist最近联合发起的一份分析师报告,这些档案备份副本占据了存储市场的很大份额。

一些研究这项技术的公司已经设想在十年内在数据中心建立DNA存储设备机架。在DNA文件中计算方法的早期实验也在进行中。

Iridia首席执行官穆拉利•普拉哈拉德表示:“存储领域的每个主要参与者都在关注这一点。“把这看作纯粹的《星际迷航》(Star Trek),而不是合理的可能成就,这种观点已经开始转变。”

Markowitz表示,开发者的乐观情绪“非常现实”。MIST项目至少在两年内不会结束,也不会发布中期进展报告。但马科维茨在几个方面看到了进展。首先,他注意到,在DNA数据存储方面投入自有研发资金的公司数量有所增加。

Twist就是其中一家公司,该公司为生物医学公司的研究和其他工业计划合成了数百万条定制DNA链。

Twist联合创始人兼首席执行官艾米丽·勒普鲁斯特(Emily Leproust)表示,该公司2013年成立时,她一直渴望专注于DNA数据存储。但一位投资者告诉她,这个时机早了10年。“他是对的,”勒普鲁斯特说。“所以我们每年都会投资一点。”

但在本财政年度,Twist计划在基于dna的数据存储上投入约4000万美元——几乎是其1.3亿美元研发预算的三分之一。

如果现在时机对这项新技术有利,部分原因是几十年来公司所取得的进展,这些公司已经将自然界组织和操作细胞的纳米级生物分子工具包工业化。

在学术科学家们了解到DNA是如何通过天然酶进行复制、剪切和粘贴之后,企业家们在20世纪80年代初对微生物基因组进行了生物工程改造,以大规模生产药物。他们后来将这种技术应用于加速DNA测序。从1990年开始,完成人类基因组初稿的竞赛,通过自动化、计算机控制和分析,以及在微型井阵列中进行多个并行分析,促进了测序过程的改进。

随着生物医学研究团队挖掘由此产生的大量基因组信息,以开发新的治疗方法,他们很快就可以将DNA测序和DNA合成等杂活外包给一批不断壮大的公司,这些公司专注于大规模高效地执行这些技术。DNA合成公司提供定制的短DNA链库,作为药物研究的试验平台,但他们也帮助客户拼凑合成基因,这些基因可以被整合到用于制造燃料和香水等产品的微生物中。

DNA数据存储技术建立在这些公司的进步之上,这些公司的调整包括收紧芯片电子设备和在微流体室中进行操作的生物分子之间的接口。

Twist公司在集成了CMOS芯片的硅片上合成了数百万条DNA链。Twist的第一个芯片包含100万个DNA合成位点,但该公司正致力于将芯片扩展到2.56亿个位点,然后扩展到500亿个DNA片段。扩大规模有望降低DNA数据存储的成本。

这一新兴领域为新颖的芯片设计和用途创造了一个新的市场。马科维茨说,尽管DNA本身不是硅基存储材料,但DNA数据存储系统也不能幸免于目前半导体供应链的压力。他说,最近通过的《芯片与科学法案》(CHIPS and Science Act)支持了美国国内的半导体制造业,可能会帮助美国的DNA数据存储开发商集群。

排序向前推进
成立于1998年的测序巨头Illumina也在其机器中采用了低成本的CMOS芯片。在21世纪初,对单个人类基因组进行测序的成本约为10万美元。Illumina和其他公司后来利用下一代技术将价格降至1000美元。

马科维茨说,在2016年IARPA早期研讨会上,Illumina公司的一位首席技术官是第一批认识到开发基于dna的数据存储系统可能带来经济回报的行业领导者之一。马科维茨回忆说,尽管Illumina当年的营收超过了23亿美元,但这位首席技术官表示,企业级数据存储“让我们目前的市场相形见绌”。

Illumina公司目前的测序方法依赖于DNA聚合酶,这是一种全能的工业工具,可以制造DNA链的多个副本。为了发现DNA单链的序列,Illumina公司的光学扫描仪跟踪酶沿着模板链移动,并产生新的互补链。它添加了各种颜色的荧光染料标记的碱基来区分它们。如果模板序列为ATTGCA,酶将合成互补链TAACGT。DNA聚合酶遵循简单的规则——A与T配对,G与C配对。

当每个碱基连接到新的DNA链上时,扫描仪就会检测到其特定的彩色光。当互补链的完整序列已知时,就可以推导出模板链的序列。

Illumina已经投资了一些开发基于dna的数据存储系统的初创公司,并且是致力于下一个里程碑的公司之一,即花费100美元的人类基因组序列。

创业公司Ultima Genomics在5月份表示,它已经达到了100美元的目标,后来又宣布与NVIDIA合作,使用其gpu进行人工智能增强的DNA序列分析。

另一家创业公司Roswell Biotechnologies今年推出了一款“分子电子芯片”,旨在极大地缩小“观察”DNA聚合酶基于待发现序列的模板链构建新DNA链的过程。

Roswell的芯片使用单个DNA聚合酶分子作为传感器,将其集成到半导体电路中。这种酶被连接到一根分子线上,这根分子线两端连着纳米电极。电流流过导线。当酶通过添加特定的DNA碱基来构建新的DNA链时,对当前信号方式的抵抗就会改变,从而识别出碱基。每添加一个碱基,这个过程都会重复。

罗斯威尔公司的首席科学官巴里·梅里曼(Barry Merriman)说,在一个CMOS芯片上可以安装数百万个这样的纳米级传感器,这样就可以在一小时内以不到100美元的成本对人类基因组进行测序。这项技术可以装备小型医疗点设备,根据快速基因分析报告诊断结果。但是Roswell芯片也可以进一步扩大规模,将每个人类基因组的测序成本降低到10美元。梅里曼说,这种改进还可以降低读取编码二进制数据的DNA的成本。

马科维茨说,他现在更有信心,测序公司的持续进步将有助于DNA数据存储系统在竞标中变得更具竞争力。他还热衷于组建一个行业组织,就像MIST一样,旨在促进该领域的进步。Twist和Illumina于2020年底与微软和西部数据公司联合成立了DNA数据存储联盟。这个新兴的行业组织旨在促进网络和产品开发伙伴关系,目前已注册了50个成员,包括imec和戴尔技术公司(Dell Technologies)。

Azure数据存储服务的运营商微软(Microsoft)正通过与华盛顿大学(University of Washington)合作,为DNA数据存储技术的基础研究提供资金。Imec还支持基于dna的数据存储领域的工作。Imec最近发布了自己的路线图,通过先进的半导体设计改进DNA测序。

DNA数据存储联盟(DNA Data Storage Alliance)正在宣传它的案例,DNA是一种可以通过暴露于光、水分或微生物而降解的物质,但它将成功地作为存储介质。该组织表示,在适当的条件下,DNA可以在数百到数千年的时间里保持完整和可读。

合成的、冷冻干燥的DNA可以被嵌入充满惰性气体的金属小瓶的玻璃中;它悬浮在流体中,用于测序、复制和其他操作。该联盟坚持认为,dna编码数据可能成为一种具有成本竞争力的选择,因为它不需要每3到10年就转移到新的存储介质上。对于传统存储,这些文件传输是常规进行的,以避免因材料变质而造成的损失,或者因为原始存储设备可能不再存在。

支持者说,DNA可以在室温下储存,因此与必须保持供电和冷却的大型数据中心相比,它可以减少能源需求。该联盟认为,虽然在DNA中编码数据的初始成本可能仍然高于将数据写入传统媒体,但DNA可以避免长期存储数十年的维护成本。

DNA可能带来其他好处。一旦DNA分子被合成来编码二进制数据,就可以在依赖DNA聚合酶的大规模并行过程中廉价地复制数百万份。这一过程被称为PCR或聚合酶链反应,是目前对Covid病毒感染的敏感检测的背后。

合成挑战
MIST计划为早期基于dna的数据存储系统制定了一个多因素伸缩目标。这一里程碑将是一个能够“每天写入1tb,读取10tb,具有随机访问能力,成本不到1000美元,消耗不到1千瓦的电力,可以安装在桌面上”的系统。

马科维茨说,降低DNA合成成本仍然是最艰巨的挑战,而对超大规模数据存储供应的需求“在过去六年中变得更加迫切”。在Twist目前的合成过程中,起始DNA链被拴在Twist硅片上的一排排位点上,碱基被一个接一个地添加到每个DNA序列上,这一过程类似于喷墨打印机,由该公司的专有软件精心编排。

该系统可以同时构建各种不同的短DNA序列,称为寡核苷酸,每个由200到300个碱基组成。每条链都包含一个编码的“条形码”来识别它,这样一旦读取代码,所有的短信息片段就可以按照正确的顺序组合起来,组成数据文件。

Twist目前的合成方法是磷酸酰胺化学,将DNA悬浮在来自化石燃料的溶剂中。有些成分是有毒和易爆的。作为一种替代方案,Twist也在开发一种创造定制DNA链的酶法,其他公司如DNA Script、Evontix和Anza Biotechnologies也在开发这种方法。酶合成比化学合成有可能产生更长的DNA链。

Twist希望向那些可能会严密保护自己数据的客户提供内部DNA合成服务。水溶液中的酶合成可以避免将有害物质带入客户数据设施。Twist可能会出售基于dna的数据编码仪器,企业可以自行操作。Twist的数据存储业务发展主管斯蒂芬•海尔莫德(Steffen Hellmold)说,或者,Twist可以为客户提供现场操作系统的服务。海尔莫德估计,如果Twist能以每tb 25至50美元的价格出售dna数据存储服务,或以每tb 50至100美元的高端价格出售,该公司就能将dna数据存储作为一种服务进行营销,价格高于商品存储的价格。

在未来,Twist希望每个月从数据中心的机架上合成数pb的dna编码数据,Hellmold说。他估计,到2030年,该公司可能会从传统存储需求和供应之间的差距中受益。他预测,基于dna的系统可以捕获一到两泽字节的未满足需求。

目前,Twist正在寻找更早的商业机会。在不久的将来,该公司计划推出“世纪档案”(Century Archive),这是一套大约1gb的dna编码数据集,在单个半导体芯片上一次性写入,Hellmold说。“这将使我们离开地面。”

海尔莫德说,客户可以使用这些软件来备份桥梁或发电厂的蓝图。他说,医疗保健系统需要将x射线等记录保存几十年,可以将它们存储在一个保险箱里的DNA管中。

但Twist的最终目标是为大容量用途提供企业超大规模数据存储,比如安全和监控信息、法律档案,以及从无人驾驶汽车上的传感器收集的数据。

研究团队已经在研究未来的基于dna的系统,该系统具有操作系统的元素。随机读取DNA文件的某些部分,这些部分与溶液中的其他DNA链混合在一起,可以使用经典的实验室技术来实现。选择的DNA链首先可以通过搅拌短DNA探针来标记,这些探针被设计成粘附在目标链上的独特DNA序列上,比如它们的“条形码”。这些DNA探针被称为引物,刺激DNA聚合酶锁定感兴趣的链,并制造多个副本进行测序。

Twist首席执行官Leproust预见了一个管状的数据中心,酶在dna编码文件的流体记忆空间中执行搜索、复制和粘贴等功能。“我们正在见证存储市场的下一次演变,”她说。“我们只是触及了表面。”

马科维茨说,MIST与Twist和DNA Script密切合作。该计划的目标不是选出唯一的赢家,而是帮助建立一个由竞争提供商组成的强大生态系统。他说:“这对政府、纳税人和国家安全都更好。”

尽管目前还没有基于dna的系统来满足企业规模的数据存储需求,但公司正在推出中间或相关产品。马科维茨举了一个例子,DNA Script公司的台式DNA合成机器目前已投入生物研究市场。

马科维茨说:“在接下来的几年里,我预计将会有大量的产品使DNA数据存储能够为那些想要探索它在解决问题方面的价值的客户所使用。”

相关阅读
洛斯阿拉莫斯国家实验室开发了一项关键技术,将来可能为DNA存储铺平道路
用于电视节目的DNA存储;DNA纠错。



留下回复


(注:此名称将公开显示)

Baidu