在人类发明硬盘驱动器的数十亿年前,进化选择了DNA来存储其最宝贵的信息:遗传密码。随着时间的推移,DNA在这项任务上变得如此熟练,以至于地球上所有已知的生命形式都在使用它。随着最近技术的突破,我们可以轻松地“读”和“写”DNA,科学家们现在正在重新利用这个古老的分子来存储新的信息类型——在大数据时代,人类正在以指数级速度生成这种类型的信息。

利用DNA来存储遗传密码以外的信息的概念已经被广泛讨论。毕竟,计算机代码的1和0正在冲击物理学的极限。安全存储我们创建的所有数据的挑战之一最近暴露出来了,曾经最受欢迎的社交网络myspace宣布,十年的数据可能在一个服务器迁移项目中不可挽回地丢失了。对数据的长期保护,比如那些在休眠一段时间后重新启动的网站,暴露了现有技术的脆弱和笨拙之处。这不仅仅是一个空间问题:维持数据存储需要大量的能量。

DNA的特性有可能解决这些问题。首先,DNA的双螺旋结构非常适合信息存储,因为知道一条链的序列会自动告诉你另一条链的序列。DNA在很长一段时间内都是稳定的,这意味着可以保持信息的完整性和准确性。例如,2017年,科学家分析了从8100年前的人类遗骸中分离出的DNA。这些遗骸甚至在整个过程中都没有被保存在理想的条件下。如果保存在凉爽干燥的环境中,DNA几乎可以肯定可以保存数万年。DNA在很长一段时间内都是稳定的,这意味着可以保持信息的完整性和准确性。

然而,也许双螺旋结构最引人注目的地方在于,它可以折叠成非常密集的结构。作为比较,每个人类细胞都包含一个直径约为0.00001米的细胞核。然而,如果一个细胞核内的DNA被拉伸,它将达到两米。换句话说,如果把一个人的DNA串在一起,它可以延伸100万亿米。2014年,科学家们计算出,理论上一克DNA可以存储455艾字节的数据。这种信息存储密度大约比硬盘驱动器中的物理存储密度高一百万倍。

尽管DNA通常被认为是一种存储介质,但在它取代传统硬盘驱动器之前,仍需要克服重大的科学、经济和伦理障碍。与此同时,作为一种更广泛的信息技术形式,DNA正变得越来越广泛——而且马上就能发挥作用。例如,DNA被用来记录好莱坞老电影,用基因密码而不是脆弱的微缩胶片保存经典影片。甚至在最近,DNA被用作设计更安全的基因疗法的工具,加速抗癌药物的开发,甚至产生可能是生命体的第一个基因“直播流”。在这一发展领域的前沿,DNA不仅被用于长期数据存储,还被用于以前所未有的速度促进数据生成。这是因为DNA在两个方向上都比任何其他分子具有更强的可扩展性:它允许我们大幅增加我们所创建的数据量,并减少存储数据所需的资源。

加速新的纳米粒子

近年来,科学家越来越多地使用DNA作为分子记录器来理解和跟踪他们的实验结果。在许多情况下,这一过程涉及到DNA条形码:为了标记和跟踪单个实验的结果,科学家使用已知的DNA序列作为分子标签。例如,一个实验结果可能与DNA序列actc相关,而另一个结果可能与TCTGAT相关,等等。

DNA条形码早在20世纪90年代初就出现了,当时都在斯克里普斯研究所(Scripps Research Institute)的理查德·勒纳(Richard Lerner)和已故的悉尼·布伦纳(Sydney Brenner)提出用它来追踪化学反应。他们的概念具有巨大的创新性,但却走在了时代的前面:当时还没有开发出能够轻松廉价读取DNA的技术。它的潜力是在许多科学家在核苷酸化学、微流体和其他方法上做出贡献后才得以实现的,这些贡献共同促成了所谓的下一代测序的出现。2005年取得了重大突破,当时研究人员报告说,在一个4小时的实验中分析了2500万个DNA碱基。

下一代测序技术持续快速改进;现在可以很容易地同时读取数百万个DNA序列,这意味着数千个实验可以同时进行和分析。用下一代测序技术分析DNA条形码实验本身就是一种数据管理:科学家们可以做出2万个预测,然后对它们进行测试,看看哪个是正确的,而不是一次测试一个想法。

生物学家是第一个广泛利用DNA条形码的人。随着它变得越来越容易获得,包括化学工程和材料科学在内的许多不同领域的研究人员正在利用这项技术以全新的规模进行实验。例如,在我在乔治亚理工学院(Georgia Institute of Technology)的实验室里,工程师们正在使用DNA条形码来改进纳米颗粒的设计和功能,以便它们能够安全地将药物输送到患病细胞。纳米技术,主要依赖于物理和化学工程,似乎与DNA完全无关。但是,当你把DNA看作是一种跟踪和存储任何数据的方法时,它作为组织工具的效用就变得显而易见了。

图片来源:Jen Christiansen;来源:“由数百个纳米颗粒介导的体外和体内核酸传递的直接比较揭示了弱相关性”,Kalina Paunovska等人,于纳米快报第18卷第3期;2018年3月14日

纳米技术专家面临的一个基本问题是,设计实验来寻找有效的治疗方法仍然比实施实验和分析结果容易得多。这是因为单个纳米颗粒的形状、大小、电荷、化学成分和许多其他变量可以改变它们将遗传药物输送到病变细胞的效果。此外,这些因素都相互作用,使得研究人员很难预测哪种纳米颗粒能以最有针对性的方式释放药物。一个明显的解决方案是逐个评估每一个纳米粒子。但已经为RNA药物开发纳米颗粒的知名制药公司的数据表明,这种类型的测试可能需要数亿美元才能完成。

这就是DNA存储能力可以取得长足进步的地方。为了增加我们能够测试的纳米粒子的数量,我们可以设计成千上万种具有不同化学结构的纳米粒子——例如,带正电的大球体或带中性电荷的小三角形——并为每一种粒子分配DNA条形码。

纳米粒子一号,化学结构一号,携带DNA条形码一号。纳米粒子2,化学结构2,携带DNA条形码2。我们多次重复这个条形码过程,从而创造出许多不同的纳米颗粒,每一个都有自己独特的分子DNA标签。然后我们可以将数百个这种纳米颗粒注入患病细胞。为了确定最成功地传递药物的纳米颗粒,我们使用DNA测序来量化细胞内的条形码。

这种实验的规模在纳米医学中是全新的。在我的领域,一个“传统的”实验会产生1到5个数据点。到2019年底,我的实验室希望量化500种不同的纳米颗粒如何将基因疗法传递到40种不同的细胞类型。这样做相当于同时进行2万个实验。

因此,我们还需要创建一个能够监视数据质量的数据分析管道,并帮助我们从统计上测试结果。首先,我们测量了一个重复实验的结果对另一个重复实验的预测效果。一旦我们知道大数据集是可靠的,我们就用统计数据来询问某些纳米颗粒的特性——比如它们的大小——是否会影响到目标组织的输送。我们发现,决定纳米粒子输送的是纳米粒子的化学性质,而不是它的大小。使用这种方法,我们希望能更快地发现安全的基因疗法,使用的资源要少得多。我们的目标之一是找到一种纳米粒子,它可以专门传递有助于杀死肿瘤的基因疗法,从而减少现有疗法伴随的恶心和脱发等副作用。

我们已经取得了一些成功。2018年,通过使用DNA条形码实验产生的非常大的数据集,我们迅速识别出新的纳米颗粒,将基因疗法传递到血管内皮细胞和几种类型的免疫细胞,这些细胞控制着我们的身体对疾病的反应。这一发现可能会改变治疗方法,因为我们可以改变免疫细胞中目前“不耐药”的蛋白质的活性,这意味着这些蛋白质很难被小分子药物或抗体靶向。由于发表在期刊上的数据,包括美国国家科学院学报,先进材料和美国化学学会杂志在2018年和2019年,我们收到了来自其他基因治疗师的大量兴趣,并能够创办GuideRx,这是一家专注于高效开发安全基因疗法的条形码公司。

DNA条形码现在已经变得如此普遍,甚至在一个领域内也被以不同的方式应用。癌症生物学就是一个例子,它研究基因突变如何导致癌症,以及新药如何治疗癌症。耐药性仍然是该领域的一个主要挑战:患者最初对药物有反应,但随着药物失去杀死肿瘤细胞的能力而复发。

哈佛大学Todd Golub实验室的科学家们使用DNA条形码来研究这种耐药性。2016年,他们描述了如何使用一种病毒直接将DNA条形码永久插入癌细胞的基因组中。A型癌细胞接收到条形码序列A;B型癌细胞接收到条形码B,以此类推。科学家们将不同的细胞混合在一起,放在盘子上,并用抗癌药物治疗。

如果药物杀死了癌细胞或减缓了它的生长,那么细胞就不会分裂。但如果细胞对药物产生耐药性,它就会迅速分裂。因此,随着时间的推移,如果A型细胞对药物产生耐药性,条形码序列A的相对数量就会增加;或者,如果A型细胞被药物杀死,条形码序列A的相对数量就会减少。通过对存活细胞的条形码进行测序,实验室量化了所有细胞类型同时对药物的反应情况。

当年晚些时候,斯坦福大学蒙特·温斯洛的实验室使用dna条形码编码的胰腺细胞系来识别防止癌症扩散或转移的药物。实验室用病毒对每个细胞株进行编码,然后将每个细胞株装入自己的阱中。然后每口井都用抗癌药物进行治疗。这样一来,药物1就和条形码1联系在了一起。此后,科学家们立即将细胞注入血液,随后测量哪些细胞扩散到肺部。通过识别条形码的丰富和缺失,研究人员识别出了分别促进或防止转移的药物。

在第三个例子中,麻省理工学院布罗德研究所和哈佛大学的科学家使用DNA条形码来研究基因组中的所有基因如何影响单一癌症。研究人员首先培养了大量的细胞,并将它们一起放在一个大盘子里。然后,他们使用基因编辑系统逐个激活基因组中的所有基因。表达被调制的基因序列起着条形码的作用。通过用抗癌药物治疗这些细胞,并随着时间的推移对DNA进行测序,科学家们可以了解基因组中的每个基因是如何影响耐药性的。

在这些方法中,DNA既是数据生成分子(因为它需要同时进行所有的实验),又是数据存储分子(因为下一代测序用于分析DNA条形码)。其意义是惊人的:同样的技术可以应用于自身免疫、神经系统疾病和心血管功能障碍。使用DNA条形码的全部力量可以通过一个简单的练习来理解。在前面讨论的例子中,将“癌症”一词替换为另一种疾病,或将“耐药性”一词替换为所需的药物反应。通过这种方式,DNA条形码定位于从根本上简化早期药物开发,从而加快有效治疗的路径。

阅读与写作

DNA条形码依赖于“读取”已知的DNA序列。然而,直到最近,实际上还不可能“写入”DNA序列。宽泛地说,我认为写DNA是有目的地将其他形式的信息——如图片、电影或生物状态——转换成可以存储并在以后读出的序列。这些新的写作技术中,有许多是由基因编辑系统驱动的,这些基因编辑系统来自于有规律的间隔短回文重复序列(CRISPR)。通过合理设计的CRISPR系统,科学家可以编写DNA序列。

最近的几项进展利用了CRISPR系统自然进化的方式,以保护细菌免受病毒攻击。更具体地说,病毒通过与细菌表面结合,然后插入病毒DNA或RNA来攻击细菌。为了“记住”病毒,以备未来的攻击,细菌进化出了CRISPR系统,可以识别病毒DNA或RNA,然后将DNA的小片段插入自己的基因组。换句话说,细菌正在“书写”或“记录”病毒攻击它们以保护自己的历史。

DNA的双螺旋结构是一种理想的存储介质。但它还不能取代传统的硬盘驱动器。图片来源:Getty Images

通过利用这种机制,在哈佛大学遗传学家乔治·丘奇的实验室工作的赛斯·希普曼(Seth Shipman),现在在加州大学旧金山分校(University of California, San Francisco),用CRISPR将人类手的图像直接记录到基因组大肠杆菌.为了完成这项任务,Shipman和他的同事首先表达了两种蛋白质:Cas1和Cas2。这些蛋白质可以一起获得DNA核苷酸,并将它们插入基因组。然后研究人员“喂食”大肠杆菌编码像素的DNA序列——当它们一起排序时——创造了一只手的图像。这样做需要科学家将不同方面的信息分配给DNA。例如,在一种情况下,A、C、G和T分别代表不同的像素颜色,而相关的DNA条形码序列编码了像素在整个图像中的空间位置。

通过测序DNA大肠杆菌之后,作者以超过90%的准确率再现了原始图像。接下来,他们重复了这个实验,但有了一个重要的变化:他们在不同的时间加入DNA,并加入了一种分析记录的DNA序列相对位置的方法。通过测量序列是否被添加到大肠杆菌基因组早或晚,他们能够创造一系列的图像,从而编码一部电影。研究人员记录了第一部电影的一部分动图,这部电影是由埃德沃德·迈布里奇在1878年创作的,描绘了一匹疾驰的马。在2017年的一篇论文中,他们表明,通过对细菌基因组进行测序,他们重构了迈布里奇的著名电影。

最近,瑞士苏黎世联邦理工学院(ETH Zurich)兰德尔·普拉特(Randall Platt)实验室的科学家们做出了一项重要的发现,将这些方法进一步运用到靶向mRNA上,mRNA是DNA的关键分子表亲。他们没有记录由非自然DNA序列编码的图像,而是使用了一种来自不同细菌种类的CRISPR系统来生成所谓的细菌中自然mRNA基因表达的活记录。细胞中所有不同信使rna的组合决定了蛋白质的合成,从而决定了细胞的所有功能。

为了记录细胞在不同时间点产生的mRNA,普拉特实验室的科学家首先筛选了来自许多不同菌株的CRISPR-Cas蛋白质。这一过程使他们能够识别出能够将天然mRNA转化为DNA并将其编码到基因组中的蛋白质。他们从这种细菌中发现了Cas1和Cas2蛋白质Fusicatenibacter saccharivorans我们有能力这样做。通过使用专门的病毒进行一系列优雅的研究,该团队在2018年证明,这些细胞准确地记录了它们之前是否接触过氧化应激、酸性条件甚至除草剂。

这些结果非常令人兴奋,因为它们证明了细胞在特定时间自然表达的基因可以被记录到基因组中,以供日后分析。随着普拉特的实验室继续改进这项技术,细胞记录变得越来越普遍的可能性越来越大。这一进展将使科学家能够跟踪细胞是如何癌变的,如何随着时间甚至年龄对感染做出反应。

DNA存储无处不在

随着DNA被用于在越来越多的领域中生成、跟踪和存储信息,最明显的问题是,DNA最终是否会与传统的电子存储设备竞争,以维护人类产生的所有数字数据。目前的答案是没有硬盘驱动器和闪存设备在保存信息方面比最先进的DNA系统要好得多。

但与所有技术一样,传统电子设备也有局限性。它们占用物理空间,需要特定的环境条件;即使是最耐用的也不可能存活超过几十年。考虑到这些问题,维护我们今天生成的所有数据可能很快就会变得困难。

相比之下,DNA如果保存在凉爽干燥的环境中,几乎可以肯定可以保存数万年。它已经被常规地储存在- 20甚至- 80摄氏度的实验室中,需要非常寒冷的条件,也可以储存在典型电子产品无法承受的极端高温下。2015年,苏黎世联邦理工学院的罗伯特·格拉斯和温德林·斯塔克(Wendelin Stark)证明,储存在二氧化硅中的DNA可以承受70摄氏度的温度一周而不产生任何错误。尽管硬盘驱动器每平方英寸可以容纳1tb字节,但最近的估计表明,从理论上讲,全世界产生的所有信息都可以储存在不到一公斤的DNA中。

要使DNA存储变得普遍,还需要克服重大的技术进步。主要的限制是存储信息与提取信息是不同的。从硬盘获取数据几乎是即时的;从DNA中提取它们需要测序,目前需要几分钟到一天才能完成。尽管DNA测序仪在过去几年里有了巨大的飞跃,但与硬盘驱动器相比,它们仍然体积大、价格昂贵。

这些障碍并不是我们在DNA存储充分发挥其潜力之前必须解决的唯一问题。作为一个社会,我们需要承认,DNA测序的无所不在也意味着跟踪人们将变得更加容易,同时也为数据安全产生了新的漏洞。隐私问题的例子在美国和全球都有很多。

DNA测序已经被美国各地的警察部门在几乎没有监管的情况下使用。通过向被逮捕的人(即使是轻微犯罪)询问他们的DNA,警方正在建立基因信息的大型数据库。有人认为这是21世纪的老式指纹识别,但两者有一个关键的区别。指纹可以识别一个人;如果你的一个亲戚提供了他或她的DNA,这个人就释放了可以识别你或你家人的信息。在中国,官方打着健康计划的幌子,收集了近3600万人的基因信息18新利官网多久了。这一人口包括许多维族人,他们属于一个遭受歧视的穆斯林民族。目前还不清楚政府将如何使用这些数据。

目前,这些关于DNA存储的担忧涉及到一个人的遗传密码本身——关于保护身份的讨论一直在进行。但在未来,如果医疗保健数据、法律合同和个人数字历史等其他类别的信息存储在DNA中,这种情况将引发更多关于DNA存储在物理安全18新利官网多久了和网络安全领域的脆弱性的问题。因为这么小的空间可以容纳这么多的信息,数据将如何分布以避免过多的集中在一个地方?即使提取可以简化,如何常规地访问和返回数据,而不让它们暴露于恶意攻击或意外丢失?

当我想到所有需要完成的艰苦工作——科学上的和伦理上的——时,它似乎令人生畏。我喜欢想到莱特兄弟,因为我和他们在俄亥俄州的同一个小镇长大。他们的第一次飞行持续了12秒37米。66年后,在没有现代计算技术优势的情况下,人类登上了月球。这些成就让我乐观地认为,我们可以在未来几十年里利用DNA的自然力量,通过积极承认它有能力造成伤害,帮助确保它在大部分情况下是有益的。