大数据|“咖啡”存储数据?MIT团队把数据存到DNA里,体积小到能放手掌中

全球数据都能存在一个咖啡杯中?一杯星巴克中杯是 354 毫升 , 世界人口目前七十多亿 , 这能存的下吗?
答案是:理论上可以 。
近日 , 麻省理工学院(MIT)科学家研发出一种新型 DNA 存储技术 , 该技术可从大规模数据库中检索和标记 DNA 数据文件 , 实现了将数据存储为 DNA 形式的可能 。

大数据|“咖啡”存储数据?MIT团队把数据存到DNA里,体积小到能放手掌中
图 | 相关论文(来源:)
当地时间 6 月 10 日 , 相关论文发表在上 , 通讯作者是 MIT 生物工程学教授马克·巴斯(Mark Bathe) 。
论文题为《在档案文件存储系统中使用布尔搜索的随机存取 DNA 存储器》(Random access DNA memory using Boolean search in an archival file storage system) 。
这项研究意味着照片、音频、文档和其他文件都可存储为 DNA 的形式 , 有望彻底改变人类存储数据的方式 。
据了解 , 当前全球大约有 10 万亿字节的数据 , 大部分数据存储在占地面积庞大的数据中心里 。 这些数据中心比足球场还大 , 光是建设和维护成本就得 10 亿美元 。
以 DNA 形式储存数据的灵感来自于包含遗传信息的 DNA 分子 , 该团队认为 DNA 分子有望以极高密度去存储大量数据信息 。 马克·巴斯表示 , 理论上一个咖啡杯即可存储全球所有的数据 。

大数据|“咖啡”存储数据?MIT团队把数据存到DNA里,体积小到能放手掌中
图 |MIT 生物工程学教授马克·巴斯(Mark Bathe)(来源:MIT)
据悉 , DNA 的密度是闪存的 1000 倍 , 一旦制造出 DNA 聚合物 , 它就不会消耗任何能量 , 把 DNA 写下来之后 , 即可进行永久存储 。

大数据|“咖啡”存储数据?MIT团队把数据存到DNA里,体积小到能放手掌中
图 | 以 DNA 形式存储数据文件的方法(来源:MIT)
该团队表示 , 他们可将图像和文本页面编码为 DNA , 但是要突破从众多 DNA 片段的混合物中挑选出所需文件 , 即检索功能的技术壁垒 。
据悉 , 研究人员以 DNA 形式存储数据需要一种约 6 微米大的二氧化硅颗粒 , 然后把数据文件固定在二氧化硅颗粒中 , 接下来用短 DNA 序列对文件进行标记 。
其中 , 每个颗粒都标有与文件内容相对应的单链 DNA “条形码” 。 用这种方法能从最多 1020 张图像中准确提取出单个图像 。
北京大学第三医院博士生导师、国家妇产疾病临床医学研究中心副主任李默告诉 DeepTech , 这带来的好处非常显著 , 应用潜力也很巨大 。
包括提高大规模数据存储的效率、节省公共资源、极大提升信息运输与流通速度等 , 还包括对诸多专业领域的促进 , 如以核酸为代表的生命科学在交叉学科的应用、机密信息的安全储备、以及环境保护等 。
以 DNA 形式存储的数据 , 先到可以放在手掌里
在数字化时代 ,文本、照片或任何其他形式的信息 , 都是由 0 和 1 通过二进制编码而成的 。 类似的 , 我们也可将这些信息用四种核苷酸 A、T、C、G 编码为 DNA , 例如把 G 和 C 表示为 0 , A 和 T 表示为 1 。
作为一种存储介质 , DNA 具有高稳定性和高密度的优点 , 高稳定性意味着 DNA 的合成和测序比较容易 , 高密度指的是每个核苷酸只有两个比特大小 , 即大约 1 立方纳米 。 因此以 DNA 形式存储的数据 , 其体积之小甚至能放在手掌中 。
但是 , 西湖大学特聘研究员郭天南告诉 DeepTech , 目前 DNA 存储数据的访问速度尚远不及硬盘 , 数据读写成本较高 , 该成果的优势在于数据存储的稳定性 , 因此较适合于冷数据 。
为了考察新方法的读取速度 , MIT 团队将 20 个不同的图片编码到大约 3000 个核苷酸长的 DNA 片段中 , 大小相当于大约 100 个字节 。
这些图片包含猫、老虎、飞机和人物照等 , 因此研究人员给每张图都设置了相对应的条形码 。
当提取特定图像时 , 首先需要移除 DNA 样本 , 然后添加与一定的标签 , 比如老虎照片对应的标签是 “猫科动物”“橘色” 和 “野生” , 猫照片对应的标签是 “猫”“橘色” 和 “家养” 。

大数据|“咖啡”存储数据?MIT团队把数据存到DNA里,体积小到能放手掌中
图 | 测试用使用的图片
【大数据|“咖啡”存储数据?MIT团队把数据存到DNA里,体积小到能放手掌中】研究人员用荧光、或磁性颗粒来标记这些引物(primer) , 为的是方便从样本中取出、并识别对应的匹配物 。 这时 , 需要的文件就可以被删除 , 而剩下的 DNA 文件毫无损伤 , 并能被完整地放回原处 。
该检索过程还支持布尔逻辑(Boolean algebra)搜索查询 , 比如从 “总统和 18 世纪” 可以搜出乔治?华盛顿的结果 , 和我们日常使用的百度搜索、谷歌搜索很相似 。 在概念验证阶段 , 搜索速度是每秒 1KB , 搜索速度由每个胶囊的数据大小决定 。
中国科学院生物学博士、助理研究员李雷告诉 DeepTech , 事实上这等于提供了一种更加便捷的检索策略 , 使得我们在查找信息的时候 , 可以更加容易找到具体的信息点 , 而不是像过去那样通过 PCR( polymerase chain reaction 聚合酶链反应)来在全 DNA 上进行搜索 。 换句话 , 这种新策略使得数据定位更加容易 , 可以针对性地提取信息 。
另据悉 , 该团队使用哈佛医学院(Harvard Medical School)遗传学和医学教授史蒂芬?埃利奇(Stephen Elledge)开发的 10 万个序列中的单链 DNA 序列作为条形码 , 如果在每个文件上放置两个这样的标签 , 就可以唯一地标记 10^10 个不同的文件 , 也就是 100 亿 。
这意味着 , 每个文件上有 4 个标签 , 就可以唯一地标记 10^20个文件 。 故此 , 哈佛医学院遗传学教授乔治?丘奇(George Church)将该成果描述为 “知识管理和搜索技术的巨大飞跃” 。
目前 , 该团队已成立一家名为 Cache DNA 的初创公司 , 该公司目前正在开发 DNA 长期存储技术 , 届时相关技术既能用于数据的长期存储 , 也可用于短期存储 。
但是 , 该成果仍有可优化的空间 。 比如 , 这种新技术成本非常高昂 , 写 1PB 数据(100 万 GB)需要花费 1 万亿美元 。
如果想比普通用于存储数据的磁带更具竞争力 , 该团队认为成本还需要降低约 6 个数量级 。 他们认为 , 这预计能在 10 年或 20 年内实现 , 因为过去几十年存储信息的成本一直在大幅下降 。
另一个主要瓶颈 , 是这种技术难以从其他文件中挑选出想要的文件 。 假设成本问题已经解决 , 我们就能在 DNA 中写入 1EB 甚至 1ZB 数据 , 然而这时就有无数的文件、图像或电影和其他东西 , 要想找到目标文件简直就像大海捞针 。
当下 , 人们通常使用 PCR 来检索 DNA 文件 , 每个 DNA 数据文件都包含一个与特定 PCR 引物结合的序列 。 要想提取特定文件 , 就得把该引物添加到样本中以查找和扩增所需序列 。
然而 , 这种方法的一个缺点是引物和脱靶 DNA 序列之间可能存在串扰 , 导致不需要的文件被拉出 。 此外 , PCR 检索过程需要酶 , 最终会消耗池中的大部分 DNA , 因为所有其他 DNA 都没有被放大 , 这是能做的就是把它扔掉 。
西湖大学特聘研究员郭天南告诉 DeepTech , 这种新方法的优势主要在于克服了传统方法对 PCR 扩增的依赖 , 减小了 PCR 扩增中可能产生的技术噪音 。 并且 , 这种方法尽量减小对未读取数据的损害 , 即未读取的 DNA 可以有效回收并且再次按需读取 。
针对 COVID-19 检测、人类基因组测序等 , 我们迫切需要低成本、大规模存储解决方案 。 如果 DNA 合成可以变得足够便宜 , 那么就能可以实现存储更大的文件 。

大数据|“咖啡”存储数据?MIT团队把数据存到DNA里,体积小到能放手掌中
图 | 将 DNA 质粒封装成二氧化硅和表面条形码编码
另据悉 , 该团队计划将这种 DNA 封装技术用于存储 “冷” 数据 , 即保存在档案中的不经常访问的数据 。
对此李雷认为这主要是因为 DNA 存储技术不成熟 , 具体地说是 DNA 保存技术 。 DNA 很容易发生降解 , 除了会受到温度影响 , 化学因素比如储存 DNA 的溶液等都会致其发生降解 , 而一旦降解 , 这些物质就彻底成为杂乱无章的信息 。 此外反复访问同样会对 DNA 进行处理 , 最终导致 DNA 自身的不稳定 。
李默认为 , 该技术的 “数据检索” 环节依赖于荧光激活分类 , 限制了数据检索及读取的速度与效率 , 因此该技术不适用于读取 “热数据” , 即存储后被高频次访问的数据 , 并且读取速度较传统硬盘也不具备优势 。 但如日后能在这些环节有所突破 , 则将是另一次质的进步 。

    推荐阅读