DNA存储密度惊人
北京时间4月12日消息,据科技网站Computerworld报道,微软和华盛顿大学研究人员已经展示了利用人工合成DNA作为数据存储介质的技术。
研究人员表示,如果这一技术成熟到适合主流应用,装备当今存储密度最高的存储设备、沃尔玛超市般大小的数据中心,就可能“瘦身”到一块方糖大小,“我们认为,考虑把DNA作为存储介质,探索相关系统设计问题的时机已经成熟”。
研究团队成功地将4个图片文件的数据编码为人工合成DNA片段的核苷酸序列。更重要的是,他们能实现逆过程——从更大的DNA池中取回正确的核苷酸序列,重建图像,而且没有丢失1个字节的信息。另一项试验涉及对视频文件的编码和读取。
DNA存储技术
华盛顿大学计算机科学和技术副教授、论文共同作者路易斯·塞兹(Luis Ceze)在一份声明中说,“生命产生了神奇的DNA,它能高效地存储与基因和生命活动有关的所有信息,而且非常紧凑,非常‘耐用’。我们将把DNA用于数据存储——图像、视频、文档,保存时间可以长达数百或数千年。”
DNA存储技术研究进展神速
对 DNA数据存储技术的研究进展神速。1999年,研究人员利用DNA存储技术编码和恢复了一条长23个字母的信息。到2013年,欧洲分子生物学实验室- 欧洲生物信息学研究所的科学家,把美国黑人运动领袖马丁·路德·金(Martin Luther King)《我有一个梦想》演讲的mp3文件编码在DNA中。
研究人员在发表在《自然》上的论文中称,这种编码方法使得约一杯DNA能存储至少1亿小时的高清视频。
据英国研究人员称,存储在DNA链中的数据能保存数万年。
在DNA存储技术中,读取DNA相对简单,主要障碍在于写DNA。DNA存储技术存在两个难点:其一,目前的方法只能合成短链DNA;其二,写和读DNA都容易出错。
微软和华盛顿大学研究人员称,他们已经开发了“一种新颖的方法”,把数据中的“1”和“0”字符串转换成DNA序列中的4种碱基——腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)和胸腺嘧啶(T)。
为了访问存储的数据,研究人员在DNA序列中编码了相当于邮政编码和街道地址的寻址信息。聚合酶链反应(以下简称“PCR”)技术帮助研究人员更轻松地识别他们需要查找的“邮政编码”。
研究人员然后利用DNA测序技术,“读取”数据,并通过利用“街道地址”对数据进行整理,将数据恢复成原来的视频、图像或文档。
研究人员表示,“DNA是一种有吸引力的潜在数据存储介质”,理论上其存储密度比磁带高出8个量级,一个可以拿在手里的磁带盒存储容量高达185TB。
微软和华盛顿大学研究人员也证实了人工合成DNA的“长寿”,称即使在恶劣环境中其半衰期也超过500年,磁带保存时间为10-30年,硬盘为3-5年。
还不够完美
美国研究人员强调了提高存储密度的紧迫性。市场研究公司IDC和存储设备厂商EMC在《The Digital Universe》研究论文中称,到2020年,包含在全球计算机、历史档案、电影、照片、企业系统和移动设备中的数据量将达到44万亿GB,“是 2013年的10倍。尽管并非所有信息都需要保存,但世界生成数据的速度快于存储容量的增长”。
要进入商用阶段,DNA存储系统还有一些问题需要解决。首先是DNA合成和测序还远不够完美,DNA存储系统的一个关键部分是开发一种适当的编码技术,通过增加冗余度提高容错能力。
其次,DNA存储系统中随机存取数据还是个问题,读取延迟远长于写入延迟。目前的技术只能批量读取数据,即使只从存储系统中访问一个字节的信息,系统也必须对整个DNA池进行测序和解码。
把数据编码为DNA序列
研究人员已经提出了改进随机数据存取的方法,即利用PCR只扩增希望读取的数据,并对相应的DNA序列测序。这种方法既能提高数据读取速度,也无需对整个DNA池进行测序。
塞兹称,“这是我们在数据存储方面向大自然学习的一个范例。”