全球數(shù)據(jù)都能存在一個咖啡杯中?一杯星巴克中杯是 354 毫升,世界人口目前七十多億,這能存的下嗎?
答案是:理論上可以。
近日,麻省理工學(xué)院(MIT)科學(xué)家研發(fā)出一種新型 DNA 存儲技術(shù),該技術(shù)可從大規(guī)模數(shù)據(jù)庫中檢索和標(biāo)記 DNA 數(shù)據(jù)文件,實現(xiàn)了將數(shù)據(jù)存儲為 DNA 形式的可能。
當(dāng)?shù)貢r間 6 月 10 日,相關(guān)論文發(fā)表在 Nature Materials 上,通訊作者是 MIT 生物工程學(xué)教授馬克·巴斯(Mark Bathe)。
論文題為《在檔案文件存儲系統(tǒng)中使用布爾搜索的隨機(jī)存取 DNA 存儲器》(Random access DNA memory using Boolean search in an archival file storage system)。
這項研究意味著照片、音頻、文檔和其他文件都可存儲為 DNA 的形式,有望徹底改變?nèi)祟惔鎯?shù)據(jù)的方式。
據(jù)了解,當(dāng)前全球大約有 10 萬億字節(jié)的數(shù)據(jù),大部分?jǐn)?shù)據(jù)存儲在占地面積龐大的數(shù)據(jù)中心里。這些數(shù)據(jù)中心比足球場還大,光是建設(shè)和維護(hù)成本就得 10 億美元。
以 DNA 形式儲存數(shù)據(jù)的靈感來自于包含遺傳信息的 DNA 分子,該團(tuán)隊認(rèn)為 DNA 分子有望以極高密度去存儲大量數(shù)據(jù)信息。馬克·巴斯表示,理論上一個咖啡杯即可存儲全球所有的數(shù)據(jù)。
據(jù)悉,DNA 的密度是閃存的 1000 倍,一旦制造出 DNA 聚合物,它就不會消耗任何能量,把 DNA 寫下來之后,即可進(jìn)行永久存儲。
該團(tuán)隊表示,他們可將圖像和文本頁面編碼為 DNA,但是要突破從眾多 DNA 片段的混合物中挑選出所需文件,即檢索功能的技術(shù)壁壘。
據(jù)悉,研究人員以 DNA 形式存儲數(shù)據(jù)需要一種約 6 微米大的二氧化硅顆粒,然后把數(shù)據(jù)文件固定在二氧化硅顆粒中,接下來用短 DNA 序列對文件進(jìn)行標(biāo)記。
其中,每個顆粒都標(biāo)有與文件內(nèi)容相對應(yīng)的單鏈 DNA “條形碼”。用這種方法能從最多 1020 張圖像中準(zhǔn)確提取出單個圖像。
北京大學(xué)第三醫(yī)院博士生導(dǎo)師、國家婦產(chǎn)疾病臨床醫(yī)學(xué)研究中心副主任李默告訴 DeepTech,這帶來的好處非常顯著,應(yīng)用潛力也很巨大。
包括提高大規(guī)模數(shù)據(jù)存儲的效率、節(jié)省公共資源、極大提升信息運輸與流通速度等,還包括對諸多專業(yè)領(lǐng)域的促進(jìn),如以核酸為代表的生命科學(xué)在交叉學(xué)科的應(yīng)用、機(jī)密信息的安全儲備、以及環(huán)境保護(hù)等。
以 DNA 形式存儲的數(shù)據(jù),先到可以放在手掌里
在數(shù)字化時代, 文本、照片或任何其他形式的信息,都是由 0 和 1 通過二進(jìn)制編碼而成的。類似的,我們也可將這些信息用四種核苷酸 A、T、C、G 編碼為 DNA,例如把 G 和 C 表示為 0,A 和 T 表示為 1。
作為一種存儲介質(zhì),DNA 具有高穩(wěn)定性和高密度的優(yōu)點,高穩(wěn)定性意味著 DNA 的合成和測序比較容易,高密度指的是每個核苷酸只有兩個比特大小,即大約 1 立方納米。因此以 DNA 形式存儲的數(shù)據(jù),其體積之小甚至能放在手掌中。
但是,西湖大學(xué)特聘研究員郭天南告訴 DeepTech,目前 DNA 存儲數(shù)據(jù)的訪問速度尚遠(yuǎn)不及硬盤,數(shù)據(jù)讀寫成本較高,該成果的優(yōu)勢在于數(shù)據(jù)存儲的穩(wěn)定性,因此較適合于冷數(shù)據(jù)。
為了考察新方法的讀取速度,MIT 團(tuán)隊將 20 個不同的圖片編碼到大約 3000 個核苷酸長的 DNA 片段中,大小相當(dāng)于大約 100 個字節(jié)。
這些圖片包含貓、老虎、飛機(jī)和人物照等,因此研究人員給每張圖都設(shè)置了相對應(yīng)的條形碼。
當(dāng)提取特定圖像時,首先需要移除 DNA 樣本,然后添加與一定的標(biāo)簽,比如老虎照片對應(yīng)的標(biāo)簽是 “貓科動物”“橘色” 和 “野生”,貓照片對應(yīng)的標(biāo)簽是 “貓”“橘色” 和 “家養(yǎng)”。
研究人員用熒光、或磁性顆粒來標(biāo)記這些引物(primer),為的是方便從樣本中取出、并識別對應(yīng)的匹配物。這時,需要的文件就可以被刪除,而剩下的 DNA 文件毫無損傷,并能被完整地放回原處。
該檢索過程還支持布爾邏輯(Boolean algebra)搜索查詢,比如從 “總統(tǒng)和 18 世紀(jì)” 可以搜出喬治?華盛頓的結(jié)果,和我們?nèi)粘J褂玫陌俣人阉鳌⒐雀杷阉骱芟嗨啤T诟拍铗炞C階段,搜索速度是每秒 1KB,搜索速度由每個膠囊的數(shù)據(jù)大小決定。
中國科學(xué)院生物學(xué)博士、助理研究員李雷告訴 DeepTech,事實上這等于提供了一種更加便捷的檢索策略,使得我們在查找信息的時候,可以更加容易找到具體的信息點,而不是像過去那樣通過 PCR( polymerase chain reaction 聚合酶鏈反應(yīng))來在全 DNA 上進(jìn)行搜索。換句話,這種新策略使得數(shù)據(jù)定位更加容易,可以針對性地提取信息。
另據(jù)悉,該團(tuán)隊使用哈佛醫(yī)學(xué)院(Harvard Medical School)遺傳學(xué)和醫(yī)學(xué)教授史蒂芬?埃利奇(Stephen Elledge)開發(fā)的 10 萬個序列中的單鏈 DNA 序列作為條形碼,如果在每個文件上放置兩個這樣的標(biāo)簽,就可以唯一地標(biāo)記 10^10 個不同的文件,也就是 100 億。
這意味著,每個文件上有 4 個標(biāo)簽,就可以唯一地標(biāo)記 10^20 個文件。故此,哈佛醫(yī)學(xué)院遺傳學(xué)教授喬治?丘奇(George Church)將該成果描述為 “知識管理和搜索技術(shù)的巨大飛躍”。
目前,該團(tuán)隊已成立一家名為 Cache DNA 的初創(chuàng)公司,該公司目前正在開發(fā) DNA 長期存儲技術(shù),屆時相關(guān)技術(shù)既能用于數(shù)據(jù)的長期存儲,也可用于短期存儲。
但是,該成果仍有可優(yōu)化的空間。比如,這種新技術(shù)成本非常高昂,寫 1PB 數(shù)據(jù)(100 萬 GB)需要花費 1 萬億美元。
如果想比普通用于存儲數(shù)據(jù)的磁帶更具競爭力,該團(tuán)隊認(rèn)為成本還需要降低約 6 個數(shù)量級。他們認(rèn)為,這預(yù)計能在 10 年或 20 年內(nèi)實現(xiàn),因為過去幾十年存儲信息的成本一直在大幅下降。
另一個主要瓶頸,是這種技術(shù)難以從其他文件中挑選出想要的文件。假設(shè)成本問題已經(jīng)解決,我們就能在 DNA 中寫入 1EB 甚至 1ZB 數(shù)據(jù),然而這時就有無數(shù)的文件、圖像或電影和其他東西,要想找到目標(biāo)文件簡直就像大海撈針。
當(dāng)下,人們通常使用 PCR 來檢索 DNA 文件,每個 DNA 數(shù)據(jù)文件都包含一個與特定 PCR 引物結(jié)合的序列。要想提取特定文件,就得把該引物添加到樣本中以查找和擴(kuò)增所需序列。
然而,這種方法的一個缺點是引物和脫靶 DNA 序列之間可能存在串?dāng)_,導(dǎo)致不需要的文件被拉出。此外,PCR 檢索過程需要酶,最終會消耗池中的大部分 DNA,因為所有其他 DNA 都沒有被放大,這是能做的就是把它扔掉。
西湖大學(xué)特聘研究員郭天南告訴 DeepTech,這種新方法的優(yōu)勢主要在于克服了傳統(tǒng)方法對 PCR 擴(kuò)增的依賴,減小了 PCR 擴(kuò)增中可能產(chǎn)生的技術(shù)噪音。并且,這種方法盡量減小對未讀取數(shù)據(jù)的損害,即未讀取的 DNA 可以有效回收并且再次按需讀取。
針對 COVID-19 檢測、人類基因組測序等,我們迫切需要低成本、大規(guī)模存儲解決方案。如果 DNA 合成可以變得足夠便宜,那么就能可以實現(xiàn)存儲更大的文件。
另據(jù)悉,該團(tuán)隊計劃將這種 DNA 封裝技術(shù)用于存儲 “冷” 數(shù)據(jù),即保存在檔案中的不經(jīng)常訪問的數(shù)據(jù)。
對此李雷認(rèn)為這主要是因為 DNA 存儲技術(shù)不成熟,具體地說是 DNA 保存技術(shù)。DNA 很容易發(fā)生降解,除了會受到溫度影響,化學(xué)因素比如儲存 DNA 的溶液等都會致其發(fā)生降解,而一旦降解,這些物質(zhì)就徹底成為雜亂無章的信息。此外反復(fù)訪問同樣會對 DNA 進(jìn)行處理,最終導(dǎo)致 DNA 自身的不穩(wěn)定。
李默認(rèn)為,該技術(shù)的 “數(shù)據(jù)檢索” 環(huán)節(jié)依賴于熒光激活分類,限制了數(shù)據(jù)檢索及讀取的速度與效率,因此該技術(shù)不適用于讀取 “熱數(shù)據(jù)”,即存儲后被高頻次訪問的數(shù)據(jù),并且讀取速度較傳統(tǒng)硬盤也不具備優(yōu)勢。但如日后能在這些環(huán)節(jié)有所突破,則將是另一次質(zhì)的進(jìn)步。
責(zé)任編輯:haq
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7048瀏覽量
89078 -
存儲
+關(guān)注
關(guān)注
13文章
4317瀏覽量
85879
原文標(biāo)題:一杯“咖啡”存儲全人類數(shù)據(jù)?MIT團(tuán)隊把數(shù)據(jù)存到DNA里,體積小到能放手掌中 | 專家解析
文章出處:【微信號:deeptechchina,微信公眾號:deeptechchina】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論