合成DNA作為一種高密度數(shù)據(jù)存儲介質(zhì),多年來一直吸引著數(shù)字未來學(xué)家。整個互聯(lián)網(wǎng)可以被編碼成鞋盒大小的DNA鏈,而DNA分子非常穩(wěn)定,可以持續(xù)數(shù)萬年甚至幾十萬年。例如,2013年,科學(xué)家們對一具70萬年前的馬化石的整個基因組進(jìn)行了測序。
一旦儲存起來,DNA幾乎不需要任何維護(hù)。畢竟,化石在地下生活了數(shù)百萬年后仍然保存著DNA序列。DNA存儲也不需要任何能量--在有人決定訪問它之前,只需要一個涼爽、黑暗的地方就可以了。
然而,將一種數(shù)據(jù)格式轉(zhuǎn)換為另一種格式并不簡單。德克薩斯大學(xué)奧斯汀分校(University Of Texas At Austin)的研究團(tuán)隊(duì)提出了一種在DNA鏈中存儲信息的方法,同時也糾正了錯誤。他們開創(chuàng)了一套DNA數(shù)據(jù)編碼和解碼算法,可能會開創(chuàng)高密度、長期數(shù)據(jù)存儲的新領(lǐng)域。
其工作讓人想起了開創(chuàng)量子密碼技術(shù)領(lǐng)域的里程碑式的BB84 protocol,有朝一日,它將成為基因組數(shù)據(jù)存儲應(yīng)用領(lǐng)域的基礎(chǔ),而基因組數(shù)據(jù)存儲應(yīng)用是以每克千兆字節(jié)為單位重新想象而來的。
Stephen Jones是Press所在小組的博士后,也是《美國科學(xué)院院刊》(Proceedings of the National Academy of Sciences)論文的合著者,他說,最好從了解數(shù)據(jù)存儲錯誤通常在哪里蔓延開始。
像所有的數(shù)據(jù)存儲方法一樣,DNA也有一些缺點(diǎn)。最重要的前期障礙是成本。除此之外,DNA也容易出錯。回想一下組成DNA階梯的四個核苷酸堿基。平均而言,DNA在每100到1000個核苷酸中會引入一個錯誤。它們可以采取三種形式:替換、插入和刪除。
在替換突變中,一串核苷酸中的一個字母可能會被換成另一個,DNA鏈的長度保持不變。然而,在插入或缺失時,DNA會獲得一個額外的核苷酸堿基,或者移除一個堿基。但與計算機(jī)代碼中的錯誤不同的是,在移除的堿基曾經(jīng)居住的地方?jīng)]有留下任何空間,當(dāng)你去解碼存儲在DNA中的數(shù)據(jù)時,這可能很快就會出現(xiàn)問題。
事實(shí)上,DNA數(shù)據(jù)存儲的相對性質(zhì)是Press,Jones和合著者的HEDGESprotocol的關(guān)鍵。他們的研究方案中沒有一個單獨(dú)的核苷酸包含有用的數(shù)據(jù)。相反,正是核苷酸序列的積累提供了一個強(qiáng)大的存儲系統(tǒng),他們預(yù)測這個系統(tǒng)可以實(shí)現(xiàn)DNA的高密度潛力,同時還能經(jīng)久不衰。
研究小組使用了L. Frank Baum的The Wizard of Oz,并將其翻譯成世界語,作為他們要存儲的樣本數(shù)據(jù)集。Jones說,現(xiàn)在合成的DNA通常是由大約100對堿基組成的。這就是他們的“硬盤”的基礎(chǔ)。
因此,他們的研究方案需要能夠被分割成數(shù)千或數(shù)百萬的幾百個核苷酸序列,每一個序列都包含重組源文本所需的信息,即使存在未知數(shù)量的替換、插入和刪除錯誤。
然后,將The Wizard of Oz編碼成DNA,涉及到通過“外部”編碼層和“內(nèi)部”編碼層傳遞數(shù)據(jù)。(將這些步驟看作是復(fù)雜密碼標(biāo)準(zhǔn)中的兩個獨(dú)立算法。)
外層將源數(shù)據(jù)對角化,這樣任何給定的DNA鏈都將包含信息許多部分的碎片。內(nèi)層,即模糊限制,然后根據(jù)一種算法將每一位轉(zhuǎn)換成A、C、T或G,該算法既依賴于該位的零或一個值,又取決于它在數(shù)據(jù)流中的位置的附加信息,以及它前面的數(shù)據(jù)位。
然后,一旦Oz被翻譯成核苷酸的語言,它就可以被寫在合成的DNA鏈上了。
“我把DNA打得粉碎,”Jones表示,“它顯示了DNA是多么強(qiáng)大。”從DNA存儲器中解碼數(shù)據(jù)需要首先對the Wizard of Oz的基因組進(jìn)行測序,然后將這些遺傳數(shù)據(jù)轉(zhuǎn)換回位。一旦他們弄清楚哪些位是“address”位,他們就可以將剩余的信息位串回到一個單獨(dú)的、連接的數(shù)據(jù)文件中。
博士后研究員、合著者John Hawkins表示,“展望未來,基于DNA的存儲的潛力幾乎是無限的。他提出了一種未來的愿景,在那里,用數(shù)據(jù)編碼的DNA可以被合并到其他材料中?!?/p>
即使團(tuán)隊(duì)已經(jīng)取得了突破,但基于DNA的數(shù)字存儲還需要一段時間。研究人員表示,“數(shù)據(jù)能否保存到未來只是問題的一半。你還需要在另一端能夠閱讀。只要人類是由DNA構(gòu)成的,我們就會一直希望周圍的機(jī)器能夠讀取DNA。但我不認(rèn)為它會在十年或更長時間內(nèi)可成為大眾市場產(chǎn)品?!?/p>
-
算法
+關(guān)注
關(guān)注
23文章
4625瀏覽量
93123 -
數(shù)據(jù)存儲
+關(guān)注
關(guān)注
5文章
977瀏覽量
50976 -
DNA
+關(guān)注
關(guān)注
0文章
243瀏覽量
31098
原文標(biāo)題:科學(xué)家為何將“The Wizard of Oz”儲存在DNA中
文章出處:【微信號:IEEE_China,微信公眾號:IEEE電氣電子工程師】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論