二十世紀(jì)以來,我們的數(shù)據(jù)存儲方式從磁帶、軟盤和CD等介質(zhì)進化到了能夠在無數(shù)微型晶體管中保存數(shù)據(jù)的精密半導(dǎo)體存儲芯片。
但是,人類不斷增加的數(shù)據(jù)會對存儲方式帶來新的壓力,也將推動存儲方式的持續(xù)變革,DNA或?qū)⒃谶@一次變革中發(fā)揮重要作用。
1.信息大爆炸時代,何處安放數(shù)據(jù)?
在摩爾定律之下,我們已經(jīng)看到硅芯片存儲容量呈指數(shù)級增長。然而,與此同時,人類產(chǎn)生新的數(shù)字信息的速度同樣呈現(xiàn)出了爆發(fā)式增長狀態(tài)。
截至2016年,數(shù)據(jù)用戶每天生產(chǎn)超過440億GB的數(shù)據(jù)。據(jù)IDC預(yù)測,到2025年,這一數(shù)字將超過4600億GB,而全球當(dāng)年產(chǎn)生的數(shù)據(jù)總量將達到160 ZB(160萬億GB)。
另據(jù)預(yù)測,到2020年全球可能會有30億到50億的全球人口接入互聯(lián)網(wǎng),這些新增的互聯(lián)網(wǎng)用戶所產(chǎn)生的數(shù)據(jù)同樣會面臨大規(guī)模的增長。
總之,我們或許很快就會生產(chǎn)出遠超我們存儲能力的更多數(shù)據(jù)。
雖然網(wǎng)絡(luò)服務(wù)商與各大互聯(lián)網(wǎng)公司都將從新增的數(shù)據(jù)節(jié)點與流量中獲利巨大,但這也會對動則數(shù)千萬甚至上億美元的數(shù)據(jù)中心建設(shè)帶來顯著壓力。
去年,僅美國就花費了200億美元用于新的數(shù)據(jù)中心建設(shè),使數(shù)據(jù)中心建設(shè)的資本支出比2016年翻了一番。
此外,自然界中很少有純的存儲器級硅元素,而研究人員預(yù)測它將在2040年被耗盡。
隨著利用DNA進行數(shù)據(jù)存儲的新興技術(shù)的出現(xiàn),這些問題將會成為過去時。通過將數(shù)據(jù)編碼進DNA的微小分子,在未來,我們可以將整個數(shù)據(jù)中心放入幾瓶DNA中。
2.什么是DNA存儲?
那么,什么是DNA存儲?
DNA是由四個堿基:腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)和鳥嘌呤(G)的雙螺旋鏈構(gòu)建而成的。這些鏈一旦形成,就緊緊地折疊起來,形成非常密集、又節(jié)省空間的數(shù)據(jù)存儲器。
為了將數(shù)據(jù)文件編碼到這些堿基中,我們可以使用各種算法,將二進制轉(zhuǎn)換為堿基核苷酸:也就是將0和1轉(zhuǎn)換為A、T、C、G,而“00”可以被編碼為A;“01”編碼為G,“10”編碼C,“11”編碼為T。
將數(shù)字編碼轉(zhuǎn)化為化學(xué)編碼,這就是DNA數(shù)據(jù)存儲最核心的奧秘。
一旦編碼,則可以通過具有特定堿基模式的合成DNA來存儲信息,最終被編碼的序列可存儲在具有保質(zhì)期長達數(shù)千年甚至上萬年的小瓶子里。而從理論極限上來看,一克DNA就能存儲2.15億GB的數(shù)據(jù)。
3.應(yīng)對挑戰(zhàn)
但是,在目前,數(shù)據(jù)編碼的成本還非常昂貴,存儲速度很慢,數(shù)據(jù)讀取也難以實時。同時,數(shù)據(jù)的檢索與讀取(通過基因測序儀),特別是對大型數(shù)據(jù)庫的隨機訪問如何不出錯,也是科研機構(gòu)和大公司正在攻克的問題。
目前,華盛頓大學(xué)開發(fā)的DNA存儲系統(tǒng)已經(jīng)可以實現(xiàn)隨機訪問其系統(tǒng)中超過400M DNA編碼的數(shù)據(jù)而不出錯。400M,看起來如此微小的數(shù)據(jù)量,則可能是通往未來大規(guī)模DNA存儲的一大步。
更多研究人員也已經(jīng)在研究分子計算的潛力。
例如,哈佛大學(xué)的George Church教授和他的實驗室設(shè)想在DNA中直接捕獲數(shù)據(jù)。正如Church所說:“我對制造沒有任何電子或機械部件的生物相機很感興趣”,信息可以由此“直接進入DNA”。
Church表示,DNA記錄器將自動捕獲視聽數(shù)據(jù)?!澳憧梢园阉嬙趬ι希绻惺裁从腥さ氖虑榘l(fā)生,只需要刮掉一點并讀取它。這一天的到來并不會那么遙遠?!?/p>
有一天,我們甚至可以記錄體內(nèi)的生物事件。為了實現(xiàn)這一目標(biāo),Church的實驗室正在努力開發(fā)一種完全不需要電極的體內(nèi)神經(jīng)活動DNA記錄器。
4.未來應(yīng)用潛力
即使在我們能夠保證無誤的數(shù)據(jù)檢索與隨機訪問之前,DNA數(shù)據(jù)存儲也具有直接的市場應(yīng)用。
當(dāng)前,大部分企業(yè)都將其歷史數(shù)據(jù)直接進行歸檔。而隨著時間的推移,大多數(shù)數(shù)據(jù)變得不再那么重要,被快速檢索的必要性也不再那么大。這必然會造成基礎(chǔ)設(shè)施、計算能力的浪費。
反之,數(shù)據(jù)編碼的DNA可以在寒冷、黑暗和干燥的條件下保存長達10000年的時間,而隨著檢索算法和生化技術(shù)的改進,跨數(shù)據(jù)編碼的DNA的隨機訪問可能變得和點擊桌面上的文件一樣簡單,儲存成本也只會是當(dāng)前模式下存儲成本的一小部分。
總之,DNA也許是我們手頭上最緊湊、最持久、最普遍的存儲機制,將為我們提供前所未有的數(shù)據(jù)存儲應(yīng)用,甚至是計算。
此時,傳統(tǒng)數(shù)據(jù)中心模式下的硅基存儲將是低效的。
隨著DNA數(shù)據(jù)存儲成本的下降和速度的提高,以及用戶能夠很容易地將文件、圖像甚至神經(jīng)活動保存到DNA中,新的商業(yè)機會將會出現(xiàn)。
這可能正是微軟公司計劃在2020年建立基于NDA的數(shù)據(jù)存儲系統(tǒng)的動力所在。
在此背景下,公司將可以擁有自己的數(shù)據(jù)倉庫和本地數(shù)據(jù)網(wǎng)絡(luò),以提高網(wǎng)絡(luò)安全性,尤其是重要檔案的安全性。
由于DNA在沒有維護的情況下可以存續(xù)數(shù)千年,所以,你可以忘記復(fù)制數(shù)據(jù)庫和提供數(shù)字檔案的必要性。因為,不管技術(shù)如何進步和變化,對于我們的后代,DNA將是可以長期讀取的。
但DNA存儲最令人興奮的應(yīng)用潛力是其便攜性。如果我們用硅二進制介質(zhì)發(fā)送一艾字節(jié)(十億GB)的數(shù)據(jù)到火星,它可能需要耗用五艘重型獵鷹火箭,運送成本則可能高達4.86億美元。
用DNA,我們只需要五立方厘米的空間,而太空殖民的方式可能會被改寫。
在整個進化過程中,DNA已經(jīng)解開了從人類到細菌的非凡可能性。在未來,DNA會被解鎖更多,包括在極小的空間容納無限的數(shù)據(jù)。
評論
查看更多