1990年,存儲(chǔ)1G的數(shù)據(jù)大約需要花費(fèi)9000美元(約合人民幣61568元);現(xiàn)在,只需花費(fèi)不到3分錢(約合兩元人民幣)。過(guò)去的十年中,存儲(chǔ)成本幾乎可以忽略不計(jì)。雖然存儲(chǔ)對(duì)于用戶來(lái)說(shuō)幾近免費(fèi),但是數(shù)據(jù)中心運(yùn)營(yíng)商每年仍需花費(fèi)數(shù)十億美元——而且成本呈上升趨勢(shì)。這不僅僅是因?yàn)槊磕陝?chuàng)建的數(shù)據(jù)總量在激增,而且還有越來(lái)越多的關(guān)于耐用性和可使用性的嚴(yán)格要求。
思科全球云指數(shù)顯示,到2021年,全球數(shù)據(jù)中心存儲(chǔ)容量將從2016年的6630億字節(jié)(EB)增長(zhǎng)到2021年的2.6澤字節(jié)(ZB),增長(zhǎng)率將近400%。據(jù)互聯(lián)網(wǎng)數(shù)據(jù)中心(IDC)全球數(shù)據(jù)領(lǐng)域報(bào)告,超過(guò)半數(shù)的存儲(chǔ)空間將會(huì)用于機(jī)械硬盤,還有約四分之一的存儲(chǔ)空間用于固態(tài)硬盤(SSD)。
事實(shí)上,“幾乎免費(fèi)”的存儲(chǔ)空間在數(shù)據(jù)中心預(yù)算中卻是一筆昂貴的支出。
數(shù)據(jù)的本質(zhì)正在改變
過(guò)去一段時(shí)間,存儲(chǔ)空間充斥著數(shù)據(jù)中心,支持在服務(wù)器上運(yùn)行的應(yīng)用程序。數(shù)據(jù)寫入磁盤后通常很少被訪問(wèn)。
但是,有了現(xiàn)代應(yīng)用程序,世界便變得不一樣:
?以橫向擴(kuò)展方式部署的微服務(wù)正在取代單片應(yīng)用程序。
?數(shù)據(jù)量巨大,節(jié)點(diǎn)之間的數(shù)據(jù)移動(dòng)量正在增加。
?服務(wù)需要大規(guī)模的高吞吐量和低延遲的存儲(chǔ)。
?總體數(shù)據(jù)溫度在上升——即實(shí)時(shí)熱數(shù)據(jù)量正在增加。
迫于壓力,各公司正在應(yīng)對(duì)這些需求,同時(shí)也求能降低成本。
減少數(shù)據(jù):壓縮算法的創(chuàng)新
這就是為什么我們目睹了下一代壓縮解決方案的原因。對(duì)于文本或二進(jìn)制數(shù)據(jù),壓縮算法,諸如Facebook的Zstandard (zstd)快速無(wú)損壓縮算法,谷歌公司的Brotli無(wú)損壓縮算法以及微軟項(xiàng)目管理軟件程序(Microsoft Project)中的Zipline等,均能提供標(biāo)準(zhǔn)的基于壓縮算法的更高壓縮率。其次,有超過(guò)半數(shù)儲(chǔ)存到云端存儲(chǔ)空間的數(shù)據(jù)由圖片和視頻組成。這些壓縮算法完全不能壓縮JPEG和MPEG文件。云端銷售公司采取的一種方法,就是引進(jìn)一種針對(duì)圖像,有損耗的壓縮算法,能節(jié)省20%-30%的存儲(chǔ)空間,谷歌公司旗下的Guetzli便是采用這種方法。多寶箱(Dropbox)則采取了另一種方法,即部署Lepton,這是一種針對(duì)JPEG的無(wú)損耗壓縮算法,能節(jié)省22%的存儲(chǔ)空間,但只能擁有處理40Mbps的壓縮能力。
甚至在壓縮率上的一點(diǎn)小進(jìn)步也能節(jié)約巨大的存儲(chǔ)空間和網(wǎng)絡(luò)寬帶成本。節(jié)約下來(lái)的成本很輕易地就能被運(yùn)行壓縮算法所需的CPU周期和和功耗/散熱造成的額外成本抵消掉。不幸的是,這些方案中的每一個(gè)都要在性能上進(jìn)行權(quán)衡:壓縮量越大,吞吐速度越慢。
由于吞吐量的限制,這些算法通常應(yīng)用于靜止數(shù)據(jù)而非動(dòng)態(tài)數(shù)據(jù)。為了能同樣通過(guò)壓縮動(dòng)態(tài)數(shù)據(jù)來(lái)最大程度上降低成本,我們必須能以線速來(lái)維持吞吐量。
數(shù)據(jù)耐用性和可用性:復(fù)制VS.擦除碼
當(dāng)今數(shù)據(jù)中心要求九倍的數(shù)據(jù)存儲(chǔ)耐用性和可用性。數(shù)據(jù)鏡像是獲得耐用和可用存儲(chǔ)最基本的方式之一。此方案產(chǎn)生相同的數(shù)據(jù)副本并存儲(chǔ)到不同的故障域中。復(fù)制數(shù)據(jù)的計(jì)算要求相對(duì)較小,同時(shí)這種方案也可提供最快的恢復(fù)時(shí)間。但是,由于需要復(fù)制數(shù)據(jù)兩次及以上的情況并不罕見,于是復(fù)制就意味著要付出更高的存儲(chǔ)成本。
另一種常用的方案是奇偶校驗(yàn)編碼,它能以更低的存儲(chǔ)成本提供持久和可用的存儲(chǔ)。奇偶校驗(yàn)編碼方案中提出了擦除編碼這個(gè)例子,其中多個(gè)數(shù)據(jù)和奇偶校驗(yàn)片段分布在不同的故障域中。奇偶校驗(yàn)碎片的數(shù)量是決定耐用性的因素。擦除編碼方案所需的存儲(chǔ)容量成本較低,但對(duì)于計(jì)算和聯(lián)網(wǎng)有較高的要求,尤其是在無(wú)法使用存儲(chǔ),必須從不同位置重建數(shù)據(jù)的情況下。因此,計(jì)算處理吞吐量和低網(wǎng)絡(luò)延遲是成功實(shí)現(xiàn)擦除編碼的關(guān)鍵。
大規(guī)模的資源存儲(chǔ)
降低存儲(chǔ)成本的另一種方法是提高容量利用率。要實(shí)現(xiàn)這一點(diǎn),可以將存儲(chǔ)資源集中到動(dòng)態(tài)分配的虛擬池中,同時(shí)許多客戶機(jī)可以訪問(wèn)這些虛擬池。彼得·J·丹寧(Peter J. Denning)在他的博士論文中提到,將N個(gè)單元的資源池集中到一個(gè)單獨(dú)的資源池中,這樣做能提供1個(gè)而不是N個(gè)單元,具有相同的服務(wù)水平的資源池。換句話說(shuō),共享池越大,節(jié)省的存儲(chǔ)空間就越大。
如今,盡管在超融合基礎(chǔ)架構(gòu)(HCI)中可以完成資源池化,但是CPU瓶頸仍然限制了對(duì)直接連接存儲(chǔ)SSD的訪問(wèn)。CPU的延遲高,而且不可預(yù)測(cè),形成了復(fù)雜的軟件,最終限制了性能和規(guī)模。在一個(gè)分類基礎(chǔ)架構(gòu)中,將計(jì)算和存儲(chǔ)裝置放置在不同服務(wù)器里,可以更好地構(gòu)建資源池。將存儲(chǔ)與計(jì)算脫鉤,可減少CPU瓶頸,縮短延遲時(shí)間,從而簡(jiǎn)化對(duì)數(shù)據(jù)放置的思考。
在Fungible公司里,我們認(rèn)為,分解存儲(chǔ)體系結(jié)構(gòu)很自然地可以實(shí)現(xiàn)奇偶校驗(yàn)方案,例如擦除編碼,使數(shù)據(jù)和奇偶校驗(yàn)代碼分布在不同的故障域中,以及大規(guī)模共享存儲(chǔ)池。
但是,到目前為止,由于CPU效率底下,性能結(jié)構(gòu),舊版軟件限制等原因,分類存儲(chǔ)尚未充分發(fā)揮其潛力。
Fungible公司的數(shù)據(jù)處理器
為了擺脫這些限制,F(xiàn)ungible公司開發(fā)設(shè)計(jì)了一種新型的可編程微處理器,即數(shù)據(jù)處理器。從頭開始專門構(gòu)建數(shù)據(jù)處理器,不僅可以控制存儲(chǔ)成本,還可以提供當(dāng)今計(jì)算中心架構(gòu)所缺少的性能和可伸縮性。
數(shù)據(jù)處理器的設(shè)計(jì)遵循以下原則:
1. 不必折衷考慮壓縮比和吞吐量。對(duì)于文本/二進(jìn)制以及圖像來(lái)說(shuō),壓縮算法必須是無(wú)損的。
2. 在讀寫語(yǔ)境中,通過(guò)使用擦除代碼方案得到的數(shù)據(jù)持久性,必須得到現(xiàn)在應(yīng)用程序所需的吞吐量和延遲的支持。
3. 資源池必須靠現(xiàn)代應(yīng)用程序所需的吞吐量和延遲的支持,并且必須可以在網(wǎng)絡(luò)中大規(guī)模運(yùn)用。
存儲(chǔ)可能永遠(yuǎn)不會(huì)免費(fèi),但是使用Fungible公司的數(shù)據(jù)處理器(DPU)可以便宜很多。
責(zé)任編輯人:CC
-
存儲(chǔ)
+關(guān)注
關(guān)注
13文章
4332瀏覽量
85961
原文標(biāo)題:存儲(chǔ)能不能實(shí)現(xiàn)免費(fèi)?
文章出處:【微信號(hào):SSDFans,微信公眾號(hào):SSDFans】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論