本工作發(fā)表于FAST 2022。首次基于一家主要存儲(chǔ)供應(yīng)商的近200萬(wàn)個(gè)SSD的大量企業(yè)存儲(chǔ)系統(tǒng),對(duì)生產(chǎn)使用中SSD的關(guān)鍵操作特性進(jìn)行了大規(guī)模的現(xiàn)場(chǎng)研究。
基于本文,可以得到以下重要發(fā)現(xiàn):
發(fā)現(xiàn)1:大多數(shù)SSD以非常慢的速度消耗PE周期。
發(fā)現(xiàn)2:用作緩存的SSD的主機(jī)寫(xiě)力度明顯高于用作持久存儲(chǔ)的SSD。然而,并沒(méi)有看到更高的NAND使用率,因?yàn)樗麄円步?jīng)歷了更低的WAF。因此,并不一定需要對(duì)緩存工作負(fù)載使用更高的持久性驅(qū)動(dòng)器
發(fā)現(xiàn)3:不同驅(qū)動(dòng)器家族和制造商的WAF差異顯著(數(shù)量級(jí))。
發(fā)現(xiàn)4:避免retention問(wèn)題所作的后臺(tái)工作是WAF的一個(gè)很大的原因。
發(fā)現(xiàn)5:磨損水平度并不完美。5%的SSD報(bào)告的擦除比率超過(guò)6,也就是說(shuō),驅(qū)動(dòng)器中有些塊的磨損速度是平均塊的6倍。
發(fā)現(xiàn)6:AFF系統(tǒng)平均已經(jīng)滿(mǎn)了43%。在生產(chǎn)的頭幾年,系統(tǒng)豐滿(mǎn)度增長(zhǎng)得更快,之后增長(zhǎng)緩慢。容量最大的系統(tǒng)比容量較小的系統(tǒng)更滿(mǎn)。
發(fā)現(xiàn)7:在研究的系統(tǒng)中,與SSD相關(guān)的絕大多數(shù)工作負(fù)載(94%)是讀取主導(dǎo)的,中位數(shù)R/W比為3.62:1,突出了基于SSD和基于HDD的系統(tǒng)在使用上的差異。
背景及動(dòng)機(jī)
隨著SSD部署的越來(lái)越多,了解它們?cè)趯?shí)際現(xiàn)場(chǎng)的操作特性是非常重要的,特別由于它們的操作方面不同于HDD。了解操作特性有助于我們更好的了解SSD在實(shí)際大規(guī)模工作環(huán)境中的表現(xiàn),同時(shí)給未來(lái)的閃存部署帶來(lái)新的思考。
操作特性方面的研究,包含SSD所經(jīng)歷的寫(xiě)放大水平以及它如何受到各種因素的影響;磨損水平的有效性;或者是現(xiàn)場(chǎng)設(shè)備使用它們的(PE)周期限制的速率,以及這對(duì)向耐力較低的下一代flash的過(guò)渡意味著什么。本文首次基于一家主要存儲(chǔ)供應(yīng)商(NetApp)的近200萬(wàn)個(gè)SSD的大量企業(yè)存儲(chǔ)系統(tǒng),對(duì)生產(chǎn)使用中SSD的關(guān)鍵操作特性進(jìn)行了大規(guī)模的現(xiàn)場(chǎng)研究。
研究問(wèn)題
1、在生產(chǎn)系統(tǒng)中設(shè)備的寫(xiě)入量是多少以及他們距離達(dá)到磨損極限有多近?這對(duì)未來(lái)新一代耐磨性更差的閃存來(lái)說(shuō)意味著什么?
2、設(shè)備在生產(chǎn)系統(tǒng)中寫(xiě)入放大程度如何?這些數(shù)字與先前的學(xué)術(shù)工作中的報(bào)告相比如何?
3、SSD在生產(chǎn)環(huán)境中的磨損水平如何?
4、寫(xiě)放大如何受到各種因素的影響,包括FTL相關(guān)因素(例如,設(shè)備模型、固件版本、OP設(shè)置、是否支持多流寫(xiě))和工作負(fù)載因素(例如,寫(xiě)入量和讀寫(xiě)比率,設(shè)備是用作緩存還是持久存儲(chǔ),設(shè)備在RAID中的角色是數(shù)據(jù)、奇偶校驗(yàn)還是分區(qū))?
系統(tǒng)描述
數(shù)據(jù)量:200萬(wàn)個(gè)設(shè)備;
數(shù)據(jù)種類(lèi):三個(gè)不同的制造商,總共20個(gè)不同的系列,每個(gè)系列的劃分依賴(lài)于制造商、容量、顆粒類(lèi)型等;
數(shù)據(jù)內(nèi)容:使用方面的信息,如主機(jī)讀寫(xiě),總物理設(shè)備寫(xiě),以及每個(gè)驅(qū)動(dòng)器的磨損水平和寫(xiě)放大的信息。此外,我們的數(shù)據(jù)包含每個(gè)系統(tǒng)的配置,包括其所有RAID組和RAID組中每個(gè)驅(qū)動(dòng)器的角色(即數(shù)據(jù)或奇偶校驗(yàn))等;
系統(tǒng)分類(lèi):企業(yè)系統(tǒng):一種使用SSD作為HDD上的緩存層(稱(chēng)為WBC),另一種由僅閃存系統(tǒng)組成,稱(chēng)為AFF (AllFlash結(jié)構(gòu)-緩存存儲(chǔ)(FAS));
數(shù)據(jù)來(lái)源:NetApp Active IQ ,類(lèi)似于SMART技術(shù)。
操作特征
write rate:對(duì)于盤(pán)的寫(xiě)入數(shù)據(jù)的程度, write rate越大越說(shuō)明運(yùn)行在盤(pán)上的工作負(fù)載是寫(xiě)密集型的。
WAF:寫(xiě)放大??紤]其也是SSD磨損的重要原因。
wear leveling:均衡磨損。由于不同盤(pán)的固件不同,導(dǎo)致FTL中的均衡磨損算法差異較大,因此影響到盤(pán)的磨損。
fullness:設(shè)備豐度。指的是在整個(gè)系統(tǒng)在容量中真正被用到的部分。因?yàn)閒ullness的程度會(huì)很大程度上影響盤(pán)內(nèi) 的后臺(tái)操作,尤其是均衡磨損和垃圾回收。
1. Write Rate
write rate的衡量標(biāo)準(zhǔn)是DWPD(每日全盤(pán)寫(xiě)入次數(shù)),指每日寫(xiě)入的數(shù)據(jù)量能夠覆蓋全盤(pán)的次數(shù)。
分三個(gè)角度進(jìn)行考慮:系統(tǒng)類(lèi)型、盤(pán)的容量、盤(pán)的種類(lèi)。
發(fā)現(xiàn)1:DWPD的平均值是0.36,能夠滿(mǎn)足現(xiàn)有幾乎所有盤(pán)的要求。但是7%的盤(pán)超過(guò)3,2%的盤(pán)超過(guò)10。
發(fā)現(xiàn)2:從主機(jī)寫(xiě)的情況來(lái)看,WBC系統(tǒng)相比較AFF系統(tǒng)來(lái)說(shuō),write rate要高的多。平均值3.6X,99th%10.6 。(猜測(cè)和系統(tǒng)中盤(pán)的容量大小有關(guān),因?yàn)镈WPD和全盤(pán)的容量有關(guān)。而作為cache的SSD容量大小肯定低于純flash的容量)。
發(fā)現(xiàn)3:WBC系統(tǒng)的盤(pán)有一個(gè)很長(zhǎng)的尾端分布。99th%到達(dá)40,99.9th%到達(dá)76 。說(shuō)明在WBC系統(tǒng)中,對(duì)于SSD的耐久挑戰(zhàn)很大。
發(fā)現(xiàn)4:容量越小的盤(pán)write rate程度越高。
發(fā)現(xiàn)5:對(duì)于不同種類(lèi)的SSD,其write rate程度相差較大。并且對(duì)于AFF和WBC系統(tǒng)來(lái)說(shuō),那些DWPD超過(guò)平均值的SSD種類(lèi)基本相似。
2. WAF
發(fā)現(xiàn)1:從整體上看,WAF的分布和先前的研究有很大的不同,先前專(zhuān)注于金融應(yīng)用服務(wù)分布在1.3、華為3D-TLC則分布在1.5。但是98.8%和96%的SSD觀察到的WAF分別大于1.3和1.5。
發(fā)現(xiàn)2:I-C、I-D和I-E種類(lèi)的WAF比其他大多數(shù)的盤(pán)種類(lèi)高一個(gè)數(shù)量級(jí)。這是為什么這三個(gè)種類(lèi)的主機(jī)寫(xiě)入量不大,但是卻有很高的nand使用率。但是這和工作負(fù)載關(guān)系不大,沒(méi)有跡象表明這三種類(lèi)型的盤(pán)用于其他不同類(lèi)型的應(yīng)用。原因在于這三類(lèi)盤(pán)在空閑時(shí)有大量的后臺(tái)工作。主要用于解決retention問(wèn)題。但是這個(gè)問(wèn)題在之前的研究中非常容易被忽視。
發(fā)現(xiàn)3:只比較同一個(gè)種類(lèi)的SSD,WAF也存在不同的分布。
發(fā)現(xiàn)4:對(duì)于相同的盤(pán)類(lèi)型,WBC系統(tǒng)的WAF明顯低于AFF系統(tǒng),這表明WBC工作負(fù)載更對(duì)閃存友好。就緩存要求而言,在緩存中的應(yīng)用被認(rèn)為是要求最高的,而廣泛接受的最佳實(shí)踐建議對(duì)這些應(yīng)用程序只使用具有最高
耐久性的驅(qū)動(dòng)器。觀察表明,這可能并不總是必要的。
3. Wear Leveling
文章定義了兩個(gè)標(biāo)準(zhǔn)用來(lái)看均衡磨損是否有效:
發(fā)現(xiàn)1:磨損水平并不完美。中值擦除比為1.55,表明最大塊比平均塊多執(zhí)行55%。5%的盤(pán)的擦除比大于6。
發(fā)現(xiàn)2:不同種類(lèi)之間的磨損等級(jí)指標(biāo)存在顯著差異。例如,I-C和I-D盤(pán)報(bào)告的磨損水平指標(biāo)明顯更高(盡管與其他一些種類(lèi)的年齡、容量和DWPD相似),不同的制造商在均衡磨損方面遵循非常不同的理念:當(dāng)查看擦除差度量時(shí),看到擦除差最大的四個(gè)種類(lèi)都屬于同一個(gè)制造商(即I)。
4. Fullness
發(fā)現(xiàn)1:平均系統(tǒng)的滿(mǎn)容量約為45%,中值也約為45%,即超過(guò)一半的存儲(chǔ)容量是空閑的。各系統(tǒng)的豐滿(mǎn)度分布大致一致。CDF變化點(diǎn)僅高于80%,即低于80%的可能性大致相等,而高于80%的值則相對(duì)不太常見(jiàn)。
發(fā)現(xiàn)2:系統(tǒng)的豐滿(mǎn)度會(huì)隨著年齡的增長(zhǎng)而增加。但是增長(zhǎng)速度不一致,頭兩年明顯更快。但是有一些非常年輕的系統(tǒng)很滿(mǎn),一些舊系統(tǒng)很空:略高于5%的年輕系統(tǒng)(不到1歲)超過(guò)80%,而19%的舊系統(tǒng)(超過(guò)4歲)不到25%。
發(fā)現(xiàn)3:總?cè)萘枯^大的系統(tǒng)往往更滿(mǎn):最大的系統(tǒng)比其他系統(tǒng)多1.7×(按中位數(shù)計(jì)算)。說(shuō)明,購(gòu)買(mǎi)更大容量系統(tǒng)的客戶(hù)確實(shí)有更大的容量需求,并且也能更好地預(yù)測(cè)他們需要多少存儲(chǔ)容量。
Which factors impact WAF?
因素1:FTL。在同一個(gè)種類(lèi)、同樣容量的SSD盤(pán)中。固件版本FV2和版本FV3上的驅(qū)動(dòng)器的WAF之間有明顯的區(qū)別。
因素2:工作負(fù)載。因?yàn)闊o(wú)法直接獲取工作負(fù)載的特性,因此通過(guò)五個(gè)角度特征代替:DWPD、RAID組中的角色、容量、接口、讀寫(xiě)比。
因素3:DWPD。在不同的容量和驅(qū)動(dòng)角色中,WAF隨著DWPD數(shù)量的增加而減少。這可能表明SSD在更高的寫(xiě)力度下更有效地運(yùn)行(在后臺(tái)任務(wù)和WAF方面)。這也可能意味著一些FTL背景功是恒定的,即不強(qiáng)烈依賴(lài)于DWPD;因此,較高的DWPD會(huì)降低這種恒定功對(duì)WAF比值的影響。
因素4:角色。不同角色盤(pán)的WAF的顯著差異。對(duì)于分區(qū)SSD的較高WAF的一個(gè)可能的解釋可能是,它們被迫處理來(lái)自具有潛在不同特征的不同工作負(fù)載的請(qǐng)求,因此經(jīng)歷了寫(xiě)模式的混合。同時(shí)需要注意,隨著數(shù)據(jù)量的增加,差距減少。表明寫(xiě)力度對(duì)WAF的影響大于它的作用。
因素5:容量。高容量的主機(jī)SSD(即8TB和15TB)與相同的小容量相比,經(jīng)歷更低的WAF,當(dāng)主機(jī)總寫(xiě)量較低時(shí),差異更明顯。盡管如此,與960GB SSD相比,3.8TB SSD經(jīng)歷的WAF略高,這表明更小容量的SSD不一定會(huì)經(jīng)歷更高的WAF(即,其他因素對(duì)WAF的影響更強(qiáng))。
因素6:設(shè)備接口。使用NVMe接口的盤(pán)明顯經(jīng)歷更少的WAF。考慮到NVMe還是新技術(shù),因此可能的原因在于,使用NVMe的盤(pán)會(huì)用于一些特定的應(yīng)用,導(dǎo)致工作負(fù)載上的差別,從而體現(xiàn)在WAF上的不同。同樣的,多流技術(shù)、op占比也是如此。
Read/Write (R/W) Ratios
發(fā)現(xiàn)1:絕大多數(shù)盤(pán),約94%,經(jīng)歷的讀取多于寫(xiě)取。中位數(shù)為3.6:1,95th%為61:1。這與基于HDD的系統(tǒng)相差很大,先前的研究均經(jīng)歷寫(xiě)大于讀。在華為的數(shù)據(jù)中,均為寫(xiě)大于讀,MLC讀寫(xiě)比在0.5左右,TLC讀寫(xiě)比在0.57左右。
發(fā)現(xiàn)2:AFF系統(tǒng)中的R/W比值隨時(shí)間的推移保持相當(dāng)穩(wěn)定,這表明相應(yīng)的工作負(fù)載的特性不會(huì)隨時(shí)間發(fā)生顯著變化。
Most Important Findings
整理一下文章所有的觀點(diǎn)可以得到以下重要發(fā)現(xiàn):
發(fā)現(xiàn)1:大多數(shù)SSD以非常慢的速度消耗PE周期。
發(fā)現(xiàn)2:用作緩存的SSD的主機(jī)寫(xiě)力度明顯高于用作持久存儲(chǔ)的SSD。然而,并沒(méi)有看到更高的NAND使用率,因?yàn)樗麄円步?jīng)歷了更低的WAF。因此,并不一定需要對(duì)緩存工作負(fù)載使用更高的持久性驅(qū)動(dòng)器
發(fā)現(xiàn)3:不同驅(qū)動(dòng)器家族和制造商的WAF差異顯著(數(shù)量級(jí))。
發(fā)現(xiàn)4:避免retention問(wèn)題所作的后臺(tái)工作是WAF的一個(gè)很大的原因。
發(fā)現(xiàn)5:磨損水平度并不完美。5%的SSD報(bào)告的擦除比率超過(guò)6,也就是說(shuō),驅(qū)動(dòng)器中有些塊的磨損速度是平均塊的6倍。
發(fā)現(xiàn)6:AFF系統(tǒng)平均已經(jīng)滿(mǎn)了43%。在生產(chǎn)的頭幾年,系統(tǒng)豐滿(mǎn)度增長(zhǎng)得更快,之后增長(zhǎng)緩慢。容量最大的系統(tǒng)比容量較小的系統(tǒng)更滿(mǎn)。
發(fā)現(xiàn)7:在研究的系統(tǒng)中,與SSD相關(guān)的絕大多數(shù)工作負(fù)載(94%)是讀取主導(dǎo)的,中位數(shù)R/W比為3.62:1,突出了基于SSD和基于HDD的系統(tǒng)在使用上的差異。
審核編輯:湯梓紅
-
NAND
+關(guān)注
關(guān)注
16文章
1701瀏覽量
136866 -
存儲(chǔ)
+關(guān)注
關(guān)注
13文章
4401瀏覽量
86400 -
SSD
+關(guān)注
關(guān)注
21文章
2907瀏覽量
118256
原文標(biāo)題:企業(yè)級(jí)存儲(chǔ)盤(pán)中的操作特性
文章出處:【微信號(hào):架構(gòu)師技術(shù)聯(lián)盟,微信公眾號(hào):架構(gòu)師技術(shù)聯(lián)盟】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
SAS走進(jìn)企業(yè)級(jí)存儲(chǔ)應(yīng)用
國(guó)內(nèi)企業(yè)級(jí)固態(tài)硬盤(pán)生產(chǎn)研發(fā)企業(yè)招聘
當(dāng)我們談?wù)?b class='flag-5'>企業(yè)級(jí)存儲(chǔ)市場(chǎng)時(shí),我們談?wù)摚ㄗ觯┝耸裁?/a>
采用nvSRAM確保企業(yè)級(jí)SSD故障時(shí)電源可靠性
希捷發(fā)布10TB氦氣企業(yè)級(jí)海量盤(pán)以滿(mǎn)足云數(shù)據(jù)中心存儲(chǔ)需求
以下五點(diǎn) 是2019年企業(yè)級(jí)存儲(chǔ)廠商業(yè)務(wù)增長(zhǎng)的基礎(chǔ)
華為2019年中國(guó)企業(yè)級(jí)存儲(chǔ)市場(chǎng)出貨份額排名第一
聊聊企業(yè)級(jí)存儲(chǔ)盤(pán)中的操作特性

細(xì)說(shuō)企業(yè)級(jí)SSD的那些高價(jià)值特性

評(píng)論