GPU的壽命
最近外面總在討論GPU的壽命只有三年。
為什么GPU的壽命如此之短?
我們?nèi)タ纯凑撐闹惺窃趺凑f(shuō)的。
三年
最近云服務(wù)提供商CSP談到,GPU的有效使用率通常是60%-70%。
在這樣的效率下,GPU的壽命通常為1年到2年,最長(zhǎng)3年。
如果進(jìn)一步提高使用率,那么GPU的壽命會(huì)進(jìn)一步降低。
橡樹(shù)嶺國(guó)家實(shí)驗(yàn)室的Titan GPU
首先一份論文來(lái)自美國(guó)橡樹(shù)嶺國(guó)家實(shí)驗(yàn)室:
GPU Lifetimes on Titan Supercomputer: Survival Analysis and Reliability
這篇論文主要收集了GPU運(yùn)行期間經(jīng)常發(fā)生的兩種錯(cuò)誤類型:
Double Bit Error (DBE)
DBE指的是GPU memory中發(fā)生的ECC檢測(cè)錯(cuò)誤。ECC校驗(yàn)可以校驗(yàn)1bit,但是無(wú)法校驗(yàn)2bit。
Off the Bus (OTB)
則是CPU失去了和GPU的連接,失聯(lián)了。
題外話,如果你聽(tīng)到橡樹(shù)嶺實(shí)驗(yàn)室比較耳熟。
那么,對(duì),這個(gè)實(shí)驗(yàn)室就是當(dāng)年秘密研發(fā)原子彈的一處,曼哈頓計(jì)劃。
實(shí)驗(yàn)室裝備的GPU
這里還要引入一個(gè)新的概念,MTBF。指的是mean time between failure。
兩次GPU失敗之間的均值時(shí)間。
研究人員收集數(shù)據(jù)之后發(fā)現(xiàn),DBE,OTB data error都是在3年的時(shí)候達(dá)到頂峰。
也就是使用了三年的GPU會(huì)開(kāi)始大規(guī)模failure。
OTB和DBE頻繁的發(fā)生在2016年成為了顯著事件,觸發(fā)了GPU的更新?lián)Q代。
2016年更新?lián)Q代:
如上圖所示,在更新?lián)Q代之后,MTBF明顯降低了,到了2018年,又有明顯走高趨勢(shì),此時(shí)才過(guò)了兩年。
這次替換了11,000塊GPU,占了總體GPU數(shù)量的接近59%。
問(wèn)題在哪里?
經(jīng)過(guò)大量的測(cè)試分析,在材料學(xué)和顯微學(xué)的研究人員的支持下,
發(fā)現(xiàn)問(wèn)題并不在于GPU本身,而是在于電路上焊接的電阻發(fā)生了銀硫化物腐蝕。
此類腐蝕物在微電子部件的環(huán)境空氣中生長(zhǎng),并且只有在積累到了臨界量的腐蝕后才會(huì)發(fā)生故障。
-
gpu
+關(guān)注
關(guān)注
28文章
4739瀏覽量
128941 -
實(shí)驗(yàn)室
+關(guān)注
關(guān)注
0文章
169瀏覽量
19167 -
ECC
+關(guān)注
關(guān)注
0文章
97瀏覽量
20561
原文標(biāo)題:GPU的壽命
文章出處:【微信號(hào):處理器與AI芯片,微信公眾號(hào):處理器與AI芯片】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論