上文結(jié)合論文談一談,三年壽命的GPU [上]說到,電路腐蝕導(dǎo)致橡樹嶺實驗室的GPU壽命只有3年,更換了11,000塊GPU。
早在2015年橡樹嶺實驗室就發(fā)表了針對GPU Error的另一篇文章:
[194] Understanding GPU Errors Large-scale HPCSystem and the Implications for System Design and Operation.
194 表示引用數(shù)。
這篇文章總結(jié)了Titan GPU運行中出現(xiàn)的失敗和教訓(xùn)。
雖然這篇文章發(fā)表于2015年,但是文章中圖片的模糊程度像是1955年。
1 背景介紹
GPU的主要的存儲部件,都使用了SECDEC ECC校驗保護,包括:
device memory
l2/l1cache,instruction cache,data cache, share memory
register file
但是并不是GPU中所有的部件都能被ECC校驗保護比如
queue
thread block threaduler
warp scheduler
instruction dispatch unit
interconnect network
一旦一個部件發(fā)生錯誤,那么就可能影響多個線程。
文章總結(jié)了GPU經(jīng)常出現(xiàn)的error以及其影響。
上圖中最上面兩行的Single Bit Error和Double Bit Error后面會縮寫為SBE和DBE。
Stability
首先他們發(fā)現(xiàn)GPU發(fā)生問題的頻率較低,考慮到共計有18,688塊GPU。
按照GPU的手冊,這個數(shù)量的GPU,至少每天會發(fā)生兩次failure,但是實際中,每兩天發(fā)生一次。
他們也注意到,上圖中的Off the bus, ECC page retirement error和DBE failure是主要導(dǎo)致GPU失敗的問題。
他們也注意到,一小部分的bad GPU重復(fù)的發(fā)生問題,是拉低MTBF(meantime between failure)的主要原因。
如果可以早發(fā)現(xiàn),那么應(yīng)當(dāng)提升GPU穩(wěn)定運行的時間。
Temporal Locality
研究人員發(fā)現(xiàn),有顯著的一部分GPU failure發(fā)生遠早于MTFB。 這意味著GPU failure有很強的temporal locality。 如下圖所示,并不是均勻分布。
Stressing Testing
研究人員發(fā)現(xiàn),有6塊GPU card造成了總體DBE error中的25%。 有一部分GPU可能會多次發(fā)生DBE和ECC page retirement問題,應(yīng)當(dāng)在早期發(fā)現(xiàn)這些GPU卡。 通過在進入生產(chǎn)環(huán)節(jié)之前,進行壓力測試,可以有效避免類似問題。
Temperature
他們發(fā)現(xiàn)off the bus和DBE error是與溫度有關(guān),但并不是所有的問題都與溫度有關(guān)。
SBE
SBE (Single bit error), 他們發(fā)現(xiàn)98%的SBE問題只發(fā)生在10張卡上。
如下圖x軸所示,10張卡占據(jù)了整體98%的SBE Error
L2 Cache
899張有問題的卡中,如上文所述,10張卡貢獻了SBE 98%的問題。
這10張卡發(fā)生SBE錯誤時,99%都發(fā)生在了L2 Cache上,如下圖中間的圖。藍色代表L2Cache發(fā)生問題。
而對于其余發(fā)生問題,造成了2% SBE問題的卡,96%的問題都發(fā)生在了device memory上。
-
電路
+關(guān)注
關(guān)注
172文章
5909瀏覽量
172239 -
存儲
+關(guān)注
關(guān)注
13文章
4314瀏覽量
85841 -
gpu
+關(guān)注
關(guān)注
28文章
4739瀏覽量
128941
原文標題:結(jié)合論文談一談,三年壽命的GPU [下]
文章出處:【微信號:處理器與AI芯片,微信公眾號:處理器與AI芯片】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論