0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

為什么GPU的壽命如此之短

處理器與AI芯片 ? 來(lái)源: 處理器與AI芯片 ? 2024-10-29 16:19 ? 次閱讀

GPU的壽命

最近外面總在討論GPU的壽命只有三年。

為什么GPU的壽命如此之短?

我們?nèi)タ纯凑撐闹惺窃趺凑f(shuō)的。

三年

最近云服務(wù)提供商CSP談到,GPU的有效使用率通常是60%-70%。

在這樣的效率下,GPU的壽命通常為1年到2年,最長(zhǎng)3年。

如果進(jìn)一步提高使用率,那么GPU的壽命會(huì)進(jìn)一步降低。

橡樹(shù)嶺國(guó)家實(shí)驗(yàn)室的Titan GPU

首先一份論文來(lái)自美國(guó)橡樹(shù)嶺國(guó)家實(shí)驗(yàn)室:

GPU Lifetimes on Titan Supercomputer: Survival Analysis and Reliability

這篇論文主要收集了GPU運(yùn)行期間經(jīng)常發(fā)生的兩種錯(cuò)誤類型:

Double Bit Error (DBE)

DBE指的是GPU memory中發(fā)生的ECC檢測(cè)錯(cuò)誤。ECC校驗(yàn)可以校驗(yàn)1bit,但是無(wú)法校驗(yàn)2bit。

Off the Bus (OTB)

則是CPU失去了和GPU的連接,失聯(lián)了。

題外話,如果你聽(tīng)到橡樹(shù)嶺實(shí)驗(yàn)室比較耳熟。

那么,對(duì),這個(gè)實(shí)驗(yàn)室就是當(dāng)年秘密研發(fā)原子彈的一處,曼哈頓計(jì)劃。

3420675a-95a9-11ef-a511-92fbcf53809c.png

實(shí)驗(yàn)室裝備的GPU

這里還要引入一個(gè)新的概念,MTBF。指的是mean time between failure。

兩次GPU失敗之間的均值時(shí)間。

研究人員收集數(shù)據(jù)之后發(fā)現(xiàn),DBE,OTB data error都是在3年的時(shí)候達(dá)到頂峰。

也就是使用了三年的GPU會(huì)開(kāi)始大規(guī)模failure。

34268f5e-95a9-11ef-a511-92fbcf53809c.png

OTB和DBE頻繁的發(fā)生在2016年成為了顯著事件,觸發(fā)了GPU的更新?lián)Q代。

2016年更新?lián)Q代:

3447e3a2-95a9-11ef-a511-92fbcf53809c.png

如上圖所示,在更新?lián)Q代之后,MTBF明顯降低了,到了2018年,又有明顯走高趨勢(shì),此時(shí)才過(guò)了兩年。

這次替換了11,000塊GPU,占了總體GPU數(shù)量的接近59%。

問(wèn)題在哪里?

經(jīng)過(guò)大量的測(cè)試分析,在材料學(xué)和顯微學(xué)的研究人員的支持下,

發(fā)現(xiàn)問(wèn)題并不在于GPU本身,而是在于電路上焊接的電阻發(fā)生了銀硫化物腐蝕。

此類腐蝕物在微電子部件的環(huán)境空氣中生長(zhǎng),并且只有在積累到了臨界量的腐蝕后才會(huì)發(fā)生故障。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4739

    瀏覽量

    128941
  • 實(shí)驗(yàn)室
    +關(guān)注

    關(guān)注

    0

    文章

    169

    瀏覽量

    19167
  • ECC
    ECC
    +關(guān)注

    關(guān)注

    0

    文章

    97

    瀏覽量

    20561

原文標(biāo)題:GPU的壽命

文章出處:【微信號(hào):處理器與AI芯片,微信公眾號(hào):處理器與AI芯片】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    電解電容真的會(huì)導(dǎo)致LED燈具壽命短嗎?

    在LED燈具之所以壽命短主要是電源的壽命短,而電源之所以壽命短是因?yàn)殡娊怆娙?b class='flag-5'>壽命短。本文剖析了決定電解電容壽命的主要因素,技術(shù)特點(diǎn)和三種延長(zhǎng)
    發(fā)表于 07-22 18:02 ?2.3w次閱讀

    蒙受不白之冤,電解電容真的會(huì)導(dǎo)致LED燈具壽命短嗎?

    常常聽(tīng)說(shuō)現(xiàn)在LED燈具之所以壽命短主要是電源的壽命短,而電源之所以壽命短是因?yàn)殡娊怆娙?b class='flag-5'>壽命短。這些說(shuō)法也有一定道理。因?yàn)槭忻嫔铣涑庵罅康亩?b class='flag-5'>壽命
    發(fā)表于 11-05 08:52 ?2270次閱讀
    蒙受不白之冤,電解電容真的會(huì)導(dǎo)致LED燈具<b class='flag-5'>壽命短</b>嗎?

    為什么peak2peak值如此之高?

    5V。專用銀行由2.5V供電對(duì)于測(cè)量,我將示波器的gnd連接到FMC LPC gnd引腳之一。為什么peak2peak值如此之高?我期待2.5V!先謝謝你
    發(fā)表于 08-05 09:33

    請(qǐng)問(wèn)為什么AXI互連資源如此之大?

    嗨!在vivado 2015.4中,我生成了AXI互連IP核,6個(gè)masterand1從站。資源是如此之大約9000片或更多,MIG約3500片。A7 100T共有15850片,沒(méi)有什么可供用戶使用!!AXI互連必須使用這么多資源嗎?謝謝
    發(fā)表于 08-13 09:44

    鉛酸電池為何壽命短?原因是什么?

    鉛酸電池為何壽命短?原因是什么?
    發(fā)表于 06-10 11:04

    電池使用壽命短的原因是什么 ?

    電池使用壽命短的原因是什么 ?  1. 充電器或充電電路與電池類型不匹配 2. 過(guò)充 , 過(guò)放 3. 電池類型與用電器要求不一致
    發(fā)表于 10-24 16:00 ?500次閱讀

    電池使用壽命短的可能原因是什么?

    電池使用壽命短的可能原因是什么? 1.        充電器或充電電路與
    發(fā)表于 11-09 17:23 ?462次閱讀

    電動(dòng)車電池壽命短的主要原因

    電動(dòng)車電池壽命短的主要原因     不少用戶反映電動(dòng)車電池壽命短,用不到一年
    發(fā)表于 11-11 13:58 ?873次閱讀

    電池使用壽命短的可能原因是什么?

    電池使用壽命短的可能原因是什么?
    發(fā)表于 11-13 12:12 ?746次閱讀

    和過(guò)去說(shuō)“再見(jiàn)”,長(zhǎng)城汽車智能化野望

    5G、IOT(物聯(lián)網(wǎng))、大數(shù)據(jù)……我們與未來(lái)的距離,如此之近,又如此之遠(yuǎn)?。
    的頭像 發(fā)表于 07-23 16:25 ?2313次閱讀

    自動(dòng)駕駛汽車的壽命真的很短嗎

    2019年8月28日消息 “自動(dòng)駕駛汽車的使用壽命將只有4年?!备L刈詣?dòng)駕駛汽車部門(mén)運(yùn)營(yíng)主管約翰·里奇語(yǔ)出驚人。在一般人的印象中,傳統(tǒng)汽車可以使用十幾二十年,為什么自動(dòng)駕駛汽車壽命如此之
    發(fā)表于 08-30 15:22 ?1691次閱讀

    芯片售價(jià)為何如此之高?

    工業(yè)社會(huì),石油是血液,是命脈。如今信息社會(huì),芯片才是血液和命脈。人們進(jìn)入數(shù)字生活時(shí)代,芯片成了像空氣和水一樣的存在。為什么小小的芯片,作用如此之大,售價(jià)如此之高?它到底集成了哪些技術(shù)?它到底是
    的頭像 發(fā)表于 01-04 09:23 ?2937次閱讀

    禾賽首款首款以高度命名的激光雷達(dá) 為什么要做的如此之

    約一半厚,從艙外到艙內(nèi),ET25 為什么要做的如此之薄呢? ? 薄,源于對(duì)安全和美觀的雙重需求 首先與大家分享一個(gè)關(guān)鍵的概念:KOZ。 所有集成于座艙上方的傳感器,需要與擋風(fēng)玻璃之間留有一定的空間,這一
    的頭像 發(fā)表于 06-26 17:43 ?855次閱讀
    禾賽首款首款以高度命名的激光雷達(dá) 為什么要做的<b class='flag-5'>如此之</b>薄

    為什么GPU對(duì)AI如此重要?

    GPU在人工智能中相當(dāng)于稀土金屬,甚至黃金,它們?cè)诋?dāng)今生成式人工智能時(shí)代中的作用不可或缺。那么,為什么GPU在人工智能發(fā)展中如此重要呢?什么是GPU圖形處理器(
    的頭像 發(fā)表于 05-17 08:27 ?691次閱讀
    為什么<b class='flag-5'>GPU</b>對(duì)AI<b class='flag-5'>如此</b>重要?

    談?wù)?b class='flag-5'>GPU的使用壽命

    上文結(jié)合論文談一談,三年壽命GPU [上]說(shuō)到,電路腐蝕導(dǎo)致橡樹(shù)嶺實(shí)驗(yàn)室的GPU壽命只有3年,更換了11,000塊GPU。
    的頭像 發(fā)表于 11-01 10:27 ?264次閱讀
    談?wù)?b class='flag-5'>GPU</b>的使用<b class='flag-5'>壽命</b>