0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

為什么AI 加速器要減少 GPU 等高能耗硬件的使用?

lhl545545 ? 來(lái)源:與非網(wǎng) ? 作者:與非網(wǎng) ? 2020-08-24 16:22 ? 次閱讀

由于大部分繁重的 AI 任務(wù)都是在云端完成的,因此人們很容易忘記 AI 需要大量的計(jì)算資源及電力。

馬薩諸塞州大學(xué)阿默斯特分校去年的一項(xiàng)研究發(fā)現(xiàn),訓(xùn)練一個(gè)大型自然語(yǔ)言處理(BERT)AI 模型因消耗電力而產(chǎn)生的二氧化碳(CO2),相當(dāng)于跨大西洋往返航班對(duì)每個(gè)乘客所產(chǎn)生的 CO2。那只是一個(gè)模型,雖然是變換網(wǎng)絡(luò),但只需訓(xùn)練一次。開(kāi)發(fā)過(guò)程中通常會(huì)對(duì)模型進(jìn)行多次調(diào)整和反復(fù)訓(xùn)練。如果將神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索(一種使用 AI 來(lái)調(diào)整模型的 AutoML 技術(shù))加入一個(gè)大小適中的轉(zhuǎn)換器中,其 CO2 總排放量將猛升到幾乎與 5 輛美國(guó)汽車的終身排放量相同。

圖 1:訓(xùn)練一個(gè)大型的自然語(yǔ)言處理 AI 模型時(shí),其消耗電力所產(chǎn)生的 CO2 相當(dāng)于跨大西洋往返航班對(duì)每個(gè)乘客所產(chǎn)生的 CO2。

AI 加速器有望提高 AI 處理的計(jì)算效率。隨著 AI 處理量的不斷增加,數(shù)據(jù)中心將會(huì)采用這些新的專用加速器。

但是 AI 加速器可以節(jié)省能源嗎?究竟是總的用電量下降了,還是數(shù)據(jù)中心只不過(guò)利用同樣的電力實(shí)現(xiàn)了更多的計(jì)算?

AI 訓(xùn)練策略

“AI 計(jì)算使用的能量多少是由幾個(gè)因素決定的?!盜BM Cognitive Systems 技術(shù)計(jì)算副總裁 David Turek 解釋說(shuō),“采取什么樣的策略來(lái)訓(xùn)練模型,會(huì)影響所消耗的能量。每瓦特的計(jì)算量并不是特別有用的指標(biāo),因?yàn)橛泻芏喾N不同的方法可以降低總能耗?!?/p>

他補(bǔ)充說(shuō),整個(gè)系統(tǒng)架構(gòu)和應(yīng)用環(huán)境決定了實(shí)際上需要多少能源?!皬哪P陀?xùn)練到模型部署,計(jì)算能力的不同級(jí)別直接影響其基礎(chǔ)架構(gòu),從而直接影響所消耗的能源。”

人們通常認(rèn)為,AI 系統(tǒng)中一次只訓(xùn)練一個(gè)模型,然后將其部署到其他地方進(jìn)行推理。但事實(shí)并非如此,典型的 AI 系統(tǒng)會(huì)多次訓(xùn)練很多模型,并且可能同時(shí)在多個(gè)模型上進(jìn)行推理以獲得最佳結(jié)果。

完成部署后,有時(shí)會(huì)使用聯(lián)邦學(xué)習(xí)(federated learning)之類的技術(shù),在邊緣而不是回到數(shù)據(jù)中心更新增量模型。需要消耗多少能量取決于在邊緣進(jìn)行什么處理。

換句話說(shuō),訓(xùn)練特定的 AI 模型所消耗的能量并不是直接就可以確定的。“但數(shù)據(jù)中心的基礎(chǔ)設(shè)施是固定的,因此調(diào)整工作流程是節(jié)省能源的最好方法?!盩urek 說(shuō)。

可能的方法有:將 AI 模型與傳統(tǒng)的高性能計(jì)算融合,以減少所需的總計(jì)算量;縮短完成一項(xiàng)工作所花的時(shí)間,以減少 GPU 等高能耗 AI 加速器硬件的使用;避免在數(shù)據(jù)中心使用聯(lián)邦學(xué)習(xí)之類的技術(shù)重復(fù)訓(xùn)練。

Turek 說(shuō):“這是從管理的角度來(lái)聰明地安排工作流程,利用最佳的方法為現(xiàn)有系統(tǒng)分配可用的能源。通過(guò)能源預(yù)算和能源消耗,運(yùn)營(yíng)商可以在其硬件基礎(chǔ)架構(gòu)上進(jìn)行調(diào)度分配。”

在更高的溫度下運(yùn)行

服務(wù)器制造商 Supermicro 去年年底發(fā)布的數(shù)據(jù)中心環(huán)境實(shí)踐年度調(diào)查報(bào)告顯示,能源效率仍然有機(jī)會(huì)提高。Supermicro 營(yíng)銷和網(wǎng)絡(luò)安全副總裁 Michael McNerney 認(rèn)為,這些機(jī)會(huì)正在流失。

McNerney 說(shuō):“我們認(rèn)為一些基本的最佳實(shí)踐可以為客戶帶來(lái)很大價(jià)值。其中的一條是,相比傳統(tǒng)的數(shù)據(jù)中心環(huán)境,我們今天構(gòu)建的系統(tǒng)可以在更高的溫度下運(yùn)行,許多長(zhǎng)期從事數(shù)據(jù)中心運(yùn)營(yíng)的人卻沒(méi)有意識(shí)到這一點(diǎn)?!?/p>

在目前的設(shè)計(jì)中,不再需要將設(shè)備冷卻到 23~25°C 來(lái)確保其性能和可靠性。一些“綠色”數(shù)據(jù)中心處于極端溫度下,即便是很小的變化,例如減少空調(diào)的使用,也可以節(jié)省能源。

圖 2:現(xiàn)代服務(wù)器和基礎(chǔ)設(shè)施可以在更高的溫度下運(yùn)行,并且切換為多節(jié)點(diǎn)系統(tǒng),從而降低了總能耗。

多節(jié)點(diǎn)系統(tǒng)是節(jié)省能源的另一種方法,其中多臺(tái)服務(wù)器在共享的基礎(chǔ)架構(gòu)上運(yùn)行。這種配置減少了所需的大型電源和風(fēng)扇數(shù)量。多節(jié)點(diǎn)系統(tǒng)具有更高的能源效率,可以在更高的溫度下運(yùn)行,并提供更高的功率密度。

Supermicro 的調(diào)查還發(fā)現(xiàn),目前每個(gè)機(jī)架的平均功率密度為 15kW,服務(wù)器進(jìn)氣入口溫度為 23.5°C,服務(wù)器每 4.1 年更換一次。而在采用高度優(yōu)化綠色設(shè)計(jì)的數(shù)據(jù)中心(占受訪者的 12%),每個(gè)機(jī)架的功率密度超過(guò) 25kW,平均入口溫度為 26.5°C,服務(wù)器每 2 至 3 年更換一次。因此,Supermicro 得出結(jié)論,大多數(shù)數(shù)據(jù)中心仍需繼續(xù)優(yōu)化能效。

令人驚訝的是,大多數(shù)受訪者并不認(rèn)為能耗是成功的關(guān)鍵指標(biāo)?!拔覀円呀?jīng)看到,公司的設(shè)施預(yù)算與硬件及系統(tǒng)的資產(chǎn)購(gòu)置成本是分開(kāi)的,它們與人力成本也是分開(kāi)的。我認(rèn)為人們很清楚地知道這一點(diǎn),但是并不會(huì)進(jìn)行綜合考慮和優(yōu)化?!盡cNerney 說(shuō)。

“較大的數(shù)據(jù)中心更了解總運(yùn)營(yíng)成本,但若增加資產(chǎn)購(gòu)置預(yù)算,能源預(yù)算就會(huì)減少,人們有時(shí)很難把這兩者關(guān)聯(lián)起來(lái)?!?/p>

McNerneyt 認(rèn)為整個(gè)數(shù)據(jù)中心的功耗并不會(huì)很快下降。他說(shuō):“長(zhǎng)期的發(fā)展趨勢(shì)是,一些在線服務(wù)的能耗會(huì)隨著效率的提升而改善,然而隨著 5G 和 AI 的逐漸普及,總體功耗仍將繼續(xù)增加?!?/p>

電費(fèi)與能耗

英偉達(dá)加速計(jì)產(chǎn)品管理總監(jiān) Paresh Kharya 表示,數(shù)據(jù)中心運(yùn)營(yíng)商希望全面提高能效,因?yàn)殡娰M(fèi)占其運(yùn)營(yíng)成本的 25%。

能源使用效率(PUE)是一項(xiàng)廣泛使用的用來(lái)衡量能源節(jié)約的指標(biāo),表示計(jì)算所消耗的能源與數(shù)據(jù)中心基礎(chǔ)設(shè)施消耗的總能源之比。目標(biāo)是 PUE 等級(jí)為 1。

Kharya 說(shuō):“多年來(lái),超大規(guī)模數(shù)據(jù)中心的 PUE 接近 1 或 1.1,非常高效。企業(yè)數(shù)據(jù)中心也取得了很大進(jìn)步,大多數(shù)情況下,其 PUE 等級(jí)已經(jīng)從大于 2 降到了遠(yuǎn)遠(yuǎn)低于 2。”

超大規(guī)模數(shù)據(jù)中心采用優(yōu)化的機(jī)架和散熱設(shè)計(jì),可以大規(guī)模運(yùn)行,其優(yōu)化和使用復(fù)雜技術(shù)的能力是大多數(shù)企業(yè)數(shù)據(jù)中心不具備的。Kharya 表示:“許多企業(yè)已開(kāi)始采用這些創(chuàng)新技術(shù),能源效率得到了顯著提高。”

由于各家公司關(guān)注的是電費(fèi)而不是功耗,所以 Kharya 認(rèn)為,執(zhí)行任務(wù)所花費(fèi)的時(shí)間是一個(gè)重要因素。“例如,在一臺(tái)只有 CPU 的服務(wù)器上訓(xùn)練 ResNet-50 模型的圖像識(shí)別可能需要長(zhǎng)達(dá)三周的時(shí)間,而配備英偉達(dá) V100 GPU 的服務(wù)器可以在一天之內(nèi)完成這一任務(wù)。”他補(bǔ)充道。

“每臺(tái)配備英偉達(dá) GPU 的服務(wù)器比配備 CPU 的服務(wù)器消耗的能源更多,但它完成任務(wù)的時(shí)間將大大縮短。因此,如果使用 GPU 加速器,用于完成 AI 處理的整體能耗將降低至原來(lái)的 20 到 25 分之一?!盞harya 強(qiáng)調(diào)。

了解數(shù)據(jù)中心工作負(fù)荷

英特爾數(shù)據(jù)平臺(tái)營(yíng)銷總經(jīng)理 Allyson Klein 表示,數(shù)據(jù)中心運(yùn)營(yíng)商會(huì)盡量確保所有系統(tǒng)高效運(yùn)行,讓昂貴的基礎(chǔ)架構(gòu)提供最大的計(jì)算能力。

“數(shù)據(jù)中心運(yùn)營(yíng)商的主要目標(biāo)是使基礎(chǔ)架構(gòu)的性能達(dá)到最好?!盞lein 說(shuō),“性能高低取決于系統(tǒng)和機(jī)架的級(jí)別,同時(shí)還需要整個(gè)數(shù)據(jù)中心協(xié)同工作,使每瓦性能達(dá)到最高?!?/p>

因此,為了部署合適的基礎(chǔ)架構(gòu)來(lái)滿足性能和能耗要求,全面了解數(shù)據(jù)中心的工作負(fù)荷非常重要。最理想的結(jié)果是計(jì)算容量更大,功耗更低,并且不會(huì)閑置基礎(chǔ)設(shè)施而白白消耗電力。

究竟是在 CPU 中集成加速功能還是采用分立的加速器,這通常需要進(jìn)行權(quán)衡。Klein 說(shuō):“加速器會(huì)增加功耗,但如果它一直工作,則整體效率更高。如果加速器完成大量工作,利用率高,在客戶愿意投資基礎(chǔ)設(shè)施的情況下,使用分立的加速器是較好的方法。如果不能一直使用加速器,則采用 CPU 方法可能是更好的選擇,因?yàn)榧铀倨鹘?jīng)常會(huì)空閑,耗電卻不執(zhí)行任何任務(wù)?!?/p>

Klein 表示,在大多數(shù)部署中,AI 只是數(shù)十萬(wàn)種不同工作負(fù)荷的一種。盡管英特爾提供了 CPU 和專用 AI 加速器(通過(guò) Habana Labs),但由于工作負(fù)荷種類很多,從功耗和投資角度來(lái)看,Xeon Scalable(CPU)平臺(tái)可以說(shuō)是最高效的產(chǎn)品。

Klein 說(shuō):“英特爾的 AI 策略建立在 Xeon Scalable 處理器的基礎(chǔ)之上,Xeon Scalable 內(nèi)部做了 AI 優(yōu)化,并針對(duì)機(jī)器學(xué)習(xí)深度學(xué)習(xí)進(jìn)行了大量軟件優(yōu)化?!?/p>

提高效率

盡管 GPU 等 AI 加速器能耗很大,但進(jìn)行 AI 處理時(shí),它們的高計(jì)算效率可以降低總能耗。AI 處理在數(shù)據(jù)中心所占比例越來(lái)越高,但數(shù)據(jù)中心日常處理的負(fù)荷種類仍然多種多樣。

加速器使 AI 處理受益最大,CPU 則繼續(xù)在超大規(guī)模和企業(yè)數(shù)據(jù)中心市場(chǎng)贏得席位,因?yàn)?CPU 應(yīng)用更加靈活。隨著 AI 應(yīng)用的不斷擴(kuò)大,以及新的 5G 應(yīng)用產(chǎn)生更多的非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)中心的能耗不太可能很快下降。
責(zé)任編輯:pj

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 加速器
    +關(guān)注

    關(guān)注

    2

    文章

    806

    瀏覽量

    37998
  • 數(shù)據(jù)中心
    +關(guān)注

    關(guān)注

    16

    文章

    4844

    瀏覽量

    72286
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    31429

    瀏覽量

    269826
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    GPU加速云服務(wù)怎么用的

    GPU加速云服務(wù)是將GPU硬件與云計(jì)算服務(wù)相結(jié)合,通過(guò)云服務(wù)提供商的平臺(tái),用戶可以根據(jù)需求靈活租用帶有
    的頭像 發(fā)表于 12-26 11:58 ?115次閱讀

    《CST Studio Suite 2024 GPU加速計(jì)算指南》

    許可證模型的加速令牌或SIMULIA統(tǒng)一許可證模型的SimUnit令牌或積分授權(quán)。 4. GPU計(jì)算的啟用 - 交互式模擬:通過(guò)加速對(duì)話框啟用,打開(kāi)求解對(duì)話框,點(diǎn)擊“
    發(fā)表于 12-16 14:25

    英偉達(dá)AI加速器新藍(lán)圖:集成硅光子I/O,3D垂直堆疊 DRAM 內(nèi)存

    加速器設(shè)計(jì)的愿景。 英偉達(dá)認(rèn)為未來(lái)整個(gè) AI 加速器復(fù)合體將位于大面積先進(jìn)封裝基板之上,采用垂直供電,集成硅光子 I/O 器件,GPU 采用多模塊設(shè)計(jì),3D 垂直堆疊 DRAM 內(nèi)存
    的頭像 發(fā)表于 12-13 11:37 ?279次閱讀
    英偉達(dá)<b class='flag-5'>AI</b><b class='flag-5'>加速器</b>新藍(lán)圖:集成硅光子I/O,3D垂直堆疊 DRAM 內(nèi)存

    從版本控制到全流程支持:揭秘Helix Core如何成為您的創(chuàng)意加速器

    加速器
    龍智DevSecOps
    發(fā)布于 :2024年11月26日 13:42:47

    《算力芯片 高性能 CPUGPUNPU 微架構(gòu)分析》第3篇閱讀心得:GPU革命:從圖形引擎到AI加速器的蛻變

    場(chǎng)景精確投射到2D平面;最后在像素著色階段完成材質(zhì)渲染和光照明細(xì)處理。DirectX API的迭代推動(dòng)了可編程著色的發(fā)展,解放了GPU的通用計(jì)算潛能。特別是像素著色的設(shè)計(jì),啟發(fā)了我在深度學(xué)習(xí)任務(wù)中
    發(fā)表于 11-24 17:12

    解決方案丨PPEC inside車載逆變器,車載高能耗設(shè)備需求的理想之選

    ,是滿足車載高能耗設(shè)備需求的理想車載電源解決方案。該方案已通過(guò)多家客戶項(xiàng)目檢驗(yàn),并獲得了用戶的高度認(rèn)可。 PPEC車載逆變器拓?fù)淇驁D如下: 二、產(chǎn)品特色 ▍快速交付:繼承PPEC控制芯片免代碼開(kāi)發(fā)
    發(fā)表于 09-27 18:13

    英特爾發(fā)布Gaudi3 AI加速器,押注低成本優(yōu)勢(shì)挑戰(zhàn)市場(chǎng)

    英特爾近期震撼發(fā)布了專為AI工作負(fù)載設(shè)計(jì)的Gaudi3加速器,這款新芯片雖在速度上不及英偉達(dá)熱門型號(hào)H100與H200 GPU,但英特爾巧妙地將競(jìng)爭(zhēng)優(yōu)勢(shì)聚焦于其更為親民的價(jià)格與總擁有成本(TCO)上。
    的頭像 發(fā)表于 09-26 16:16 ?868次閱讀

    什么是神經(jīng)網(wǎng)絡(luò)加速器?它有哪些特點(diǎn)?

    )和圖形處理GPU)雖然可以處理神經(jīng)網(wǎng)絡(luò)計(jì)算,但在能效比和計(jì)算密度上往往難以滿足特定應(yīng)用場(chǎng)景的需求。因此,神經(jīng)網(wǎng)絡(luò)加速器應(yīng)運(yùn)而生,它通過(guò)優(yōu)化硬件架構(gòu)和算法實(shí)現(xiàn),針對(duì)神經(jīng)網(wǎng)絡(luò)計(jì)算的特
    的頭像 發(fā)表于 07-11 10:40 ?556次閱讀

    西門子推出Catapult AI NN軟件,賦能神經(jīng)網(wǎng)絡(luò)加速器設(shè)計(jì)

    西門子數(shù)字化工業(yè)軟件近日發(fā)布了Catapult AI NN軟件,這款軟件在神經(jīng)網(wǎng)絡(luò)加速器設(shè)計(jì)領(lǐng)域邁出了重要一步。Catapult AI NN軟件專注于在專用集成電路(ASIC)和芯片級(jí)系統(tǒng)(SoC)上實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)的高層次綜合(H
    的頭像 發(fā)表于 06-19 11:27 ?901次閱讀

    美國(guó)限制向中東AI加速器出口,審查國(guó)家安全

    AI加速器能協(xié)助數(shù)據(jù)中心處理大量人工智能聊天機(jī)器人和其他工具的開(kāi)發(fā)信息。如今,它們已然成為構(gòu)建AI基礎(chǔ)設(shè)施的企業(yè)和政府的必需品。
    的頭像 發(fā)表于 05-31 09:20 ?623次閱讀

    Arm發(fā)布新一代Ethos-U AI加速器 Arm旨在瞄準(zhǔn)國(guó)產(chǎn)CPU市場(chǎng)

    Arm發(fā)布的新一代Ethos-U AI加速器確實(shí)在業(yè)界引起了廣泛關(guān)注。
    的頭像 發(fā)表于 04-18 15:59 ?791次閱讀

    Arm推動(dòng)生成式AI落地邊緣!全新Ethos-U85 AI加速器支持Transformer 架構(gòu),性能提升四倍

    電子發(fā)燒友網(wǎng)報(bào)道(文/黃晶晶)在嵌入式領(lǐng)域,邊緣與端側(cè)AI推理需求不斷增長(zhǎng),Arm既有Helium 技術(shù)使 CPU 能夠執(zhí)行更多計(jì)算密集型的 AI 推理算法,也有Ethos 系列 AI 加速器
    的頭像 發(fā)表于 04-16 09:10 ?4689次閱讀
    Arm推動(dòng)生成式<b class='flag-5'>AI</b>落地邊緣!全新Ethos-U85 <b class='flag-5'>AI</b><b class='flag-5'>加速器</b>支持Transformer 架構(gòu),性能提升四倍

    瑞薩發(fā)布下一代動(dòng)態(tài)可重構(gòu)人工智能處理加速器

    瑞薩最新發(fā)布的動(dòng)態(tài)可重構(gòu)人工智能處理(DRP-AI加速器,在業(yè)界引起了廣泛關(guān)注。這款加速器擁有卓越的10 TOPS/W高功率效率,相比傳統(tǒng)技術(shù),效率提升了驚人的10倍。其獨(dú)特之處在
    的頭像 發(fā)表于 03-08 13:45 ?812次閱讀

    家居智能化,推動(dòng)AI加速器的發(fā)展

    提高了系統(tǒng)的運(yùn)算能力和數(shù)據(jù)處理能力,還為用戶帶來(lái)了更加智能化、個(gè)性化的生活體驗(yàn)。 ? AI 加速器的發(fā)展 ? 在人工智能和機(jī)器學(xué)習(xí)任務(wù)變得日益復(fù)雜和密集之前,傳統(tǒng)的CPU和GPU已經(jīng)足以處理這些任務(wù)。然而,隨著深度學(xué)習(xí)模型的出現(xiàn)
    的頭像 發(fā)表于 02-23 00:18 ?4639次閱讀

    回旋加速器原理 回旋加速器的影響因素

    回旋加速器(Cyclotron)是一種用于加速帶電粒子的可再生粒子加速器。它的工作原理基于帶電粒子在恒定強(qiáng)磁場(chǎng)中的運(yùn)動(dòng)。本文將詳細(xì)介紹回旋加速器的原理以及影響因素。 一、回旋
    的頭像 發(fā)表于 01-30 10:02 ?4502次閱讀