0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

英偉達(dá)地位不保?BERT訓(xùn)練吞吐量提升4.7倍

lPCU_elecfans ? 來源:電子發(fā)燒友網(wǎng) ? 作者:電子發(fā)燒友網(wǎng) ? 2022-07-06 11:08 ? 次閱讀

電子發(fā)燒友網(wǎng)報(bào)道(文/周凱揚(yáng))推理和訓(xùn)練作為AI/ML關(guān)鍵的一環(huán),無論是通用的GPU,還是專用的推理/訓(xùn)練加速器,都想在各大流行模型和機(jī)器學(xué)習(xí)庫上跑出優(yōu)秀的成績,以展示自己的硬件實(shí)力。業(yè)界需要一個(gè)統(tǒng)一的跑分標(biāo)準(zhǔn),為此,各大廠商在2018年根據(jù)業(yè)內(nèi)指標(biāo)聯(lián)合打造的MLPerf就承擔(dān)了這一重任。

不過隨著時(shí)間的推移,MLPerf幾乎已經(jīng)成了英偉達(dá)一家獨(dú)大的跑分基準(zhǔn),這家GPU廠商憑借自己的產(chǎn)品幾乎統(tǒng)治著整個(gè)AI硬件市場。這不,近日公布的MLPerf Training 2.0,就將這些AI硬件公司和服務(wù)器廠商提交的具體AI訓(xùn)練成績公布了出來,其中既有一些新晉成員,也有一些出人意料的結(jié)果。

谷歌的反超這次跑分結(jié)果中,最驚艷的還是谷歌的TPU v4系統(tǒng),谷歌憑借這一架構(gòu)的系統(tǒng),在五個(gè)基準(zhǔn)測試中都打破了性能記錄,平均訓(xùn)練速度比第二名的英偉達(dá)A100系統(tǒng)快了1.42倍左右,哪怕是與自己在1.0測試下的成績相比,也提升了1.5倍。

能實(shí)現(xiàn)這樣的成績自然離不開谷歌自己的TPU芯片設(shè)計(jì),谷歌的每個(gè)TPU v4 Pod都由4096個(gè)芯片組成,且?guī)捵龅搅?Tbps。除此之外,谷歌有著豐富的用例經(jīng)驗(yàn),相較其他公司而言,谷歌是唯一一個(gè)在搜索和視頻領(lǐng)域都已經(jīng)大規(guī)模普及AI/ML應(yīng)用的。

00f1a358-fcb8-11ec-ba43-dac502259ad0.png

TPU v4與A100的對(duì)比 / 谷歌

不過谷歌與英偉達(dá)并不是直接競爭關(guān)系,他們對(duì)標(biāo)的還是使用英偉達(dá)GPU系統(tǒng)的云服務(wù)公司,比如微軟的Azure,谷歌也為此特地做了成本對(duì)比。如上圖所示,在BERT模型的訓(xùn)練中,4096個(gè)TPU v4芯片與Azure 4096個(gè)A100芯片對(duì)比,谷歌的方案可以節(jié)省35%,ResNet模型的訓(xùn)練下更是可以節(jié)省近50%。

不過以上的成績?cè)谒?項(xiàng)測試中也只是和英偉達(dá)平分秋色,而且隨著系統(tǒng)規(guī)模的不同,其結(jié)果或許會(huì)有更多的變化。再者,谷歌的TPU僅限于其自己的云服務(wù),所以總的來說并不算一個(gè)通用方案,至少微軟和亞馬遜這樣的競爭對(duì)手肯定是用不上。

英偉達(dá)地位不保?除了谷歌之外,還取得了不錯(cuò)的成績的就是英特爾旗下Habana Labs的Gaudi2訓(xùn)練加速器。這款今年5月推出的處理器,從上一代的16nm換成了臺(tái)積電7nm,Tensor處理器內(nèi)核的數(shù)量因此增加了兩倍,使其在ResNet-50的訓(xùn)練吞吐量上實(shí)現(xiàn)了3倍提升,BERT的訓(xùn)練吞吐量提升了4.7倍。

在與英偉達(dá)提交的A100-80GB GPU系統(tǒng)成績相比,Gaudi2在ResNet-50上的訓(xùn)練時(shí)間縮短了36%;與戴爾提交的A100-40GB GPU系統(tǒng)成績相比,Gaudi2在BERT上的訓(xùn)練時(shí)間縮短了45%。

從結(jié)果來看,已經(jīng)有不少廠商的AI硬件已經(jīng)可以在訓(xùn)練上對(duì)標(biāo)甚至超過英偉達(dá)的GPU生態(tài)了,但這并不代表全部機(jī)器學(xué)習(xí)訓(xùn)練領(lǐng)域。比如在測試中,廠商是不需要將每個(gè)項(xiàng)目的測試結(jié)果都提交上去的。從這個(gè)角度來看,RetinaNet輕量型目標(biāo)檢測、COCO重型目標(biāo)檢測、語音識(shí)別數(shù)據(jù)集Librispeech和強(qiáng)化學(xué)習(xí)Minigo這幾個(gè)項(xiàng)目中,只有基于英偉達(dá)GPU的系統(tǒng)提交了成績。

不僅如此,如果你看所有提交成績的服務(wù)器和云服務(wù)公司來看,他們用到的CPU或是AMD的EPYC處理器,或是英特爾的Xeon處理器,但加速器卻是幾乎清一色的英偉達(dá)A100。這也證明了在百度、戴爾、H3C、浪潮和聯(lián)想這些廠商的眼中,英偉達(dá)的GPU依然是最具競爭力的那個(gè)。

不可小覷的軟件還有一點(diǎn)需要指出,那就是以上都是封閉組的成績,他們所用到的都是標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)庫,比如TensorFlow 2.8.0和Pytorch 22.04等。而開放組則不受此限制,可以用到他們自己定制的庫或優(yōu)化器,這一組中三星和Graphcore都根據(jù)不同的軟件配置提交了成績,但最亮眼的還是MosaicML。

01187fc8-fcb8-11ec-ba43-dac502259ad0.png

Composer在ResNet-50下的訓(xùn)練時(shí)間對(duì)比 / MosaicML

這家公司所用的加速器硬件同樣是和諸多提交者一樣的英偉達(dá)A100-SXM-80GB GPU,但他們用到的是自己用Pytorch編寫的庫Composer。這家公司于今年4月推出了Composer,并聲稱可讓模型訓(xùn)練速度提升2到4倍。在MLPerf Training 2.0的跑分中,使用MosaicML Composer的對(duì)比組在ResNet訓(xùn)練速度上實(shí)現(xiàn)了近4.6倍的提升。不過Composer雖說支持任何模型,但這個(gè)提速的表現(xiàn)目前還是體現(xiàn)在ResNet上比較明顯,所以本次也并沒有提交其他模型下的成績。

考慮到英特爾等公司為了提升其軟件開發(fā)實(shí)力,已經(jīng)在收購Codeplay這樣的軟件開發(fā)公司,MosaicML作為剛公開不久的初創(chuàng)公司,創(chuàng)始人又是英特爾的前AI實(shí)驗(yàn)室骨干,如果能在未來展現(xiàn)出更優(yōu)秀的成績,說不定也會(huì)被英偉達(dá)這樣的公司看中。

結(jié)語英偉達(dá)常年在MLPerf上霸榜,也有不少人認(rèn)為MLPerf跑分成了英偉達(dá)的宣傳工具,然而事實(shí)是英特爾、谷歌等同樣重視AI的公司也將其視為一個(gè)公平的基準(zhǔn)測試,而且MLPerf還有同行評(píng)審環(huán)節(jié),進(jìn)一步驗(yàn)證測試結(jié)果。從以上結(jié)果來看,AI訓(xùn)練硬件上的創(chuàng)新仍未停止,無論是GPU、TPU還是IPU都在推陳出新,但跑分結(jié)果并不代表任何用例都能達(dá)到高性能,還需要廠商自己去調(diào)校模型和軟件才能達(dá)成最好的成績。

原文標(biāo)題:AI硬件反超英偉達(dá)?跑分來看尚不現(xiàn)實(shí)

文章出處:【微信公眾號(hào):電子發(fā)燒友網(wǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6169

    瀏覽量

    105439
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8420

    瀏覽量

    132687
  • TPU
    TPU
    +關(guān)注

    關(guān)注

    0

    文章

    141

    瀏覽量

    20740
  • 英偉達(dá)
    +關(guān)注

    關(guān)注

    22

    文章

    3778

    瀏覽量

    91158

原文標(biāo)題:AI硬件反超英偉達(dá)?跑分來看尚不現(xiàn)實(shí)

文章出處:【微信號(hào):elecfans,微信公眾號(hào):電子發(fā)燒友網(wǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    數(shù)據(jù)吞吐量提升!面向下一代音頻設(shè)備,藍(lán)牙HDT、星閃、Wi-Fi、UWB同臺(tái)競技

    電子發(fā)燒友網(wǎng)報(bào)道(文/莫婷婷)音頻設(shè)備數(shù)據(jù)吞吐量提升是當(dāng)前無線通信領(lǐng)域的一個(gè)重要發(fā)展趨勢,藍(lán)牙、Wi-Fi和UWB作為三種主要的無線通信技術(shù),在這一趨勢中扮演著關(guān)鍵角色。 ? 數(shù)據(jù)吞吐量指的是在
    的頭像 發(fā)表于 12-25 01:22 ?1654次閱讀

    英偉達(dá)推出歸一化Transformer,革命性提升LLM訓(xùn)練速度

    了新的突破。 相較于傳統(tǒng)的Transformer架構(gòu),nGPT在保持原有精度的同時(shí),直接將大型語言模型(LLM)的訓(xùn)練速度提升了高達(dá)20。這一顯著的性能提升,無疑將極大地推動(dòng)AI技術(shù)
    的頭像 發(fā)表于 10-23 11:30 ?388次閱讀

    TMS320VC5510 HPI吞吐量和優(yōu)化

    電子發(fā)燒友網(wǎng)站提供《TMS320VC5510 HPI吞吐量和優(yōu)化.pdf》資料免費(fèi)下載
    發(fā)表于 10-16 09:35 ?0次下載
    TMS320VC5510 HPI<b class='flag-5'>吞吐量</b>和優(yōu)化

    TMS320C6474模塊吞吐量

    電子發(fā)燒友網(wǎng)站提供《TMS320C6474模塊吞吐量.pdf》資料免費(fèi)下載
    發(fā)表于 10-15 13:52 ?0次下載
    TMS320C6474模塊<b class='flag-5'>吞吐量</b>

    TMS320C6474通用總線架構(gòu)(CBA)吞吐量

    電子發(fā)燒友網(wǎng)站提供《TMS320C6474通用總線架構(gòu)(CBA)吞吐量.pdf》資料免費(fèi)下載
    發(fā)表于 10-15 10:29 ?0次下載
    TMS320C6474通用總線架構(gòu)(CBA)<b class='flag-5'>吞吐量</b>

    TMS320DM36x SoC架構(gòu)和吞吐量

    電子發(fā)燒友網(wǎng)站提供《TMS320DM36x SoC架構(gòu)和吞吐量.pdf》資料免費(fèi)下載
    發(fā)表于 10-14 10:51 ?0次下載
    TMS320DM36x SoC架構(gòu)和<b class='flag-5'>吞吐量</b>

    TMS320C6472/TMS320TCI6486的吞吐量應(yīng)用程序報(bào)告

    電子發(fā)燒友網(wǎng)站提供《TMS320C6472/TMS320TCI6486的吞吐量應(yīng)用程序報(bào)告.pdf》資料免費(fèi)下載
    發(fā)表于 10-14 09:27 ?0次下載
    TMS320C6472/TMS320TCI6486的<b class='flag-5'>吞吐量</b>應(yīng)用程序報(bào)告

    求助,關(guān)于使用iperf測量mesh節(jié)點(diǎn)吞吐量問題求解

    我把esp-mesh-lite的no-route例程和iperf例程合在一起,想測試兩個(gè)mesh節(jié)點(diǎn)間tcp通信的吞吐量,實(shí)際過程中一開始流量正常,數(shù)秒后客戶端發(fā)數(shù)據(jù)這邊monitor卡死沒有任何
    發(fā)表于 07-23 06:59

    用Iperf例程測試ESP32-C6的TCP通信,吞吐量很低的原因?

    為什么我用官網(wǎng)的Iperf例程測試ESP32-C6的TCP通信,吞吐量才0.33Mbps
    發(fā)表于 06-06 07:47

    英偉達(dá)靜候新品來臨,亞馬遜暫緩購買Grace Hopper

    今年3月,英偉達(dá)發(fā)布了全新的Blackwell處理器,距離前任產(chǎn)品Hopper的發(fā)布不過短短一年。英偉達(dá)首席執(zhí)行官黃仁勛表示,新款產(chǎn)品在訓(xùn)練
    的頭像 發(fā)表于 05-22 09:07 ?309次閱讀

    進(jìn)一步解讀英偉達(dá) Blackwell 架構(gòu)、NVlink及GB200 超級(jí)芯片

    30 ,能源效率提高了 25 。這些提升使得它能夠更快地處理大規(guī)模的人工智能任務(wù),加速模型的訓(xùn)練和推理過程。 **2. **超級(jí)計(jì)算機(jī) 英偉
    發(fā)表于 05-13 17:16

    英偉達(dá)將為Meta提供最新芯片訓(xùn)練模型

    據(jù)了解,英偉達(dá)具備先進(jìn)技術(shù)實(shí)力和芯片設(shè)計(jì)能力,成為眾多高質(zhì)量人工智能工作背后強(qiáng)大支撐。本周一召開的年度開發(fā)者大會(huì)上,公司正式發(fā)布B200“Blackwell”芯片,宣稱其處理如聊天機(jī)器人回答這類任務(wù)時(shí)的速度提升至30
    的頭像 發(fā)表于 03-21 09:40 ?447次閱讀

    英偉達(dá)發(fā)布性能大幅提升的新款B200 AI GPU

    英偉達(dá)宣稱,B200在性能上比以往最好的GPU快30不止。由它構(gòu)成的服務(wù)器集群相比上一代,運(yùn)算能力飛躍性提升,甚至能使大語言模型的訓(xùn)練速度
    的頭像 發(fā)表于 03-20 09:37 ?812次閱讀

    英偉達(dá)擅用版權(quán)作品遭起訴 AI訓(xùn)練數(shù)據(jù)和版權(quán)的矛盾凸顯

    英偉達(dá)擅用版權(quán)作品遭起訴 AI訓(xùn)練數(shù)據(jù)和版權(quán)的矛盾凸顯 據(jù)外媒路透社的報(bào)道,AI訓(xùn)練數(shù)據(jù)和版權(quán)之間的矛盾日益凸顯。英偉達(dá)因?yàn)樯糜冒鏅?quán)作品
    的頭像 發(fā)表于 03-11 14:17 ?557次閱讀

    如何提高CYBT-243053-02吞吐量?

    你好我們一直在使用“EZ-Serial Firmware: v1.4.13.13 Sep 22 2023 10:24:41”測試“CYBT-243053-02”,我們得到的吞吐量比 PUART 高
    發(fā)表于 02-27 06:56