0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

英特爾最新GPU Gaudi2架構(gòu)相關(guān)信息介紹

要長(zhǎng)高 ? 來(lái)源:半導(dǎo)體產(chǎn)業(yè)縱橫 ? 作者:半導(dǎo)體產(chǎn)業(yè)縱橫 ? 2022-05-12 15:26 ? 次閱讀

英偉達(dá)并不是唯一一家創(chuàng)建專(zhuān)業(yè)計(jì)算單元的公司,這些計(jì)算單元擅長(zhǎng)矩陣數(shù)學(xué)和張量處理,這些計(jì)算單元支持AI訓(xùn)練,并且可以重新用于運(yùn)行AI推理。英特爾已經(jīng)收購(gòu)了兩家這樣的公司—Nervana Systems,并緊隨其后的是Habana Labs,后者已被英特爾產(chǎn)品化,并緊隨英偉達(dá)的GPU加速器之后。

英特爾是一家優(yōu)秀的公司,該公司認(rèn)為將在未來(lái)五年內(nèi)獲得500億美元的人工智能計(jì)算機(jī)會(huì)(用于訓(xùn)練和推理),從現(xiàn)在到2027年,英特爾將以25%的復(fù)合年增長(zhǎng)率增長(zhǎng),達(dá)到這一水平。鑒于“Ponte Vecchio”Xe HPC GPU加速器即將推出的相當(dāng)大的矩陣和矢量數(shù)學(xué),以及即將到來(lái)的“Sapphire Rapids”Xeon SP CPU中AMX矩陣數(shù)學(xué)單元中很可能有足夠的推理容量,因此有理由想知道英特爾預(yù)計(jì)會(huì)銷(xiāo)售多少Gaudi訓(xùn)練和Goya推理芯片。

我們了解到,當(dāng)英特爾在2016年8月以3.5億美元與Nervana Systems達(dá)成交易并在2019年12月以20億美元收購(gòu)Habana Labs時(shí),它追求的是知識(shí)產(chǎn)權(quán)和人,當(dāng)然,因?yàn)檫@就是這場(chǎng)IT戰(zhàn)爭(zhēng)的玩法,但我們一直想知道這些設(shè)備,以及來(lái)自競(jìng)爭(zhēng)對(duì)手GraphCore的設(shè)計(jì), Cerebras,SambaNova Systems和Groq將部署在類(lèi)似于主流的東西中。上述四家公司迄今為止共籌集了28.7億美元。

所有這些產(chǎn)品都剛剛開(kāi)始滾動(dòng),這就是為什么英特爾將其賭注對(duì)沖到Nervana和Habana,就像它對(duì)數(shù)據(jù)中心FPGA感到恐懼一樣(主要?dú)w功于Microsoft Azure),并在2015年6月斥資167億美元收購(gòu)了Altera。在2015年至2020年器件,在數(shù)據(jù)中心計(jì)算方面英特爾的Xeon CPU占據(jù)主導(dǎo)地位,并且通過(guò)收購(gòu)方式,減少了一些競(jìng)爭(zhēng)對(duì)手。

在本周舉行的Intel Vision 2022大會(huì)上,Gaudi2 AI訓(xùn)練芯片是芯片制造商推出的大型新計(jì)算引擎,順便說(shuō)一句,它不是英特爾實(shí)際制造的芯片,而是像其前身Gaudi1一樣,由競(jìng)爭(zhēng)對(duì)手臺(tái)積電代工蝕刻而成。英特爾尚未透露對(duì)Gaudi2架構(gòu)的深入研究,但這是我們所知道的。

通過(guò)Gaudi2,英特爾正在轉(zhuǎn)向臺(tái)積電的7納米工藝,隨著這種收縮,它能夠?qū)⑿酒系腡PC數(shù)量從10個(gè)增加到24個(gè),并增加了對(duì)新的8位FP8數(shù)據(jù)格式的支持,英偉達(dá)還將其添加到其“Hopper”GH100 GPU計(jì)算引擎中,該引擎于3月份推出,并在第三季度發(fā)貨。使用FP8格式,現(xiàn)在可以以相同的格式獲得低分辨率推理數(shù)據(jù)和高分辨率訓(xùn)練數(shù)據(jù),并且在從訓(xùn)練移動(dòng)到推理時(shí)不必在浮點(diǎn)和整數(shù)之間轉(zhuǎn)換模型。這對(duì)AI來(lái)說(shuō)是一個(gè)真正的福音,盡管較低精度的整數(shù)格式可能會(huì)在未來(lái)許多年內(nèi)保留在矩陣和矢量計(jì)算引擎中,以支持遺留代碼和其他類(lèi)型的應(yīng)用程序。Gaudi2芯片具有48 MB的SRAM,如果它與TPC數(shù)量線性擴(kuò)展,將能達(dá)到2.4倍而不是2倍的SRAM,或57.6 MB。

Gaudi2芯片上有HBM2e內(nèi)存組,可提供2.45 TB /秒的帶寬,比Gaudi1芯片增加了2.45倍。HBM2e內(nèi)存庫(kù)的數(shù)量沒(méi)有透露,但六個(gè)16 GB HBM2e的存儲(chǔ)體為Gaudi2提供了訣竅,而Gaudi 1的四個(gè)存儲(chǔ)體為8 GB HBM2。僅兩個(gè) HBM2e 內(nèi)存控制器的增加就可將帶寬提高 1.33 倍,而帶寬的剩余增加來(lái)自提高內(nèi)存速度。

Gaudi1芯片有十個(gè)100Gb/秒以太網(wǎng)端口,支持RoCE直接內(nèi)存訪問(wèn)協(xié)議,事實(shí)證明,每個(gè)TPC一個(gè),但我們當(dāng)時(shí)并不知道,因?yàn)橹伙@示了八個(gè)。但是Gaudi2有24個(gè)以太網(wǎng)端口以100 Gb / sec的速度運(yùn)行,每個(gè)TPC一個(gè)。它的功率為650瓦。我們假設(shè)此設(shè)備插入PCI-Express 5.0插槽,但英特爾尚未確認(rèn)這一點(diǎn)。

假設(shè)沒(méi)有重大的架構(gòu)變化,并且該過(guò)程產(chǎn)生的時(shí)鐘速度從16納米縮小到7納米,我們預(yù)計(jì)Gaudi2芯片的性能將是Gaudi2的2.5倍。(還假設(shè)在任何給定應(yīng)用程序中處理的精度水平相同。)但英特爾實(shí)際上并沒(méi)有說(shuō)是否有任何架構(gòu)變化(除了它增加了一些媒體處理功能)以及時(shí)鐘速度是如何變化的,所以我們必須推斷出來(lái)。

我們通過(guò)查看ResNet-50機(jī)器視覺(jué)訓(xùn)練操作的圖表來(lái)做到這一點(diǎn),該圖表使Gaudi1和Gaudi2與過(guò)去兩代英偉達(dá)GPU加速器競(jìng)爭(zhēng):

poYBAGJ8tZyAXOkSAAHREWHl00k459.png

與Nervana Systems一樣,Habana Labs非常認(rèn)真地致力于創(chuàng)建一套芯片,為AI工作負(fù)載提供最佳收益和最佳性能。哈瓦那戈雅HL-1000推理芯片于2019年初宣布,Gaudi1 AI訓(xùn)練芯片(也稱(chēng)為HL-2000)于當(dāng)年夏天晚些時(shí)候首次亮相。Gaudi1架構(gòu)有一個(gè)通用矩陣乘法(GEMM)前端,后端由十個(gè)張量處理器內(nèi)核或TPC組成,芯片只向用戶(hù)公開(kāi)其中的八個(gè),以幫助提高封裝的良率。

Gaudi1使用了第二代TPC,而Goya HL-1000 AI推理芯片則使用了不那么強(qiáng)大和不那么復(fù)雜的原始TPC設(shè)計(jì)。Gadui1芯片中的TPC可以使用C編程語(yǔ)言直接尋址,并具有張量尋址以及BF16和FP32浮點(diǎn)以及INT8,INT16和INT32整數(shù)格式的支持。TPC指令集具有加速Sigmoid,GeLU,Tanh和其他特殊功能的電路。Gaudi 1采用臺(tái)積電的16納米工藝,具有24 MB片上SRAM,四組HBM2存儲(chǔ)器,容量為32 GB,帶寬為1 TB/秒。Gaudi1插入PCI-Express 4.0 x16插槽,消耗了350瓦的果汁,并將幾乎所有的果汁轉(zhuǎn)換為熱量,就像芯片一樣。

英特爾尚未透露對(duì)Gaudi2架構(gòu)的深入研究。

根據(jù)ResNet-50的比較,Gaudi2的性能是Gaudi1的3.2倍,但很難估計(jì)有多少性能是由于整個(gè)芯片的容量增加。這個(gè)特定的測(cè)試正在運(yùn)行TensorFlow框架來(lái)執(zhí)行圖像識(shí)別訓(xùn)練,顯示的數(shù)據(jù)是每秒處理的圖像數(shù)量。

有一件事沒(méi)有顯示,而且很重要,那就是Gaudi2加速器將如何與Hopper GPU堆疊,但英偉達(dá)尚未透露任何特定測(cè)試的性能結(jié)果。但是,由于 H100 中的 HBM3 內(nèi)存運(yùn)行速度比 A100 加速器中使用的 HBM2e 內(nèi)存快 1.5 倍,而FP16、TF32 和 FP64 在新的 Tensor Core 上提供的性能是 3 倍,因此可以合理地預(yù)期 H100 的性能將是 ResNet-50 視覺(jué)訓(xùn)練工作負(fù)載的 1.5 倍到 3 倍。因此,H100將在ResNet-50測(cè)試中每秒提供4,395至8,790張圖像的性能。我們的猜測(cè)是,它將比前者更接近后者,并且比英特爾通過(guò)Gaudi2可以提供的更大幅度更大。

與使用BERT模型的自然語(yǔ)言處理相比,圖像識(shí)別和視頻處理相對(duì)容易。以下是Gaudi2與英偉達(dá)V100和A100的對(duì)比,請(qǐng)注意Gaudi1丟失了:

poYBAGJ8taiAPNPHAAHxA4oiaTc243.png

BERT 模型也在TensorFlow 框架上運(yùn)行,此數(shù)據(jù)顯示了兩個(gè)不同訓(xùn)練階段中每秒吞吐量的序列數(shù)。在一次預(yù)審中,哈瓦那實(shí)驗(yàn)室部門(mén)首席商務(wù)官Eitan Medina表示,Gaudi2的性能不到A100的2倍。但是,H100擁有自己的FP8格式及其Transformer Engine,可以動(dòng)態(tài)地改變AI訓(xùn)練工作流程不同部分的數(shù)據(jù)精度和處理,可以做得更好。我們不知道具體到什么,但我們強(qiáng)烈懷疑英偉達(dá)至少可以縮小與Gaudi2的差距,并且很可能超越它。

有趣的是,英特爾在亞馬遜網(wǎng)絡(luò)服務(wù)上啟動(dòng)了DL1Gaudi1實(shí)例,然后分別基于A100和V100 GPU的p4d和p3實(shí)例,并進(jìn)行了一些價(jià)格/性能分析,以計(jì)算ResNet-50基準(zhǔn)測(cè)試中認(rèn)可的每張圖像的成本。請(qǐng)看一下:

poYBAGJ8tcCAFKhGAAK_5Whik6E208.png

這張圖表的意思是,Gaudi1的性能略好于V100,使用上圖中ResNet-50中英特爾的性能數(shù)據(jù)為27.3% ,并且價(jià)格提高了約60%,這意味著DL1實(shí)例的成本比使用V100的p3實(shí)例低得多。隨著遷移到基于A100的p4d實(shí)例,該實(shí)例具有40GB的HBM2e內(nèi)存,英偉達(dá)設(shè)備在ResNet-50上的吞吐量比Gaudi1高出58.6%,但Gaudi1處理的每個(gè)圖像的成本降低了46%。這意味著A100實(shí)例確實(shí)要貴得多。如果我們對(duì)Hopper GPU加速器定價(jià)的猜測(cè)是正確的,并且英偉達(dá)收取大約2倍的費(fèi)用,大約3倍的性能,英特爾將不得不保持出售給AWS的Gaudi2芯片的價(jià)格,因?yàn)锳WS仍然可以顯示出比運(yùn)行AI訓(xùn)練的H100實(shí)例更好的性?xún)r(jià)比。

無(wú)論如何,英特爾在其實(shí)驗(yàn)室中運(yùn)行了超過(guò)1000個(gè)Gaudi2,因此它可以調(diào)整SynapseAI軟件堆棧,其中包括在Habana的圖形編譯器,內(nèi)核庫(kù)和通信庫(kù)上運(yùn)行的PyTorch和TensorFlow框架。Gaudi2芯片現(xiàn)在正在發(fā)貨。

除了Gaudi2芯片外,英特爾還在預(yù)覽其Greco后續(xù)Goya推理引擎,該引擎也在臺(tái)積電躍升至7納米至16納米工藝。

Greco 推理卡具有 16GB 的 LPDDR5 主內(nèi)存,可提供 204 GB/秒的內(nèi)存帶寬,而使用先前的 Goya 推理引擎的 DDR4 內(nèi)存塊為 40 GB/秒。哈瓦那架構(gòu)的Greco變體支持INT4,BF16和FP16格式,功耗為75瓦,大大低于2019年初宣布的HL-1000設(shè)備的200瓦。如上圖所示,它被壓縮成一個(gè)更緊湊的半高,半長(zhǎng)的PCI-Express卡。目前還沒(méi)有關(guān)于這個(gè)的性能或定價(jià)的消息。

綜合:半導(dǎo)體產(chǎn)業(yè)縱橫編輯部

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 英特爾
    +關(guān)注

    關(guān)注

    61

    文章

    10007

    瀏覽量

    172200
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4768

    瀏覽量

    129257
  • 圖像識(shí)別
    +關(guān)注

    關(guān)注

    9

    文章

    521

    瀏覽量

    38353
  • Gaudi2
    +關(guān)注

    關(guān)注

    0

    文章

    13

    瀏覽量

    116
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    英特爾推出全新英特爾銳炫B系列顯卡

    備受玩家青睞的價(jià)格提供卓越的性能與價(jià)值1,很好地滿(mǎn)足現(xiàn)代游戲需求,并為AI工作負(fù)載提供加速。其配備的英特爾Xe矩陣計(jì)算引擎(XMX),為新推出的XeSS 2提供強(qiáng)大支持。XeSS 2的三項(xiàng)核心技術(shù)協(xié)同工作,共同提高性能表現(xiàn)、增強(qiáng)
    的頭像 發(fā)表于 12-07 10:16 ?894次閱讀
    <b class='flag-5'>英特爾</b>推出全新<b class='flag-5'>英特爾</b>銳炫B系列顯卡

    英特爾發(fā)布全新企業(yè)AI一體化方案

    近日,英特爾正式推出了全新的企業(yè)AI一體化方案。該方案以英特爾至強(qiáng)處理器和英特爾Gaudi 2D AI加速器為核心硬件,結(jié)合OPEA開(kāi)放軟件
    的頭像 發(fā)表于 12-03 11:20 ?280次閱讀

    英特爾12月或發(fā)布Battlemage GPU芯片

    近日,有關(guān)英特爾即將在12月發(fā)布全新Battlemage GPU芯片的傳聞再次被證實(shí)。據(jù)硬件挖掘者和泄密者Tomasz Gawrońsk分享的預(yù)告圖顯示,英特爾極有可能在AMD RDNA 4和英偉達(dá)Blackwell之前,率先推
    的頭像 發(fā)表于 11-19 17:37 ?457次閱讀

    英特爾將攜手AMD共同捍衛(wèi)x86生態(tài)

    Advisory Group)由英特爾和AMD共同創(chuàng)立,其目標(biāo)在于推動(dòng)x86架構(gòu)的未來(lái)發(fā)展,簡(jiǎn)化軟件開(kāi)發(fā)流程,保障互操作性和接口的一致性,并為開(kāi)發(fā)者提供標(biāo)準(zhǔn)化的架構(gòu)工具、指令集以及對(duì)未來(lái)的明確規(guī)劃。
    的頭像 發(fā)表于 10-16 13:49 ?531次閱讀

    Inflection AI轉(zhuǎn)向英特爾Gaudi 3,放棄英偉達(dá)GPU

    近日,人工智能技術(shù)公司Inflection AI宣布了一項(xiàng)重要決策,其最新的企業(yè)平臺(tái)將放棄采用英偉達(dá)(Nvidia)的GPU,轉(zhuǎn)而選擇英特爾Gaudi 3加速器。
    的頭像 發(fā)表于 10-10 17:21 ?522次閱讀

    英特爾發(fā)布Gaudi3 AI加速器,押注低成本優(yōu)勢(shì)挑戰(zhàn)市場(chǎng)

    英特爾近期震撼發(fā)布了專(zhuān)為AI工作負(fù)載設(shè)計(jì)的Gaudi3加速器,這款新芯片雖在速度上不及英偉達(dá)熱門(mén)型號(hào)H100與H200 GPU,但英特爾巧妙地將競(jìng)爭(zhēng)優(yōu)勢(shì)聚焦于其更為親民的價(jià)格與總擁有成
    的頭像 發(fā)表于 09-26 16:16 ?875次閱讀

    IBM Cloud將部署英特爾Gaudi 3 AI芯片

    近日,科技巨頭IBM與英特爾宣布了一項(xiàng)重大合作計(jì)劃,雙方將共同在IBM Cloud平臺(tái)上部署英特爾最新的Gaudi 3 AI芯片,預(yù)計(jì)該服務(wù)將于2025年初正式上線。此次合作標(biāo)志著兩家公司在推動(dòng)AI技術(shù)創(chuàng)新與應(yīng)用方面邁出了堅(jiān)實(shí)的
    的頭像 發(fā)表于 09-03 15:52 ?419次閱讀

    英特爾發(fā)布AI創(chuàng)作應(yīng)用AI Playground,將于今夏正式上線!

    的AI PC入門(mén)應(yīng)用程序AI Playground,讓廣大用戶(hù)在本地即可快速實(shí)現(xiàn)AI個(gè)性化創(chuàng)作。 英特爾Xe2 GPU架構(gòu),帶來(lái)50%的性能提升
    的頭像 發(fā)表于 06-14 09:44 ?523次閱讀
    <b class='flag-5'>英特爾</b>發(fā)布AI創(chuàng)作應(yīng)用AI Playground,將于今夏正式上線!

    英特爾確認(rèn)Ponte Vecchio GPU將以云服務(wù)形式推出

    英特爾在公告中強(qiáng)調(diào),隨著AI技術(shù)需求的不斷增加,公司重點(diǎn)利用Gaudi AI加速器的性能優(yōu)勢(shì)及有競(jìng)爭(zhēng)力的價(jià)格,實(shí)現(xiàn)其迅速拓展。同時(shí),至強(qiáng)系列CPU依然是HPC解決方案的首選,而數(shù)據(jù)中心GPU Max亦可在
    的頭像 發(fā)表于 05-18 17:14 ?1095次閱讀

    英特爾逐步停止Ponte Vecchio GPU生產(chǎn),專(zhuān)注于Gaudi 2/3產(chǎn)品

    這款GPU英特爾在2022年正式宣布推出的,它擁有超過(guò)1000億個(gè)晶體管,旨在推動(dòng)公司進(jìn)入更廣泛的AI和高性能計(jì)算領(lǐng)域。
    的頭像 發(fā)表于 05-15 10:20 ?456次閱讀

    網(wǎng)友成功在Arm架構(gòu)平臺(tái)運(yùn)行英特爾銳炫A750顯卡

    值得注意的是,英特爾獨(dú)立顯卡源于核心顯卡,因此在長(zhǎng)期使用的“i915”Linux系統(tǒng)內(nèi)核驅(qū)動(dòng)中,積累了許多與x86架構(gòu)緊密相關(guān)的特性。
    的頭像 發(fā)表于 05-13 15:54 ?716次閱讀

    英特爾Falcon Shores GPU預(yù)計(jì)2025年末問(wèn)世,滿(mǎn)足AI產(chǎn)業(yè)需求

    英特爾首席執(zhí)行官帕特·基辛格表示,F(xiàn)alcon Shores將融合全可編程架構(gòu)Gaudi 3加速器的卓越系統(tǒng)性能,讓用戶(hù)能在兩代硬件之間實(shí)現(xiàn)順暢無(wú)縫的升級(jí)。
    的頭像 發(fā)表于 05-06 14:45 ?558次閱讀

    英特爾擬推出中國(guó)市場(chǎng)“特供版芯片”Gaudi 3

    英特爾計(jì)劃在中國(guó)市場(chǎng)推出“特供版”Gaudi 3 AI芯片,這一決策主要是基于美國(guó)對(duì)于AI芯片的出口管制政策。
    的頭像 發(fā)表于 04-16 14:48 ?622次閱讀

    英特爾的最強(qiáng)AI芯片要來(lái)了,聲稱(chēng)性能完勝英偉達(dá)H100

    美國(guó)東部時(shí)間4月9日凌晨,英特爾發(fā)布了其最新的人工智能芯片Gaudi3,預(yù)計(jì)將在第三季度大范圍上市。 在當(dāng)天舉辦的Intel Vision 2024大會(huì)上,英特爾CEO帕特·基辛格(Pat
    的頭像 發(fā)表于 04-11 23:36 ?507次閱讀

    英特爾進(jìn)軍AI芯片市場(chǎng):推出Gaudi 3 AI加速卡與Xeon 6處理器

    Gaudi 3作為英特爾在AI領(lǐng)域的最新力作,旨在與英偉達(dá)等市場(chǎng)領(lǐng)導(dǎo)者展開(kāi)競(jìng)爭(zhēng)。據(jù)英特爾透露,這款芯片在能效和AI模型運(yùn)行速度方面均表現(xiàn)出色,相比英偉達(dá)的芯片具有顯著優(yōu)勢(shì)。
    的頭像 發(fā)表于 04-10 15:37 ?837次閱讀