AMD和Nvidia陷入了一場人工智能性能之戰(zhàn)——就像兩家公司幾十年來在游戲GPU性能上的競爭一樣。
AMD聲稱其新的Instinct MI300X GPU是世界上最快的人工智能芯片,擊敗了Nvidia炙手可熱的H100和即將推出的H200 GPU。AMDCEO Lisa Su最近在一個人工智能活動上發(fā)表演講時表示:“這是世界上性能最高的生成式人工智能加速器。”
這標(biāo)志著MI300X的正式推出,它是MI300A的一個更強(qiáng)大的版本,將用于Lawrence Livermore國家實驗室建造的代號為El Capitan的200億次超級計算機(jī)。
MI300X基于CDNA3架構(gòu),可為FP16和BFLoat16等關(guān)鍵AI數(shù)據(jù)類型提供三倍以上的性能。該芯片有1530億個晶體管,采用3D封裝;內(nèi)部使用了5納米和6納米工藝制造的芯片模塊。該芯片擁有304個GPU計算單元,192GB HBM3內(nèi)存,5.3 TB/s內(nèi)存帶寬。
MI300X的峰值FP32性能為163.4 teraflops,峰值FP64性能為81.7 teraflops。上一代MI250X的峰值單精度(FP32)矢量和雙精度(FP64)矢量性能為47.9 teraflops。AMD還將其芯片與H100的SXM版本進(jìn)行了比較,Nvidia H100 SXM可提供68 teraflops的峰值FP32性能和34 teraflops的FP64性能。H100 NVL模型在性能上縮小了差距,可提供134teraflops的FP32性能和68teraflops的FP64性能。
Nvidia即將推出的H200是H100的內(nèi)存升級版本,但內(nèi)存和帶寬仍然比MI300X少。H200的GPU內(nèi)存為141GB,帶寬為4.8TB/s。
“對于MI300X,我們增加了更大的靈活性、更大的內(nèi)存容量和更大的帶寬。這意味著它的內(nèi)存容量是競爭對手的2.4倍,內(nèi)存帶寬是1.6倍?!盨u將MI300X與Nvidia的H100 SXM型號進(jìn)行了比較,后者具有80GB的HBM內(nèi)存和3.35TB/s的內(nèi)存帶寬。two-pieceH100 NVL型號的HBM3內(nèi)存為188GB,但內(nèi)存帶寬為7.8TB/s,超過了MI300X。
AMD能保持這個頭銜多久還有待觀察。Nvidia正計劃對其芯片進(jìn)行年度升級,新的B100 GPU將于2024年推出,X100 GPU將于2025年推出。
AMD在短短一年的時間里取得了長足的進(jìn)步。一年前,當(dāng)ChatGPT出現(xiàn)時,AMD措手不及。聊天機(jī)器人推動Nvidia成長為一家價值數(shù)萬億美元的公司,A100和H100 GPU成為最熱門的科技資產(chǎn)。
GPT-4背后的Nvidia硬件憑借一己之力推動了人工智能的采用,并且仍然是無可爭議的人工智能冠軍。但Nvidia的硬件短缺促使客戶尋找替代品,并為AMD提供了一個展示其最新GPU和系統(tǒng)的機(jī)會,成為一個可行的替代品。除了Nvidia,AMD在市場上也有很多機(jī)會。
Su表示:“我們現(xiàn)在預(yù)計,數(shù)據(jù)中心加速器TAM在未來四年中將以每年超過70%的速度增長,到2027年將超過4000億美元。”
MI300X芯片有1530億個晶體管,有12個5納米和6納米芯片?!八褂昧耸澜缟献钕冗M(jìn)的封裝。”MI300X在基礎(chǔ)層有四個IO芯片。每個IO芯片都有256兆字節(jié)的 Infinity Cache 和下一代IO,如128通道HBM3接口,支持PCIe Gen5,以及連接多個MI300X的第四代Infinity Fabric。該芯片在IO芯片上堆疊了8個CDNA3加速器小芯片。304個計算單元通過密集的TSV連接。支持高達(dá)每秒17TB的帶寬。該芯片連接了8層HBM3,總共有192GB的內(nèi)存和5.3 TB/s的帶寬。
云供應(yīng)商微軟、甲骨文和Meta已經(jīng)在他們的云基礎(chǔ)設(shè)施中部署了MI300X GPU,盡管這些公司的人工智能能力主要還是來自Nvidia的芯片。提供人工智能替代方案的云供應(yīng)商是很普遍的,如亞馬遜提供了各種選擇,包括其新發(fā)布的Trainium2芯片和英特爾的Gaudi處理器。其意圖也很明確:讓客戶有更多的選擇,不必屈服于NvidiaH100芯片的天價。
微軟CEO Kevin Scott在AMD活動臺上表示:“現(xiàn)在看到GPT-4在MI300X上的應(yīng)用,看到Llama的表現(xiàn),并讓它投入生產(chǎn),令人非常興奮?!奔坠俏脑埔矊I300X放入其云服務(wù)中。它還與Naveen Rao等早期采用者合作,后者的人工智能服務(wù)公司MosaicML最近被Databricks以13億美元收購。
據(jù)HPCwire報道,一家新的云服務(wù)公司TensorWave將在2024年推出一種新的可擴(kuò)展和適應(yīng)性強(qiáng)的GPU架構(gòu)?;贕igaIO FabreX可組合PCIe技術(shù),TensorNODE系統(tǒng)將支持多達(dá)5,760個Instinct MI300X GPU,并為所有GPU提供單個FabreX內(nèi)存結(jié)構(gòu)域。
AMD緊隨Nvidia的腳步,也宣布了自己的服務(wù)器架構(gòu),展示了一個兼容開放計算項目的服務(wù)器設(shè)計,其中包含8個MI300X GPU,這些GPU通過Infinity Fabric相互連接。該板可以放入任何兼容OCP的開放藍(lán)圖中,客戶可以在其上構(gòu)建服務(wù)器。
“我們這么做是經(jīng)過深思熟慮的。我們想讓客戶盡可能容易地采用它,這樣你就可以把主板拿出來,放入MI300X Instinct平臺?!边@樣的系統(tǒng)建造起來會更便宜,讓客戶可以靈活地以最優(yōu)惠的價格購買硬件。與Nvidia相比,這是一種截然不同的方法,Nvidia的HGX系統(tǒng)基于專有架構(gòu),成本很高。
AMD讓MI300X兼容OCP的計劃已經(jīng)取得了成效,Meta快速部署了帶有該GPU的服務(wù)器。Meta高級工程總監(jiān)Ajit Mathews表示:“MI300X利用了OCP模塊、標(biāo)準(zhǔn)和平臺,這有助于我們極短的時間內(nèi)采用它。事實上,MI300X是Meta歷史上最快的部署解決方案之一?!?/p>
AMD對硬件的關(guān)注破壞了該公司的人工智能軟件戰(zhàn)略,該戰(zhàn)略落后于提供CUDA開發(fā)框架的Nvidia。CUDA的支持幫助推動了NvidiaGPU的廣泛采用。
該公司即將發(fā)布下一代ROCm 6,并聲稱具有新的功能和性能優(yōu)勢。開發(fā)者George Hotz曾批評AMD缺乏軟件支持、文檔以及對GPU開發(fā)者的支持回應(yīng)。AMD總裁彭于平表示,與上一代版本相比,ROCm 6的MI300X性能提高了8倍。
對于具有700億個參數(shù)的大型語言模型,ROCm6比MI300X快8倍,比MI250快8倍。ROCm 6框架將支持新的數(shù)據(jù)類型,包括FP16,這將提高性能并開放內(nèi)存資源和帶寬。該框架還將進(jìn)行許多低層次優(yōu)化,以獲得更好的AI性能。
審核編輯:黃飛
-
amd
+關(guān)注
關(guān)注
25文章
5470瀏覽量
134211 -
NVIDIA
+關(guān)注
關(guān)注
14文章
4990瀏覽量
103120 -
gpu
+關(guān)注
關(guān)注
28文章
4742瀏覽量
128973 -
人工智能
+關(guān)注
關(guān)注
1791文章
47314瀏覽量
238653 -
ChatGPT
+關(guān)注
關(guān)注
29文章
1562瀏覽量
7724
原文標(biāo)題:AMD MI300X GPU能否擊敗Nvidia H200?
文章出處:【微信號:SSDFans,微信公眾號:SSDFans】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論