最近在華爾街舉行的 HPC + AI展會(huì)上舉辦了一場小組討論,匯聚了主要供應(yīng)商來討論當(dāng)前的 GPU Squeeze(短缺)問題?!皵D壓”是由于生成型人工智能/ LLM的快速持續(xù)增長造成的,現(xiàn)在已將 GPU 的需求推向前所未有的水平,并對 GPU 的可用性造成了“擠壓”。
下面是主要討論內(nèi)容。
GPU到底有多缺貨?
根據(jù)我們報(bào)道的消息,我認(rèn)為 HPC 用戶訪問 GPU(購買的或在云中)會(huì)遇到一些挑戰(zhàn)。我想檢查我的假設(shè),并從貴公司的角度詢問“GPU 擠壓”問題有多大。
Supermicro 的 Thomas Jorgensen 分享了一個(gè)有趣的數(shù)據(jù)點(diǎn)?!拔铱梢愿嬖V你,由于缺乏 H100 GPU,我們有數(shù)以萬計(jì)的系統(tǒng)缺貨。但是,我還要說,市場上有很多替代品,例如,我們有一組更新的 CPU,用于 HPC 工作負(fù)載,而傳統(tǒng)上這些工作負(fù)載是由 GPU 提供服務(wù)的。”
Thomas 提到了帶有 64 GB 嵌入式 HBM2 內(nèi)存的新型 Intel Max Xeon CPU,極大地增強(qiáng)了一些 HPC 工作負(fù)載。他建議,如果無法獲得 Nvidia GPU,本地 HPC 是緩解這種情況的方法之一。作為硬件中立的供應(yīng)商,他還提到英特爾和 AMD 的其他 GPU 都很容易獲得。
Thomas還提到了重要的一點(diǎn),“很多人都說我們依賴CUDA,但如果你要等NVidia GPUS一年,那段時(shí)間你可以轉(zhuǎn)換很多代碼。因此,市場上其他一些 GPU 絕對有生命力,其中一些可以在很短的等待時(shí)間內(nèi)被黑客攻擊?!?/p>
他最后還提到了 Nvidia L40 GPU,他認(rèn)為這是一個(gè)很好的替代品,或者至少是你可以購買的東西。此外,Thomas還提到,“所以,我想說,對于我們的本地客戶來說,有很多替代方案,客戶現(xiàn)在正在探索這一點(diǎn)。我想補(bǔ)充一點(diǎn),為了取得巨大成功?!?/p>
英特爾的 Kiran Agrahara 補(bǔ)充道:“這取決于用例。當(dāng)您查看短缺時(shí),這取決于您正在研究的用例。” 他繼續(xù)說道,“還有其他選擇,并且大多數(shù)學(xué)習(xí)和推理現(xiàn)在都可以使用 Xeon Gen 4 處理器來完成?!?他提到英特爾有針對不同用例的基準(zhǔn)測試。他還指出,每個(gè)人都認(rèn)為每個(gè)用例都需要 NVidia GPU。
Kiran 還指出,英特爾擁有 Gaudi 2,它更像是一個(gè)推理處理器,而不是學(xué)習(xí)處理器,并且可以在本地和云端使用。他繼續(xù)提到 Datacenter GPU Max 系列可以作為 A100 的替代品或替代品。最后,他呼吁大家關(guān)注英特爾的 OpenVINO(開放式視覺推理和神經(jīng)網(wǎng)絡(luò)優(yōu)化)——所有英特爾 HPC 和人工智能產(chǎn)品之上的軟件層。
Nvidia 全球合作伙伴成功經(jīng)理Prabhu Ramamoorthy 指出,人們認(rèn)為 GPU 短缺是最近才發(fā)生的,但我們已經(jīng)看到這種情況好幾年了。例如,三年前,GPU 在云端運(yùn)行進(jìn)行 NLP(自然語言處理)。許多對沖基金都在運(yùn)行所有這些工作負(fù)載。生成式人工智能就像 NLP 的新的、美麗的、更性感的術(shù)語,現(xiàn)在對這些 GPU 的需求要大得多。正如Thomas所指出的,我們希望客戶選擇正確的用例。他還提醒大家,NVidia 雇傭的軟件工程師比硬件工程師更多。作為這些努力的結(jié)果,他提到 TensorRT-LLM 等 Nvidia 軟件可以優(yōu)化應(yīng)用程序并確保更有效地利用 GPU。
Google Cloud HPC 和 AI 基礎(chǔ)設(shè)施解決方案經(jīng)理Wyatt Gorman 總結(jié)道,他認(rèn)為長期規(guī)劃 GPU 需求非常重要?,F(xiàn)在,看看替代方案,不要超出你的應(yīng)用程序太多。考慮一下現(xiàn)在有哪些可能性,并且有一些方法可以優(yōu)化 GPU 使用,這是很好的替代方案。是很好的選擇。
GPU 替代方案
有關(guān)短缺的報(bào)道可能還會(huì)持續(xù) 18 個(gè)月。是否有其他方法建議 HPC 用戶運(yùn)行應(yīng)用程序(云、替代硬件、軟件優(yōu)化)?例如,NAMD(一種 HPC 分子動(dòng)力學(xué)代碼)將使用 CPU 和 MPI 和/或 GPU 運(yùn)行。用戶會(huì)恢復(fù)使用 MPI 嗎?
Kiran Agrahara 回憶起一個(gè)較舊的示例,其中用戶需要 20 個(gè) GPU,而要完成相同的工作,他們需要大約 180 個(gè) CPU。但他建議看看過去三年發(fā)生了什么變化。他繼續(xù)說道:“CPU 已經(jīng)取得了長足的進(jìn)步。那時(shí)我們還沒有硬件加速器。如果你看看下一代 Xeon 處理器,我們有一個(gè)稱為 RMX 的先進(jìn)矩陣架構(gòu)。所以今天,CPU 已經(jīng)取得了長足的進(jìn)步。你看到的是 128 個(gè)核心,然后你就有了 RMX 架構(gòu),我可以說它就像是增強(qiáng)版的 AVX512。所以答案是肯定的,你可以用 CPU 來實(shí)現(xiàn)這一點(diǎn)?!?/p>
Wyatt Gorman 補(bǔ)充說,讓人們意識(shí)到較小的 GPU 非常重要。現(xiàn)在每個(gè)人都在考慮 A100 和 H100。速度較慢的 Nvidia T4、L4 和 L40 GPU 有足夠的容量,并且可以在 Google Cloud 上使用,因?yàn)槟壳皩λ鼈兊男枨蟛⒉桓?。如果您對這些 GPU 進(jìn)行一些調(diào)整和優(yōu)化,您可以看到代碼的加速。
HPC 和數(shù)據(jù)中心融合
通常,HPC 位于其自己的孤島中,然后您可以在另一個(gè)正在開發(fā)的孤島中使用快速增長的 GenAI 和類似的硬件。當(dāng)人們開始認(rèn)識(shí)到我們可以將這兩種資源整合在一起時(shí),您是否認(rèn)為這可能會(huì)使 HPC 受益?您如何看待在數(shù)據(jù)中心運(yùn)行的 HPC 應(yīng)用程序與在具有單獨(dú)硬件的研發(fā)實(shí)驗(yàn)室中運(yùn)行的 HPC 應(yīng)用程序的融合?
Wyatt Gorman 表示,谷歌在 HPC RFP 中看到了更多人工智能功能。他認(rèn)為,隨著這些問題類型的出現(xiàn),隨著 HPC 和 AI 的融合,我們會(huì)看到 AI 技術(shù)被引入傳統(tǒng)的 HPC 問題解決應(yīng)用程序中,并且我們將看到越來越多的此類技術(shù)以及越來越多的資源。正如我提到的,Slurm 現(xiàn)在支持 Google TPU,現(xiàn)在或?qū)砟灰欢ㄐ枰?Kubernetes 來運(yùn)行 HPC。你知道,即使它是一種選擇,也沒有必要。
Supermicro 的 Thomas Jorgensen 提到,英特爾第五代路線圖顯示,未來的某些 CPU 上將有多達(dá) 288 個(gè)核心。當(dāng)然,CPU 平臺(tái)上也發(fā)生了一些事情,這些事情將帶來比傳統(tǒng) CPU 平臺(tái)更高的性能。還有一點(diǎn)是Intel打造的Max GPU是HPC+AI GPU。我們在 Supermicro 所做的第一次測試展示了使用該 GPU 的 HPC 的真實(shí)性能。
從硬件的角度來看, Supermicro 試圖成為中立者,與 Nvidia、AMD 和 Intel 合作。
Thomas 繼續(xù)說道:“與英特爾 AMD 平臺(tái)一樣,我們擁有非常高的核心數(shù)量 Epyc 處理器,并與 Nvidia 進(jìn)行了科學(xué)實(shí)驗(yàn)。在此測試中,我們可以在單個(gè)系統(tǒng)中放置十個(gè) GPU。HPC 基準(zhǔn)測試以及我們從 HPC 上的一個(gè)系統(tǒng)中獲得的性能令人震驚。但這是一種前進(jìn)的方式,至少,我的意思是,它對擠壓沒有幫助,對吧,因?yàn)槭褂?H100,但那里的一些性能顯示出 HPC 工作負(fù)載的真正前景。因此,我對硬件和我們看到的一些優(yōu)化非常充滿希望,這些優(yōu)化可以從現(xiàn)有硬件中發(fā)揮更多作用?!?/p>
此外,一些用戶可能會(huì)發(fā)現(xiàn)傳統(tǒng) HPC 和 GenAI 之間的界限有點(diǎn)模糊。對快速 GPU 的需求表明這兩種類型的應(yīng)用程序都在進(jìn)行大量的數(shù)字運(yùn)算,但傳統(tǒng)的 HPC 蒙特卡羅風(fēng)險(xiǎn)分析是否類似于經(jīng)過訓(xùn)練進(jìn)行風(fēng)險(xiǎn)分析的 GenAI?換句話說,您如何看待GenAI和HPC?它們屬于同一大類還是代表兩個(gè)不同的市場?它們相輔相成嗎?
NVidia 的 Prabhu Ramamoorthy 立即提到,他看到這種融合現(xiàn)在正在發(fā)生,他們看到客戶在致力于最終用例時(shí)混合使用 HPC 和 AI 解決方案。
Google Cloud 的 Wyatt Gorman 回答說,他看到人們將機(jī)器學(xué)習(xí)技術(shù)引入不同級別的 HPC 流程中。因此,請將其視為 HPC 中的一個(gè)子集、一個(gè)域。他認(rèn)為,它可能會(huì)分拆出來,變得更加孤立,就像大數(shù)據(jù)從 HPC 中分離出來一樣。但就目前而言,他認(rèn)為情況正在趨同。
編輯:黃飛
-
處理器
+關(guān)注
關(guān)注
68文章
19382瀏覽量
230461 -
嵌入式
+關(guān)注
關(guān)注
5087文章
19153瀏覽量
306401 -
NVIDIA
+關(guān)注
關(guān)注
14文章
5049瀏覽量
103349 -
gpu
+關(guān)注
關(guān)注
28文章
4760瀏覽量
129130 -
HPC
+關(guān)注
關(guān)注
0文章
318瀏覽量
23817
原文標(biāo)題:GPU到底有多缺貨?有替代者嗎?
文章出處:【微信號:TenOne_TSMC,微信公眾號:芯片半導(dǎo)體】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論