電子發(fā)燒友網(wǎng)報(bào)道(文/周凱揚(yáng))隨著AI已經(jīng)成了數(shù)據(jù)中心與服務(wù)器市場(chǎng)的主流應(yīng)用,就連通用服務(wù)器CPU,也開(kāi)始著重加強(qiáng)AI計(jì)算能力。為此,英特爾于去年年底發(fā)布了第五代至強(qiáng)處理器,進(jìn)一步提升通用計(jì)算性能的同時(shí),也新增了AI相關(guān)的新指令集,諸如AXM、AVX等。
第五代至強(qiáng)可擴(kuò)展處理器架構(gòu)剖析
2023年年底發(fā)布的第五代至強(qiáng),雖然和第四代至強(qiáng)一樣都是基于Intel 7制程打造的,并采用了Dual-poly-pitch SuperFin晶體管技術(shù),但英特爾依然在關(guān)鍵的技術(shù)指標(biāo)上做了改進(jìn),比如系統(tǒng)的漏電流控制和動(dòng)態(tài)電容等。在這些改進(jìn)下,整體上第五代至強(qiáng)在同等功耗下的頻率可以提升3%,其中有2.5%是由漏電流控制貢獻(xiàn)的,動(dòng)態(tài)電容下降貢獻(xiàn)了0.5%。
除此之外,第五代至強(qiáng)的多芯片封裝方式有所改變,第四代至強(qiáng)就是把芯片分為四個(gè)部分,這四個(gè)部分是相對(duì)對(duì)稱的。而第五代至強(qiáng)的切分方式則做了調(diào)整,把切四份的做法變成了切兩份。過(guò)去每?jī)善g相互進(jìn)行通信時(shí),需要有一些芯片互連之間的接口,不僅占用了額外的芯片面積,也額外增加了功耗。如今隨著芯片質(zhì)量控制得到進(jìn)一步改進(jìn),英特爾可以在相對(duì)較大的面積下依舊獲得很好的良率,所以通過(guò)將四芯片改為兩芯片的方式,芯片的面積得到了更好的控制。
此外第五代至強(qiáng)的處理核心升級(jí)到了Raptor Cove核心,核心數(shù)從最多的60核升級(jí)到64核。在I/O速度上,DDR速度從4800MT/s提升到了5600MT/s,UPI速度從16GT/s提升到20GT/s。而最大的升級(jí)之一當(dāng)屬LLC大小,單個(gè)模塊的LLC容量從1.875MB增加到了5MB。這樣如果處理規(guī)模較小的數(shù)據(jù)集時(shí),甚至可以將主要數(shù)據(jù)放在LLC緩存中,從而大量減少內(nèi)存訪問(wèn),進(jìn)而大幅提高性能。這些架構(gòu)上的改進(jìn),也使其在生成式AI和LLM等AI應(yīng)用上的性能得到了提升。
通用服務(wù)器上跑AI
除了傳統(tǒng)的CPU計(jì)算核心外,英特爾也增加了AMX加速器,專門針對(duì)矩陣運(yùn)算。根據(jù)測(cè)試,AI推理的性能與上一代相比提升了至多42%。針對(duì)非大模型類的AI應(yīng)用,英特爾始終致力于在CPU上部署AI,并結(jié)合其OpenVINO生態(tài)進(jìn)行優(yōu)化,比如推薦、語(yǔ)音識(shí)別、圖像識(shí)別等。
而面對(duì)推薦系統(tǒng),尤其是面對(duì)GPU也無(wú)法單獨(dú)處理的大模型時(shí),CPU反而更快。因?yàn)镚PU不夠用的時(shí)候,玩玩需要跨GPU計(jì)算,或者需要和CPU頻繁交互,如此一來(lái)CPU效率更高。
對(duì)于通用的AI工作負(fù)載,英特爾采用AMX和AVX-512兩個(gè)指令集,基于OpenVINO進(jìn)行優(yōu)化。在推理的過(guò)程中,指令集上可以進(jìn)行切分,通過(guò)加速器定向加速某一部分,甚至可以替代傳統(tǒng)的基于GPU的AI模型。
除此之外,還有成本上的考量,在模型調(diào)優(yōu)、推理、應(yīng)用上,使用通用服務(wù)器有非常大的性價(jià)比提升。尤其是當(dāng)企業(yè)并不需要24小時(shí)都要跑大模型,大模型只是對(duì)業(yè)務(wù)的輔助時(shí),比如聊天機(jī)器人、或是內(nèi)容生成、提綱分析等,這些只是幫助企業(yè)業(yè)務(wù)的生產(chǎn)力提高,尤其是在私有云上,就沒(méi)有必要再重新部署一個(gè)新的GPU的平臺(tái)。因?yàn)橐粋€(gè)新的平臺(tái)意味著需要考慮開(kāi)發(fā)、運(yùn)維等因素,成本有可能增加,而這對(duì)于企業(yè)來(lái)說(shuō)也可能會(huì)成為負(fù)擔(dān)。
以合作伙伴舉例,比如百度云也有基于第五代至強(qiáng)的服務(wù)器,提供了可以在CPU上運(yùn)行的大型計(jì)算模型的服務(wù);在京東基于第五代至強(qiáng)的應(yīng)用中可以看到,和前一代的處理器相比,在Llama2 13B的模型上,看到有50%的性能提升。所以第五代至強(qiáng)在AI上應(yīng)用的性能提升是比較明顯的。
再者就是編解碼上的應(yīng)用,目前主流客戶為了達(dá)到更好的圖像質(zhì)量,反而會(huì)采用CPU做編解碼。GPU在擁有硬件加速的情況下,其特點(diǎn)是快,但視頻編解碼質(zhì)量往往略差于CPU。通過(guò)第五代至強(qiáng)處理器AMX-INT8的加持,已經(jīng)把吞吐從原來(lái)的1.5FPS增強(qiáng)到了33FPS,基本可以滿足實(shí)時(shí)編碼的需求。
下一代至強(qiáng)路線圖
從路線圖上來(lái)看,2024年英特爾還會(huì)發(fā)布新一代英特爾至強(qiáng)可擴(kuò)展處理器,而且有一個(gè)非常豐富的產(chǎn)品組合,同時(shí)滿足對(duì)性能和能耗的要求?;诂F(xiàn)在的第五代至強(qiáng),英特爾也會(huì)發(fā)布下一代的性能核,就是高主頻、高性能的CPU核架構(gòu),為主流和復(fù)雜的數(shù)據(jù)中心的應(yīng)用進(jìn)行性能優(yōu)化,尤其是目前有很多程序是跑在虛擬機(jī)上,之前寫(xiě)的非常大的程序要跑在性能核上的,才能看到一個(gè)非常好的性能提升。
同時(shí)對(duì)新興的,尤其是基于云原生的設(shè)計(jì),英特爾還提供基于能效核打造的至強(qiáng)處理器,每瓦性能可以做到相對(duì)極致,而且因?yàn)樗暮诵脑O(shè)計(jì)比較精簡(jiǎn),可以放更多高密度的核數(shù)到每一款的CPU和服務(wù)器,從而支持面向云的高密度超高能效的運(yùn)算進(jìn)行能效的優(yōu)化。在近期對(duì)于產(chǎn)品淘汰換新的要求中,有一個(gè)重要考量因素就是能效比,這同樣也是符合國(guó)家對(duì)設(shè)備淘汰換新的要求。
-
處理器
+關(guān)注
關(guān)注
68文章
19286瀏覽量
229811 -
英特爾
+關(guān)注
關(guān)注
61文章
9964瀏覽量
171763 -
cpu
+關(guān)注
關(guān)注
68文章
10863瀏覽量
211746 -
AI
+關(guān)注
關(guān)注
87文章
30887瀏覽量
269063
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論