英特爾在Hot Chips 2023上分享P核和E核架構(gòu)。 ? ?
在Hot Chips 2023上,英特爾首次公布了其未來(lái)144核至強(qiáng)Sierra Forest和Granite Rapids處理器的詳細(xì)信息,前者由英特爾的新Sierra Glen e核組成,而后者采用了新的Redwood Cove p核。即將推出的下一代至強(qiáng)芯片將于明年上半年推出,采用全新的平鋪式架構(gòu),在“Intel 7”工藝上采用雙I/O小芯片,并在“Intel 3”工藝上蝕刻不同配置的計(jì)算核心。這種設(shè)計(jì)使英特爾能夠在保持相同底層配置的同時(shí),基于不同類(lèi)型的核心制作多種產(chǎn)品。
Sierra Forest和Granite Rapids加入了Birch Stream平臺(tái),具有插座、內(nèi)存、固件和I/O兼容性,提供了簡(jiǎn)化的硬件驗(yàn)證過(guò)程。它們還可以與相同的軟件堆棧進(jìn)行互操作,從而允許客戶(hù)根據(jù)自己的需要使用任意一種芯片。
英特爾聲稱(chēng),下一代至強(qiáng)Sierra Forest基于e- core的設(shè)計(jì)將比其第四代至強(qiáng)芯片提供高達(dá)2.5倍的機(jī)架密度和2.4倍的每瓦性能,而P-Core驅(qū)動(dòng)的Granite Rapids將在混合人工智能工作負(fù)載下提供2到3倍的性能,部分原因是內(nèi)存帶寬高達(dá)2.8倍。本文一起深入了解一下。
Sierra?Forest和Granite?Rapids架構(gòu)
?
?
?
?
英特爾最初在其第四代Xeon Sapphire Rapids處理器上采用了基于磁片(芯片式)的架構(gòu),但Sierra Forest和Granite Rapids將這種方法推向了一個(gè)新的高度。 英特爾采用了Sapphire Rapids的四芯片設(shè)計(jì),每個(gè)芯片包含一部分相關(guān)的I/O功能,如內(nèi)存和PCIe控制器。新處理器將一些I/O功能完全分解為兩個(gè)獨(dú)立的hio芯片,這些芯片蝕刻在Intel 7進(jìn)程上,這為I/O提供了成本、功率和性能的最佳平衡,而CPU核心和內(nèi)存控制器則駐留在它們自己的專(zhuān)用計(jì)算芯片上。 兩個(gè)HSIO芯片放置在芯片封裝的頂部和底部,中間有一到三個(gè)計(jì)算芯片,所有芯片都與基片內(nèi)融合的EMIB(嵌入式多?;ミB橋)互連連接在一起,并連接到橋的每一端的模對(duì)?;ミB。 計(jì)算模塊將為Granite Rapids使用Redwood Cove p核(Performance核),或?yàn)镾ierra Forest使用Sierra Glen e核——英特爾不會(huì)在同一包中提供兩種核的模型。計(jì)算芯片配備了支持euv的Intel 3進(jìn)程,該進(jìn)程具有Intel 4進(jìn)程不包含的高密度庫(kù)。英特爾最初將Granite Rapids xeon從2023年推遲到2024年,原因是將設(shè)計(jì)從“Intel 4”改為“Intel 3”,但這些芯片仍按計(jì)劃將在2024年上半年推出。
Granite Rapids是一個(gè)傳統(tǒng)的Xeon數(shù)據(jù)中心處理器。這些型號(hào)僅配備P核,可以提供英特爾最快架構(gòu)的全部性能。每個(gè)P核均配有2MB的L2緩存和4MB的L3。英特爾尚未透露Granite Rapids的核心數(shù)量,但透露該平臺(tái)在單個(gè)服務(wù)器中支持一到八個(gè)插槽。
與此同時(shí),Sierra Forest的E-core(效率核心)陣容由只有較小效率核心的芯片組成,就像我們?cè)谟⑻貭柕腁lder和Raptor Lake芯片中看到的那樣,這使它們能夠很好地與在數(shù)據(jù)中心日益流行的Arm處理器競(jìng)爭(zhēng)。e核被安排在兩核或四核集群中,這些集群共享4MB的L2緩存片和3MB的L3緩存。配備e- core的處理器擁有多達(dá)144個(gè)內(nèi)核,并針對(duì)最高的功率效率、面積效率和性能密度進(jìn)行了優(yōu)化。對(duì)于高核數(shù)模型,每個(gè)e核計(jì)算芯片擁有48個(gè)核。Sierra Forest可以插入單插座和雙插座系統(tǒng),TDP低至200W。 無(wú)論內(nèi)核類(lèi)型如何,每個(gè)計(jì)算模塊都包含內(nèi)核、L2和L3緩存以及fabric和緩存主代理(CHA)。它們還在芯片的兩端安裝了DDR5-6400內(nèi)存控制器,總共有多達(dá)12個(gè)通道(1DPC或2DPC)的標(biāo)準(zhǔn)DDR內(nèi)存,或提供比標(biāo)準(zhǔn)dimm多30-40%內(nèi)存帶寬的新MCR內(nèi)存。 正如您在上面看到的那樣,計(jì)算芯片將根據(jù)模型有不同的尺寸,單計(jì)算芯片產(chǎn)品將帶有更大的計(jì)算集群。
英特爾還將改變每個(gè)計(jì)算芯片的內(nèi)存通道數(shù)量——這里我們看到一個(gè)計(jì)算芯片上有三個(gè)內(nèi)存控制器,而兩個(gè)或更多計(jì)算芯片的設(shè)計(jì)每個(gè)有兩個(gè)內(nèi)存控制器。英特爾決定將其內(nèi)存控制器緊密集成到計(jì)算芯片中,與AMD的EPYC設(shè)計(jì)相比,在某些工作負(fù)載下,英特爾的內(nèi)存性能應(yīng)該會(huì)更好。AMD的EPYC設(shè)計(jì)在一個(gè)中央I/O芯片上使用了所有內(nèi)存控制器,從而增加了延遲。 計(jì)算模塊與所有其他內(nèi)核共享L3緩存,英特爾將其稱(chēng)為“邏輯單片網(wǎng)格”,但它們也可以劃分為sub-NUMA集群,以?xún)?yōu)化某些工作負(fù)載的延遲。網(wǎng)格將L3緩存片連接在一起,形成一個(gè)統(tǒng)一的共享緩存,總?cè)萘砍^(guò)0.5 gb,幾乎是Sapphire Rapids的5倍。每個(gè)模具邊界支持超過(guò)TB/s的帶寬之間的模具。 結(jié)合起來(lái),兩個(gè)HSIO芯片支持多達(dá)136個(gè)PCIe 5.0/CXL 2.0通道(類(lèi)型1,2和3設(shè)備),多達(dá)6個(gè)UPI鏈路(144通道),以及類(lèi)似于Sapphire Rapids加速引擎的壓縮,加密和數(shù)據(jù)流加速器。每個(gè)HSIO芯片還包括管理計(jì)算芯片的電源控制電路,盡管每個(gè)計(jì)算芯片也有自己的電源控制,可以在需要時(shí)獨(dú)立運(yùn)行。英特爾現(xiàn)在已經(jīng)取消了對(duì)芯片組(PCH)的要求,從而允許處理器自動(dòng)啟動(dòng),就像AMD的EPYC處理器一樣。 ?
英特爾Sierra Glen E-Core微架構(gòu)
?
?
?
?
?
Sierra Glen微架構(gòu)針對(duì)標(biāo)量吞吐量工作負(fù)載(如橫向擴(kuò)展、云原生和容器化環(huán)境)的最佳效率進(jìn)行了優(yōu)化。該架構(gòu)具有兩核或四核集群,允許英特爾提供具有更高每核二級(jí)緩存容量和更高每核性能的某些型號(hào)(通過(guò)雙核模塊更高的功率傳輸)。每個(gè)核心集群駐留在相同的時(shí)鐘和電壓域中。E-core集群共享4MB的L2緩存片和3MB的共享L3緩存。 與前幾代一樣,每個(gè)E-core都是單線(xiàn)程的。英特爾還將L1緩存增加了一倍,達(dá)到64KB,并采用了一個(gè)6寬解碼引擎(雙3寬解碼引擎可以改善延遲和功耗)、5寬分配和8-wide retire。Sierra Glen內(nèi)核不支持AMX或AVX-512,而是依賴(lài)于AVX10,但英特爾確實(shí)增加了對(duì)BF16, FP16, AVX-IFMA和AVX-DOT-PROD-INT8的支持。 ?英特爾Redwood Cove P核微架構(gòu)
?
?
?
?
?
P核的Redwood Cove架構(gòu)現(xiàn)在支持帶有FP16加速的AMX,這是一個(gè)關(guān)鍵的補(bǔ)充,將提高AI推理工作負(fù)載的性能。英特爾還將L1指令緩存容量增加了一倍,達(dá)到64 KB,以更好地處理代碼繁重的數(shù)據(jù)中心工作負(fù)載。Redwood Cove還采用了軟件優(yōu)化的預(yù)取和增強(qiáng)的分支預(yù)測(cè)引擎和錯(cuò)誤恢復(fù)。英特爾還提高了浮點(diǎn)運(yùn)算的性能,從4周期和5周期的FP操作提高到3周期,從而提高了IPC。
英特爾至強(qiáng)路線(xiàn)圖?
對(duì)于英特爾來(lái)說(shuō),好消息是,該公司的數(shù)據(jù)中心路線(xiàn)圖仍在正軌上。Sierra Forest將于2024年上半年上市,Granite Rapids緊隨其后。
在這里,我們可以看到英特爾的路線(xiàn)圖與AMD的數(shù)據(jù)中心路線(xiàn)圖的對(duì)比。目前,AMD去年推出的EPYC Genoa和英特爾今年年初推出的Sapphire Rapids之間的高性能之戰(zhàn)正在激烈進(jìn)行。英特爾將在今年第四季度推出Emerald Rapids新一代產(chǎn)品,該公司表示,這一代產(chǎn)品將配備更多內(nèi)核和更快的時(shí)鐘速率,并且已經(jīng)發(fā)布了內(nèi)置hbm的Xeon Max cpu。AMD最近發(fā)布了其5nm EPYC Genoa產(chǎn)品。明年,英特爾的下一代“Granite Rapids”將與AMD的“Turin”展開(kāi)競(jìng)爭(zhēng)。 在效率方面,AMD的Bergamo采用了與Sierra Forest非常相似的重核方法,利用了AMD密集的Zen 4c內(nèi)核。Bergamo已經(jīng)上市,而英特爾的Sierra Forrest要到2024年上半年才會(huì)上市。AMD的第五代EPYC Turin芯片將于2024年底前推出,但該公司尚未公布其第二代Zen 4c芯片。英特爾現(xiàn)在已經(jīng)將其第二代e核驅(qū)動(dòng)的Clearwater Forest列入了2025年的路線(xiàn)圖。
編輯:黃飛
?
評(píng)論
查看更多