亚洲色大成网站WWW尤物,91探花国产成人精品区

隨著生成式AI注入數(shù)據(jù)中心的步伐加快，CPU 在數(shù)據(jù)中心的部署變得愈發(fā)重要，為應(yīng)對數(shù)據(jù)中心CPU性能提升挑戰(zhàn)，Chiplet和互聯(lián)技術(shù)的雙劍合璧，經(jīng)芯片巨頭在自身產(chǎn)品體系中的多次實(shí)踐，顯現(xiàn)出蓬勃的生機(jī)和其普適性的一面。

2023年1月，英特爾第四代至強(qiáng)可擴(kuò)展處理器Sapphire Rapids（SPR）首次亮相。SPR是一款專門針對AI工作負(fù)載優(yōu)化的CPU，具有典型的Multi-Die架構(gòu)，其亮點(diǎn)包括更高的核心數(shù)量、改進(jìn)的緩存層次結(jié)構(gòu)以及增強(qiáng)的互聯(lián)技術(shù)。對英特爾來說，它也是劍指AMD EPYC，意在奪回HPC市場的野心之作。

更多的核心，更強(qiáng)的性能

英特爾稱，ERP整體性能和每瓦性能指標(biāo)均處于領(lǐng)先地位。與前一代處理器相比，基礎(chǔ)算力提升53%，人工智能性能提升10倍，5G vRAN性能提升2倍，網(wǎng)絡(luò)&存儲性能提升2倍，數(shù)據(jù)分析性能提升3倍，科學(xué)計(jì)算性能提升3.7倍。如此卓越的性能提升主要來自核心數(shù)量的大幅增長，以及高效的互聯(lián)方案。

1、50%核心數(shù)量增長+單核性能增強(qiáng)

SPR是英特爾首個(gè)Chiplet設(shè)計(jì)的Xeon處理器，由四個(gè)相同的die（芯粒）組成，die間通過英特爾的EMIB技術(shù)連接。其中，每個(gè)Die包含15個(gè)CPU內(nèi)核，并分別配有自己的內(nèi)存和IO控制器等各功能單元。核心部分為英特爾7工藝的Golden Cove P核（大核），設(shè)計(jì)支持60核，實(shí)際啟用56核，總核心數(shù)較上一代IceLake增長了50%。

SPR延續(xù)了英特爾的服務(wù)器處理器策略：優(yōu)先考慮擴(kuò)展核心數(shù)量，同時(shí)提供強(qiáng)大的計(jì)算能力，以大幅提高CPU在處理大量數(shù)據(jù)，如進(jìn)行科學(xué)計(jì)算、機(jī)器學(xué)習(xí)、圖形處理時(shí)的性能。

最終，SPR實(shí)現(xiàn)了105MB Total LLC，307GB/s Memory Bandwidth，在SPECrate@2017_int_base基準(zhǔn)測試中，得分為495。

如前文所述，除了CPU核數(shù)提升之外，SPR在CPU單核性能上也做了優(yōu)化，如提高了CPU的各級緩存的大小，還為每個(gè)核心引入了兩個(gè)512位的FMA單元，同時(shí)支持一級對AMX指令集，旨在進(jìn)一步提升性能。

2：優(yōu)化緩存層次結(jié)構(gòu)

除了核心性能的優(yōu)化，Golden Cove的一項(xiàng)重大改進(jìn)是緩存層次結(jié)構(gòu)，這也是SPR與AMD EPYC系列的顯著區(qū)別之一：每個(gè)Golden Cove核心除了包2MB L2緩存外，還搭載了1.875MB的LLC切片，每個(gè)Die總28.125M LLC為56個(gè)核心所共享（SPR總緩存達(dá)112.5 MB）。相較客戶端Golden Cove，SPR在處理大量數(shù)據(jù)的應(yīng)用程序時(shí)，能提供更好的性能表現(xiàn)。

對于需要頻繁訪問LLC的數(shù)據(jù)密集型工作負(fù)載，LLC集成在核心中可以大幅度減少LLC控制器和緩存間的連接，降低功耗。這種設(shè)計(jì)也為跨線程訪問提供了極大的靈活性。在需要時(shí)，一個(gè)核心可以訪問全部的LLC，一個(gè)LLC也可以服務(wù)于多個(gè)核心。

不過，這種跨線程訪問的缺點(diǎn)也很明顯，在某些情境，如需要跨越兩個(gè)Die以上的遠(yuǎn)端存儲訪問時(shí)，可能會增加LLC控制器的工作負(fù)載，造成較高的延遲和Workload balance的不均衡。

3、優(yōu)化設(shè)計(jì)成本

由于集成了多達(dá)60個(gè)核心（實(shí)際應(yīng)用了56個(gè)）使得英特爾制造一個(gè)SoC芯片變得不切實(shí)際，從而轉(zhuǎn)向Chiplet和2.5D先進(jìn)封裝，并通過Multi-Die架構(gòu)簡化設(shè)計(jì)和制造。

基于Multi-Die架構(gòu)，英特爾只需要設(shè)計(jì)兩組鏡像的掩模，再旋轉(zhuǎn)這兩個(gè)模具即可。不過，這種架構(gòu)也為Die間的互聯(lián)帶來了挑戰(zhàn)。

互聯(lián)：由繁至簡

為了連接數(shù)量繁多的核心和緩存，英特爾在EMIB鏈路上運(yùn)行了一個(gè)巨大的Mesh結(jié)構(gòu)，將所有核心連接到它們各自的LLC切片，以及SPR上的其他組件，如內(nèi)存控制器、各種加速器和其他I/O設(shè)備中，形成一個(gè)多Die的系統(tǒng)結(jié)構(gòu)。

網(wǎng)絡(luò)加速單元

作為升級的重點(diǎn)，SPR在每個(gè)Die中嵌入了一個(gè)DSA網(wǎng)絡(luò)加速單元，可以在特定網(wǎng)絡(luò)工作負(fù)載中實(shí)現(xiàn)數(shù)倍的效率提升。該加速單元具有400Gb/s互聯(lián)帶寬，160Gb/s壓縮帶寬，每秒能夠做出400M的負(fù)載平衡決策。

DSA全稱為Data Streaming Accelerator，主要針對內(nèi)存的搬移和傳輸?shù)牟僮鬟M(jìn)行加速，能提高存儲、網(wǎng)絡(luò)和數(shù)據(jù)密集型工作負(fù)載的性能，類似于GPU等外部加速器。

在數(shù)據(jù)中心中，DSA可以更有效地處理如進(jìn)行如壓縮/解壓縮、加/解密、內(nèi)存搬移等特定工作負(fù)載，帶來大幅的性能提升。某些場景下，只需一個(gè)核心或部分核心就能夠處理復(fù)雜的工作負(fù)載，提高芯片的能效比。這也是英特爾為代表的頭部企業(yè)開始熱衷在處理器中內(nèi)置加速器的因素之一。

基于 RoCE V2 協(xié)議自研 RDMA 技術(shù)，奇異摩爾自研Domain Specific Accelerator 系列專用領(lǐng)域加速器系列，具備高速以太網(wǎng)互聯(lián)能力，提供可編程的專用數(shù)據(jù)處理加速算法，同時(shí)集成了多種通用數(shù)據(jù)處理硬件加速器，高帶寬，高吞吐，硬件靈活可配置、軟件可編程，可實(shí)現(xiàn)芯粒/芯片間的高速傳輸。

D2D：DDR5 & EMIB

互連系統(tǒng)方面，每個(gè)Die配有2個(gè)128位的DDR5內(nèi)存接口，DDD5采用優(yōu)化版的EMIB工藝，單個(gè)EMIB的D2D帶寬高達(dá)500GB/s，功耗僅為0.5pj/bit，延遲（PHY Latency end-to-end TX+RX） 2.4ns。從die間功耗和延遲的方面來看，SPR已接近一個(gè)SoC。

為了進(jìn)一步增強(qiáng)內(nèi)存帶寬，EMIB技術(shù)首次支持HBM擴(kuò)展，并特別為SPR設(shè)計(jì)了一種HBM變體，通過EMIB連接四個(gè)HBM，實(shí)現(xiàn)內(nèi)存性能方面的顯著提升。

Chip2Chip：UPI & PCIe

在SPR中，每個(gè)Die還搭載了32個(gè)PCIe 5(CXL 1.1)，以及24個(gè)UPI。配置為每個(gè)插槽80xPCIeGen5通道；以及24個(gè)UPI，支持最多8個(gè)芯片的互連，也意味著Sapphire Rapids芯片最多可以組建8路計(jì)算平臺。

挑戰(zhàn)與解決方案

因可簡化設(shè)計(jì)，Multi-Die架構(gòu)在2顆芯粒的互聯(lián)架構(gòu)中顯現(xiàn)出顯著的性價(jià)比優(yōu)勢，但一旦芯粒超過2個(gè)，就會面臨互聯(lián)挑戰(zhàn)。

2023年5月，英特爾公布了SPR的下一代處理器，Emerald Rapids（ERP）?？傮w來說，英特爾基于SPR 相同的平臺和較新的Raptor Cove核心，通過優(yōu)化物理設(shè)計(jì)，實(shí)現(xiàn)了“巨大的PPW”改進(jìn)。但令人矚目的改變是，ERP的芯粒數(shù)量減少到兩個(gè)，這一架構(gòu)上的回退也從側(cè)面反映出Mutil die模式下，多Die互聯(lián)難度之高。

此外，因芯粒數(shù)量減少導(dǎo)致芯片尺寸過大，加之先進(jìn)工藝的使用，也帶來了成本高漲的問題；再次，在Mutil die架構(gòu)中，為了維持高帶寬和低功耗，EMIB的使用也會相應(yīng)的增加成本，ERP的生產(chǎn)成本實(shí)際上比 SPR 更高。假設(shè)成品率和芯片可回收性完美，相比 SPR-MCC，EMR 只能在每個(gè)晶圓上生產(chǎn) 34 個(gè) CPU，低于每個(gè) SPR 晶圓 37 個(gè) CPU。如果考慮到完美良率之外的任何因素，EMR 的成本就會更高。

相比之下，AMD 則選擇了一種更為簡單的方案，通過獨(dú)立IO Die和CCD中的LLC集群，避免了復(fù)雜的多核互連問題。

下一站：Central IO Die

Hot Chips 2023 上，英特爾將旗下數(shù)據(jù)中心芯片分為兩類，Granite 和 Sierra ，二者都基于chiplet設(shè)計(jì)，并首次使用了獨(dú)立的 I/O 芯粒，通過 EMIB技術(shù)與計(jì)算單元封裝在一起。英特爾服務(wù)器處理器正式轉(zhuǎn)向Central IO Die架構(gòu)。

隨著核心數(shù)量的增長和多die模式的流行，過去幾年中，各大計(jì)算芯片企業(yè)逐漸從Multi-Die模式轉(zhuǎn)向Central IO Die模式。以 IO Die 為代表的新興互聯(lián)技術(shù)正在打破芯片內(nèi)固有的互聯(lián)方式。片內(nèi)互聯(lián)技術(shù)向“更高的集成度、更短的距離、更高的效率”轉(zhuǎn)變。

在國內(nèi)賽道，奇異摩爾作為片內(nèi)互聯(lián)領(lǐng)域的代表企業(yè)，核心產(chǎn)品涵蓋2.5D interposer、2.5D IO Die、3D Base Die、NDSA、全系列Die2Die IP及相關(guān)Chiplet系統(tǒng)解決方案。

Central IO Die通過將IO功能從算芯片中分離出來，整合多種互聯(lián)接口，讓計(jì)算單元通過IO Die進(jìn)行統(tǒng)一互聯(lián)，可以極大程度的簡化互聯(lián)設(shè)計(jì)，增加帶寬、并降低多Die間的互聯(lián)延遲。AMD Zen系列、Ampere 和 AWS 的 Graviton3 都在采用一個(gè)或多個(gè)不同的 IO芯粒。數(shù)據(jù)中心處理器Central IO Die 的模式正在到來。

阅读全文

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

cpu

cpu

+關(guān)注

關(guān)注
68

文章
11033

瀏覽量
215995
數(shù)據(jù)中心

數(shù)據(jù)中心

+關(guān)注

關(guān)注
16

文章
5139

瀏覽量
73197
chiplet

chiplet

+關(guān)注

關(guān)注
6

文章
453

瀏覽量
12864
奇異摩爾

奇異摩爾

+關(guān)注

關(guān)注
0

文章
54

瀏覽量
3659
芯粒

芯粒

+關(guān)注

關(guān)注
0

文章
62

瀏覽量
246

原文標(biāo)題：數(shù)據(jù)中心CPU芯?；盎ヂ?lián)方案分析-PART2

文章出處：【微信號：奇異摩爾，微信公眾號：奇異摩爾】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

搜索歷史

數(shù)據(jù)中心CPU芯?；盎ヂ?lián)方案分析-PART2

評論

電子發(fā)燒友