5G與AI的到來(lái)催生了無(wú)數(shù)全新的應(yīng)用,這些應(yīng)用帶來(lái)大量數(shù)據(jù),促使加速器的使用量大幅增加,形成了數(shù)據(jù)中心異構(gòu)計(jì)算的趨勢(shì)。
這種趨勢(shì)意味著,越來(lái)越多不同類型的處理器和協(xié)處理器必須有效地協(xié)同工作,同時(shí)共享存儲(chǔ)器。這種分解可能導(dǎo)致系統(tǒng)由于在加速器上占用大量?jī)?nèi)存而遭遇嚴(yán)重的瓶頸,并且始終都需要與主機(jī)共享該存儲(chǔ)器以避免不必要的和過(guò)度的數(shù)據(jù)復(fù)制。
為什么CXL很重要?
此前有相關(guān)文章提到,普通電腦用戶也許偶爾有借用顯存的需求,不過(guò)這種需求不強(qiáng)烈,在某種程度上也很容易做到,顯存基本上都會(huì)被映射到PCI的mmio地址空間中,一個(gè)簡(jiǎn)單的驅(qū)動(dòng)就可以將它們映射到普通的地址空間中,但如果在其上運(yùn)行任何banchmark軟件你就會(huì)發(fā)現(xiàn)性能相當(dāng)差。
更重要的是,服務(wù)器用戶有巨大的內(nèi)存池和數(shù)量龐大的基于PCIe運(yùn)算加速器,每個(gè)上面都有很大的內(nèi)存。內(nèi)存的分割已經(jīng)造成巨大的浪費(fèi)、不便和性能下降。為此,業(yè)界采用讓加速器與處理器進(jìn)行高性能連接的方法,在理想情況下,它們可以共享同一個(gè)內(nèi)存空間以減少開(kāi)銷、降低延遲。
事實(shí)上,在未來(lái),互連技術(shù)將會(huì)變得越來(lái)越重要,因?yàn)樵谛屡d應(yīng)用程序中處理數(shù)據(jù)需要在CPU,GPU,FPGA,網(wǎng)絡(luò)和其他加速器中部署的標(biāo)量,矢量,矩陣和空間架構(gòu)的多種組合。CXL是互連技術(shù)的一個(gè)很好的例子,該互連技術(shù)旨在解決CPU和專用加速器不斷增長(zhǎng)的高性能計(jì)算工作負(fù)載。
CXL(Compute Express Link)是一項(xiàng)雄心勃勃的新互連技術(shù),可以實(shí)現(xiàn)CPU與GPU、FPGA等(數(shù)據(jù)中心)專用加速芯片間的快速連接,推動(dòng)下一代數(shù)據(jù)中心的性能。助力每個(gè)設(shè)備之間的資源共享,提高多個(gè)設(shè)備之間的共享操作和數(shù)據(jù)的效率,降低延遲,保留其物理層的簡(jiǎn)單性和適應(yīng)性,是用于數(shù)據(jù)中心環(huán)境中的可移動(dòng)高帶寬設(shè)備(例如基于GPU的計(jì)算加速器)。
AI,多媒體,圖像和語(yǔ)言處理,加密等多方面的新興數(shù)據(jù)處理應(yīng)用程序?qū)腃XL中受益匪淺。例如顯卡、GPU計(jì)算加速器和高密度計(jì)算卡。所有這三種CXL事務(wù)層協(xié)議都與此類設(shè)備相關(guān)。接下來(lái)是FPGA和NIC。CXL.io和CXL.cache在這里很重要,因?yàn)榫W(wǎng)絡(luò)堆棧是由NIC本地的處理器處理的。最后,還有所有重要的內(nèi)存緩沖區(qū),未來(lái)的數(shù)據(jù)中心將由成千上萬(wàn)臺(tái)物理機(jī)和加速器之間共享的巨大內(nèi)存池組成。
CXL在CPU和工作負(fù)載加速器(例如GPU,F(xiàn)PGA和網(wǎng)絡(luò))之間創(chuàng)建了高速,低延遲的互連。CXL保持了設(shè)備之間的內(nèi)存一致性,從而允許資源共享以實(shí)現(xiàn)更高的性能,降低的軟件堆棧復(fù)雜性并降低總體系統(tǒng)成本。
盡管存在其他互連協(xié)議,但CXL在單一技術(shù)中提供CPU /設(shè)備內(nèi)存一致性,降低設(shè)備復(fù)雜性以及行業(yè)標(biāo)準(zhǔn)的物理和電氣接口的獨(dú)特性,以提供最佳的即插即用體驗(yàn)。
英特爾數(shù)據(jù)中心執(zhí)行副總裁兼總經(jīng)理Navin Shenoy在一篇博客文章中說(shuō),CXL將消除CPU和數(shù)據(jù)中心專用加速器芯片之間的瓶頸。
PCle 5.0 與CXL
我們最初看到關(guān)于CXL的消息是在去年Hot Interconnects會(huì)議上,英特爾進(jìn)行了技術(shù)演示并闡明了CXL的具體細(xì)節(jié)。
在協(xié)議具體應(yīng)用方面,CXL官方給出的解釋為:CXL 1.0版本支持CPU、硬件平臺(tái)和加速芯片(如GPU、FPGA和其他專用加速器解決方案)之間的高速、高效互連。該技術(shù)建立在PCI-Express(PCIe)基礎(chǔ)上,利用PCIe 5.0物理和電氣接口在I/O協(xié)議、內(nèi)存協(xié)議(最初允許主機(jī)與加速器共享內(nèi)存)、一致性界面三方面提供協(xié)議支持。
不難發(fā)現(xiàn),CXL的推出與PCIe 5.0協(xié)議綁定,不過(guò)目前該協(xié)議尚不可用。今年早些時(shí)候,英特爾曾透露,明年也許會(huì)在產(chǎn)品上引入PCIe 5.0。
在此之前,PCI-Express 4.0于2017年問(wèn)世,目前仍僅支持兩種處理器-IBM的Power9和AMD的“羅馬” Epyc 7002,而更早之前的PCIe 3.0于2010年推出。實(shí)際上,5.0緊跟4.0之后,許多產(chǎn)品可能會(huì)簡(jiǎn)單地跳過(guò)4.0版本并直接升級(jí)到5.0。PCIe的每個(gè)版本都將吞吐量提高了一倍,5.0版本的吞吐量為63 GB/s,采用16通道實(shí)現(xiàn)。相比之下,2003年P(guān)CIe 1.0的16通道吞吐量為4 GB/s。
來(lái)源:技術(shù)維新網(wǎng)站
回到1992年英特爾的原始PCI的規(guī)格,當(dāng)時(shí),32位總線的時(shí)鐘速率為33.33MHz,數(shù)據(jù)速率為133MB/s。當(dāng)然,最初的PCI使用并行同步數(shù)據(jù)線,時(shí)鐘和總線仲裁問(wèn)題限制了吞吐量。所有的PCIe規(guī)范都依賴于高速串行數(shù)據(jù)傳輸,每個(gè)連接的設(shè)備都有一對(duì)專用的全雙工傳輸線和接收線。與現(xiàn)代串行鏈路一樣,時(shí)鐘被嵌入到數(shù)據(jù)流中,消除了對(duì)外部時(shí)鐘線的需要。在限制通道傾斜的條件下,采用多通道來(lái)提高吞吐量,從而使控制器能夠重新組合條帶數(shù)據(jù)。
說(shuō)回PCIe 5.0,新思科技高級(jí)市場(chǎng)經(jīng)理Gary Ruggles指出,數(shù)據(jù)中心近年來(lái)發(fā)生巨大變化,尤其是在部署408萬(wàn)千兆位超大規(guī)模數(shù)據(jù)中心的過(guò)程中,對(duì)PCIe 5.0的需求開(kāi)始迅猛增長(zhǎng)。舊的 PCI Express (PCIe) 技術(shù)正在加速向最新的 5.0 版本過(guò)渡,片上系統(tǒng) (SoC) 設(shè)計(jì)人員會(huì)發(fā)現(xiàn)推出速度比使用 PCIe 4.0 時(shí)更快。
在此前Synopsys 舉辦的網(wǎng)絡(luò)研討會(huì)上,觀眾的問(wèn)卷調(diào)查答案顯示,雖然許多 PCIe 4.0 設(shè)計(jì)的啟動(dòng)工作井然有序,但一些設(shè)計(jì)人員正在跨過(guò) PCIe 4.0 并直接轉(zhuǎn)向 PCIe 5.0 設(shè)計(jì)。調(diào)查還顯示,許多尚未改用 PCIe 5.0 設(shè)計(jì)的人員也會(huì)在未來(lái) 12 個(gè)月內(nèi)改用。最近完成的 PCIe 基礎(chǔ)規(guī)范 5.0 版本現(xiàn)在能夠以高達(dá) 32GT/s 的速度實(shí)現(xiàn) CPU 和外設(shè)的互連。
如何促進(jìn)新一代異構(gòu)計(jì)算架構(gòu)?
PCIe 5.0 發(fā)布已經(jīng)有一段時(shí)間了,但是相關(guān)硬件產(chǎn)品遲遲沒(méi)有問(wèn)世,這其中有市場(chǎng)因素,但是PCIe 5.0的技術(shù)難度也是其中一個(gè)原因。正如前文所言,PCI Express實(shí)際上是一種標(biāo)準(zhǔn)接口,用于I/O鏈接,并幫助提高數(shù)據(jù)傳輸速率。在不斷升級(jí)中,要達(dá)到PCIe 5.0為標(biāo)準(zhǔn)的32GT/s的速度將達(dá)到挑戰(zhàn)。
對(duì)于系統(tǒng)設(shè)計(jì)師來(lái)說(shuō),印刷電路板(PCB)的走線、連接器、電纜乃至IC封裝都是系統(tǒng)級(jí)的帶寬限制因素,它們使得高數(shù)據(jù)速率的設(shè)計(jì)變得具有挑戰(zhàn)性。高信號(hào)頻率增加了銅損和功率損耗,這會(huì)導(dǎo)致傳輸距離減小。另外,更高信號(hào)頻率中存在的通道損失會(huì)導(dǎo)致信號(hào)完整性(SI)問(wèn)題。
為了驗(yàn)證其設(shè)計(jì),系統(tǒng)設(shè)計(jì)人員必須與信號(hào)完整性工程師、封裝設(shè)計(jì)人員、SoC設(shè)計(jì)人員以及電路板布局設(shè)計(jì)人員密切合作,對(duì)其通道中的每個(gè)組件進(jìn)行建模,并驗(yàn)證其整個(gè)端到端性能。
對(duì)于PHY設(shè)計(jì)師來(lái)說(shuō),對(duì)16GT/s PHY設(shè)計(jì)進(jìn)行漸進(jìn)式改進(jìn)在大多數(shù)應(yīng)用中并不足以滿足PCIe 5.0通道要求。由于在 32GT/s 速度下信道損耗顯著增加,發(fā)射器(TX)和接收器(RX)中的均衡電路需要顯著的改進(jìn)。另外,更嚴(yán)格的抖動(dòng)參數(shù)和抖動(dòng)限制以及回波損耗規(guī)格也要求在TX和RX中重新設(shè)計(jì)許多子電路。
PCIe PHY 設(shè)計(jì)必須包含獨(dú)特的架構(gòu),配備經(jīng)過(guò)驗(yàn)證的模擬前端、連續(xù)時(shí)間線性均衡器和先進(jìn)的多抽頭決策反饋均衡器,可以無(wú)縫協(xié)作以緩解設(shè)計(jì)問(wèn)題。PHY 和控制器的集成需要更仔細(xì)的規(guī)劃,才能確保 PIPE 接口的兼容性,并且方便完成 1GHz 時(shí)的時(shí)序收斂。
為了實(shí)現(xiàn)最高性能,必須仔細(xì)選擇和管理幾個(gè) PCIe 5.0 控制器配置選項(xiàng)。應(yīng)探索進(jìn)行架構(gòu)權(quán)衡,平衡最大有效載荷大小、讀取請(qǐng)求大小、標(biāo)簽數(shù)量和其他重要的控制器配置設(shè)置。必須對(duì)芯片和封裝進(jìn)行仔細(xì)的信號(hào)和電源完整性分析,并且必須仿真整個(gè)信道,確保在 32 GT/s 時(shí)達(dá)到性能目標(biāo)。在更高的數(shù)據(jù)速率下解決信號(hào)完整性、封裝和通道性能等問(wèn)題需要在多個(gè)領(lǐng)域具備充分能力。
簡(jiǎn)而言之,SoC 設(shè)計(jì)人員將面臨例如增多的信道損耗、復(fù)雜的控制器考量、PHY 和控制器集成、封裝和信號(hào)完整性問(wèn)題以及建模和測(cè)試要求等多種關(guān)鍵設(shè)計(jì)挑戰(zhàn)。因此越來(lái)越多的片上系統(tǒng)(SoC)設(shè)計(jì)人員采用經(jīng)過(guò)驗(yàn)證的第三方IP來(lái)進(jìn)行成功的IC集成。
作為半導(dǎo)體IP頭部廠商,新思顯然已經(jīng)考慮到了這些。報(bào)道稱,此前,新思推出了適用于 PCIe 5.0 的 Synopsys DesignWare IP 全套解決方案包含控制器、PHY 和驗(yàn)證 IP。該解決方案以32GT / s的數(shù)據(jù)速率運(yùn)行,可為云計(jì)算,存儲(chǔ)和AI SoC提供低延遲和高性能的實(shí)時(shí)數(shù)據(jù)連接。
經(jīng)過(guò)硅驗(yàn)證的IP支持 PIPE 4.4.1 和 5.1.1 規(guī)范,使用的架構(gòu)可承受超過(guò) 36dB 的信道損耗,并能直接實(shí)現(xiàn) 1GHz 的時(shí)序收斂。這種控制器具有高度可配置性,支持多種數(shù)據(jù)路徑寬度,包含經(jīng)過(guò)硅驗(yàn)證和測(cè)試的 512 位架構(gòu),并具有業(yè)界最廣泛的 RAS-DES 功能,可實(shí)現(xiàn)無(wú)縫啟動(dòng)和調(diào)試。這種經(jīng)過(guò)硅驗(yàn)證的解決方案已被眾多客戶采用,可提供準(zhǔn)確仿真 PCIe 系統(tǒng)所需的完整 IBIS-AMI 模型。
采用新思以數(shù)十年P(guān)CIe專業(yè)知識(shí)為基礎(chǔ)的面向PCIe 5.0的IP,SoC設(shè)計(jì)人員可以盡早啟動(dòng)其32GT/s 的設(shè)計(jì)。
當(dāng)實(shí)現(xiàn)具有32Gbit / s帶寬的PCIe Gen 5時(shí),CXL總線協(xié)議就可以在其上運(yùn)行。最早的PCIe Gen 5系統(tǒng)以及CXL將于2021年問(wèn)世??傮w思路是PCIe 5.0 + CXL將用于高性能數(shù)據(jù)中心服務(wù)器,而PCIe 4.0僅用于性能較低的服務(wù)器和臺(tái)式機(jī)/筆記本電腦/工作站系統(tǒng)。
CXL方案中有三個(gè)子協(xié)議,它們可以在CXL導(dǎo)線上同時(shí)使用。它們是CXL.io,CXL.cache和CXL.memory。
CXL.io 協(xié)議本質(zhì)上是經(jīng)過(guò)一定改進(jìn)的 PCIe 5.0 協(xié)議,用于初始化、鏈接、設(shè)備發(fā)現(xiàn)和列舉以及寄存器訪問(wèn)。它為 I/O 設(shè)備提供了非一致的加載/存儲(chǔ)接口。
CXL.cache 協(xié)議定義了主機(jī)和設(shè)備之間的交互,允許連接的 CXL 設(shè)備使用請(qǐng)求和響應(yīng)方法以極低的延遲高效地緩存主機(jī)內(nèi)存。 ●CXL.memory 協(xié)議提供了主機(jī)處理器,可以使用加載和存儲(chǔ)命令訪問(wèn)設(shè)備連接的內(nèi)存,此時(shí)主機(jī) CPU 充當(dāng)主設(shè)備,CXL 設(shè)備充當(dāng)從屬設(shè)備,并且可以支持易失性和持久性存儲(chǔ)器架構(gòu)。
憑借 PCIe 5.0的強(qiáng)大基礎(chǔ)設(shè)施,以及高帶寬的支持下,CXL使加速器和CPU之間實(shí)現(xiàn)更加連貫的內(nèi)存共享,促進(jìn)了異構(gòu)計(jì)算中專用加速器和通用CPU的協(xié)同工作。
英特爾研究員、英特爾I/O技術(shù)與標(biāo)準(zhǔn)主管Debendra Das Sharma博士指出:“Compute Express Link是新一代異構(gòu)計(jì)算架構(gòu)的關(guān)鍵促成因素,在這些架構(gòu)中,CPU和加速器配合使用以提供最先進(jìn)的解決方案。在新思科技等領(lǐng)先IP核提供商的支持下,我們正在開(kāi)發(fā)一個(gè)有望讓整個(gè)行業(yè)受益的穩(wěn)定、創(chuàng)新型CXL生態(tài)系統(tǒng)?!?/p>
總 結(jié)
作為接口IP核領(lǐng)域的領(lǐng)導(dǎo)者,新思科技一直站在為新一代互連(如CXL)開(kāi)發(fā)IP核解決方案的前沿,以幫助設(shè)計(jì)人員將必要的功能整合進(jìn)他們的芯片中。利用在PCI Express 5.0方面的專業(yè)知識(shí),將完整的DesignWare CXL IP核解決方案推向市場(chǎng),使設(shè)計(jì)人員能夠滿足其芯片的內(nèi)存一致性和快速數(shù)據(jù)連接要求,同時(shí)降低相關(guān)風(fēng)險(xiǎn)。
責(zé)任編輯:xj
原文標(biāo)題:為新一代異構(gòu)計(jì)算架構(gòu)搭橋,新思在里面扮演什么角色?
文章出處:【微信公眾號(hào):新思科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
-
新思科技
+關(guān)注
關(guān)注
5文章
801瀏覽量
50374 -
異構(gòu)計(jì)算
+關(guān)注
關(guān)注
2文章
102瀏覽量
16317
原文標(biāo)題:為新一代異構(gòu)計(jì)算架構(gòu)搭橋,新思在里面扮演什么角色?
文章出處:【微信號(hào):Synopsys_CN,微信公眾號(hào):新思科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論