摘要
GPU加速的計算系統(tǒng)可為諸多科學(xué)應(yīng)用提供強(qiáng)大的計算能力支撐,亦是業(yè)界推動人工智能革命的重要手段。為了滿足大規(guī)模數(shù)據(jù)中心和高性能計算場景的帶寬拓展需求,光通信和光互連技術(shù)正在迅速而廣泛地滲入此類系統(tǒng)的各個網(wǎng)絡(luò)或鏈路層級。作為系列文章的第三篇,本文針對GPU網(wǎng)絡(luò)中光互連的市場和產(chǎn)業(yè)趨勢、策略和計劃做出分析。
在前兩篇大略地介紹了GPU網(wǎng)絡(luò)中光互連的歷史趨勢、短長期需求權(quán)衡、光通信技術(shù)手段之后,本篇將為讀者簡要分析其市場動向以及業(yè)界正在開展的進(jìn)一步探索。
01
市場和產(chǎn)業(yè)動向:展望2025
與過去電信應(yīng)用推進(jìn)光互連的演變相類似,當(dāng)前光互連的產(chǎn)業(yè)驅(qū)動力已經(jīng)由數(shù)據(jù)通信應(yīng)用(即數(shù)據(jù)中心)所主導(dǎo)。近幾年,隨著社交媒體、視頻數(shù)據(jù)流、智能手機(jī)的用戶數(shù)量不斷增長,人們對數(shù)據(jù)中心內(nèi)部更高的網(wǎng)絡(luò)帶寬需求愈發(fā)迫切。為了應(yīng)對諸如5G、云服務(wù)、物聯(lián)網(wǎng)、4K視頻等新興應(yīng)用技術(shù),全球數(shù)據(jù)中心的數(shù)量、占地面積、帶寬容量均有顯著增加。
上述現(xiàn)象在2016年最為明顯。彼時,全球數(shù)據(jù)中心的傳輸鏈路迎來了由40 Gbit/s到100 Gbit/s的大規(guī)模鏈路升級。自此以降,受到新數(shù)據(jù)中心的擴(kuò)張建設(shè)、已有數(shù)據(jù)中心的翻新改裝、企業(yè)級數(shù)據(jù)中心的實際部署等因素的推動,光收發(fā)器的收益便以39%的復(fù)合年均增長率大幅增長[1]。而為了滿足數(shù)據(jù)中心應(yīng)用對100 Gbit/s光模組的大批量需求,光收發(fā)器供應(yīng)商的制造能力也得到了大幅提升。
圖1. 100 G,200 G,400 G光收發(fā)器的總收益
(來源于參考資料[1])
占據(jù)設(shè)備連接總數(shù)目的最大一部分便是數(shù)據(jù)中心內(nèi)部的服務(wù)器互連,而帶寬消耗的顯著增長則使得人們需要更多地去考慮光互連的成本效益問題。為了適應(yīng)近期PAM4的廣泛使用和服務(wù)器速率由10 Gbit/s向著25 Gbit/s轉(zhuǎn)化,網(wǎng)絡(luò)的上行鏈路亦需增速。事實上,人們對容量提升的初始目標(biāo)是引入400 Gbit/s的解決方案;而從成本和性能優(yōu)化的角度考慮,業(yè)界在中途又加入了200 Gbit/s方案,以試圖為后續(xù)400 Gbit/s方案尋求一個更加適宜的遷移路徑。自2016年至2021年,光收發(fā)器總體(包括100 G,200 G,400 G)的復(fù)合年均增長率為63%;而僅就100 G光收發(fā)器而言,其復(fù)合年均增長率高達(dá)53%[2]。這主要是因為自2019年以來,200 G和400 G光收發(fā)器被商業(yè)化部署并開始小幅占據(jù)100 G光收發(fā)器的市場份額(見圖1)。
對于數(shù)據(jù)中心內(nèi)部的短距離光互連來說,多模光纖鏈路仍要比單模光纖鏈路占據(jù)更為主要的地位。與傳統(tǒng)的串行傳輸有所不同,并行光路傳輸使用一個光模塊接口,數(shù)據(jù)在多根光纖中同時得以發(fā)送和接收:40 GbE傳輸由4根光纖之上的單方向4×10 G實現(xiàn);100 GbE傳輸由10根光纖之上的單方向10×10 G實現(xiàn)。這類標(biāo)準(zhǔn)引領(lǐng)了對高質(zhì)量、低損耗的多模多路并行光學(xué)(Multi-Parallel Optics, MPO)接口的需求。
人們對數(shù)據(jù)中心帶寬增長的不斷需求繼續(xù)驅(qū)動著業(yè)界的更多革新。以往,數(shù)據(jù)中心互連僅要求在多?;騿文9饫w中傳輸單個波長,而近期的技術(shù)驅(qū)動則聚焦在單模光纖中傳輸多個波長。2016年,與100 Gbit/s光收發(fā)器相符合的粗波分復(fù)用(Coarse Wavelength Division Multiplexing 4, CWDM4)技術(shù)已可以和并行單模(Parallel Single Mode 4, PSM4)在市場份額方面平分秋色。而隨著200 Gbit/s和400 Gbit/s自2019年開始的實際部署,市場容量的增長已經(jīng)由并行光路技術(shù)和多波長技術(shù)共同驅(qū)動。
在2016年早期,眾多業(yè)界領(lǐng)軍者在多源協(xié)議方面合作開發(fā)了一種高速的雙密度四通道小型可插拔(Quad Small Form Factor Pluggable- Double Density, QSFP-DD)接口。作為可插拔收發(fā)器,QSFP-DD在保持占用空間以實現(xiàn)與標(biāo)準(zhǔn)QSFP的反向兼容之外,可為8通路的電接口附加提供的一排觸點。QSFP-DD 8個通路中的任意一個都可以在25 Gbit/s NRZ調(diào)制或50 Gbit/s PAM4調(diào)制下工作,從而可以為200 Gbit/s或400 Gbit/s的聚合帶寬提供支持;而QSFP-DD的反向兼容特點也可支撐新興模塊類型的使用、加速總體網(wǎng)絡(luò)遷移。
當(dāng)前,標(biāo)準(zhǔn)的QSFP收發(fā)器模塊連接均已采用LC 雙工連接器(尤其是在基于波分復(fù)用的雙工模塊情形下)。盡管LC雙工連接器仍可在QSFP-DD收發(fā)器模塊中使用,但是傳輸帶寬還受限在單獨的波分復(fù)用引擎設(shè)計上。該引擎使用一個1:4復(fù)用/解復(fù)用器來達(dá)到200 GbE,或是使用一個1:8復(fù)用/解復(fù)用器來達(dá)到400 GbE。這無疑增加了收發(fā)器的成本,并且提高了對收發(fā)器的冷卻要求。
圖2. CS連接器和LC雙工連接器的比較
在保持連接器占用空間不變的前提下,人們期待能夠?qū)崿F(xiàn)一種可將連接器與QSFP-DD之間的連接性提升一倍的新型連接器類型。于是,作為一種雙套管連接器,CS連接器應(yīng)運而生。如圖2所示,和LC雙工連接器相比較,CS連接器的占用空間相對更小。于是,人們可在一個QSFP-DD模塊的前接口部署兩個CS連接器。這使得雙波分復(fù)用引擎具有了較好的可行性:該雙引擎可使用一個1:4復(fù)用/解復(fù)用器來達(dá)到2×100 GbE,或是在一個單獨的QSFP-DD收發(fā)器上實現(xiàn)2×200 GbE。除了QSFP-DD收發(fā)器之外,CS連接器亦可與八通道小型可插拔模塊和板中光學(xué)模塊相適配。
在眾多供應(yīng)商采用QSDP-DD作為收發(fā)器接口的時候,網(wǎng)絡(luò)交換面板密度也在成倍增加。自2012年以來,數(shù)據(jù)中心交換機(jī)的最大網(wǎng)絡(luò)交換面板密度是128個單通道(信道)端口或32個4通道端口。近期,網(wǎng)絡(luò)交換機(jī)ASIC供應(yīng)商已能夠?qū)蝹€交換ASIC的信道數(shù)目提升到256個乃至512個。在保持單個機(jī)架單位交換機(jī)面板形狀系數(shù)的同時,為了有效管理不斷增長的帶寬密度,人們在若干類多源協(xié)議(包括QSFP-DD,OSFP,SFP-DD)中采用了雙倍密度的光收發(fā)器。由此,光纖數(shù)目也已經(jīng)由4通道增長到了8通道、乃至于提升至8對光纖。而為了保持和已安裝的光纖和網(wǎng)絡(luò)交換機(jī)基礎(chǔ)設(shè)備的兼容性,在上述收發(fā)器的實際部署中,人們可將8通道分開為2個獨立的四路接口。當(dāng)新型交換器得以實際部署時,數(shù)據(jù)中心的短期需求便是在同樣物理空間之內(nèi)的光纖對終端數(shù)量的增加。
圖3. SN、CS、LC雙工和MPO的比較
上述需求又反過來促使業(yè)界人士去探尋進(jìn)一步的革新:如圖3所示,與CS連接器將LC連接器的密度增加一倍相類似,SN連接器又將CS連接器的密度增加了一倍。
圖4. 在葉和脊結(jié)構(gòu)中使用SN接口實現(xiàn)光纖分線
如圖4所示,SN連接器是一種面向400 G數(shù)據(jù)中心優(yōu)化方案的新型雙工光纖連接器,其設(shè)計初衷是為四路方式收發(fā)器(QSFP,QSFP-DD,OSFP)提供獨立的雙工光纖分線。與MPO連接器相比較,SN連接器的效率和可靠性較高、成本較低。
圖5. 未來光互連技術(shù)的演進(jìn)
自2018年的Optical Fiber Communication Conference開始,市場分析師和技術(shù)專家便對將光互連部件移動到距離ASIC更近位置的必要性開展了廣泛討論。而早在2017年,the Consortium for On-Board Optics已針對板上光學(xué)發(fā)布了第一部工業(yè)指標(biāo)規(guī)范[3]。這些技術(shù)布局的關(guān)鍵推動力就是高數(shù)據(jù)速率條件下銅線互連的固有限制。隨著數(shù)據(jù)速率的上升,銅線的衰減大幅增加且其絕對傳輸限制被限定在100 Gbp/s/m[4]。而對高于這一限制的速率來說,使用光學(xué)信道便成了無法避免的技術(shù)手段。因此,光互連產(chǎn)業(yè)的演進(jìn)并不僅限于板上光學(xué),也包括了用于替代傳統(tǒng)集成電路的光子集成光路(Photonic Integrated Circuits, PIC)。如圖5所示,光互連下一步的演進(jìn)既要滿足前面板互連器件的需求,又要更多考慮PIC、板中和背板的互連器需求。
02
策略和計劃:跨越成本和功耗之墻
在節(jié)點性能借助多芯片組件和GPU加速器等特殊計算單元來實現(xiàn)提升的同時,人們不僅對數(shù)據(jù)中心網(wǎng)絡(luò)的帶寬需求仍在持續(xù),而且對人工智能和高性能計算的工作負(fù)載需求也呈現(xiàn)出激增態(tài)勢。而通過增加單通道數(shù)據(jù)速率的傳統(tǒng)方式已不再是獲取效益的唯一辦法。這是因為功效增益已有平緩化趨勢,且低成本的電學(xué)鏈路已無法覆蓋當(dāng)前的互連傳輸距離。舉例來說,在12.8 Tbit/s(2016)和102.4 Tbit/s(~2025)這兩代交換芯片之間,光互連占據(jù)網(wǎng)絡(luò)功率的比例將從約30%增長為超過50% [5];而對數(shù)據(jù)中心整體而言,光網(wǎng)絡(luò)占比將會從10 Gbit/s以太網(wǎng)代際(2015)中的幾個百分比增長為800 Gbit/s代際(~2025)中的20%以上[6]。此外,光學(xué)成本在不久的將來便會超越交換機(jī)端口的成本[5]。為了應(yīng)對這不斷逼近的成本和功耗之墻,人們需要從新型網(wǎng)絡(luò)結(jié)構(gòu)、共封裝光學(xué)等角度來尋求一系列解決方案。在下文中,筆者將對這些方案逐一做出簡短分析。
2.1
更加扁平化的網(wǎng)絡(luò)
更加扁平化的網(wǎng)絡(luò)意味著具備高通道數(shù)目的交換機(jī)得以使用,從而減少了交換層級。由此,人們可大幅減少交換機(jī)部件的數(shù)量并改進(jìn)系統(tǒng)的總體吞吐量和延遲性能。而更高的端口數(shù)目可以通過使用尖端的單芯片交換機(jī)(已接近50 Tbit/s及以上)或者復(fù)合芯片配置實現(xiàn)。因為未來的交換芯片可具有超越單個機(jī)架所需的交換能力,所以拓?fù)浣Y(jié)構(gòu)應(yīng)包括使用行間(End of Row)交換機(jī)來替代機(jī)架頂端(Top of Rack)交換機(jī)。
圖6. 由36端口交換芯片所構(gòu)成的基準(zhǔn)網(wǎng)絡(luò)
(來源于參考資料[7])
圖7. 使用162端口交換芯片的扁平化網(wǎng)絡(luò)
(來源于參考資料[7])
近期,IBM公司的P. Maniotis等[7]對使用高通道數(shù)目交換機(jī)(借助低功率的共封裝光學(xué))實現(xiàn)更加扁平化網(wǎng)絡(luò)的優(yōu)勢做出了詳細(xì)討論。圖6展示了一個由“當(dāng)今的”36端口單芯片交換機(jī)所構(gòu)成的高性能計算規(guī)模網(wǎng)絡(luò)(包含11600個終端);而圖7展示了一個由152端口交換芯片所構(gòu)成的類似規(guī)模網(wǎng)絡(luò)。相較而言,更加扁平化的網(wǎng)絡(luò)可令交換芯片的數(shù)量減少85%,可大幅降低功耗和成本。
2.2
專門的硬件和網(wǎng)絡(luò)
盡管多樣化的工作負(fù)載可為數(shù)據(jù)中心定義一個更具通用性的網(wǎng)絡(luò)和計算資源基礎(chǔ)結(jié)構(gòu),但是在高性能計算領(lǐng)域,人們卻一直對優(yōu)化的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)(如用于科學(xué)計算的環(huán)形拓?fù)浣Y(jié)構(gòu)、用于圖形分析的蜻蜓拓?fù)浣Y(jié)構(gòu))頗感興趣。
圖8. 對網(wǎng)絡(luò)工作負(fù)載需求的示例
(來源于參考資料[8])
圖8展示了各式各樣工作負(fù)載類型的需求范圍。隨著特定工作負(fù)載的重要性不斷增加,針對特定任務(wù)(如人工智能訓(xùn)練)來制定專門的計算和網(wǎng)絡(luò)設(shè)計將會是業(yè)界的一個關(guān)鍵考慮。
2.3
組合式/解聚式系統(tǒng)
針對特定的工作負(fù)載需求來構(gòu)建資源是眾多數(shù)據(jù)中心設(shè)計者夢寐以求的能力。組合式/解聚式系統(tǒng)意味著人們可以使用高性能結(jié)構(gòu)來改進(jìn)數(shù)據(jù)中心的總體效率。其潛在的優(yōu)勢包括:硬件可具備獨立的恢復(fù)周期、用于特定工作負(fù)載的資源優(yōu)化分派更具靈活性、更容易添加新的資源形態(tài)(如新型加速器)、有效降低運行成本和資本支出等。
圖9. 當(dāng)今異構(gòu)結(jié)構(gòu)和未來組合式結(jié)構(gòu)的概念示意圖
圖9為異構(gòu)結(jié)構(gòu)和組合式結(jié)構(gòu)的概念示意圖。其中,Compute Express Link[9]可為存儲器和加速器解聚提供支持。在總線和接口標(biāo)準(zhǔn)(Peripheral Component Interface Express, PCIe)物理層以及給定的數(shù)據(jù)速率條件下,光互連(在跨越機(jī)架或多機(jī)架距離的高速場景中)的一個關(guān)鍵問題便是PCIe Gen 6中64 Gbit/s和大量以太網(wǎng)應(yīng)用中53-56 Gbit/s 或106-112 Gbit/s之間的失配特性。
2.4
物理層效率和共封裝光學(xué)
圖10. 基于垂直腔面發(fā)射激光器的共封裝光學(xué)概念
(來源于參考資料[7])
在持續(xù)的CMOS代際和改進(jìn)的電路設(shè)計基礎(chǔ)上,電學(xué)鏈路依舊能夠在功率效率方面獲得收效。然而,在更高的數(shù)據(jù)速率需求下,電學(xué)鏈路中不可避免的高信道衰減使得人們對利用光學(xué)鏈路滿足傳輸距離的需求顯著增多。共封裝技術(shù)可使得電學(xué)鏈路的傳輸距離大幅減小,在功耗和信號一致性方面有著明顯優(yōu)勢。它可為功耗低于5 pJ/bit的完整電-光-電鏈路(例如IBM公司正在開展的MOTIO2項目[10])提供潛在可能性。如圖10所示,該項目基于垂直腔面發(fā)射激光器的共封裝模塊技術(shù),旨在實現(xiàn)低成本、高性能(112 Gbit/s,< $0.25/Gbps)傳輸。
03
小結(jié)
基于新技術(shù)標(biāo)準(zhǔn)化的重要性,許多標(biāo)準(zhǔn)化組織、產(chǎn)業(yè)聯(lián)盟和政府研究機(jī)構(gòu)已開始著手制定未來光互連的各類技術(shù)規(guī)范。而為了跨越GPU網(wǎng)絡(luò)光互連的成本和功耗之墻,業(yè)界也正在探索諸如更加有效的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)、針對特定工作負(fù)載的計算和網(wǎng)絡(luò)結(jié)構(gòu)、光電共封裝等解決方案。以筆者觀察,這些方案可為滿足未來數(shù)據(jù)中心的高帶寬需求提供有效幫助。
倘若讀者對GPU網(wǎng)絡(luò)的光互連這一領(lǐng)域有著獨特興趣,歡迎你關(guān)注、走近沐曦,讓我們一起釋放和安頓這份好奇心以及追根究底的脾氣。
審核編輯 :李倩
-
gpu
+關(guān)注
關(guān)注
28文章
4762瀏覽量
129150 -
網(wǎng)絡(luò)
+關(guān)注
關(guān)注
14文章
7589瀏覽量
89024 -
模組
+關(guān)注
關(guān)注
6文章
1508瀏覽量
30499
原文標(biāo)題:【智算芯聞】面向GPU網(wǎng)絡(luò)的光互連(3):凡是過去,皆為序章
文章出處:【微信號:沐曦MetaX,微信公眾號:沐曦MetaX】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論