在2022年第六屆未來網(wǎng)絡(luò)發(fā)展大會上,來自產(chǎn)業(yè)界、學(xué)術(shù)界、研究機(jī)構(gòu)等領(lǐng)域的專家、行業(yè)領(lǐng)袖共同探討新型網(wǎng)絡(luò)技術(shù)的攻關(guān)與變革。
華為董事、科學(xué)家咨詢委員會主任徐文偉在主題演講中指出,超級算力是智能世界的關(guān)鍵需求,未來網(wǎng)絡(luò)技術(shù)將在三個(gè)方面為超級算力系統(tǒng)發(fā)展做出貢獻(xiàn):
采用正交架構(gòu)、分布式直連拓?fù)涞刃录夹g(shù),持續(xù)提升數(shù)據(jù)中心交換機(jī)設(shè)備容量、數(shù)據(jù)中心網(wǎng)絡(luò)規(guī)模,支持百萬級海量算力節(jié)點(diǎn)大規(guī)?;ヂ?lián)。
將智能無損網(wǎng)絡(luò)技術(shù)應(yīng)用到AI訓(xùn)練、存儲、HPC等多種場景,把數(shù)據(jù)中心網(wǎng)絡(luò)時(shí)延從毫秒級降低到微秒級,減少算力等待算據(jù)的空耗周期,將算力發(fā)揮到極致。
面向一體化大數(shù)據(jù)中心、東數(shù)西算等新場景,探索長距智能無損網(wǎng)絡(luò)、多目標(biāo)算力路由等新技術(shù),支持全網(wǎng)負(fù)載均衡,提供集約化低碳算力服務(wù)。
展望未來,算網(wǎng)融合架構(gòu)的探索需要產(chǎn)學(xué)研用的共同努力才能成功,華為將持續(xù)基礎(chǔ)理論研究和研發(fā)投入,與高校、實(shí)驗(yàn)室、產(chǎn)業(yè)界積極開展合作,共同推進(jìn)未來網(wǎng)絡(luò)發(fā)展。
以下為演講全文。
一、 超級算力是智能世界2030的關(guān)鍵需求
超級算力是智能世界的關(guān)鍵需求。
展望2030年的智能世界,人工智能將無所不及,超級算力幫助我們更縱深地感知物理世界,更準(zhǔn)確地模擬現(xiàn)實(shí)世界、探索未知領(lǐng)域,加速千行百業(yè)的數(shù)字化和智能化,實(shí)現(xiàn)數(shù)字世界和物理世界的無縫融合。
預(yù)計(jì)到2030年,自動(dòng)駕駛車廠云端需要10 ExaFLOPS,氣象預(yù)測數(shù)據(jù)及算力需求增長1000倍,VR/AR用戶數(shù)將超過10億,AI計(jì)算的算力將達(dá)到105 ZetaFlops,比2021年增長500倍左右,算力就是未來國家的關(guān)鍵競爭力。
二、 超級算力系統(tǒng)發(fā)展驅(qū)動(dòng)算網(wǎng)融合架構(gòu)創(chuàng)新
超級算力系統(tǒng)不但需要性能更強(qiáng)的CPU、GPU,以及更強(qiáng)大的AI算法、模型,還需要結(jié)合未來網(wǎng)絡(luò)技術(shù)的最新發(fā)展,以算網(wǎng)融合架構(gòu)助力超級算力系統(tǒng)發(fā)展。
未來網(wǎng)絡(luò)技術(shù)研究將在三個(gè)方面做出貢獻(xiàn):
采用正交架構(gòu)、分布式直連拓?fù)涞刃录夹g(shù),持續(xù)提升數(shù)據(jù)中心交換機(jī)設(shè)備容量、數(shù)據(jù)中心網(wǎng)絡(luò)規(guī)模,支持百萬級海量算力節(jié)點(diǎn)大規(guī)?;ヂ?lián)。
將智能無損網(wǎng)絡(luò)技術(shù)應(yīng)用到AI訓(xùn)練、存儲、HPC等多種場景,把數(shù)據(jù)中心網(wǎng)絡(luò)時(shí)延從毫秒級降低到微秒級,減少算力等待算據(jù)的空耗周期,將算力發(fā)揮到極致。
面向一體化大數(shù)據(jù)中心、東數(shù)西算等新場景,探索長距智能無損網(wǎng)絡(luò)、多目標(biāo)算力路由等新技術(shù),支持全網(wǎng)負(fù)載均衡,提供集約化低碳算力服務(wù)。
三、系統(tǒng)架構(gòu)創(chuàng)新:首創(chuàng)DCN正交架構(gòu),實(shí)現(xiàn)超大容量,超高密度,線性擴(kuò)容
為了支持海量算力節(jié)點(diǎn)的大規(guī)?;ヂ?lián),我們需要大容量的數(shù)據(jù)中心交換機(jī)設(shè)備。傳統(tǒng)框式設(shè)備采用PCB背板走線實(shí)現(xiàn)板卡槽位之間信號連接,受限于高速信號鏈路衰減,走線長度不能大于40英寸,在框式設(shè)備上只能支持8個(gè)線卡槽位。
華為在2012年推出的數(shù)據(jù)中心交換機(jī)CloudEngine12800設(shè)備,首創(chuàng)“直接正交架構(gòu)”,采用業(yè)務(wù)線卡和交換網(wǎng)板90度垂直互連的方式,背板0走線,減少了走線帶來的高速信號鏈路衰減,支持前后風(fēng)道,數(shù)據(jù)中心機(jī)房無需改造就可以滿足冷熱隔離的要求,整機(jī)支持24個(gè)40GE線速端口,并且支持線性擴(kuò)容,是當(dāng)時(shí)業(yè)界最高競品的4倍。
同樣基于直接正交架構(gòu)的新一代數(shù)據(jù)中心交換機(jī)CloudEngine16816,支持16個(gè)業(yè)務(wù)線卡槽位,提供768個(gè)400GE端口。
實(shí)現(xiàn)正交架構(gòu)面臨高速信號傳輸、高密度和低損連接器和高效散熱的工程瓶頸。通過系統(tǒng)架構(gòu)創(chuàng)新和跨學(xué)科集成創(chuàng)新,我們突破了多個(gè)工程技術(shù)瓶頸,連續(xù)十年刷新數(shù)據(jù)中心核心交換機(jī)的業(yè)界容量極限。
四、 持續(xù)提升設(shè)備容量:互聯(lián)介質(zhì)技術(shù)、散熱技術(shù)、分布式架構(gòu)
在正交架構(gòu)的技術(shù)創(chuàng)新的基礎(chǔ)上,為了持續(xù)提升數(shù)據(jù)中心交換機(jī)的設(shè)備容量,我們還在研究更高速率的互聯(lián)介質(zhì)技術(shù)、更強(qiáng)的散熱技術(shù),并探索更多的設(shè)備新架構(gòu)。
在互聯(lián)架構(gòu)上,從PCB互連演進(jìn)到了當(dāng)前的Cable IO互連,未來將走向光IO互連。要實(shí)現(xiàn)架構(gòu)演進(jìn),關(guān)鍵是在互連介質(zhì)上要取得突破。我們也在業(yè)界推出對傳輸損耗的理論研究公式(如圖),從降低介電材料的Dk和Df以及改善導(dǎo)體材料的光滑度,趨膚效應(yīng)和導(dǎo)電率來改善介質(zhì)損耗與導(dǎo)體損耗。
在散熱技術(shù)上,我們基于過增元院士的“場協(xié)同原理”理論,持續(xù)優(yōu)化散熱速度場/溫度場的“協(xié)同數(shù)”Fc (如圖),進(jìn)一步研究從金屬到石墨烯到金剛石的散熱材料突破,挑戰(zhàn)固體導(dǎo)熱材料的極致性能。同時(shí),深入探索沸騰換熱微納表面的加工工藝,拉遠(yuǎn)散熱跨尺度/跨材料系統(tǒng)的集成工藝、復(fù)雜熱源散熱的拓?fù)鋬?yōu)化工藝的散熱工藝。力爭在散熱技術(shù)上獲得突破。
在設(shè)備架構(gòu)上,面向未來,探索從正交架構(gòu)到直連拓?fù)涞姆植际浇粨Q機(jī)架構(gòu)的可能性,希望突破設(shè)備的容量與供電限制,通過OIO互聯(lián)技術(shù)完成高密度信號連接,實(shí)現(xiàn)單節(jié)點(diǎn)更大容量演進(jìn)。
五、系統(tǒng)架構(gòu)創(chuàng)新:直連拓?fù)鋵?shí)現(xiàn)單個(gè)DC的百萬級節(jié)點(diǎn)聯(lián)接
為了支持海量算力節(jié)點(diǎn)的大規(guī)?;ヂ?lián),我們還需在數(shù)據(jù)中心交換機(jī)的組網(wǎng)拓?fù)渖线M(jìn)一步創(chuàng)新。目前主流組網(wǎng)拓?fù)錇镃LOS架構(gòu),以典型的128端口交換機(jī)測算,2級CLOS架構(gòu)最大支持8千個(gè)計(jì)算節(jié)點(diǎn)互聯(lián)。
為了實(shí)現(xiàn)更大規(guī)模的算力互聯(lián),3級CLOS架構(gòu)最大支持50萬個(gè)計(jì)算節(jié)點(diǎn)互聯(lián),但跳數(shù)增加又帶來了時(shí)延增加等問題。
華為創(chuàng)新地將直連拓?fù)湟氲?a target="_blank">以太網(wǎng)絡(luò)中,實(shí)現(xiàn)超大規(guī)模、低跳數(shù)的數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu),以128端口交換機(jī)測算,最高可支持400萬計(jì)算節(jié)點(diǎn)互聯(lián),相比2級CLOS架構(gòu)提升了500倍,跳數(shù)不變。
直連拓?fù)涞亩嗦窂江h(huán)路問題,需要Dijkstra(迪杰斯特拉)算法實(shí)現(xiàn)TI-LFA(拓?fù)錈o關(guān)的無環(huán)路備份路徑),存在復(fù)雜度高、重路由時(shí)間長的問題。華為創(chuàng)新引入圖論方法實(shí)現(xiàn)并行Dijkstra(迪杰斯特拉)算法,降低復(fù)雜度,將1萬個(gè)節(jié)點(diǎn)的快速重路由時(shí)間從16.7分鐘降低到8s。
六、系統(tǒng)架構(gòu)創(chuàng)新:智能無損網(wǎng)絡(luò),挑戰(zhàn)零丟包互聯(lián)提升AI訓(xùn)練算力
AI訓(xùn)練場景中,多臺服務(wù)器向一臺服務(wù)器同時(shí)發(fā)送大量報(bào)文的情況經(jīng)常出現(xiàn),多打一(incast)網(wǎng)絡(luò)流量模型是常態(tài)。
當(dāng)報(bào)文大量排隊(duì)、緩存溢出后,丟包、重傳就會導(dǎo)致GPU等數(shù)據(jù)的現(xiàn)象,嚴(yán)重時(shí)CPU資源有50%的時(shí)間在空轉(zhuǎn)。
傳統(tǒng)的流量控制算法在緩存超過一定“水線”時(shí)通知發(fā)送端,降低流量發(fā)送速度,但水線值的設(shè)置既不能太溫柔、也不能太粗暴,還要根據(jù)計(jì)算任務(wù)的不同動(dòng)態(tài)調(diào)整,不可實(shí)施。
華為創(chuàng)造性地引入智能算法代替專家經(jīng)驗(yàn),用流量數(shù)據(jù)、流量模型進(jìn)行實(shí)時(shí)推理,得出最優(yōu)ECN水線值,實(shí)現(xiàn)實(shí)時(shí)、精準(zhǔn)的AI ECN流量控制。
為了確保算法可以自適應(yīng)任何流量場景和模型,除了百萬級的真實(shí)業(yè)務(wù)樣本外,還加入了千萬級的隨機(jī)樣本訓(xùn)練,可以保證在不同場景下無損算力互聯(lián)。
依據(jù)《ODCC無損網(wǎng)絡(luò)測試基準(zhǔn)》,ODCC 2020年進(jìn)行了實(shí)測,采用智能無損網(wǎng)絡(luò)架構(gòu)改造后,能效比提升了25%~31%,這相當(dāng)于節(jié)省了25%的GPU投資,具有較大商業(yè)價(jià)值。
某重點(diǎn)實(shí)驗(yàn)室算力強(qiáng)大(4096個(gè)NPU+1024CPU),但AI訓(xùn)練場景下,網(wǎng)絡(luò)HASH不均導(dǎo)致有效吞吐低,IO500打榜中網(wǎng)絡(luò)吞吐僅達(dá)到約50%,影響AI計(jì)算效率。
全網(wǎng)采用智能無損網(wǎng)絡(luò)后,單任務(wù)場景網(wǎng)絡(luò)吞吐從50%提升到90%。在IO500總榜、IO500十節(jié)點(diǎn)榜以及AIPerf榜都排名第一,且得分大幅領(lǐng)先上屆冠軍。IO500總榜得分4倍于第二名
七、智能無損網(wǎng)絡(luò)在存儲、HPC場景的性能超越FC、持平IB
在存儲場景中,傳統(tǒng)的光纖通道(FC)網(wǎng)絡(luò)不匹配全閃存NVMe接口下的并行式大吞吐讀寫模式,帶寬和時(shí)延已成為性能瓶頸。以太在帶寬上相比FiberChannel具有明顯優(yōu)勢,一家全球領(lǐng)先的大型銀行率先采用智能無損網(wǎng)絡(luò)替代FiberChannel,部署全閃存數(shù)據(jù)中心,生產(chǎn)系統(tǒng)存儲性能提升85%。
在HPC場景,智能無損網(wǎng)絡(luò)可以將集合通信的部分計(jì)算操作從服務(wù)器轉(zhuǎn)移到交換機(jī)網(wǎng)絡(luò)設(shè)備,減少了服務(wù)器集群間的通信量,從而大幅降低了HPC小字節(jié)場景下的網(wǎng)絡(luò)時(shí)延,提升了計(jì)算效率。
東莞大科學(xué)計(jì)算中心實(shí)驗(yàn)室需超大算力支持仿真與科學(xué)計(jì)算,使用智能無損網(wǎng)絡(luò)技術(shù)替代InfiniBand,計(jì)算性能持平,特定計(jì)算任務(wù)場景略有超越,我們還在持續(xù)優(yōu)化,爭取實(shí)現(xiàn)全面領(lǐng)先。
智能無損網(wǎng)絡(luò)性能超越IB的場景還有:氣象預(yù)報(bào)WRF、CESM等用例;汽車碰撞Pam-crash用例;AI計(jì)算AIPerf BenchMark套件用例。
八、從DCN到DCI到全國一體化大數(shù)據(jù)中心,堅(jiān)持系統(tǒng)架構(gòu)創(chuàng)新
繼DC內(nèi)部的智能無損網(wǎng)絡(luò)之后,我們在同城智能無損網(wǎng)絡(luò)也有進(jìn)展,突破了iLossless-DCI算法,攻克100G以太網(wǎng)100公里0丟包難題,實(shí)現(xiàn)同城長距無損,并主導(dǎo)IEEE長距無損網(wǎng)絡(luò)相關(guān)的技術(shù)規(guī)范;一家全球領(lǐng)先的大型銀行在跨DC雙活同城數(shù)據(jù)同步中,采用長距無損技術(shù)實(shí)現(xiàn)0丟包NoF+存儲網(wǎng)絡(luò),用100G以太替換8G FC,鏈路數(shù)減少90%,每年節(jié)省2000多萬元;
下一步是全國一朵云、一張網(wǎng)的問題,延續(xù)網(wǎng)絡(luò)架構(gòu)+軟件創(chuàng)新思路,探索多目標(biāo)路由來實(shí)現(xiàn)跨資源池一體化調(diào)度、探索廣域智能無損實(shí)現(xiàn)1000公里級400G算力網(wǎng)絡(luò)高吞吐。
九、全國一體化大數(shù)據(jù)中心,探索多目標(biāo)算力路由、廣域智能無損
面向全國一體化數(shù)據(jù)中心的場景,在控制面探索多目標(biāo)算力路由,在數(shù)據(jù)面探索廣域智能無損;
多目標(biāo)算力路由的思路是,通過新的網(wǎng)絡(luò)和軟件協(xié)同,將一個(gè)業(yè)務(wù)拆分為多個(gè)子任務(wù),用多目標(biāo)算力路由來實(shí)現(xiàn)跨數(shù)據(jù)中心資源池的統(tǒng)一調(diào)度、協(xié)同計(jì)算、算網(wǎng)融合;這種情況下,算力-運(yùn)力圖的劃分與組合眾多,多目標(biāo)算力路由是就是從眾多組合中找出業(yè)務(wù)綜合服務(wù)水平SLA與總和成本這兩個(gè)目標(biāo)上的最優(yōu);
這是典型的多目標(biāo)優(yōu)化問題,也稱為帕累托(Pareto)最優(yōu)問題,傳統(tǒng)的多目標(biāo)加權(quán)轉(zhuǎn)化方法覆蓋低,需要探索其他途徑如矢量分解結(jié)合演化計(jì)算來提升最優(yōu)Pareto覆蓋;
面向全國一張網(wǎng)場景,廣域智能無損網(wǎng)絡(luò)還需要解決廣域網(wǎng)絡(luò)距離長反饋慢、路徑多、均衡難、業(yè)務(wù)吞吐低的難題,支持全國一體化大數(shù)據(jù)中心的發(fā)展;需要探索廣域網(wǎng)絡(luò)擁塞控制新算法、網(wǎng)絡(luò)負(fù)載均衡新技術(shù)、下一代鏈路流控協(xié)議等,以期獲得廣域高吞吐性能。
十、架構(gòu)創(chuàng)新、技術(shù)突破,實(shí)現(xiàn)未來算網(wǎng)融合目標(biāo)(2030)
面向未來,要實(shí)現(xiàn)算網(wǎng)融合的目標(biāo),通過更大的聯(lián)接與算力,支撐面向未來的真人全息、自動(dòng)駕駛、XR等場景和隨時(shí)隨地10G Everywhere的需求
一方面,我們需要從架構(gòu)創(chuàng)新與技術(shù)突破方面努力實(shí)現(xiàn)單級設(shè)備容量的突破,端口速率從400G到3.2T,單片容量從25.6T到400T以上,系統(tǒng)容量從512T到10P以上
另外一方面,我們也需要支撐擴(kuò)展到百萬級的數(shù)據(jù)中心規(guī)模,微秒級的時(shí)延和整網(wǎng)級甚至全國一張網(wǎng)的負(fù)載均衡能力。
十一、合作共贏加速未來網(wǎng)絡(luò)發(fā)展
要實(shí)現(xiàn)算網(wǎng)融合架構(gòu),加速未來網(wǎng)絡(luò)發(fā)展,需要靠各位院士、科學(xué)家、專家、上下游產(chǎn)業(yè)和客戶共同努力才能成功,同時(shí)我們也要重視網(wǎng)絡(luò)、ICT和數(shù)字人才的長期培養(yǎng)。
一方面,華為我們自身也在基礎(chǔ)實(shí)驗(yàn)室建設(shè),基礎(chǔ)理論研究和研發(fā)方面加大投入;更重要的,我們希望和行業(yè)的科學(xué)家和專家共同探討未來,和知名大學(xué)共同研究理論與技術(shù)。當(dāng)然我們尤其非常重視合作實(shí)驗(yàn)室創(chuàng)新驗(yàn)證,就像我們和未來網(wǎng)絡(luò)實(shí)驗(yàn)室有很多合作。
所以我們希望和大家共同努力,合作共贏加速未來網(wǎng)絡(luò)發(fā)展。謝謝!
-
華為
+關(guān)注
關(guān)注
216文章
34499瀏覽量
252345 -
AI
+關(guān)注
關(guān)注
87文章
31262瀏覽量
269627 -
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8899瀏覽量
137578
原文標(biāo)題:華為徐文偉:融合算網(wǎng)架構(gòu),共贏未來網(wǎng)絡(luò)
文章出處:【微信號:Huawei_Fixed,微信公眾號:華為數(shù)據(jù)通信】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論