隨著業(yè)務(wù)轉(zhuǎn)型發(fā)展帶來的信息化系統(tǒng)建設(shè),云應用程序正在快速發(fā)展。單體應用程序正在讓位于分布式服務(wù),推動了數(shù)據(jù)中心基礎(chǔ)設(shè)施網(wǎng)絡(luò)流量的增加,流量的持續(xù)增長也推動著數(shù)據(jù)中心網(wǎng)絡(luò)往更快、更大帶寬和更低延遲的高速網(wǎng)絡(luò)方向發(fā)展。
Spine+Leaf網(wǎng)絡(luò)架構(gòu)
直到幾年前,大多數(shù)的數(shù)據(jù)中心網(wǎng)絡(luò)還都是基于傳統(tǒng)的三層架構(gòu),對于大多數(shù)具有像園區(qū)網(wǎng)絡(luò)這樣的縱向(North-South)配置的流量模型來說是很實用的,而且三層網(wǎng)絡(luò)結(jié)構(gòu)應用廣泛而且技術(shù)成熟穩(wěn)定。一個標準的傳統(tǒng)三層的網(wǎng)絡(luò)結(jié)構(gòu)如圖1-1所示:
圖1-1 傳統(tǒng)三層網(wǎng)絡(luò)架構(gòu)
但隨著云計算的發(fā)展,橫向(East-West)流量在數(shù)據(jù)中心占據(jù)主導地位,涵蓋幾乎所有的云計算,虛擬化以及大數(shù)據(jù)橫向網(wǎng)絡(luò)在縱向設(shè)計的網(wǎng)絡(luò)拓撲中傳輸數(shù)據(jù)會帶有傳輸?shù)钠款i,因為數(shù)據(jù)經(jīng)過了許多不必要的節(jié)點(如路由和交換機等設(shè)備)。主機互訪需要通過層層的上行口,帶來明顯的性能衰減,而三層網(wǎng)絡(luò)的原始設(shè)計更會加劇這種性能衰減。
由此,就有了IP Fabric概念,IP Fabric指的是在IP網(wǎng)絡(luò)基礎(chǔ)上建立起來的Overlay/隧道技術(shù)。如圖1-2所示為基于胖樹的Spine+Leaf拓撲結(jié)構(gòu)的IP Fabric組網(wǎng)圖。
圖1-2 IP Fabric網(wǎng)絡(luò)的兩層架構(gòu)
在這種組網(wǎng)方式中,任何兩臺服務(wù)器間的通信不超過3臺設(shè)備,每個Spine和Leaf節(jié)點全互連,可以方便地通過擴展Spine節(jié)點來實現(xiàn)網(wǎng)絡(luò)規(guī)模的彈性擴展。只要遍歷一定數(shù)量的交換機,可以在幾乎所有數(shù)據(jù)中心結(jié)構(gòu)體系結(jié)構(gòu)中的服務(wù)器節(jié)點之間傳輸流量。該架構(gòu)由多條高帶寬的直接路徑組成,消除了網(wǎng)絡(luò)瓶頸帶來的潛在傳輸速度下降,從而實現(xiàn)極高的效率和低延遲。
圖1-3 Spine-leaf架構(gòu)
用盒式機代替?zhèn)鹘y(tǒng)框式機
在設(shè)計和建設(shè)一個數(shù)據(jù)中心的網(wǎng)絡(luò)時,我們需要充分考慮到至少未來5年的技術(shù)、行業(yè)需求發(fā)展和運營成本開支,從而更優(yōu)化地使用現(xiàn)有的數(shù)據(jù)中心資源服務(wù)于企業(yè)核心業(yè)務(wù)。
在網(wǎng)絡(luò)交換機選型是整個數(shù)據(jù)中心網(wǎng)絡(luò)設(shè)計的關(guān)鍵因素之一。傳統(tǒng)的大型網(wǎng)絡(luò)設(shè)計選擇框式設(shè)備,以提高整個網(wǎng)絡(luò)系統(tǒng)的容量上限,并提供的有限的可擴展性,但是相應的,存在如下的限制和風險:
框式設(shè)備總體容量有限,已經(jīng)不能滿足數(shù)據(jù)中心不斷增長的網(wǎng)絡(luò)規(guī)模需求。
核心框式設(shè)備采用雙連接方式部署,故障半徑高達50%,無法有效保障業(yè)務(wù)安全。
框式設(shè)備部署實施復雜,故障診斷和排除周期長,升級維護的業(yè)務(wù)中斷時間長。
為保障后期業(yè)務(wù)擴容,框式設(shè)備預留插槽,使得前期的投資成本提升。
所以在網(wǎng)絡(luò)設(shè)備選型方面,我們建議用整網(wǎng)盒式交換機組網(wǎng),不同層級的交換機型號統(tǒng)一,便于維護團隊快速熟悉,同時后期的網(wǎng)絡(luò)架構(gòu)調(diào)整,設(shè)備復用和維修替換提供可操作的空間。
建設(shè)初期的網(wǎng)絡(luò)投資(擁有成本TCO)也大大縮小的同時,Spine-Leaf(CLOS)架構(gòu)配合盒式交換機組網(wǎng),提供了可橫向擴展的能力。即便spine交換機故障離線,也僅僅影響小部分網(wǎng)絡(luò)帶寬,業(yè)務(wù)完全無感知。后續(xù)擴展方面,僅需要根據(jù)數(shù)據(jù)中心的規(guī)模需求,添加交換機數(shù)量和層級,相應的擴展網(wǎng)絡(luò)的接入容量和骨干網(wǎng)絡(luò)交換容量。整個網(wǎng)絡(luò)按需采購和部署,一切服務(wù)與應用和業(yè)務(wù)需求。
Overlay網(wǎng)絡(luò)
Overlay網(wǎng)絡(luò)是建立在已有物理網(wǎng)絡(luò)上的虛擬網(wǎng)絡(luò),具有獨立的控制和轉(zhuǎn)發(fā)平面,對于連接到Overlay的終端設(shè)備(例如服務(wù)器)來說,物理網(wǎng)絡(luò)是透明的,從而可以實現(xiàn)承載網(wǎng)絡(luò)和業(yè)務(wù)網(wǎng)絡(luò)的分離,如圖1-4所示:
圖 1-4 Overlay/Underlay網(wǎng)絡(luò)概念圖
Overlay網(wǎng)絡(luò)有著各種網(wǎng)絡(luò)協(xié)議和標準,包括VXLAN、NVGRE、SST、GRE、NVO3、EVPN等。
VXLAN
VXLAN(Virtual eXtensible LAN,可擴展虛擬局域網(wǎng)絡(luò))是基于IP網(wǎng)絡(luò)、采用“MAC in UDP”封裝形式的二層VPN技術(shù)。VXLAN可以基于已有的服務(wù)提供商或企業(yè)IP網(wǎng)絡(luò),為分散的物理站點提供二層互聯(lián),并能夠為不同的租戶提供業(yè)務(wù)隔離。VXLAN 主要應用于數(shù)據(jù)中心網(wǎng)絡(luò)和園區(qū)接入網(wǎng)絡(luò)。
圖 1-5 VXLAN模型
初始的IET FVXLAN 標準 (RFC 7348) 定義了一個基于組播、不采用控制平面的“泛洪和學習”的VXLAN。它對遠程 VXLAN 的VTEP(虛擬隧道末端點)發(fā)現(xiàn)和遠程終端主機MAC學習依靠數(shù)據(jù)驅(qū)動式泛洪進行。重疊廣播、未知單播和組播流量封裝到組播VXLAN數(shù)據(jù)包并通過底層組播轉(zhuǎn)發(fā)傳輸?shù)竭h程VTEP交換機。此類部署中的泛洪可能給解決方案的可擴展性帶來挑戰(zhàn)。在底層網(wǎng)絡(luò)中啟用組播功能的要求也會帶來挑戰(zhàn),因為某些組織不希望在其數(shù)據(jù)中心或廣域網(wǎng)網(wǎng)絡(luò)中啟用組播。
圖 1-6 flood-learn
如圖1-6,假設(shè)最左側(cè)虛機已經(jīng)知道目的MAC了(VTEP中的L2 Table已經(jīng)老化,虛機中的ARP cache還沒老化)。當最左側(cè)虛機想ping最右側(cè)虛機,ping包送到VTEP,因為在VTEP中找不到對應的Remote VTEP,VTEP會做如下操作:
(1)原始的Ethernet Frame被封裝成VXLAN格式,VXLAN包的外層目的IP地址為組播地址。
(2)VXLAN數(shù)據(jù)包被發(fā)送給組播內(nèi)所有其他VTEP。
VXLAN-EVPN部署彈性網(wǎng)絡(luò)
VXLAN由RFC7348定義,其中只定義了數(shù)據(jù)層的行為,并沒有指定VXLAN控制層。在VXLAN技術(shù)早期,通過數(shù)據(jù)層的來獲取轉(zhuǎn)發(fā)信息,在實現(xiàn)上較為簡單,相應的技術(shù)門檻較低,有利于廠商實現(xiàn)VXLAN。但是隨著網(wǎng)絡(luò)規(guī)模的發(fā)展,完全依賴數(shù)據(jù)層做控制會造成網(wǎng)絡(luò)中廣播組播風暴,因此VXLAN也需要有一個控制層。
VXLAN 重疊網(wǎng)絡(luò)在“泛洪和學習”模式下運行,在此模式下,終端主機信息學習和 VTEP 發(fā)現(xiàn)均由數(shù)據(jù)平面驅(qū)動,在VTEP之間沒有控制協(xié)議分發(fā)終端主機可達性信息,要克服此局限,可以將多協(xié)議邊界網(wǎng)關(guān)協(xié)議以太網(wǎng)虛擬專用網(wǎng)絡(luò) (MP-BGP EVPN) 用作VXLAN控制平面。
有了控制層數(shù)據(jù),數(shù)據(jù)層就簡單多了。Server A想訪問Server B,通過查找本地VTEP L2 Table找到VTEP2,再封裝成VXLAN數(shù)據(jù)發(fā)送到VTEP2,VTEP2將VXLAN解封裝,轉(zhuǎn)發(fā)給本地的Server B。所以可以看出,從數(shù)據(jù)層面角度來看,有沒有EVPN效果都是一樣的。EVPN只負責VXLAN的控制層面,也就是MAC轉(zhuǎn)發(fā)信息的傳輸,對VXLAN數(shù)據(jù)層面沒有影響。
圖 1-7 EVPN作為控制平面
VXLAN作為新型的網(wǎng)絡(luò)隔離技術(shù),在RFC 7348定義中有24比特,支持多達16M(約1600萬)租戶隔離,有效地解決了云計算中海量租戶隔離的問題。在VTEP本地進行VLAN 隔離和跨越設(shè)備的VNI隔離(VLAN到VNI的映射),組成結(jié)合物理網(wǎng)絡(luò)隔離和虛擬網(wǎng)絡(luò)的Overlay網(wǎng)絡(luò)。
采用EVPN作為VXLAN的控制平面具有以下優(yōu)勢:
可實現(xiàn)VTEP自動發(fā)現(xiàn)、VXLAN隧道自動建立,從而降低網(wǎng)絡(luò)部署、擴展的難度。
EVPN可以同時發(fā)布二層MAC信息和三層路由信息。
可以減少網(wǎng)絡(luò)中的泛洪流量。
我們的方案
在HPC、AI、5G、云計算場景中的,數(shù)據(jù)中心網(wǎng)絡(luò)需要滿足帶寬、時延、穩(wěn)定性的高要求,同時支持網(wǎng)絡(luò)虛擬化。納多德NADDOD與NVIDIA推出支持25/100/200GbE到服務(wù)器、高密度100/200/400GbENvidiaOpen Ethernet Spectrum交換機和無控制器網(wǎng)絡(luò)虛擬化的開放平臺??刹渴鹪诘?層和第3層云設(shè)計中、基于覆蓋的虛擬化網(wǎng)絡(luò)中,或作為高性能、關(guān)鍵任務(wù)以太網(wǎng)存儲結(jié)構(gòu)的一部分??煽绺鞣N應用領(lǐng)域(例如云計算、數(shù)據(jù)存儲、人工智能等)提供行業(yè)領(lǐng)先的性能、可擴展性、可靠性和價值。由此,我們推出了如下兩種方案:
針對25G接入100G骨干場景:
NVIDIA SN3700C+ SN3420組合方案:
SN3700C是高密度 32x100GbE SPINE Switch
SN3420 是具有原生 25GbE 端口的LEAF Switch,支持 48x25GbE 和 8x100GbE 端口
也可也選擇NVIDIA SN2700(32x100GbE)+ SN2410( 48x25GbE 和 8x100GbE)組合方案,時延可低至300ns,滿足更低時延需求。
針對100G接入400G骨干場景:
NVIDIA SN4700+ SN4410組合方案:
SN4700是高密度 32x400GbE SPINE Switch
SN4410 支持48x100GbE 和 8x400GbE 端口,QSFP28-DD接口可一分二QSFP28,提供100G的接入能力,用于連接主機100G接口,或者下一級100G上聯(lián)口。
我們的優(yōu)勢
高性能100/200/400 GbE數(shù)據(jù)平面
網(wǎng)絡(luò)是數(shù)據(jù)中心服務(wù)器流量的自然匯聚點。不同租戶流量之間的網(wǎng)絡(luò)性能和“公平性”至關(guān)重要。
NVIDIA Spectrum交換機具有完全共享的整體式數(shù)據(jù)包緩存架構(gòu),可實現(xiàn)公平帶寬共享。支持所有數(shù)據(jù)包大小的 100/200/400 GbE 流量的無阻塞線速L3服務(wù),且SN2000系列在直通模式下支持 300ns 的零抖動延遲支持。是高性能低延遲需求的理想選擇。
RoCE over EVPN-VXLAN
數(shù)據(jù)中心網(wǎng)絡(luò)部署方案和產(chǎn)品越來越成熟和標準化,有效的提升了業(yè)務(wù)部署的速度,并降低運維的成本。于此同時,業(yè)務(wù)需求推動數(shù)據(jù)中心應用也對基礎(chǔ)設(shè)施提出更高的需求,包含算力,存儲和網(wǎng)絡(luò)資源。為了能匹配上層需求,算力/存儲/網(wǎng)絡(luò)資源的橫向擴展,就網(wǎng)絡(luò)設(shè)計而言,網(wǎng)絡(luò)虛擬化需要在提升規(guī)模的同時,對于高性能的業(yè)務(wù)提供支持。網(wǎng)絡(luò)虛擬化與RoCE的結(jié)合,使得大型高性能數(shù)據(jù)中心的方案更加完整。
WJH功能快速故障定位,提升運維效率
實時的網(wǎng)絡(luò)故障可視化監(jiān)控,是運維大規(guī)模網(wǎng)絡(luò)比不可少的技術(shù)手段?,F(xiàn)代數(shù)據(jù)中心的技術(shù)要求也證明了,簡化組網(wǎng)協(xié)議,深度實時的網(wǎng)絡(luò)可視化能力,是整體技術(shù)發(fā)展的趨勢。NVIDIA Spectrum 交換機通過 NVIDIA What Just Happened(故障快照)支持詳細的上下文遙測數(shù)據(jù)。故障快照可在問題發(fā)生后,以異常事件的形式上送給網(wǎng)管或者第三方監(jiān)控平臺,并提供報文抓取和芯片級的問題原因。無論是否為配置問題,運維人員可以直接看到故障影響的業(yè)務(wù)和原因,進而快速的采取措施,排除異常,從而大大縮短了解決問題的平均時間。
總結(jié)和展望
根據(jù)企業(yè)數(shù)據(jù)中心的發(fā)展趨勢和技術(shù)預測,數(shù)據(jù)中心將逐步分布式化,多數(shù)據(jù)中心也正逐漸成為數(shù)據(jù)中心發(fā)展的趨勢,網(wǎng)絡(luò)技術(shù)作為數(shù)據(jù)中心基礎(chǔ)設(shè)施的重要一環(huán),也將持續(xù)打造超高速網(wǎng)絡(luò)連接,提升系統(tǒng)訪問效率和用戶服務(wù)體驗。
NVIDIA Spectrum 以太網(wǎng)交換機Cumulus Linux為業(yè)界帶來了第一個開放且無控制器VXLAN 解決方案。它將高度可擴展的 BGP EVPN與VXLAN 解決方案相結(jié)合,在許多大型數(shù)據(jù)中心通過Spine-Leaf架構(gòu)在整個網(wǎng)絡(luò)中提供出色的彈性和低延遲,根據(jù)需要輕松進行水平擴展,推動數(shù)據(jù)中心網(wǎng)絡(luò)的高質(zhì)量發(fā)展。
審核編輯:湯梓紅
-
交換機
+關(guān)注
關(guān)注
21文章
2654瀏覽量
99954 -
數(shù)據(jù)中心
+關(guān)注
關(guān)注
16文章
4844瀏覽量
72286
發(fā)布評論請先 登錄
相關(guān)推薦
評論