世界上現(xiàn)有的交換機(jī)制造商可以從服務(wù)器(server racket)上學(xué)到一些東西。實(shí)際上,他們也的確這樣做。但這是因?yàn)槭澜缟系某笠?guī)模用戶和云建設(shè)者一直在倡導(dǎo)他們分解交換機(jī)的組件,以開(kāi)放交換機(jī)的架構(gòu),并推動(dòng)他們讓器件更可編程,這樣便不必像今天一樣花好幾年時(shí)間等待下一代芯片的問(wèn)世。
縱觀整個(gè)產(chǎn)業(yè)的發(fā)展,在過(guò)去的三十年中,互聯(lián)網(wǎng)已經(jīng)變得非常商業(yè)化,企業(yè)網(wǎng)絡(luò)的協(xié)議和技術(shù)已經(jīng)發(fā)生了變遷。但是我們也應(yīng)該看到,雖然作為互聯(lián)網(wǎng)中堅(jiān)力量的以太網(wǎng)和TCP/IP協(xié)議棧顯然是開(kāi)放的,但是交換芯片和交換機(jī)制造商都對(duì)內(nèi)部的組件諱莫如深。在過(guò)去幾十年里,他們也很享受這種全盤控制給他們?nèi)怏w上、心理上、技術(shù)上和經(jīng)濟(jì)上帶來(lái)的快感。
我們發(fā)現(xiàn)這很煩人,為此我們鼓勵(lì)大數(shù)據(jù)領(lǐng)域內(nèi)的領(lǐng)先交換芯片制造商(如Broadcom,Mellanox Technologies,Barefoot、Cavium和Innovium)詳細(xì)談?wù)撍麄兊募夹g(shù)。但與我們從全球CPU制造商那里獲得的技術(shù)相比,他們公開(kāi)的技術(shù)太膚淺。而且交換機(jī)的元件也沒(méi)有像我們可以從任何一臺(tái)OEM或ODM想要組裝的服務(wù)器上那樣被詳細(xì)地列出。也許有一天,交換機(jī)技術(shù)公開(kāi)會(huì)成為現(xiàn)實(shí)。
最近,在數(shù)據(jù)中心交換設(shè)備巨頭思科公司舉辦的思科Live盛會(huì)期間,我們覺(jué)得特別惱火,因?yàn)槲覀儼l(fā)現(xiàn),雖然思科實(shí)際上已經(jīng)采用了Barefoot Networks的“Tofino”可編程交換機(jī),但他們卻不想承認(rèn)這個(gè)事實(shí),而是大談特談其未來(lái)的可編程交換機(jī)的計(jì)劃,還有希望能夠重新進(jìn)入超大規(guī)模用戶數(shù)據(jù)中心領(lǐng)域等東西。但實(shí)際上除了在一些金融服務(wù)公司中有分布式欺詐檢測(cè)和風(fēng)險(xiǎn)分析集群以外,思科在HPC中沒(méi)有其他任何業(yè)務(wù),而前者也市值由于他們熟悉iOS或NX-OS交換機(jī)操作系統(tǒng),所以喜歡購(gòu)買思科交換機(jī)。
網(wǎng)絡(luò)管理員對(duì)思科交換機(jī)操作系統(tǒng),以及對(duì)不同的交換機(jī)ASIC(無(wú)論是自主開(kāi)發(fā)的還是從商業(yè)交換芯片供應(yīng)商那里購(gòu)買的)的熟悉程度,是思科仍在數(shù)據(jù)中心交換機(jī)市場(chǎng)占據(jù)主導(dǎo)份額的原因。但是,這一份額已經(jīng)從互聯(lián)網(wǎng)熱潮時(shí)期的65%下降到50%左右,這是有原因的。最主要的一點(diǎn)是,新興的交換機(jī)制造商采用了新興的商業(yè)交換芯片,改變了市場(chǎng)上的競(jìng)爭(zhēng)格局、定價(jià)和創(chuàng)新步伐。但很明顯的餓死,思科并沒(méi)有與他們對(duì)抗,而是被迫加入他們的陣型。
最近在思科Live上,我們發(fā)現(xiàn)了思科技術(shù)營(yíng)銷工程師Faraz Taifeshesmatian做的一個(gè)精美演示,在上面,他詳細(xì)介紹了思科Nexus 3000系列頂級(jí)機(jī)架式交換機(jī)中使用的商業(yè)交換芯片。值得一提的還是,這系列是思科對(duì)抗白盒交換機(jī)制造商,以及以太網(wǎng)領(lǐng)域的Arista Networks、Juniper Networks、Mellanox、戴爾、惠普的武器。
在PPT中詳細(xì)描述并體現(xiàn)出我們倡導(dǎo)的那種開(kāi)放。雖然我們無(wú)法參加思科Live,但這正是我們想要看的。Taifeshesmatian雖然沒(méi)有談?wù)揘exus 9000芯片,但據(jù)我們所知,該芯片擁有思科自主研發(fā)的“Alpine”和“Northstar”ASIC,并且其應(yīng)用中心基礎(chǔ)架構(gòu)(ACI)軟件定義的網(wǎng)絡(luò)擴(kuò)展已經(jīng)出爐。即使他沒(méi)有詳細(xì)討論商業(yè)Nexus 9200、9300和9500交換機(jī)中使用的交換芯片。但是下面的圖表確實(shí)提到了它們:
如你所見(jiàn),在過(guò)去的幾年里,思科采用了Broadcom的各種芯片——Trident、Tomahawk和Jericho系列。最近,Nexus 3400采用了Barefoot Networks的Tofino芯片。下面的圖表總結(jié)了各種Nexus 3000交換機(jī)的目標(biāo)市場(chǎng)和功能集:
這便是Taifeshesmatian總結(jié)的PPT的奇妙之處。它實(shí)際上提供了Broadcom和Barefoot未透露的一些芯片技術(shù)細(xì)節(jié)。(衷心感謝你。)
Let’s take them in order, starting with the Nexus 3000 family. The Nexus 3100 was based on Broadcom’s “Trident-2” ASICs, which delivered 1.28 Tb/sec of aggregate bandwidth and had a 12.2 MB buffer. With the Nexus 3100-V, Cisco moved on up to the “Trident-2+” ASIC, which boosted the buffer to 16 MB and had the same bandwidth. The Nexus 3100-Z adopted the “Trident-3” chip from Broadcom, which boosted the bandwidth by 2.5X to 3.2 Tb/sec and the buffer by 2X to 32 MB.
讓我們依次看一遍。Nexus 3100基于Broadcom的“Trident-2”ASIC,提供1.28Tb/秒的總帶寬,并擁有12.2MB緩沖區(qū)。在新的Nexus 3100-V上,思科采用了全新的“Trident-2+”ASIC,該產(chǎn)品將緩沖區(qū)提升至16MB,并具有相同的帶寬。Nexus 3100-Z則采用了Broadcom的“Trident-3”芯片,該芯片將帶寬提升2.5倍,達(dá)到3.2Tb/秒,緩沖區(qū)提升2倍,達(dá)到32MB。
下圖Trident-3芯片的框圖:
在這個(gè)1U交換機(jī)中,32個(gè)以100Gb/秒速率運(yùn)行的端口都有一個(gè)“Falcon”核心,還有一個(gè)10Gb/秒的“Merlin”核心用于管理。Trident-3芯片有兩個(gè)數(shù)據(jù)包處理流水線,每個(gè)流水線都有16個(gè)Falcon核心,這些核心被分成兩組Falcon SerDes。每四分之一的SerDes都可以訪問(wèn)ASIC傳輸帶寬的四分之一。
下圖是Trident-3在Nexus 3100-Z交換機(jī)中的實(shí)際應(yīng)用:
如你所見(jiàn),這款交換機(jī)本身就是一臺(tái)混合服務(wù)器,在名為“Chimay”的板子上,不僅有Trident-3 ASIC,而且還有一個(gè)自帶內(nèi)存的1.8GHz Xeon處理器(我們猜測(cè)它是Intel的Xeon-D芯片)。另外,還有一顆FPGA和一系列CPLD放置在端口和FPGA之間,以加速該交換芯片外部的某些功能。觀察可知,Xeon處理器通過(guò)PCI-Express鏈路連接到交換機(jī)ASIC和FPGA。
我們繼續(xù)看Nexus 3200,產(chǎn)品最初是基于Broadcom的“Tomahawk-2”ASIC設(shè)計(jì)的,它具有3.2 Tb/秒的總切換帶寬,并且有4塊4MB的緩沖存儲(chǔ)器,總計(jì)16MB。 而新的Nexus 3200-E交換機(jī)雖然也是也基于Tomahawk-2系列,但是它的額定值為6.4Tb/秒,并且有4塊10.5MB的緩沖存儲(chǔ)器,總計(jì)42MB。
這款Nexus 3200-E增加了很多功能,基于64個(gè)Falcon內(nèi)核的64個(gè)端口以100Gb/秒的速度運(yùn)行,并且一個(gè)Merlin內(nèi)核用于管理,運(yùn)行速度可達(dá)100Gb/秒。這些端口都可以分成多個(gè)較慢的端口,如框圖所示。
Nexus 3200-E交換機(jī)的結(jié)構(gòu)如下:
此處有一個(gè)叫做“Tyskie”,不同的計(jì)算板,它仍然有一個(gè)帶有自己的內(nèi)存插槽的1.8 GHz Xeon CPU。初步看來(lái),這可能是升級(jí)版的Xeon-D芯片。另外,Nexus 3200-E有48個(gè)Falcon核心,端口處理速度為100Gb/秒,16個(gè)端口有MACsec加密,用于在進(jìn)出交換機(jī)時(shí)對(duì)數(shù)據(jù)進(jìn)行加密。該芯片還有兩個(gè)FPGA用于函數(shù)加速。
有趣的是,思科尚未公布基于Broadcom今年1月份公布推出的“Tomahawk-3”芯片設(shè)計(jì)的交換機(jī),但我們猜測(cè)它將在今年年底或明年初推出。
我們繼續(xù)看Nexus 3400。這是一款基于Barefoot Networks的Tofino可編程芯片的新型交換機(jī)。思科宣布在3400產(chǎn)品線上推出Tofino交換機(jī),其中18個(gè)端口使用1.8Tb/秒的入門級(jí)Tofino ASIC,以100Gb/秒的速度運(yùn)行,但他們同時(shí)展示了它采用高端的6.4Tb/秒的部分,這意味著還有一款64端口的Nexus 3000系列交換機(jī)正在研發(fā)。
下圖是對(duì)Barefoot系列的一個(gè)相當(dāng)?shù)驼{(diào)的實(shí)現(xiàn):
這些端口可以分成36個(gè)以40 Gb/秒或50 Gb/秒運(yùn)行的端口或72個(gè)以10 Gb/秒或25Gb/秒運(yùn)行的端口,這對(duì)一些服務(wù)提供商、超大規(guī)模用戶和云建設(shè)者來(lái)說(shuō)非常重要。當(dāng)然,在Tofino芯片上有一個(gè)100Gb/sec的管理端口,可以根據(jù)需要進(jìn)行分割。該芯片分為兩塊,每塊速度900Gb/秒,帶有一個(gè)16MB的統(tǒng)一數(shù)據(jù)包緩沖區(qū),當(dāng)然還有一個(gè)流水線,它完全可以通過(guò)Barefoot Networks創(chuàng)建并開(kāi)源的P4語(yǔ)言進(jìn)行編程。
Nexus 3400看起來(lái)很像Nexus 3100,在Nexus 3200的一些端口上添加了一些“Bear Valley”MACsec加密電路。事實(shí)上,它看起來(lái)很像是一個(gè)ASIC換了一些稍微不同的端口配置。請(qǐng)看:
現(xiàn)在我們看看Nexus 3500,它已經(jīng)在這個(gè)領(lǐng)域使用了6年,并且基于思科自己的“Monticello”ASIC。這款Nexus 3500專門針對(duì)高頻交易的應(yīng)用,雖然它只有10Gb/秒端口,但端口到端口跳躍的延遲低至250納秒,這比一個(gè)相對(duì)快速的以太網(wǎng)交換機(jī)通常的450納秒要低很多。
下圖是Monticello ASIC的框圖:
Monticello芯片有三塊緩沖區(qū),提供18MB的容量,而數(shù)據(jù)包傳輸引擎可以提供480Gb/秒的聚合帶寬,每秒處理7.2億個(gè)數(shù)據(jù)包。同樣,這并不是什么大新聞,但是延遲,特別是一致的延遲才是最重要的。
下圖是Nexus 3548交換機(jī)的框圖:
這款交換機(jī)暴露了它的年齡,但它仍然可能廣泛用于金融服務(wù)行業(yè)。作為Nexus 3500唯一實(shí)例的Nexus 3548采用了英特爾的雙核“Ivy Bridge”酷睿i3-3227U處理器,該處理器的頻率可以從1.9GHz的額定速度超頻至2.5GHz。同時(shí),該處理器擁有16 MB自帶的閃存,可以從DRAM內(nèi)存啟動(dòng)。
另外,Nexus 3548機(jī)箱中有一個(gè)FPGA,可以支持48個(gè)以10Gb/秒或25Gb/秒速率運(yùn)行的端口。最后一點(diǎn)很簡(jiǎn)略,因?yàn)?5G標(biāo)準(zhǔn)在25G以太網(wǎng)標(biāo)準(zhǔn)推出很久后才發(fā)布。很明顯,有一些軟件定義的功能與Monticello ASIC相配合。這很好。
最后是基于Broadcom“Jericho +”ASIC的Nexus 3600系列深度緩沖器(deep buffer)交換機(jī)。最初的Nexus 3600擁有一對(duì)Jericho+ASIC,可提供1.8 Tb/秒的交換帶寬,并具有8 GB(注意是GB,不是MB)的緩沖容量,而今年推出的第二代則有四個(gè)Jericho+芯片,高達(dá)3.6 Tb/秒的切換帶寬和16GB的緩沖容量。
下圖是Broadcom Jericho ASIC框圖:
每個(gè)Jericho+芯片可以達(dá)到900Gb/秒的帶寬,每秒處理835萬(wàn)個(gè)數(shù)據(jù)包,并且該芯片有一對(duì)包含96個(gè)虛擬輸出隊(duì)列的數(shù)據(jù)包處理內(nèi)核。這些數(shù)據(jù)包緩沖區(qū)基于GDDR5存儲(chǔ)器,與顯卡中使用的一樣。
這里是最新的Nexus 3636交換機(jī)的架構(gòu)布局:
該交換機(jī)上的處理器板稱為“Redcastle”,它是基于一個(gè)8核的Broadwell Xeon-D芯片,運(yùn)行頻率為2GHz。嵌入在交換機(jī)中的服務(wù)器主板具有2MB的NVRAM內(nèi)存,位于其DRAM主內(nèi)存旁邊,另外還有一個(gè)128GB閃存驅(qū)動(dòng)器用于啟動(dòng)NX-OS網(wǎng)絡(luò)操作系統(tǒng)。
有一個(gè)PCI-Express交換機(jī)將CPU模組連接到4個(gè)Jericho芯片上,這4個(gè)芯片有自己的交叉開(kāi)關(guān)電路用于彼此連接。(實(shí)際上,這是兩層網(wǎng)絡(luò)在一個(gè)機(jī)箱里,就像一臺(tái)單獨(dú)的交換機(jī)一樣。)Nexus 3636交換機(jī)在板上有四個(gè)Bear Valley芯片,它們?cè)跈C(jī)箱里的32個(gè)端口中的8個(gè)端口上提供MACsec加密。
評(píng)論
查看更多