突襲,其實并不恰當(dāng)!
因為字節(jié)跳動自研交換機,早在2019年,就開始悄悄布局了。
只是這一次,隨著51.2T高性能數(shù)據(jù)中心交換機的閃亮登場,字節(jié)跳動也低調(diào)宣布,實現(xiàn)了“在2023年全面上線自研交換機的目標(biāo)”。
廢話不說,看看這款命名為B5020的51.2T交換機的細節(jié)吧。
按字節(jié)的說法,這可是全球首款51.2T全端口支持LPO的交換機,也是全球率先實現(xiàn)800G實際規(guī)?;渴鸬?a target="_blank">產(chǎn)品。劃重點
上面視頻來源于字節(jié)跳動系統(tǒng)技術(shù)公眾號(字節(jié)跳動SYS Tech),我在二次剪輯的時候,把一些關(guān)鍵信息摘出來Highlight了一下。
先看一下交換機的外觀和內(nèi)部結(jié)構(gòu),標(biāo)準(zhǔn)機架式,4U高度,64×800GbE端口。 整機交換容量51.2Tbs(其實按業(yè)界全雙工的算法應(yīng)該是102.4Tbps),這個容量也是當(dāng)下業(yè)界單芯片盒式交換機的極限。
有人說,前面板看著挺空的,似乎2U就能擺下這些端口,為啥不把機箱做得更緊湊些(比如3U甚至2U),豈不是更能節(jié)省機房空間。
其實,字節(jié)在設(shè)計這款交換機的時候,散熱、電源功率、機箱結(jié)構(gòu)等等,都是做了向后兼容下一102.4T產(chǎn)品的考慮,且從功率密度角度,2U省空間是偽命題。
未來,單芯片102.4T時代,這個4U結(jié)構(gòu)正好可以擺下128個800G端口(當(dāng)然也可以是64×1.6T,這端口速度,看著就嚇人啊,剛?cè)胄械臅r候,1G我都覺得很少見,誰能想20年后,馬上要1600G了)。
在板卡設(shè)計上,字節(jié)也做了很多微創(chuàng)新,比如整機一張MAC-PCB板,整機內(nèi)部僅用三條連接線纜。
這些極簡設(shè)計可以讓整機生產(chǎn)功率大幅減少。有助于提高生產(chǎn)直通率,減少故障點。
以前大家學(xué)產(chǎn)品規(guī)劃/管理的時候,都有一條叫做DFM(Design For Manufacturing)。在這里,字節(jié)就運用得很好。
再比如,在僅用28層PCB方案的情況下,完成高密度布線設(shè)計,而且成功將全端口最大損耗控制在7d以下。
較少層數(shù)的PCB,降低了生產(chǎn)難度,也能更好地控制硬件成本。
在端口扇出(Fan out)設(shè)計上,字節(jié)團隊摒棄了傳統(tǒng)扇出方案(傳統(tǒng)扇出方案在大芯片時代,遠端端口難以維持信號完整性),首創(chuàng)了大芯片布線空間復(fù)用方案。
PCB相關(guān)的設(shè)計論文,入選了全球芯片設(shè)計領(lǐng)域的頂級會議DesignCon2024,并申請了兩項發(fā)明專利。
上面入選的論文一共三篇,其中兩篇是PCB設(shè)計相關(guān),還有一篇涉及800G LPO技術(shù),因為這款交換機還在業(yè)內(nèi)首度采用了800G LPO。
跟傳統(tǒng)光模塊相比,LPO光模塊功耗低、延遲低,當(dāng)然成本也更低。
另外,為了簡化運維,這款交換機的管理引擎采用了插卡式模塊化設(shè)計,替換方便。
同時管理引擎上的BMC、SSD、DDR內(nèi)存等,全部都是扣卡設(shè)計,大大降低了運維難度。
有同學(xué)評價:管理引擎光模塊化還不夠,不支持熱插拔,也不是雙冗余。
其實這是對業(yè)務(wù)場景和交換機定位的誤解。
這款B5020并不是模塊化機箱交換機,而是一款“盒式”機架交換機,應(yīng)用場景是互聯(lián)網(wǎng)數(shù)據(jù)中心/智算中心的Leaf或者Spine。
在這樣的場景下,一般采用胖樹架構(gòu),而不是咱們常規(guī)園區(qū)或者企業(yè)網(wǎng)絡(luò)中,雙核心+匯聚+接入。
比如,互聯(lián)網(wǎng)大廠數(shù)據(jù)中心一個典型的胖樹網(wǎng)絡(luò)是這樣的,B5020充當(dāng)?shù)慕巧褪且慌_高速率、高密度同時高性價比、易運維的Spine或者Leaf。
在交換機軟件上,字節(jié)基于開源的SONiC,自研了Lambda OS。
不得不說,這幾年SONiC的成熟度越來越高,生態(tài)也越來越好,很多互聯(lián)網(wǎng)大廠都開始基于SONiC來開發(fā)自家的交換機軟件。
關(guān)于字節(jié)的這款交換機,我們就扒到這里。
根據(jù)字節(jié)跳動的說法,他們已經(jīng)實現(xiàn)了在2023 年全面上線自研交換機的目標(biāo)。
目前大規(guī)模交付的 100G/400G 網(wǎng)絡(luò),全由自研交換機覆蓋,硬件采用 JDM + CM 模式研發(fā),軟件則是自研的 Lambda OS。
說到這里,我們有必要談?wù)動布难邪l(fā)模式:JDM+CM。
以交換機為例,業(yè)界的產(chǎn)品研發(fā)模式包括:
最初級的叫OEM模式,也就是大家常說的貼牌。交換機軟硬件整機全是原廠提供,品牌商只需要貼標(biāo),修改下軟件界面,就變成自家的品牌。
第二級叫做ODM模式,品牌商有自己的idea,提出自己的定制化需求,然后由ODM商完成設(shè)計和生產(chǎn)。對交換機來說,一般品牌廠家具備軟件研發(fā)能力,只需要ODM定制化硬件。尤其白盒時代,這種流行度很高。
第三級叫做JDM模式,Joint Design Manufacture,聯(lián)合設(shè)計制造,是客戶企業(yè)(比如字節(jié))和交換機制造商(比如數(shù)通大廠)共同參與設(shè)計和開發(fā),企業(yè)方需要深度參與整個過程。
再往上,更純粹的CM模式,Contract Manufacture,合同制造,也就是客戶企業(yè)完全自行設(shè)計,然后委托給制造商生產(chǎn)。
回頭看,字節(jié)交換機采用的模式就是“JDM+CM”,即聯(lián)合設(shè)計制造+委托生產(chǎn),這可不是貼牌,人家說自研,完全沒毛病。
最后一個問題,有吃瓜群眾評論,為啥字節(jié)“不務(wù)正業(yè)”非要搞交換機呢?難道字節(jié)是看重交換機那點可憐巴巴的市場嗎?
非也,其實互聯(lián)網(wǎng)大廠自研基礎(chǔ)設(shè)施,是大勢所趨,也是真實剛需。從國外的谷歌、Facebook到國內(nèi)BAT,都有自研的經(jīng)歷。
從服務(wù)器到存儲到交換機,甚至到AI芯片、DPU、主芯片,互聯(lián)網(wǎng)巨頭們一直在努力。 一方面是他們用量太大,通過自研是真的可以有效降低成本。另一方面,大廠們會根據(jù)自己的業(yè)務(wù)場景需求,來定制軟件和硬件,讓這些設(shè)備更純粹的扛活。
所以,更低的成本、更方便運維、極簡且定制的功能,這些是大廠們看重的,其實前面視頻里,字節(jié)也多次強調(diào)了成本的節(jié)省、功耗的節(jié)省、運維的簡化。
這不是交換機廠商的宣傳標(biāo)簽,這是人家真實的需求啊。
還有一點新變化,在我們常規(guī)的組網(wǎng)工程里,交換機的數(shù)量要遠遠少于主機/服務(wù)器。
但是在現(xiàn)代數(shù)據(jù)中心/智算中心里,尤其是大模型時代GPU服務(wù)器場景,一臺8卡服務(wù)器,就要占用8個400G/800G交換機端口,再加上冗余拓撲要求,交換機的需求數(shù)量大大提升了。
(圖源:鵝廠網(wǎng)事)
所以,你看到,國內(nèi)大廠都在自研交換機,阿里云推出了磐久交換機,從100G到400G全有。
(阿里自研交換機)
鵝廠則搞出了星脈網(wǎng)絡(luò),而且,鵝廠不僅有交換機,還有自研的光傳輸呢。
這塊市場有多大呢,從IDC的交換機市場跟蹤數(shù)據(jù)上,我們可以大概揣摩出來。
下圖橙色的部分,每次排名里那個神秘的“ODM Direct”,主要就是這類互聯(lián)網(wǎng)大廠們干的。
所以,字節(jié)做交換機,并非「突襲」,更非玩票,而是謀定后動,順勢而為。
審核編輯:劉清
-
交換機
+關(guān)注
關(guān)注
21文章
2640瀏覽量
99646 -
信號完整性
+關(guān)注
關(guān)注
68文章
1408瀏覽量
95488 -
PCB布線
+關(guān)注
關(guān)注
20文章
463瀏覽量
42054 -
光模塊
+關(guān)注
關(guān)注
77文章
1266瀏覽量
59013 -
字節(jié)跳動
+關(guān)注
關(guān)注
0文章
318瀏覽量
8933
原文標(biāo)題:字節(jié)跳動“突襲”交換機!
文章出處:【微信號:SDNLAB,微信公眾號:SDNLAB】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論