0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

字節(jié)跳動「突襲」交換機!

SDNLAB ? 來源:特大號 ? 2024-02-26 15:34 ? 次閱讀

突襲,其實并不恰當(dāng)!

因為字節(jié)跳動自研交換機,早在2019年,就開始悄悄布局了。

只是這一次,隨著51.2T高性能數(shù)據(jù)中心交換機的閃亮登場,字節(jié)跳動也低調(diào)宣布,實現(xiàn)了“2023年全面上線自研交換機的目標(biāo)”。

廢話不說,看看這款命名為B5020的51.2T交換機的細節(jié)吧。

按字節(jié)的說法,這可是全球首款51.2T全端口支持LPO的交換機,也是全球率先實現(xiàn)800G實際規(guī)?;渴鸬?a target="_blank">產(chǎn)品。劃重點

上面視頻來源于字節(jié)跳動系統(tǒng)技術(shù)公眾號(字節(jié)跳動SYS Tech),我在二次剪輯的時候,把一些關(guān)鍵信息摘出來Highlight了一下。

先看一下交換機的外觀和內(nèi)部結(jié)構(gòu),標(biāo)準(zhǔn)機架式,4U高度,64×800GbE端口。 整機交換容量51.2Tbs(其實按業(yè)界全雙工的算法應(yīng)該是102.4Tbps),這個容量也是當(dāng)下業(yè)界單芯片盒式交換機的極限。

有人說,前面板看著挺空的,似乎2U就能擺下這些端口,為啥不把機箱做得更緊湊些(比如3U甚至2U),豈不是更能節(jié)省機房空間。

其實,字節(jié)在設(shè)計這款交換機的時候,散熱、電源功率、機箱結(jié)構(gòu)等等,都是做了向后兼容下一102.4T產(chǎn)品的考慮,且從功率密度角度,2U省空間是偽命題。

未來,單芯片102.4T時代,這個4U結(jié)構(gòu)正好可以擺下128個800G端口(當(dāng)然也可以是64×1.6T,這端口速度,看著就嚇人啊,剛?cè)胄械臅r候,1G我都覺得很少見,誰能想20年后,馬上要1600G了)。

在板卡設(shè)計上,字節(jié)也做了很多微創(chuàng)新,比如整機一張MAC-PCB板,整機內(nèi)部僅用三條連接線纜。

這些極簡設(shè)計可以讓整機生產(chǎn)功率大幅減少。有助于提高生產(chǎn)直通率,減少故障點。

以前大家學(xué)產(chǎn)品規(guī)劃/管理的時候,都有一條叫做DFM(Design For Manufacturing)。在這里,字節(jié)就運用得很好。

再比如,在僅用28層PCB方案的情況下,完成高密度布線設(shè)計,而且成功將全端口最大損耗控制在7d以下。

較少層數(shù)的PCB,降低了生產(chǎn)難度,也能更好地控制硬件成本。

在端口扇出(Fan out)設(shè)計上,字節(jié)團隊摒棄了傳統(tǒng)扇出方案(傳統(tǒng)扇出方案在大芯片時代,遠端端口難以維持信號完整性),首創(chuàng)了大芯片布線空間復(fù)用方案。

PCB相關(guān)的設(shè)計論文,入選了全球芯片設(shè)計領(lǐng)域的頂級會議DesignCon2024,并申請了兩項發(fā)明專利。

上面入選的論文一共三篇,其中兩篇是PCB設(shè)計相關(guān),還有一篇涉及800G LPO技術(shù),因為這款交換機還在業(yè)內(nèi)首度采用了800G LPO。

跟傳統(tǒng)光模塊相比,LPO光模塊功耗低、延遲低,當(dāng)然成本也更低。

另外,為了簡化運維,這款交換機的管理引擎采用了插卡式模塊化設(shè)計,替換方便。

同時管理引擎上的BMC、SSD、DDR內(nèi)存等,全部都是扣卡設(shè)計,大大降低了運維難度。

有同學(xué)評價:管理引擎光模塊化還不夠,不支持熱插拔,也不是雙冗余。

其實這是對業(yè)務(wù)場景和交換機定位的誤解。

這款B5020并不是模塊化機箱交換機,而是一款“盒式”機架交換機,應(yīng)用場景是互聯(lián)網(wǎng)數(shù)據(jù)中心/智算中心的Leaf或者Spine。

在這樣的場景下,一般采用胖樹架構(gòu),而不是咱們常規(guī)園區(qū)或者企業(yè)網(wǎng)絡(luò)中,雙核心+匯聚+接入。

比如,互聯(lián)網(wǎng)大廠數(shù)據(jù)中心一個典型的胖樹網(wǎng)絡(luò)是這樣的,B5020充當(dāng)?shù)慕巧褪且慌_高速率、高密度同時高性價比、易運維的Spine或者Leaf。

5527c444-d479-11ee-a297-92fbcf53809c.png

在交換機軟件上,字節(jié)基于開源的SONiC,自研了Lambda OS。

不得不說,這幾年SONiC的成熟度越來越高,生態(tài)也越來越好,很多互聯(lián)網(wǎng)大廠都開始基于SONiC來開發(fā)自家的交換機軟件。

關(guān)于字節(jié)的這款交換機,我們就扒到這里。

根據(jù)字節(jié)跳動的說法,他們已經(jīng)實現(xiàn)了在2023 年全面上線自研交換機的目標(biāo)。

目前大規(guī)模交付的 100G/400G 網(wǎng)絡(luò),全由自研交換機覆蓋,硬件采用 JDM + CM 模式研發(fā),軟件則是自研的 Lambda OS。

說到這里,我們有必要談?wù)動布难邪l(fā)模式:JDM+CM。

以交換機為例,業(yè)界的產(chǎn)品研發(fā)模式包括:

最初級的叫OEM模式,也就是大家常說的貼牌。交換機軟硬件整機全是原廠提供,品牌商只需要貼標(biāo),修改下軟件界面,就變成自家的品牌。

第二級叫做ODM模式,品牌商有自己的idea,提出自己的定制化需求,然后由ODM商完成設(shè)計和生產(chǎn)。對交換機來說,一般品牌廠家具備軟件研發(fā)能力,只需要ODM定制化硬件。尤其白盒時代,這種流行度很高。

第三級叫做JDM模式,Joint Design Manufacture,聯(lián)合設(shè)計制造,是客戶企業(yè)(比如字節(jié))和交換機制造商(比如數(shù)通大廠)共同參與設(shè)計和開發(fā),企業(yè)方需要深度參與整個過程。

再往上,更純粹的CM模式,Contract Manufacture,合同制造,也就是客戶企業(yè)完全自行設(shè)計,然后委托給制造商生產(chǎn)。

回頭看,字節(jié)交換機采用的模式就是“JDM+CM”,即聯(lián)合設(shè)計制造+委托生產(chǎn),這可不是貼牌,人家說自研,完全沒毛病。

最后一個問題,有吃瓜群眾評論,為啥字節(jié)“不務(wù)正業(yè)”非要搞交換機呢?難道字節(jié)是看重交換機那點可憐巴巴的市場嗎?

非也,其實互聯(lián)網(wǎng)大廠自研基礎(chǔ)設(shè)施,是大勢所趨,也是真實剛需。從國外的谷歌、Facebook到國內(nèi)BAT,都有自研的經(jīng)歷。

從服務(wù)器到存儲到交換機,甚至到AI芯片、DPU、主芯片,互聯(lián)網(wǎng)巨頭們一直在努力。 一方面是他們用量太大,通過自研是真的可以有效降低成本。另一方面,大廠們會根據(jù)自己的業(yè)務(wù)場景需求,來定制軟件和硬件,讓這些設(shè)備更純粹的扛活。

所以,更低的成本、更方便運維、極簡且定制的功能,這些是大廠們看重的,其實前面視頻里,字節(jié)也多次強調(diào)了成本的節(jié)省、功耗的節(jié)省、運維的簡化。

這不是交換機廠商的宣傳標(biāo)簽,這是人家真實的需求啊。

還有一點新變化,在我們常規(guī)的組網(wǎng)工程里,交換機的數(shù)量要遠遠少于主機/服務(wù)器。

但是在現(xiàn)代數(shù)據(jù)中心/智算中心里,尤其是大模型時代GPU服務(wù)器場景,一臺8卡服務(wù)器,就要占用8個400G/800G交換機端口,再加上冗余拓撲要求,交換機的需求數(shù)量大大提升了。

55611b40-d479-11ee-a297-92fbcf53809c.png

(圖源:鵝廠網(wǎng)事)

所以,你看到,國內(nèi)大廠都在自研交換機,阿里云推出了磐久交換機,從100G到400G全有。

5565bd44-d479-11ee-a297-92fbcf53809c.png

(阿里自研交換機)

鵝廠則搞出了星脈網(wǎng)絡(luò),而且,鵝廠不僅有交換機,還有自研的光傳輸呢。

這塊市場有多大呢,從IDC的交換機市場跟蹤數(shù)據(jù)上,我們可以大概揣摩出來。

下圖橙色的部分,每次排名里那個神秘的“ODM Direct”,主要就是這類互聯(lián)網(wǎng)大廠們干的。

5587a5c6-d479-11ee-a297-92fbcf53809c.png

所以,字節(jié)做交換機,并非「突襲」,更非玩票,而是謀定后動,順勢而為。





審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 交換機
    +關(guān)注

    關(guān)注

    21

    文章

    2640

    瀏覽量

    99646
  • 信號完整性
    +關(guān)注

    關(guān)注

    68

    文章

    1408

    瀏覽量

    95488
  • PCB布線
    +關(guān)注

    關(guān)注

    20

    文章

    463

    瀏覽量

    42054
  • 光模塊
    +關(guān)注

    關(guān)注

    77

    文章

    1266

    瀏覽量

    59013
  • 字節(jié)跳動
    +關(guān)注

    關(guān)注

    0

    文章

    318

    瀏覽量

    8933

原文標(biāo)題:字節(jié)跳動“突襲”交換機!

文章出處:【微信號:SDNLAB,微信公眾號:SDNLAB】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    交換機與集線器的優(yōu)缺點 如何監(jiān)控交換機流量

    交換機與集線器是網(wǎng)絡(luò)中常見的兩種設(shè)備,它們各自具有獨特的優(yōu)缺點。以下是對這兩種設(shè)備的優(yōu)缺點以及如何監(jiān)控交換機流量的分析: 一、交換機與集線器的優(yōu)缺點 交換機 優(yōu)點 : 獨享帶寬 :
    的頭像 發(fā)表于 12-12 18:22 ?372次閱讀

    交換機的工作原理是什么?3類交換機故障詳解

    傳統(tǒng)的交換機本質(zhì)上是具有流量控制能力的多端口網(wǎng)橋,即傳統(tǒng)的(二層) 交換機。把路由技術(shù)引入交換機,可以完成網(wǎng)絡(luò)層路由選擇,故稱為三層交換,這是交換機
    的頭像 發(fā)表于 11-05 10:12 ?255次閱讀

    如何測試交換機端口速率

    交換機端口速率是指交換機端口在數(shù)據(jù)傳輸過程中的最大傳輸速率。在網(wǎng)絡(luò)環(huán)境中,交換機端口速率對于確保網(wǎng)絡(luò)性能和數(shù)據(jù)傳輸效率至關(guān)重要。測試交換機端口速率可以幫助網(wǎng)絡(luò)管理員了解網(wǎng)絡(luò)設(shè)備的性能,
    的頭像 發(fā)表于 10-18 09:48 ?1484次閱讀

    如何使用反射內(nèi)存交換機

    反射內(nèi)存交換機是一種用于實現(xiàn)高速數(shù)據(jù)共享和通信的關(guān)鍵設(shè)備,以下是關(guān)于如何使用反射內(nèi)存交換機的詳細介紹:一、前期準(zhǔn)備?在開始使用反射內(nèi)存交換機之前,需要進行以下準(zhǔn)備工作:?1.了解系統(tǒng)需求:明確您的應(yīng)用場景對數(shù)據(jù)傳輸速度、節(jié)點數(shù)量
    發(fā)表于 09-14 09:23 ?0次下載

    反射內(nèi)存交換機與普通交換機的區(qū)別

    反射內(nèi)存交換機與普通交換機在以下幾個方面存在明顯區(qū)別:工作原理和機制:反射內(nèi)存交換機基于反射內(nèi)存技術(shù),通過硬件實現(xiàn)數(shù)據(jù)的快速同步和共享。當(dāng)一個節(jié)點寫入數(shù)據(jù)時,數(shù)據(jù)會迅速被廣播到其他所有節(jié)點的內(nèi)存中
    的頭像 發(fā)表于 09-05 09:57 ?574次閱讀
    反射內(nèi)存<b class='flag-5'>交換機</b>與普通<b class='flag-5'>交換機</b>的區(qū)別

    二層交換機和三層交換機有什么區(qū)別

    交換機分為二層交換機和三層交換機,它們在功能、應(yīng)用場景和技術(shù)實現(xiàn)上有明顯區(qū)別。
    的頭像 發(fā)表于 08-07 15:33 ?1341次閱讀

    網(wǎng)管型交換機和非網(wǎng)管型交換機的區(qū)別

    網(wǎng)管型交換機和非網(wǎng)管型交換機是兩種不同類型的交換機,它們在功能、性能、應(yīng)用場景等方面存在明顯的差異。 定義 網(wǎng)管型交換機(Managed Switch)是一種具有網(wǎng)絡(luò)管理功能的
    的頭像 發(fā)表于 08-05 15:41 ?2682次閱讀

    Is交換機組成的環(huán)形網(wǎng)絡(luò)中,當(dāng)位于主控節(jié)點的Ism網(wǎng)管交換機故障后,為什么環(huán)網(wǎng)中其他交換機不受影響?

    當(dāng)位于主控節(jié)點的交換機故障斷掉,環(huán)網(wǎng)中其他交換機是如何保持正常運行的?或者說什么原理讓環(huán)網(wǎng)其他交換機不受影響?
    發(fā)表于 07-25 06:14

    園區(qū)交換機 VS 數(shù)據(jù)中心交換機

    園區(qū)交換機和數(shù)據(jù)中心交換機交換機領(lǐng)域的兩大類別,很多人都很熟悉。但是,這兩者之間的區(qū)別并不是很清楚。在本文中,我們將對園區(qū)交換機和數(shù)據(jù)中心交換機
    的頭像 發(fā)表于 06-24 15:33 ?606次閱讀
    園區(qū)<b class='flag-5'>交換機</b> VS 數(shù)據(jù)中心<b class='flag-5'>交換機</b>

    廣域網(wǎng)交換機與局域網(wǎng)交換機的區(qū)別

      在構(gòu)建和管理網(wǎng)絡(luò)架構(gòu)時,交換機作為核心設(shè)備,其選擇和配置直接影響到網(wǎng)絡(luò)的性能、可靠性和安全性。廣域網(wǎng)交換機和局域網(wǎng)交換機作為兩種不同類型的交換機,各自在網(wǎng)絡(luò)架構(gòu)中扮演著不同的角色。
    的頭像 發(fā)表于 06-06 11:07 ?1086次閱讀

    交換機的基本分類

      交換機作為網(wǎng)絡(luò)通訊中的核心設(shè)備之一,其在網(wǎng)絡(luò)架構(gòu)中起著至關(guān)重要的作用。隨著信息技術(shù)的飛速發(fā)展,交換機也在不斷演進和革新,以滿足日益復(fù)雜的網(wǎng)絡(luò)需求。本文將對交換機的分類及其特點進行詳細介紹,以期為讀者提供清晰、深入的理解。
    的頭像 發(fā)表于 06-06 11:06 ?2004次閱讀

    POE交換機是什么?POE交換機的特點

    POE交換機是一種支持以太網(wǎng)供電的交換機,也被稱為Power over Ethernet交換機。它能夠在為一些基于IP的終端(如IP電話機、無線局域網(wǎng)接入點AP、網(wǎng)絡(luò)攝像機等)傳輸數(shù)據(jù)信號的同時
    的頭像 發(fā)表于 04-17 14:48 ?1777次閱讀

    交換機cpu和交換芯片的關(guān)系及區(qū)別

    交換機CPU和交換芯片在交換機中各自扮演著重要的角色,并且它們之間存在一定的關(guān)系與區(qū)別。
    的頭像 發(fā)表于 03-18 14:06 ?1840次閱讀

    交換機的作用與功能 交換機的基本配置

    交換機(Switch)是計算機網(wǎng)絡(luò)中常見的一種數(shù)據(jù)通信設(shè)備,它用于在局域網(wǎng)(LAN)內(nèi)的不同設(shè)備之間進行數(shù)據(jù)的轉(zhuǎn)發(fā)和交換交換機通過學(xué)習(xí)和轉(zhuǎn)發(fā)數(shù)據(jù)幀的方式來實現(xiàn)多個設(shè)備之間的通信,并且能夠根據(jù)數(shù)據(jù)包
    的頭像 發(fā)表于 02-04 09:17 ?1.7w次閱讀

    匯聚交換機和核心交換機區(qū)別

    匯聚交換機和核心交換機是網(wǎng)絡(luò)中常見的兩種交換機設(shè)備,在網(wǎng)絡(luò)中扮演著不同的角色和功能。雖然它們的主要目標(biāo)是提供高速、高效的數(shù)據(jù)交換和數(shù)據(jù)傳輸,但在設(shè)計和使用上有一些區(qū)別。本文將介紹匯聚
    的頭像 發(fā)表于 01-22 14:32 ?4520次閱讀