0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一起來(lái)看看RDMA讓網(wǎng)絡(luò)實(shí)現(xiàn)低時(shí)延的絕招

鮮棗課堂 ? 來(lái)源:中興文檔 ? 作者:中興文檔 ? 2022-11-24 09:50 ? 次閱讀

眾所周知,互聯(lián)網(wǎng)數(shù)據(jù)的爆炸式增長(zhǎng),給數(shù)據(jù)中心的處理能力帶來(lái)了很大的挑戰(zhàn)。

計(jì)算、存儲(chǔ)和網(wǎng)絡(luò),是推動(dòng)數(shù)據(jù)中心發(fā)展的三駕馬車。

計(jì)算隨著CPU、GPUFPGA的發(fā)展,算力得到了極大的提升。存儲(chǔ)隨著閃存盤(SSD)的引入,數(shù)據(jù)存取時(shí)延已大幅降低。

但是,網(wǎng)絡(luò)的發(fā)展明顯滯后,傳輸時(shí)延高,逐漸成為了數(shù)據(jù)中心高性能的瓶頸。

fb502ce2-6b27-11ed-8abf-dac502259ad0.png

在數(shù)據(jù)中心內(nèi),70%的流量為東西向流量(服務(wù)器之間的流量)。這些流量,一般為數(shù)據(jù)中心進(jìn)行高性能分布式并行計(jì)算時(shí)的過(guò)程數(shù)據(jù)流,通過(guò)TCP/IP網(wǎng)絡(luò)傳輸。

如果服務(wù)器之間的TCP/IP傳輸速率提升了,數(shù)據(jù)中心的性能自然也會(huì)跟著提升。

fb63bde8-6b27-11ed-8abf-dac502259ad0.png

下面,我們就來(lái)看看服務(wù)器之間數(shù)據(jù)TCP/IP傳輸?shù)倪^(guò)程,了解一下“時(shí)間都去哪了”,才好“對(duì)癥下藥”。

服務(wù)器間的TCP/IP傳輸

在數(shù)據(jù)中心,服務(wù)器A向服務(wù)器B發(fā)送數(shù)據(jù)的過(guò)程如下: fb9f5d1c-6b27-11ed-8abf-dac502259ad0.png

1、CPU控制數(shù)據(jù)由A的APP Buffer拷貝到操作系統(tǒng)Buffer。

2、CPU控制數(shù)據(jù)在操作系統(tǒng)(OS)Buffer中添加TCP、IP報(bào)文頭。

3、添加TCP、IP報(bào)文頭后的數(shù)據(jù)傳送到網(wǎng)卡(NIC),添加以太網(wǎng)報(bào)文頭。

4、報(bào)文由網(wǎng)卡發(fā)送,通過(guò)以太網(wǎng)絡(luò)傳輸?shù)椒?wù)器B網(wǎng)卡。

5、服務(wù)器B網(wǎng)卡卸載報(bào)文的以太網(wǎng)報(bào)文頭后,將其傳輸?shù)讲僮飨到y(tǒng)Buffer。

6、CPU控制操作系統(tǒng)Buffer中的報(bào)文卸載TCP、IP報(bào)文頭。

7、CPU控制卸載后的數(shù)據(jù)傳輸?shù)紸PP Buffer中。

從數(shù)據(jù)傳輸?shù)倪^(guò)程可以看出,數(shù)據(jù)在服務(wù)器的Buffer內(nèi)多次拷貝,在操作系統(tǒng)中需要添加/卸載TCP、IP報(bào)文頭,這些操作既增加了數(shù)據(jù)傳輸時(shí)延,又消耗了大量的CPU資源,無(wú)法很好得滿足高性能計(jì)算的需求。

那么,如何構(gòu)造高吞吐量、超低時(shí)延和低CPU開銷的高性能數(shù)據(jù)中心網(wǎng)絡(luò)呢?

RDMA技術(shù)可以做到。

什么是RDMA

RDMA( Remote Direct Memory Access,遠(yuǎn)程直接地址訪問(wèn)技術(shù) )是一種新的內(nèi)存訪問(wèn)技術(shù),可以讓服務(wù)器直接高速讀寫其他服務(wù)器的內(nèi)存數(shù)據(jù),而不需要經(jīng)過(guò)操作系統(tǒng)/CPU耗時(shí)的處理。

RDMA不算是一項(xiàng)新技術(shù),已經(jīng)廣泛應(yīng)用于高性能(HPC)科學(xué)計(jì)算中。隨著數(shù)據(jù)中心高帶寬、低時(shí)延的發(fā)展需求,RDMA也開始逐漸應(yīng)用于某些要求數(shù)據(jù)中心具備高性能的場(chǎng)景中。

舉個(gè)例子,2021年某大型網(wǎng)上商城的雙十一交易額再創(chuàng)新高,達(dá)到5000多億,比2020年又增長(zhǎng)了近10%。如此巨大的交易額背后是海量的數(shù)據(jù)處理,該網(wǎng)上商城采用了RDMA技術(shù)來(lái)支撐高性能網(wǎng)絡(luò),保障了雙十一的順暢購(gòu)物。

下面我們一起來(lái)看看RDMA讓網(wǎng)絡(luò)實(shí)現(xiàn)低時(shí)延的絕招吧。

RDMA將服務(wù)器應(yīng)用數(shù)據(jù)直接由內(nèi)存?zhèn)鬏數(shù)?a href="http://wenjunhu.com/v/" target="_blank">智能網(wǎng)卡(固化RDMA協(xié)議),由智能網(wǎng)卡硬件完成RDMA傳輸報(bào)文封裝,解放了操作系統(tǒng)和CPU。

fbe20df6-6b27-11ed-8abf-dac502259ad0.png

這使得RDMA具有兩大優(yōu)勢(shì):

Zero Copy(零拷貝):無(wú)需將數(shù)據(jù)拷貝到操作系統(tǒng)內(nèi)核態(tài)并處理數(shù)據(jù)包頭部的過(guò)程,傳輸延遲會(huì)顯著減小。

Kernel Bypass(內(nèi)核旁路)和Protocol Offload(協(xié)議卸載):不需要操作系統(tǒng)內(nèi)核參與,數(shù)據(jù)通路中沒(méi)有繁瑣的處理報(bào)頭邏輯,不僅會(huì)使延遲降低,而且也大大節(jié)省了CPU的資源。

fc0fb8dc-6b27-11ed-8abf-dac502259ad0.png

三大RDMA網(wǎng)絡(luò)

目前,大致有三類RDMA網(wǎng)絡(luò),分別是InfiniBand、RoCE(RDMA over Converged Ethernet,RDMA過(guò)融合以太網(wǎng))和iWARP(RDMAover TCP,互聯(lián)網(wǎng)廣域RDMA協(xié)議)。

RDMA最早專屬于Infiniband網(wǎng)絡(luò)架構(gòu),從硬件級(jí)別保證可靠傳輸,而RoCE和iWARP都是基于以太網(wǎng)的RDMA技術(shù)。

InfiniBand

InfiniBand是一種專為RDMA設(shè)計(jì)的網(wǎng)絡(luò)。

采用Cut-Through轉(zhuǎn)發(fā)模式(直通轉(zhuǎn)發(fā)模式),減少轉(zhuǎn)發(fā)時(shí)延。

基于Credit的流控機(jī)制(基于信用的流控機(jī)制),保證無(wú)丟包。

要求InfiniBand專用的網(wǎng)卡、交換機(jī)和路由器,建網(wǎng)成本最高。

RoCE

傳輸層為InfiniBand協(xié)議。

RoCE有兩個(gè)版本:RoCEv1基于以太網(wǎng)鏈路層實(shí)現(xiàn),只能在L2層傳輸;RoCEv2基于UDP承載RDMA,可部署于三層網(wǎng)絡(luò)。

需要支持RDMA專用智能網(wǎng)卡,不需要專用交換機(jī)和路由器(支持ECN/PFC等技術(shù),降低丟包率),建網(wǎng)成本最低。

iWARP

傳輸層為iWARP協(xié)議。

iWARP是以太網(wǎng)TCP/IP協(xié)議中TCP層實(shí)現(xiàn),支持L2/L3層傳輸,大型組網(wǎng)TCP連接會(huì)消耗大量CPU,所以應(yīng)用很少。

iWARP只要求網(wǎng)卡支持RDMA,不需要專用交換機(jī)和路由器,建網(wǎng)成本介于InfiniBand和RoCE之間。

Infiniband技術(shù)先進(jìn),但是價(jià)格高昂,應(yīng)用局限在HPC高性能計(jì)算領(lǐng)域,隨著RoCE和iWARPC的出現(xiàn),降低了RDMA的使用成本,推動(dòng)了RDMA技術(shù)普及。

在高性能存儲(chǔ)、計(jì)算數(shù)據(jù)中心中采用這三類RDMA網(wǎng)絡(luò),都可以大幅度降低數(shù)據(jù)傳輸時(shí)延,并為應(yīng)用程序提供更高的CPU資源可用性。

其中,InfiniBand網(wǎng)絡(luò)為數(shù)據(jù)中心帶來(lái)極致的性能,傳輸時(shí)延低至百納秒,比以太網(wǎng)設(shè)備延時(shí)要低一個(gè)量級(jí)。

RoCE和iWARP網(wǎng)絡(luò)為數(shù)據(jù)中心帶來(lái)超高性價(jià)比,基于以太網(wǎng)承載RDMA,充分利用了RDMA的高性能和低CPU使用率等優(yōu)勢(shì),同時(shí)網(wǎng)絡(luò)建設(shè)成本也不高。

基于UDP協(xié)議的RoCE比基于TCP協(xié)議的iWARP性能更好,結(jié)合無(wú)損以太網(wǎng)的流控技術(shù),解決了丟包敏感的問(wèn)題。RoCE網(wǎng)絡(luò),已廣泛應(yīng)用于各行業(yè)高性能數(shù)據(jù)中心中。

結(jié)語(yǔ)

隨著5G人工智能、工業(yè)互聯(lián)網(wǎng)等新型領(lǐng)域的發(fā)展,RDMA技術(shù)的應(yīng)用會(huì)越來(lái)越普及,RDMA將成為助力數(shù)據(jù)中心高性能的一大功臣。







審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 服務(wù)器
    +關(guān)注

    關(guān)注

    12

    文章

    9160

    瀏覽量

    85426
  • SSD
    SSD
    +關(guān)注

    關(guān)注

    21

    文章

    2862

    瀏覽量

    117429
  • HPC
    HPC
    +關(guān)注

    關(guān)注

    0

    文章

    316

    瀏覽量

    23773
  • TCP協(xié)議
    +關(guān)注

    關(guān)注

    1

    文章

    91

    瀏覽量

    12070
  • RDMA
    +關(guān)注

    關(guān)注

    0

    文章

    77

    瀏覽量

    8949

原文標(biāo)題:到底什么是RDMA?為什么數(shù)據(jù)中心需要它?

文章出處:【微信號(hào):鮮棗課堂,微信公眾號(hào):鮮棗課堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    測(cè)速電機(jī)的工作原理和種類與性能 目前見過(guò)最全的 一起來(lái)看看

    測(cè)速電機(jī)的工作原理和種類與性能:測(cè)速電機(jī)是種特殊的電機(jī),主要由電機(jī)和測(cè)速器兩部分組成。其中測(cè)速器通常采用霍爾元件、磁敏感元件或光電傳感器等。其作用主要是測(cè)量和控制電機(jī)轉(zhuǎn)速,通過(guò)感應(yīng)電機(jī)轉(zhuǎn)子的位置
    的頭像 發(fā)表于 11-20 15:57 ?339次閱讀
    測(cè)速電機(jī)的工作原理和種類與性能 目前見過(guò)最全的 <b class='flag-5'>一起來(lái)看看</b>吧

    RoCE與IB對(duì)比分析():協(xié)議棧層級(jí)篇

    在 AI 算力建設(shè)中, RDMA 技術(shù)是支持高吞吐、延遲網(wǎng)絡(luò)通信的關(guān)鍵。目前,RDMA技術(shù)主要通過(guò)兩種方案實(shí)現(xiàn):Infiniband和Ro
    的頭像 發(fā)表于 11-15 13:58 ?1098次閱讀
    RoCE與IB對(duì)比分析(<b class='flag-5'>一</b>):協(xié)議棧層級(jí)篇

    以太網(wǎng)RDMA RoCE的技術(shù)局限

    上期我們講到了RDMA的WHY,WHAT & HOW(AI網(wǎng)絡(luò)背景下RDMA的Why,What & How),這期我們來(lái)談
    的頭像 發(fā)表于 10-22 10:02 ?386次閱讀
    以太網(wǎng)<b class='flag-5'>RDMA</b> RoCE的技術(shù)局限

    請(qǐng)問(wèn)tas5731m PBTL模式,單聲道輸出(AB連一起,CD連一起)如何實(shí)現(xiàn)左右聲道的混音輸出?

    請(qǐng)問(wèn)tas5731m PBTL模式,單聲道輸出(AB連一起,CD連一起)如何實(shí)現(xiàn)左右聲道的混音輸出 還有開發(fā)軟件里能直接拉線么
    發(fā)表于 10-17 06:23

    模擬地和電源地能接在一起

    模擬地和電源地是否能接在一起,取決于電子系統(tǒng)的具體要求和設(shè)計(jì)。在電子系統(tǒng)中,地(Ground)是個(gè)共同的參考點(diǎn),用于構(gòu)建電位參考平面。電源地是所有電源網(wǎng)絡(luò)的參考點(diǎn),用于確保電源的穩(wěn)定性和系統(tǒng)的正常工作。模擬地則與模擬電路相關(guān),
    的頭像 發(fā)表于 09-15 11:43 ?1216次閱讀

    選2088還是3051?一起來(lái)說(shuō)說(shuō)TA們的不同~

    作為工業(yè)實(shí)踐中最常用的現(xiàn)場(chǎng)儀表,變送器被廣泛應(yīng)用于各種工業(yè)自控環(huán)境,涉及水利水電、鐵路交通、智能建筑、生產(chǎn)自控、航空航天、石化、油井、電力、船舶、機(jī)床、管道等眾多行業(yè)。今天我們一起來(lái)看看「2088壓力變送器」、「3051差壓變送器」這兩款變送器有啥區(qū)別?
    的頭像 發(fā)表于 09-02 10:40 ?598次閱讀
    選2088還是3051?<b class='flag-5'>一起來(lái)</b>說(shuō)說(shuō)TA們的不同~

    鋇錸技術(shù)BL102 PLC轉(zhuǎn)MQTT網(wǎng)關(guān):三菱PLC數(shù)據(jù)高效上傳至華為云平臺(tái)

    鋇錸技術(shù)推出了PLC轉(zhuǎn)MQTT網(wǎng)關(guān)來(lái)實(shí)現(xiàn)三菱PLC數(shù)據(jù)的高效采集與上傳至華為云平臺(tái),一起來(lái)看看。
    的頭像 發(fā)表于 07-31 14:48 ?538次閱讀
    鋇錸技術(shù)BL102 PLC轉(zhuǎn)MQTT網(wǎng)關(guān):三菱PLC數(shù)據(jù)高效上傳至華為云平臺(tái)

    物聯(lián)網(wǎng)在智慧校園中的應(yīng)用有哪些?一起來(lái)看!

    隨著物聯(lián)網(wǎng)技術(shù)的快速發(fā)展,其在智慧校園中的應(yīng)用正逐漸改變傳統(tǒng)的教育方式和校園管理模式。本文將深入探討物聯(lián)網(wǎng)在智慧校園中的多種應(yīng)用。物聯(lián)網(wǎng)在智慧校園中的應(yīng)用涵蓋了多個(gè)方面:、智能化管理校園設(shè)施物聯(lián)網(wǎng)
    的頭像 發(fā)表于 07-23 09:06 ?2091次閱讀
    物聯(lián)網(wǎng)在智慧校園中的應(yīng)用有哪些?<b class='flag-5'>一起來(lái)看</b>!

    HarmonyOS實(shí)戰(zhàn)開發(fā)-如何實(shí)現(xiàn)音頻時(shí)錄制和播放,AudioVivid音樂(lè)播放的相關(guān)功能

    錄制 點(diǎn)擊暫停按鈕,暫停錄制,錄音時(shí)間也停止計(jì)時(shí) 點(diǎn)擊繼續(xù)按鈕,繼續(xù)錄制,錄音時(shí)間繼續(xù)計(jì)時(shí) 停止錄制后,會(huì)生成錄制結(jié)果,界面上有個(gè)時(shí)播放開關(guān)和錄制成功的音頻播放器,點(diǎn)擊時(shí)
    發(fā)表于 05-11 20:26

    金融信創(chuàng)優(yōu)秀解決方案-超低時(shí)網(wǎng)絡(luò)解決方案

    本方案基于中科馭數(shù)自主研發(fā)的時(shí)網(wǎng)絡(luò)DPU卡SWIFT-2200N和超低時(shí)數(shù)據(jù)處理開發(fā)平臺(tái)SWIFT-NDPP
    的頭像 發(fā)表于 04-30 14:29 ?840次閱讀
    金融信創(chuàng)優(yōu)秀解決方案-超低時(shí)<b class='flag-5'>延</b><b class='flag-5'>網(wǎng)絡(luò)</b>解決方案

    TSMaster 2024.04 最新版已上線,來(lái)看看新增了哪些實(shí)用功能

    ,其中期待已久的DoIP診斷功能終于在最新升級(jí)版本里可以實(shí)現(xiàn)!同時(shí)對(duì)仿真模塊、API接口、工具箱模塊等進(jìn)行了更新。一起來(lái)看看吧!軟件更新方式1.直接在已有的軟件中點(diǎn)擊
    的頭像 發(fā)表于 04-29 08:21 ?1769次閱讀
    TSMaster 2024.04 最新版已上線,<b class='flag-5'>來(lái)看看</b>新增了哪些實(shí)用功能

    六類網(wǎng)線可以和強(qiáng)電一起走嗎

    六類網(wǎng)線理論上不建議和強(qiáng)電一起走。從布線規(guī)范的角度來(lái)看,弱電線路和強(qiáng)電線路通常不建議共用同橋架,以避免潛在的電磁干擾。然而,多年的施工經(jīng)驗(yàn)表明,在某些情況下,強(qiáng)電線和弱電網(wǎng)線可能一起
    的頭像 發(fā)表于 04-19 09:55 ?5627次閱讀

    利用CXL技術(shù)重構(gòu)基于RDMA的內(nèi)存解耦合

    本文提出了種基于RDMA和CXL的新型延遲、高可擴(kuò)展性的內(nèi)存解耦合系統(tǒng)Rcmp。其顯著特點(diǎn)是通過(guò)CXL提高了基于RDMA系統(tǒng)的性能,并利用RDM
    發(fā)表于 02-29 10:05 ?3144次閱讀
    利用CXL技術(shù)重構(gòu)基于<b class='flag-5'>RDMA</b>的內(nèi)存解耦合

    #新開端、新起點(diǎn),2024一起加油#

    ;2024一起加油\"則表達(dá)了大家共同努力,相互支持的決心和信念。 在2024年,無(wú)論你的目標(biāo)是什么,都希望你能保持這種積極的心態(tài),勇敢地面對(duì)挑戰(zhàn),不斷地學(xué)習(xí)和進(jìn)步。同時(shí),也希望大家能夠相互鼓勵(lì),共同前進(jìn),一起創(chuàng)造更美好的未來(lái)。 所以,讓我們?cè)?024年
    發(fā)表于 02-26 21:01

    RDMA RNIC虛擬化方案

    遠(yuǎn)程直接內(nèi)存訪問(wèn)(Remote Direct Memory Access,RDMA)技術(shù)允許應(yīng)用程序繞過(guò)操作系統(tǒng)內(nèi)核,以零拷貝的方式和遠(yuǎn)程計(jì)算機(jī)進(jìn)行網(wǎng)絡(luò)通信,具有延遲和高帶寬的優(yōu)勢(shì)。RDMA
    的頭像 發(fā)表于 01-23 17:23 ?1990次閱讀
    <b class='flag-5'>RDMA</b> RNIC虛擬化方案