0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

關于DPU的那些事

h1654155149.6853 ? 來源:歪睿老哥 ? 作者:申墨-歪睿老哥 ? 2021-10-13 17:56 ? 次閱讀

2019年,NVIDIA 69億美金收購了一家以色列的公司,Mellanox。

雖然貴,但是很值。

收購Mellanox之后,老黃把其中Mellanox產品線中一個不起眼的可編程的網卡系列bluefield改名為DPU。

后來的事情,就超出了老黃的想象,各種DPU公司風起云涌,甚至壓過“AI”一頭,成為了VC眼中的“新貴”,成為了風口。

對于網卡芯片行業(yè),大家都在講smartnic智能網卡)的故事,智能網卡已經很高大上了,smartnic,智能網卡。

DPU這個故事一來,smartnic這個名字就從“小甜甜成”了“牛夫人”。

此一時,彼一時。

Mellanox成立于1999年,是以Infiniband產品而起家的,Infiniband主要是是一個用于高性能計算的計算機網絡通信標準。Infiniband具有極高的吞吐量和極低的延遲,可以理解成串行化的總線。

infinity 無限的。band 帶寬;infiniband這個名字直譯“無限帶寬”,非常霸氣。

和普通人用的計算機網絡比起來,Infiniband在帶寬和時延上有優(yōu)勢。成本比網絡高多了。 但是由于要額外部署的Infiniband交換機,其成本限定了只能在超算和存儲領域這些商用領域使用。

Infiniband的HCA卡和Infiniband交換機。對應就是普通組網的網卡和網絡交換機,因為Infiniband的HCA卡和網卡基本上外觀一摸一樣,技術也類似。都是一端PCIe,另一端高速的serdes。所以Mellanox輕車熟路的切入了網卡芯片領域。

在網卡芯片領域,這個和Infiniband不同,這個市場要“內卷”的多,intel在10G網卡時代,憑借82599,X710等多個型號,可以說在服務器網卡市場上,呼風喚雨。和intel的CPU一起配合,成為了各個廠商的首選。

而在網絡從10G到25G轉換節(jié)點上,Mellanox異軍突起,成為了市場的佼佼者,Microsoft和Mellanox深度合作,讓Mellanox在25G成功上位,取代了Intel和Broadcom在高端網卡的江湖地位。同時Mellanox給網卡帶來了ROCE,一種基于ethernet的Infiniband的協(xié)議,這個是Mellanox的看家本領。數據中心向25G節(jié)點轉換上,Mellanox成為了最大的贏家。

在2019年時,Mellanox已經稱霸服務器網卡市場,是25G/100G解決方案最重要玩家之一。

Mellanox被intel和NVIDIA同時都看上了,intel開出了55億-60億美金的“彩禮”,而NVIDIA開出了接近70億美金的價格。

最終NVIDIA贏了。

平心而論,intel有自己的網卡芯片團隊,收購Mellanox只不過是錦上添花,而NVIDIA在網絡這個方面毫無積累,所以NVIDIA更迫切,業(yè)務協(xié)同性更優(yōu),也更志在必得。

事實也證明如此!

從智能網卡到DPU,不僅是名字的稱呼的改變。

說到DPU,先講三個故事,看看DPU都干些什么東西。

1:卸載offload

很多剛剛入手固態(tài)硬盤的朋友,可能會對于固態(tài)硬盤容量標識產生疑惑。以某廠商 1TB固態(tài)硬盤為例,按道理來說1TB=1024GB,但是在電腦上只能看到953GB。 為什么? 因為放了一部分FTL 固件的表項,用于均衡磨損。 簡而言之,花了100塊錢,只能得到90快錢的東西。 花兩碗粉的錢,吃了一碗粉,因為有一個空碗需要承擔的開銷 問顧客爽不爽。 肯定不爽。 云服務廠商也不爽。 以目前的公有云為例,IaaS:Infrastrure-as-Service(基礎設施即服務) 但是對IaaS廠商來說,和普通人買SSD面臨同一個情況的窘境。 買了一批處理器,內存,硬盤,機房,空調,成立了一個云中心,作為基礎設施提供給各位廠家來用。 買個100核的CPU,只能用80個核。 其他20個核去哪里了? 跑一堆云上的軟件,OVS,安全,存儲,管理等等。 這些額外20個核的開銷部分,叫做數據中心稅,datacenter tax。 所以從云廠商來說,就是如何利益最大化。用行業(yè)“黑話”,降低TCO(總擁有成本)。 如何取消數據中心稅,那就是要讓DPU把這些活都干了。 這個故事里面。 DPU就是那個干臟活,累活的角色。

在云中心,什么臟活累活最為典型?

那非OVS卸載莫屬了! OVS的功能說白了,就是虛擬機VM之間的虛擬交換機,原本用軟件來實現(xiàn)的。 說到交換機,那就是三板斧,協(xié)議解析,表項查找,動作執(zhí)行。

二層交換機,解析MAC轉發(fā),

三層交換機,解析IP轉發(fā)。 OVS虛擬交換機就是解析流表轉發(fā)。

OVS的流表有三個特點:

1:表項長。

從五元組,7元組,到更多元組;從端口號,源MAC,目的MAC,VLAN,源IP,目的IP,源端口號,目的端口號等,這還不算完,還有更多項需要參與轉發(fā)。

2:表項多。

從幾十K到幾百K的表項。隨著從虛擬機到容器這些更細粒度的劃分,表項也是直線增加。

3:查找時間短。

從10Gbps小包查找大約需要60ns,到100Gbps小包查找需要6ns查找到。

有一種說法, 如果是CPU軟件來實現(xiàn)OVS,25Gbps開銷需要大約20%處理器核處理,100Gbps大約需要80%的處理器核來處理,數據中心稅高了,留給業(yè)務的就更少了。

簡而言之,隨著網絡的發(fā)展,處理器的能力跟不上了。

解決這個問題核心就是,將OVS 卸載(offload)到一個處理單元上來做這個業(yè)務。因為本來就是網絡的業(yè)務,所以卸載到網卡上是最直接的想法。 如圖所示,就是軟件卸載和硬件卸載的區(qū)別。

那么DPU除了除了OVS的卸載,還有哪些卸載?

1:TCP offload;2:TLS offload;3:加密offload;4:壓縮的offload; 這些offload,最直接就是降低數據中心稅。也有把這些形式叫做IPU,基礎設施處理器。

但是,單純offload,是不能稱之為DPU的。

2:hypervisor管理

很多人都去過網吧,但是不一定都去過VIP包房。 VIP包房和大廳不一樣。 獨立,安全,隱私性好。

VIP身份不會有和普通客戶一樣的待遇。 這樣的客戶給網吧老板帶了非常高的收益。 所以要服務好VIP客戶。 賺錢嗎?不磕磣! 個人用戶賺錢還是企業(yè)用戶賺錢。 大多數是企業(yè)用戶賺錢。 作為云服務廠商,天生有兩個用戶,個人用戶,企業(yè)用戶。 個人用戶登錄,是一個虛擬機,虛擬機好處就是一個CPU拆開來賣,分時復用,分區(qū)復用,沒錢就忍了。 企業(yè)用戶和普通用戶不一樣,肯定是VIP服務。 企業(yè)用戶需要什么VIP云服務?

極強的計算性能,具有和普通物理機一樣的計算性能;

安全隔離,物理隔離,資源獨占;

快速交付,物理機資源標準化和池化,隨取隨用;

和云產品連通,如果需要可以和云主機、云存儲、云數據庫打通,方便業(yè)務使用。

什么是云上的VIP服務,那就是裸金屬云。

裸金屬云就是為企業(yè)用戶的量身打造的VIP包房; 從物理機到虛擬機,容器這些技術是演進的方向。

但是沒有想到。重新包裝好的物理機又成了香餑餑。 還換了一個高大上的名字,裸金屬云。 云服務商把全部的CPU資源都給用戶去用了。

但是也不能放手不管。 怎么管,放在哪里來管。 用了一個hypervisor的卡來管理。

如果把CPU比喻成一個賓館大樓,每個樓里的房間就是一個CPU core,住客就是虛擬機,hypervisor可以認為這個樓的的管理員,只不過這個管理員也要住在賓館大樓里面,占用一個到幾個房間(CPU core)。 現(xiàn)在VIP來了,整個賓館大樓直接都給了VIP租下來了。

當然管理員(hypervisor)也不能在大樓住了,但是管理員(hypervisor)還是需要的,就得給管理員(hypervisor)找個家。 CPU里面不能住了,這個家就放在了DPU里面;

阿里云的裸金屬云的建設中,提出了一種裸金屬bm-hive(bm baremetal 裸金屬的縮寫),直接把bm-hypervisor 放在了一個網卡形態(tài)的設備上,在這種形態(tài)下,所有的計算資源都是計算板的一部分,這個可以是X86的E5,core I7,AMD ,甚至可以是ARM。也就是說,在這種結構下,X86的地位只是一個計算節(jié)點之一。 裸金屬 hypervisor通過DPDK的vswitch和SPDK的云存儲,替代了所有的計算板所有的IO需求,

裸金屬 Hive支持VGA設備,供用戶連接到bm guest的控制臺,裸金屬-Hive的架構不僅允許它無縫地集成到現(xiàn)有的云基礎設施中,而且使計算板的設計高度靈活——唯一的硬要求是它支持virtio接口。 這種方案,但是其核心思想是將計算節(jié)點抽象出來,更專用,更靈活的參與到整個服務中;

這種思想提出,在AWS的的nitro卡就有了。 AmazonEC2的 hypervisor 專用硬件實現(xiàn)。當然是個精簡的hypervisor,它基于Linux內核的虛擬機(KVM)技術構建,但不包括通用操作系統(tǒng)組件。

3:從網絡到數據

DPU的核心是data。

為什么從網絡到數據?

簡而言之,TCP/IP的處理效率受到了極大的挑戰(zhàn)。

對于10Gbps的網絡來說,最大處理約14.88Mpps的包(64byte)。 10 000 000 000/(64byte + 20byte)*8 = 14.88Mpps。

那么對于100G的網絡來說,需要處理器包的數目是148.8Mpps(64byte)。 而linux的kernel能夠處理的能力也就是1M到幾MPPS量級左右。

需求和現(xiàn)實,巨大的落差。

要想滿足需求,bypass掉kernel,是一個所有人看到的方向。

很多kernel bypass的手段被提出了。

例如DPDK。DPDK就是一種kernelbypass的框架。DPDK通過應用層的PMD的程序不斷的輪詢。不用中斷,而是用輪詢,這個是DPDK提升性能的關鍵。

DPDK還需要CPU一個進程不斷輪詢。

而RDMA,則是更徹底的kernel bypass,CPU則直接什么也不做,數據直接送給應用層。 DPU就是承載RDMA的另一個載體。RDMA的協(xié)議用的是infiniband(IB)。而為了減低成本,不用部署額外的infiniband(IB)。其底層用了IP來承載,主要有兩個分支,用IP/UDP承載IB是ROCEv2。用IP/TCP承載IB

Infiniband(IB)是Mellanox的強項,IB是HPC數據交換的互聯(lián)協(xié)議,高性能計算就是例如超算,全球TOP500里面有60%采用了IB進行互聯(lián)。

說回RDMA,那么RDMA到底干了什么? 除了傳統(tǒng)的send receive。最重要的就是 read,write。 read,write的是什么。

是數據。

一臺主機直接直接向另一臺機器的虛擬內存的地址上讀或者寫。

這個意味著,使用外部資源就如同本地資源一樣方便。

沒有比這個更簡單的操作了。

大道至簡! read和write的都是data; 基于這個意義上,DPU的D才開始有點意思了。 有趣的是,RDMA(IB)是在超算中發(fā)展起來的。 超算的架構都是CPU+GPU的異構。 超算的底層互聯(lián)從來不是以太網,原因無他,以太網的效率太低了,以太網只在超算邊緣作為管理網絡來使用。 而DPU的設想中,很多資源池化的想法,和HPC有一些異曲同工之妙; 2020年hotchips上初創(chuàng)DPU公司,F(xiàn)ungible就有非常準確的描述。通過DPU將X86計算資源,GPU/AI資源,SSD/HDD等存儲資源,作為池化資源的構成一個整體,提供外部使用。

Fungible用的技術叫做TrueFabric。其與RDMA的優(yōu)劣不是本文要討論的部分。

但是通過DPU把整個數據中心連接起來,實現(xiàn)高速率,低延遲的效果。

這個模型下,整個結構更類似一個邊緣云中心。

不過在老哥看來,更類似超算和云融合的一種解決方案。

基于目前這個意義上,DPU的data還只是搬移,并沒有在嚴格意義上被處理。

某些安全處理也是為了數據搬移過程的安全特性,比如IPsec over RDMA;也就是端到端的安全特性,這些數據處理是保護數據,而非改變數據本質。

這個數據搬移還包括:

1:存儲數據DPU搬移: nvme over fabric,nvme over RMDA。

2:AI數據的DPU搬移: GPUdriect over RDMA。

低延遲,高帶寬,高性能;

核心目標就是像本地數據一樣,訪問分布式或者池化的資源。

通過DPU實現(xiàn)數據資源池化。

網絡是手段,數據才是目的。

只不過這種連接可以是RDMA,也可以是其他技術手段,RDMA只是其中之一。

4:誰來用DPU?

第一個卸載的故事中,DPU是offload CPU的負載,是“長工”。

第二個管理的故事中,DPU是CPU的hypervisor,是“管家”。 第三個數據的故事中,DPU高效的提供CPU 數據,是“奶媽”。

這些手段的目標都是降低TCO,是因為CPU來做這些工作不經濟。

無論如何,DPU都不是替代CPU做計算。

在DPU上一堆處理器,來和CPU比賽干活,這個是不是比CPU更有優(yōu)勢?見仁見智。

DSA只有面向一個領域定制,才能有成本的優(yōu)勢。

所以DPU不需要在通用計算領域來搞事情。

保持數據(data)的本色,才是真諦。

最后一個問題,關于DPU,主要場景用在云上。

云廠怎么想? 當然是自研!

AWS的Nitro系列,以及阿里的MOC等等。都是特殊定制的DPU。目前國內幾大云廠,基本上全部都有自研方案或者自研計劃。

每家云廠的解決方案都有所不同,特別是DPU是軟件和硬件緊密耦合的產物。

云廠對業(yè)務更懂,研發(fā)能力也不弱。

目前也有很多初創(chuàng)公司做DPU芯片,市場一片火熱。

如何把DPU芯片賣給也做這個方面的云廠“競爭對手”?

這是一個比AI芯片更難的難題。

后記

“上周末的智能網卡研討會,老哥網上聽了下各路專家的演講,云廠面臨的問題多,市場能提供的大規(guī)模部署的解決方案很少,頭部云廠商(阿里,騰訊)都是帶著自研方案而來的,FPGA+CPU倒是成了大部分公司的DPU不約而同的系統(tǒng)方案,xilinx和intel的FPGA成為市場的選擇,也看出來DPU芯片前路漫漫,且行且珍惜,祝大家國慶快樂。”

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 芯片
    +關注

    關注

    455

    文章

    50816

    瀏覽量

    423674
  • DPU
    DPU
    +關注

    關注

    0

    文章

    358

    瀏覽量

    24182

原文標題:大話DPU

文章出處:【微信號:電子工程世界,微信公眾號:電子工程世界】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    京準時鐘科普:關于北斗衛(wèi)星同步時鐘的那些

    京準時鐘科普:關于北斗衛(wèi)星同步時鐘的那些?
    的頭像 發(fā)表于 10-29 09:28 ?293次閱讀
    京準時鐘科普:<b class='flag-5'>關于</b>北斗衛(wèi)星同步時鐘的<b class='flag-5'>那些</b><b class='flag-5'>事</b>?

    合宙LuatOS應用,與時間相關那些

    ()函數了。 接下來,我會講一些與這個函數以及其他時間函數相關的知識。 一、時間戳相關 os.time()這個函數,只能獲取當前時間戳;如果客戶希望獲取的是當前時間,即相應的年月日時分秒,可以使用os.date()函數。 參考下面的示例**:** ? 關于位數: 比較遺憾的是,
    的頭像 發(fā)表于 09-25 07:25 ?278次閱讀
    合宙LuatOS應用,與時間相關<b class='flag-5'>那些</b><b class='flag-5'>事</b>

    芯片設計流片、驗證、成本的那些

    前言我們聊聊芯片設計、流片、驗證、制造、成本的那些;流片對于芯片設計來說就是參加一次大考。流片的重要性就在于能夠檢驗芯片設計是否成功,是芯片制造的關鍵環(huán)節(jié),也就是將設計好的方案交給芯片制造廠生產
    的頭像 發(fā)表于 08-09 08:11 ?1975次閱讀
    芯片設計流片、驗證、成本的<b class='flag-5'>那些</b><b class='flag-5'>事</b>

    中科馭數分析DPU在云原生網絡與智算網絡中的實際應用

    CCF Chip 2024,精彩不能停!7月21日下午,中科馭數在第二屆中國計算機學會(CCF)芯片大會的“馭數專屬時刻”仍在繼續(xù),馭數組織承辦“DPU技術趨勢和應用——DPU在云原生與智算網絡中
    的頭像 發(fā)表于 08-02 11:21 ?710次閱讀

    IaaS+on+DPU(IoD)+下一代高性能算力底座技術白皮書

    DPU 是當下算力基礎設施的核心創(chuàng)新之一。如果把 CPU 比做大腦,那么 GPU 就好比是肌肉,而 DPU 就是神經中樞。CPU 承載了應用生態(tài),提供了通用型算力;GPU 提供了高密度各類精度的算
    發(fā)表于 07-24 15:32

    中科馭數發(fā)布第三代DPU芯片K2 Pro,較上一代能耗降低30%

    電子發(fā)燒友網報道(文/李彎彎)近日,中科馭數(北京)科技有限公司(以下簡稱“中科馭數”)在北京發(fā)布了關于DPU(指數據處理器芯片)的一套核心技術,包括國內首顆量產全功能DPU芯片K2Pro,以及
    的頭像 發(fā)表于 07-01 07:32 ?3566次閱讀

    中科馭數CEO鄢貴海:從計算系統(tǒng)的三個視角重新審視DPU的核心價值

    在信息技術日新月異的浪潮中,DPU正逐漸嶄露頭角。當前,DPU發(fā)展的核心驅動力來自于什么?DPU技術是否已經足夠成熟到廣泛應用?市場上頭部玩家參與到這一創(chuàng)新技術的市場角逐之中?在算力時代,DP
    的頭像 發(fā)表于 06-28 14:27 ?483次閱讀
    中科馭數CEO鄢貴海:從計算系統(tǒng)的三個視角重新審視<b class='flag-5'>DPU</b>的核心價值

    中科馭數發(fā)布高性能DPU芯片K2-Pro

    在信息技術領域,每一次芯片技術的突破都代表著行業(yè)的一次飛躍。近日,DPU領域的領軍企業(yè)中科馭數宣布,成功研發(fā)并發(fā)布了其第三代DPU芯片——“K2-Pro”。這款芯片的發(fā)布,標志著中科馭數在DPU領域的技術實力達到了新的高度。
    的頭像 發(fā)表于 06-21 11:41 ?779次閱讀

    NVIDIA DPU編程入門開課儀式在澳門科技大學成功舉辦

    5 月 24 日,NVIDIA DPU 編程入門開課儀式在澳門科技大學成功舉辦。作為首個在中國開設 NVIDIA DPU 編程相關課程的高校,來自澳門科技大學不同院系的師生共同見證了本次儀式。
    的頭像 發(fā)表于 05-28 09:40 ?397次閱讀

    關于MOS管,你需要知道的那些

    MOT03/252024什么是MOS管?MOS,是MOSFET的縮寫。MOSFET金屬-氧化物半導體場效應晶體管,簡稱金氧半場效晶體管(Metal-Oxide-SemiconductorField-EffectTransistor,MOSFET)。一般是金屬(metal)—氧化物(oxide)—半導體(semiconductor)場效應晶體管,或者稱是金屬—
    的頭像 發(fā)表于 05-15 08:37 ?1698次閱讀
    <b class='flag-5'>關于</b>MOS管,你需要知道的<b class='flag-5'>那些</b><b class='flag-5'>事</b>

    明天線上見!DPU構建高性能云算力底座——DPU技術開放日最新議程公布!

    算力,是數字經濟時代的新質生產力。隨著人工智能、智算中心建設等需求不斷拓展,DPU在各行各業(yè)數據中心的應用逐步深入。異構算力代表DPU在新質生產力建設中,能否給出別開生面的答案,應戰(zhàn)算力難題?DPU
    的頭像 發(fā)表于 04-03 18:12 ?1005次閱讀

    中科馭數DPU技術開放日秀“肌肉”:云原生網絡、RDMA、安全加速、低延時網絡等方案組團亮相

    DPU技術開放日既是對DPU技術應用的典型方案展示,也是DPU技術在重要細分場景走向成熟的標志。
    的頭像 發(fā)表于 04-01 11:48 ?789次閱讀
    中科馭數<b class='flag-5'>DPU</b>技術開放日秀“肌肉”:云原生網絡、RDMA、安全加速、低延時網絡等方案組團亮相

    輥壓機軸承位磨損修復你不知道的那些

    電子發(fā)燒友網站提供《輥壓機軸承位磨損修復你不知道的那些.docx》資料免費下載
    發(fā)表于 03-12 15:10 ?0次下載

    FPGA-Based DPU網卡的發(fā)展和應用

    采用單芯片的SoC形態(tài),兼顧性能和功耗。FPGA-Based DPU在硬件設計上的挑戰(zhàn)主要來自芯片面積和功耗。
    發(fā)表于 02-23 14:40 ?2083次閱讀
    FPGA-Based <b class='flag-5'>DPU</b>網卡的發(fā)展和應用

    關于觸摸芯片的那些

    一分鐘簡單了解觸摸芯片
    的頭像 發(fā)表于 01-03 16:56 ?1222次閱讀