2019年,NVIDIA 69億美金收購了一家以色列的公司,Mellanox。
雖然貴,但是很值。
收購Mellanox之后,老黃把其中Mellanox產品線中一個不起眼的可編程的網卡系列bluefield改名為DPU。
后來的事情,就超出了老黃的想象,各種DPU公司風起云涌,甚至壓過“AI”一頭,成為了VC眼中的“新貴”,成為了風口。
對于網卡芯片行業(yè),大家都在講smartnic(智能網卡)的故事,智能網卡已經很高大上了,smartnic,智能網卡。
DPU這個故事一來,smartnic這個名字就從“小甜甜成”了“牛夫人”。
此一時,彼一時。
Mellanox成立于1999年,是以Infiniband產品而起家的,Infiniband主要是是一個用于高性能計算的計算機網絡通信標準。Infiniband具有極高的吞吐量和極低的延遲,可以理解成串行化的總線。
infinity 無限的。band 帶寬;infiniband這個名字直譯“無限帶寬”,非常霸氣。
和普通人用的計算機網絡比起來,Infiniband在帶寬和時延上有優(yōu)勢。成本比網絡高多了。 但是由于要額外部署的Infiniband交換機,其成本限定了只能在超算和存儲領域這些商用領域使用。
Infiniband的HCA卡和Infiniband交換機。對應就是普通組網的網卡和網絡交換機,因為Infiniband的HCA卡和網卡基本上外觀一摸一樣,技術也類似。都是一端PCIe,另一端高速的serdes。所以Mellanox輕車熟路的切入了網卡芯片領域。
在網卡芯片領域,這個和Infiniband不同,這個市場要“內卷”的多,intel在10G網卡時代,憑借82599,X710等多個型號,可以說在服務器網卡市場上,呼風喚雨。和intel的CPU一起配合,成為了各個廠商的首選。
而在網絡從10G到25G轉換節(jié)點上,Mellanox異軍突起,成為了市場的佼佼者,Microsoft和Mellanox深度合作,讓Mellanox在25G成功上位,取代了Intel和Broadcom在高端網卡的江湖地位。同時Mellanox給網卡帶來了ROCE,一種基于ethernet的Infiniband的協(xié)議,這個是Mellanox的看家本領。數據中心向25G節(jié)點轉換上,Mellanox成為了最大的贏家。
在2019年時,Mellanox已經稱霸服務器網卡市場,是25G/100G解決方案最重要玩家之一。
Mellanox被intel和NVIDIA同時都看上了,intel開出了55億-60億美金的“彩禮”,而NVIDIA開出了接近70億美金的價格。
最終NVIDIA贏了。
平心而論,intel有自己的網卡芯片團隊,收購Mellanox只不過是錦上添花,而NVIDIA在網絡這個方面毫無積累,所以NVIDIA更迫切,業(yè)務協(xié)同性更優(yōu),也更志在必得。
事實也證明如此!
從智能網卡到DPU,不僅是名字的稱呼的改變。
說到DPU,先講三個故事,看看DPU都干些什么東西。
1:卸載offload
很多剛剛入手固態(tài)硬盤的朋友,可能會對于固態(tài)硬盤容量標識產生疑惑。以某廠商 1TB固態(tài)硬盤為例,按道理來說1TB=1024GB,但是在電腦上只能看到953GB。 為什么? 因為放了一部分FTL 固件的表項,用于均衡磨損。 簡而言之,花了100塊錢,只能得到90快錢的東西。 花兩碗粉的錢,吃了一碗粉,因為有一個空碗需要承擔的開銷 問顧客爽不爽。 肯定不爽。 云服務廠商也不爽。 以目前的公有云為例,IaaS:Infrastrure-as-Service(基礎設施即服務) 但是對IaaS廠商來說,和普通人買SSD面臨同一個情況的窘境。 買了一批處理器,內存,硬盤,機房,空調,成立了一個云中心,作為基礎設施提供給各位廠家來用。 買個100核的CPU,只能用80個核。 其他20個核去哪里了? 跑一堆云上的軟件,OVS,安全,存儲,管理等等。 這些額外20個核的開銷部分,叫做數據中心稅,datacenter tax。 所以從云廠商來說,就是如何利益最大化。用行業(yè)“黑話”,降低TCO(總擁有成本)。 如何取消數據中心稅,那就是要讓DPU把這些活都干了。 這個故事里面。 DPU就是那個干臟活,累活的角色。
在云中心,什么臟活累活最為典型?
那非OVS卸載莫屬了! OVS的功能說白了,就是虛擬機VM之間的虛擬交換機,原本用軟件來實現(xiàn)的。 說到交換機,那就是三板斧,協(xié)議解析,表項查找,動作執(zhí)行。
二層交換機,解析MAC轉發(fā),
三層交換機,解析IP轉發(fā)。 OVS虛擬交換機就是解析流表轉發(fā)。
OVS的流表有三個特點:
1:表項長。
從五元組,7元組,到更多元組;從端口號,源MAC,目的MAC,VLAN,源IP,目的IP,源端口號,目的端口號等,這還不算完,還有更多項需要參與轉發(fā)。
2:表項多。
從幾十K到幾百K的表項。隨著從虛擬機到容器這些更細粒度的劃分,表項也是直線增加。
3:查找時間短。
從10Gbps小包查找大約需要60ns,到100Gbps小包查找需要6ns查找到。
有一種說法, 如果是CPU軟件來實現(xiàn)OVS,25Gbps開銷需要大約20%處理器核處理,100Gbps大約需要80%的處理器核來處理,數據中心稅高了,留給業(yè)務的就更少了。
簡而言之,隨著網絡的發(fā)展,處理器的能力跟不上了。
解決這個問題核心就是,將OVS 卸載(offload)到一個處理單元上來做這個業(yè)務。因為本來就是網絡的業(yè)務,所以卸載到網卡上是最直接的想法。 如圖所示,就是軟件卸載和硬件卸載的區(qū)別。
那么DPU除了除了OVS的卸載,還有哪些卸載?
1:TCP offload;2:TLS offload;3:加密offload;4:壓縮的offload; 這些offload,最直接就是降低數據中心稅。也有把這些形式叫做IPU,基礎設施處理器。
但是,單純offload,是不能稱之為DPU的。
2:hypervisor管理
很多人都去過網吧,但是不一定都去過VIP包房。 VIP包房和大廳不一樣。 獨立,安全,隱私性好。
VIP身份不會有和普通客戶一樣的待遇。 這樣的客戶給網吧老板帶了非常高的收益。 所以要服務好VIP客戶。 賺錢嗎?不磕磣! 個人用戶賺錢還是企業(yè)用戶賺錢。 大多數是企業(yè)用戶賺錢。 作為云服務廠商,天生有兩個用戶,個人用戶,企業(yè)用戶。 個人用戶登錄,是一個虛擬機,虛擬機好處就是一個CPU拆開來賣,分時復用,分區(qū)復用,沒錢就忍了。 企業(yè)用戶和普通用戶不一樣,肯定是VIP服務。 企業(yè)用戶需要什么VIP云服務?
極強的計算性能,具有和普通物理機一樣的計算性能;
安全隔離,物理隔離,資源獨占;
快速交付,物理機資源標準化和池化,隨取隨用;
和云產品連通,如果需要可以和云主機、云存儲、云數據庫打通,方便業(yè)務使用。
什么是云上的VIP服務,那就是裸金屬云。
裸金屬云就是為企業(yè)用戶的量身打造的VIP包房; 從物理機到虛擬機,容器這些技術是演進的方向。
但是沒有想到。重新包裝好的物理機又成了香餑餑。 還換了一個高大上的名字,裸金屬云。 云服務商把全部的CPU資源都給用戶去用了。
但是也不能放手不管。 怎么管,放在哪里來管。 用了一個hypervisor的卡來管理。
如果把CPU比喻成一個賓館大樓,每個樓里的房間就是一個CPU core,住客就是虛擬機,hypervisor可以認為這個樓的的管理員,只不過這個管理員也要住在賓館大樓里面,占用一個到幾個房間(CPU core)。 現(xiàn)在VIP來了,整個賓館大樓直接都給了VIP租下來了。
當然管理員(hypervisor)也不能在大樓住了,但是管理員(hypervisor)還是需要的,就得給管理員(hypervisor)找個家。 CPU里面不能住了,這個家就放在了DPU里面;
阿里云的裸金屬云的建設中,提出了一種裸金屬bm-hive(bm baremetal 裸金屬的縮寫),直接把bm-hypervisor 放在了一個網卡形態(tài)的設備上,在這種形態(tài)下,所有的計算資源都是計算板的一部分,這個可以是X86的E5,core I7,AMD ,甚至可以是ARM。也就是說,在這種結構下,X86的地位只是一個計算節(jié)點之一。 裸金屬 hypervisor通過DPDK的vswitch和SPDK的云存儲,替代了所有的計算板所有的IO需求,
裸金屬 Hive支持VGA設備,供用戶連接到bm guest的控制臺,裸金屬-Hive的架構不僅允許它無縫地集成到現(xiàn)有的云基礎設施中,而且使計算板的設計高度靈活——唯一的硬要求是它支持virtio接口。 這種方案,但是其核心思想是將計算節(jié)點抽象出來,更專用,更靈活的參與到整個服務中;
這種思想提出,在AWS的的nitro卡就有了。 AmazonEC2的 hypervisor 專用硬件實現(xiàn)。當然是個精簡的hypervisor,它基于Linux內核的虛擬機(KVM)技術構建,但不包括通用操作系統(tǒng)組件。
3:從網絡到數據
DPU的核心是data。
為什么從網絡到數據?
簡而言之,TCP/IP的處理效率受到了極大的挑戰(zhàn)。
對于10Gbps的網絡來說,最大處理約14.88Mpps的包(64byte)。 10 000 000 000/(64byte + 20byte)*8 = 14.88Mpps。
那么對于100G的網絡來說,需要處理器包的數目是148.8Mpps(64byte)。 而linux的kernel能夠處理的能力也就是1M到幾MPPS量級左右。
需求和現(xiàn)實,巨大的落差。
要想滿足需求,bypass掉kernel,是一個所有人看到的方向。
很多kernel bypass的手段被提出了。
例如DPDK。DPDK就是一種kernelbypass的框架。DPDK通過應用層的PMD的程序不斷的輪詢。不用中斷,而是用輪詢,這個是DPDK提升性能的關鍵。
DPDK還需要CPU一個進程不斷輪詢。
而RDMA,則是更徹底的kernel bypass,CPU則直接什么也不做,數據直接送給應用層。 DPU就是承載RDMA的另一個載體。RDMA的協(xié)議用的是infiniband(IB)。而為了減低成本,不用部署額外的infiniband(IB)。其底層用了IP來承載,主要有兩個分支,用IP/UDP承載IB是ROCEv2。用IP/TCP承載IB
Infiniband(IB)是Mellanox的強項,IB是HPC數據交換的互聯(lián)協(xié)議,高性能計算就是例如超算,全球TOP500里面有60%采用了IB進行互聯(lián)。
說回RDMA,那么RDMA到底干了什么? 除了傳統(tǒng)的send receive。最重要的就是 read,write。 read,write的是什么。
是數據。
一臺主機直接直接向另一臺機器的虛擬內存的地址上讀或者寫。
這個意味著,使用外部資源就如同本地資源一樣方便。
沒有比這個更簡單的操作了。
大道至簡! read和write的都是data; 基于這個意義上,DPU的D才開始有點意思了。 有趣的是,RDMA(IB)是在超算中發(fā)展起來的。 超算的架構都是CPU+GPU的異構。 超算的底層互聯(lián)從來不是以太網,原因無他,以太網的效率太低了,以太網只在超算邊緣作為管理網絡來使用。 而DPU的設想中,很多資源池化的想法,和HPC有一些異曲同工之妙; 2020年hotchips上初創(chuàng)DPU公司,F(xiàn)ungible就有非常準確的描述。通過DPU將X86計算資源,GPU/AI資源,SSD/HDD等存儲資源,作為池化資源的構成一個整體,提供外部使用。
Fungible用的技術叫做TrueFabric。其與RDMA的優(yōu)劣不是本文要討論的部分。
但是通過DPU把整個數據中心連接起來,實現(xiàn)高速率,低延遲的效果。
這個模型下,整個結構更類似一個邊緣云中心。
不過在老哥看來,更類似超算和云融合的一種解決方案。
基于目前這個意義上,DPU的data還只是搬移,并沒有在嚴格意義上被處理。
某些安全處理也是為了數據搬移過程的安全特性,比如IPsec over RDMA;也就是端到端的安全特性,這些數據處理是保護數據,而非改變數據本質。
這個數據搬移還包括:
1:存儲數據DPU搬移: nvme over fabric,nvme over RMDA。
2:AI數據的DPU搬移: GPUdriect over RDMA。
低延遲,高帶寬,高性能;
核心目標就是像本地數據一樣,訪問分布式或者池化的資源。
通過DPU實現(xiàn)數據資源池化。
網絡是手段,數據才是目的。
只不過這種連接可以是RDMA,也可以是其他技術手段,RDMA只是其中之一。
4:誰來用DPU?
第一個卸載的故事中,DPU是offload CPU的負載,是“長工”。
第二個管理的故事中,DPU是CPU的hypervisor,是“管家”。 第三個數據的故事中,DPU高效的提供CPU 數據,是“奶媽”。
這些手段的目標都是降低TCO,是因為CPU來做這些工作不經濟。
無論如何,DPU都不是替代CPU做計算。
在DPU上一堆處理器,來和CPU比賽干活,這個是不是比CPU更有優(yōu)勢?見仁見智。
DSA只有面向一個領域定制,才能有成本的優(yōu)勢。
所以DPU不需要在通用計算領域來搞事情。
保持數據(data)的本色,才是真諦。
最后一個問題,關于DPU,主要場景用在云上。
云廠怎么想? 當然是自研!
AWS的Nitro系列,以及阿里的MOC等等。都是特殊定制的DPU。目前國內幾大云廠,基本上全部都有自研方案或者自研計劃。
每家云廠的解決方案都有所不同,特別是DPU是軟件和硬件緊密耦合的產物。
云廠對業(yè)務更懂,研發(fā)能力也不弱。
目前也有很多初創(chuàng)公司做DPU芯片,市場一片火熱。
如何把DPU芯片賣給也做這個方面的云廠“競爭對手”?
這是一個比AI芯片更難的難題。
后記
“上周末的智能網卡研討會,老哥網上聽了下各路專家的演講,云廠面臨的問題多,市場能提供的大規(guī)模部署的解決方案很少,頭部云廠商(阿里,騰訊)都是帶著自研方案而來的,FPGA+CPU倒是成了大部分公司的DPU不約而同的系統(tǒng)方案,xilinx和intel的FPGA成為市場的選擇,也看出來DPU芯片前路漫漫,且行且珍惜,祝大家國慶快樂。”
責任編輯:haq
-
芯片
+關注
關注
455文章
50816瀏覽量
423674 -
DPU
+關注
關注
0文章
358瀏覽量
24182
原文標題:大話DPU
文章出處:【微信號:電子工程世界,微信公眾號:電子工程世界】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論