這場革命始于SmartNIC,而DPU則是它的2.0版本。
“隨著DPU 越來越多地出現(xiàn)在大眾視野中,期待未來可以看到加密/解密、防火墻、數(shù)據(jù)包檢查、路由、存儲網(wǎng)絡(luò)等功能由 DPU 處理,”Turner 預(yù)測。
SmartNIC——初代DPU
GPU的蓬勃發(fā)展源于x86 系列處理器的局限性,x86 處理器更適合處理通用型任務(wù),但對于特定工作來說它們要比專用芯片慢得多。GPU最開始被用在游戲機中,后來被發(fā)現(xiàn)還很適合用于AI系統(tǒng)。
與 GPU 一樣,SmartNIC最開始只是被用來從 CPU 中卸載一些網(wǎng)絡(luò)功能,實現(xiàn)網(wǎng)絡(luò)加速?,F(xiàn)在已經(jīng)被開發(fā)出了很多新的使用場景。
但 SmartNIC 并不是一個統(tǒng)一的、一刀切的類別。Delloro Group 的分析師 Baron Fung 解釋說,隨著網(wǎng)絡(luò)變得更快,SmartNIC 需要承載更多的用戶流量。網(wǎng)絡(luò)供應(yīng)商創(chuàng)建了一種使用專門的 ASIC 來卸載網(wǎng)絡(luò)功能的“性能”網(wǎng)卡。但SmartNIC 有所不同。
SmartNIC 在性能網(wǎng)卡上又增加了另一層性能。SmartNIC 是完全可編程設(shè)備,具有自己的處理器、操作系統(tǒng)、集成內(nèi)存和網(wǎng)絡(luò)結(jié)構(gòu)。它就像服務(wù)器中的服務(wù)器,從主機 CPU 提供不同范圍的卸載服務(wù)。
目前大多數(shù)智能設(shè)備都是AWS、微軟、阿里等云廠商專有的,他們在自己的數(shù)據(jù)中心構(gòu)建自己的 SmartNIC,但隨著越來越多創(chuàng)新產(chǎn)品和軟件開發(fā)框架的發(fā)布,其他市場也逐漸開始采用SmartNIC 。
有預(yù)測顯示,SmartNIC 在未來幾年將以每年 3% 的速度增長,但在整個市場來看仍只是占據(jù)一小部分,因為SmartNIC 價格昂貴,目前SmartNIC 的價格是標(biāo)準(zhǔn)網(wǎng)卡的三到五倍。這就需要證明高成本的合理性。
在一般網(wǎng)絡(luò)應(yīng)用中,SmartNIC 可以提高網(wǎng)絡(luò)效率,同時因為智能設(shè)備可以通過軟件進行優(yōu)化,采用SmartNIC 還能夠延長基礎(chǔ)設(shè)施的使用壽命,這實現(xiàn)了一種相對平衡。
隨著SmartNIC 的發(fā)展,市場上又出現(xiàn)了它的進階版——DPU。不同的廠商給它定義了不同的名稱和功能,比如英特爾的叫IPU,阿里云的叫CIPU。
DPU的到來
DPU一詞最早由Juniper創(chuàng)始人Pradeep Sindhu創(chuàng)建的硅谷創(chuàng)業(yè)公司Fungible提出。
“你可以使用通用 x86 定義一個非常簡單的服務(wù)器來進行通用處理,然后放入一個 DPU 來為你完成所有其余的存儲工作”,F(xiàn)ungible 首席執(zhí)行官 Eric Hayes表示。
數(shù)據(jù)無處不在,每個人都在收集和存儲數(shù)據(jù)。真正的問題在于如何處理所有這些數(shù)據(jù)?
CPU 和 GPU 的設(shè)計初衷并不是為了完成移動和處理數(shù)據(jù)的任務(wù),所以它們處理這類任務(wù)的效率非常低。
Hayes 認(rèn)為 SmartNIC 與DPU 之間存在明顯的區(qū)別:“DPU 是為數(shù)據(jù)處理而設(shè)計的,它的出現(xiàn)就是為了處理 x86 和 GPU 無法高效處理的數(shù)據(jù)?!?/p>
根據(jù) Hayes 的說法,早期的 SmartNIC “只是 Arm 或 x86 CPU、FPGA 和硬連線、可配置管道的不同組合。他們只能用有限的性能來換取靈活性?!?/p>
相比之下,DPU 架構(gòu)實現(xiàn)了靈活性和性能兼具。
那么DPU 究竟有什么作用呢?
加速網(wǎng)絡(luò)
首先是加速網(wǎng)絡(luò)。DPU 能夠讓網(wǎng)絡(luò)處理速度更快。由于軟件定義網(wǎng)絡(luò) (SDN) 的出現(xiàn),網(wǎng)絡(luò)越來越多地以軟件形式實現(xiàn)。SDN網(wǎng)絡(luò)通過在軟件中處理它們的功能使系統(tǒng)更加靈活,但是該軟件在通用處理器上運行時效率極低。
SmartNIC 采取了一些措施來改進 SDN 功能,但還沒有達(dá)到 DPU 的性能水平。除了SDN,DPU還將在更智能的網(wǎng)絡(luò)生態(tài)系統(tǒng)中發(fā)揮重要作用,例如5G OpenRAN。
重寫存儲
DPU可以為以數(shù)據(jù)為中心的時代重建存儲,通過創(chuàng)建TCP/IP上運行的內(nèi)存訪問協(xié)議,并將其卸載,從而創(chuàng)建“內(nèi)聯(lián)計算存儲”。
NVMe(non-volatile memory express) 是一種用于訪問閃存的接口,通常由 PCI express 總線連接。通過 TCP/IP 運行 NVMe,并將整個堆棧放在 DPU 上,將整個內(nèi)存訪問從CPU上卸載,這意味著閃存不再需要直接連接到CPU。
通過 TCP 執(zhí)行 NVMe 的目的是能夠從服務(wù)器中取出所有閃存,可以使用通用 x86 定義一個非常簡單的服務(wù)器來進行通用處理,然后放入一個 DPU 來完成所有其余的存儲工作。
就 CPU 而言,DPU 看起來像一個存儲設(shè)備,卸載了通常必須在通用處理器上運行的所有驅(qū)動程序。
加速 GPU
一個基本的 x86 處理器可以管理很多 GPU,但這其中也存在一個瓶頸,因為數(shù)據(jù)必須從 GPU、PCI 接口傳輸?shù)?CPU。
將通信任務(wù)交給 DPU 可以減少對 GPU-PCI 接口的依賴。在多用戶環(huán)境中,這比將一組GPU專用于特定的x86處理器更高效,價格也便宜得多。
DPU 的最后一個作用是安全性。DPU有加速加密和解密的能力。
DPU需要標(biāo)準(zhǔn)化嗎?
目前DPU的采用尚處于起步階段,每個DPU廠商都有自己的解決方案,標(biāo)準(zhǔn)化想要推進十分困難。
但如果DPU 要覆蓋更多客戶,就必須出現(xiàn)一個更加標(biāo)準(zhǔn)化的生態(tài)系統(tǒng)。
預(yù)計約有三分之一的 DPU 市場將集中在較小的提供商和私有數(shù)據(jù)中心中,這些小公司沒有像云巨頭廠商那樣有大量的工程師,標(biāo)準(zhǔn)化有助于降低邊際成本,創(chuàng)造規(guī)模效益,實現(xiàn)創(chuàng)新技術(shù)的價值變現(xiàn)。
Hello DPU,Goodbye CPU!
很多人都談到了DPU的優(yōu)勢之一是降本增效,但是實際上并沒有能夠拿出有效的數(shù)據(jù)佐證這一觀點。近日,英偉達(dá)使用其 BlueField-2 E 系列 DPU進行了一些測試,該 DPU 具有一對 100 Gb/sec 端口,并采用同樣具有一對 100 Gb/sec 端口的常規(guī) SmartNIC 作為對照組。
英偉達(dá)存儲營銷總監(jiān)John Kim展示了將服務(wù)器上運行的hypervisor的Open vSwitch (OVS)卸載到BlueField-2 DPU的效果,以及將愛立信的用戶平面功能(UPF)工作負(fù)載從5G基站中的服務(wù)器CPU卸載到機箱中運行的DPU的效果。在每一個案例中,英偉達(dá)都計算了在10,000臺機器的集群中為這些負(fù)載卸載添加DPU的效果,并且只計算了在加州電價下節(jié)省的電力。在這兩種情況下,英偉達(dá)計算服務(wù)器上有多少個內(nèi)核在運行這兩種工作負(fù)載,消耗了多少瓦,然后在DPU上運行它需要多少瓦,然后計算在三年內(nèi)節(jié)省的電力和成本。
以下是 OVS 卸載的性能提升和節(jié)能數(shù)據(jù):
這個基準(zhǔn)測試是在一臺戴爾PowerEdge R740服務(wù)器上運行的,該服務(wù)器使用一對英特爾“Cascade Lake”至強SP-6248 Gold處理器,每個處理器有20個內(nèi)核,運行在2.5 GHz,一個BlueField-2 DPU帶有一對25 Gb/秒以太網(wǎng)端口。在服務(wù)器上運行OVS需要18個線程和9個內(nèi)核(總共80個線程和40個內(nèi)核),這占計算機固有計算能力的22.5%,也就是說理論上整個服務(wù)器150瓦CPU功率和實際432瓦CPU功率相同。通過將OVS工作負(fù)載轉(zhuǎn)移到DPU, OVS在運行時只消耗305瓦,如果將節(jié)省的電能分散到10,000個節(jié)點上,那么三年節(jié)省的成本將達(dá)到500萬美元。
重要的是,OVS 交換機的吞吐量從 20 Gb/秒提升到 49 Gb/秒,接近 DPU 上兩個端口的峰值理論性能。
DPU 最關(guān)鍵的作用是在運行應(yīng)用程序的服務(wù)器之間以及從服務(wù)器到訪問應(yīng)用程序和數(shù)據(jù)的客戶端設(shè)備之間傳輸數(shù)據(jù)時對數(shù)據(jù)進行加密,因此英偉達(dá)創(chuàng)建了一個IPSec加密場景,用于加密應(yīng)用程序的服務(wù)器端和客戶端,以及將節(jié)省多少電力。
這組測試在配備一對英特爾“Ice Lake”至強 SP-830 處理器的服務(wù)器上運行,該處理器具有 40 個內(nèi)核,每個內(nèi)核以 2.3 GHzm 運行,帶有一個 BlueField-2 卡,具有一對 100 GB/秒的以太網(wǎng)端口和 16 GB自帶內(nèi)存。在此設(shè)置中,服務(wù)器端 IPSec 加密和解密消耗 6 個物理內(nèi)核(占內(nèi)核的 7.5%),而客戶端需要 20 個內(nèi)核(占 25%)。拋開CPU 和運行 IPSec 的 DPU 之間是否存在性能差異,這個測試計算了將負(fù)載卸載到 DPU 所節(jié)省的電力,三年內(nèi)通過 10,000 個節(jié)點可以節(jié)省 1420 萬美元.
從這個比較中可以看出,為 10,000 個節(jié)點的每一個節(jié)點添加 BlueField-2 DPU 可以減少支持 IPSec 加密和解密工作負(fù)載所需的節(jié)點數(shù)量。根據(jù)英偉達(dá)的計算,服務(wù)器硬件的資本支出實際上降低了 2.4%,總體成本節(jié)省了 15%(這還沒有考慮到性能差異、數(shù)據(jù)中心面積的節(jié)省以及管理的服務(wù)器的減少)。
就目前而言,為CPU減負(fù)是必然的??梢钥隙ǖ卣f,在未來的系統(tǒng)架構(gòu)中,網(wǎng)絡(luò)、存儲訪問、虛擬化工作負(fù)載和安全功能不會在 CPU 上完成。
DPU 將成為系統(tǒng)架構(gòu)的中心,分配對計算和存儲的訪問權(quán)限,而CPU 則應(yīng)該被稱為具有龐大內(nèi)存的串行處理單元。
-
DPU
+關(guān)注
關(guān)注
0文章
364瀏覽量
24202 -
網(wǎng)絡(luò)處理
+關(guān)注
關(guān)注
0文章
5瀏覽量
6364 -
sdn
+關(guān)注
關(guān)注
3文章
254瀏覽量
44801
發(fā)布評論請先 登錄
相關(guān)推薦
評論