核心觀點(diǎn)
隨著數(shù)據(jù)處理量需求的高速發(fā)展,對數(shù)據(jù)運(yùn)行算力和網(wǎng)絡(luò)端口速度的要求與日俱增,同時面臨數(shù)據(jù)高速涌入時和對應(yīng)處理單元匹配失衡的情況,通過設(shè)置專用DPU進(jìn)在網(wǎng)絡(luò)端口處對數(shù)據(jù)完成預(yù)處理。
有利于釋放算力和存儲空間,增加計算安全性,降低計算成本,
同時為整體計算應(yīng)用相關(guān)行業(yè)的未來發(fā)展奠定基礎(chǔ)。
DPU的推廣應(yīng)用的關(guān)鍵要素:
近期在于確認(rèn)技術(shù)路徑的選擇和分析落地案例的場景,
長遠(yuǎn)來看在于找到核心推廣至全體計算行業(yè)應(yīng)用的方法。
目前根據(jù)現(xiàn)有調(diào)研,認(rèn)為DPU市場火熱:
玩家類型眾多,
且入局時間接近,
處于激烈競爭狀態(tài),
技術(shù)路徑各異:包括FPGA、ARM和自研異構(gòu)多種架構(gòu),目前還沒有確認(rèn)的最優(yōu)解決方案及芯片廠商應(yīng)用落地案例。
DPU用于平衡計算單元算力和網(wǎng)絡(luò)端口速度之間的差距,彌補(bǔ)需求缺口
在第一波云端算力暴漲的發(fā)展中,GPU一直占據(jù)市場主要位置,各種針對深度學(xué)習(xí)等工作負(fù)載打造的專用AI芯片也得到了急速發(fā)展。與此同時,光網(wǎng)絡(luò)的鋪設(shè)、通信的密度、底層算力的生態(tài)設(shè)施建設(shè)等,都在逐漸升級的過程中;帶寬不斷提升,將有更大的數(shù)據(jù)量涌入,數(shù)據(jù)的處理將會越來越復(fù)雜,包括網(wǎng)絡(luò)協(xié)議處理、存儲壓縮、數(shù)據(jù)加密等,這些本不是CPU和GPU擅長的領(lǐng)域。
在這個階段,計算成本和能力一直處于平穩(wěn)狀態(tài),但隨著數(shù)據(jù)量的增大,網(wǎng)絡(luò)和存儲負(fù)載一直在增加。網(wǎng)絡(luò)性能和計算性能的差距一直在擴(kuò)大,早在2018 年超過 70%的以太網(wǎng)端口的出貨速度就約為10G/秒。如果一直提升算力,但是通信基礎(chǔ)設(shè)施跟不上,整體系統(tǒng)性能還是受限,難以發(fā)揮出真正的潛能。
為了彌補(bǔ)此需求缺口,DPU應(yīng)運(yùn)而生,專門用于處理數(shù)據(jù)。
DPU,Data Processing Unit,數(shù)據(jù)處理單元,是一種片上系統(tǒng),結(jié)合了以下三個關(guān)鍵要素:
行業(yè)標(biāo)準(zhǔn)的高性能軟件可編程多核CPU,通?;趶V泛使用的Arm架構(gòu),并與其他SOC組件緊密耦合。
高性能的網(wǎng)絡(luò)接口,能夠以網(wǎng)絡(luò)速度解析,處理和有效地將數(shù)據(jù)傳輸?shù)紾PU和CPU。
靈活的可編程加速引擎,旨在減輕網(wǎng)絡(luò)任務(wù)負(fù)擔(dān)并優(yōu)化AI和機(jī)器學(xué)習(xí),安全性,電信和存儲等的應(yīng)用程序性能。
DPU的發(fā)展歷史
DPU專門用于數(shù)據(jù)處理,擁有高性能的網(wǎng)絡(luò)接口,用于彌補(bǔ)CPU和GPU的不足。
與專門用于通用計算的CPU和適合視頻、圖片等非結(jié)構(gòu)化數(shù)據(jù)的加速計算不同的GPU相比,DPU出現(xiàn)年代較晚,近兩年才開始興起,主要用于在數(shù)據(jù)中心周圍移動數(shù)據(jù),進(jìn)行數(shù)據(jù)處理,減輕網(wǎng)絡(luò)和存儲工作負(fù)載,補(bǔ)足CPU和GPU的算力。
CPU 內(nèi)核是為通用應(yīng)用程序處理而設(shè)計的,隨著網(wǎng)絡(luò)速度的提高(現(xiàn)在每條鏈路的速度高達(dá) 200gb / s ), CPU 花費(fèi)了太多寶貴的內(nèi)核來分類、跟蹤和控制網(wǎng)絡(luò)流量。
通過DPU的方式就可以解決網(wǎng)絡(luò)傳輸中的瓶頸問題或丟包問題。典型通信延時可以從30-40微秒降低到3-4秒,性能提升10倍以上。
DPU的三大主要功能:保證安全性、釋放CPU算力和釋放服務(wù)器容量
保證安全性:DPU 作為一個智能網(wǎng)卡 ,是網(wǎng)絡(luò)流量的入口,也是阻止攻擊和加密傳輸最直接的地方。它通過與主 CPU 分開運(yùn)行來提供安全隔離,如果主 CPU 受損, DPU 仍然可以檢測或阻止惡意活動。DPU 可以在不立即涉及 CPU 的情況下檢測或阻止攻擊。
釋放CPU算力:DPU可以執(zhí)行原本需要CPU處理的網(wǎng)絡(luò)、存儲和安全等任務(wù),釋放CPU的運(yùn)算能力可以被釋放出來,去執(zhí)行其他企業(yè)應(yīng)用。
釋放服務(wù)器容量:DPU還釋放了服務(wù)器的容量,以便它們可以恢復(fù)到應(yīng)用程序計算。在一些具有大量I / O和沉重虛擬化的系統(tǒng)上內(nèi)核成本縮減一半,因此吞吐量提高了2倍。除了內(nèi)核的成本,還要計算整個機(jī)器的成本,包括其內(nèi)存和I / O以及所釋放的工作量,采用DPU之后,幾乎可以用一半的成本來保證原有的安全性和靈活性。
DPU的核心應(yīng)用在于分布式存儲、網(wǎng)絡(luò)計算和網(wǎng)絡(luò)安全領(lǐng)域的成本削減和性能提升。
DPU作為一個可編程處理器,運(yùn)行的都是非應(yīng)用型負(fù)載,從而可以讓服務(wù)器CPU資源更好地服務(wù)應(yīng)用負(fù)載,對數(shù)據(jù)中心來說,是通過更明細(xì)的分工,實(shí)現(xiàn)效率的提升,總體系統(tǒng)成本的削減。
DPU同時將助力隱私計算和邊緣端計算的發(fā)展
隱私計算:基于隱私保護(hù)技術(shù)的數(shù)據(jù)要素化,使得數(shù)據(jù)所有權(quán)和使用權(quán)分離,使得數(shù)據(jù)價值可以流動,對算力和網(wǎng)絡(luò)都有巨大的要求。
算力:
多方安全計算、聯(lián)邦學(xué)習(xí)、同態(tài)加密、差分隱私、零知識證明等密碼學(xué)方法,性能低,需要的計算資源比明文多幾個數(shù)量級;
DPU可以帶來改善。DPU的本質(zhì)是將計算向存儲靠近。類似的方案有存內(nèi)計算、近內(nèi)存計算等框架,還有將計算和數(shù)據(jù)融合的霧計算。以數(shù)據(jù)為中心的處理器首先解決的是性能問題。
網(wǎng)絡(luò):
算力不足可以用硬件加速緩解,但是網(wǎng)絡(luò)帶寬,尤其是公網(wǎng)環(huán)境,有限的帶寬是目前落地的瓶頸。尤其是多方安全計算MPC、聯(lián)邦學(xué)習(xí)等需要多輪網(wǎng)絡(luò)交互的技術(shù)。
對于性能問題,在數(shù)據(jù)的流動,即網(wǎng)絡(luò)傳輸,是數(shù)據(jù)中心的第二大職能。諸如網(wǎng)絡(luò)協(xié)議處理、傳輸壓縮、數(shù)據(jù)加密等任務(wù)都是網(wǎng)卡設(shè)備的職能。DPU可以被集成到SmartNIC(下一代網(wǎng)卡)中,從而帶來網(wǎng)卡的性能提升,那么它不僅可以處理物理層和鏈路層的數(shù)據(jù)幀,也有能力承擔(dān)網(wǎng)絡(luò)層和應(yīng)用層的職能。
邊緣端計算:NVIDIA DRIVE Atlan是新一代AI自動駕駛汽車處理器,在平臺上通過arm核集成了DPU,帶來了數(shù)據(jù)中心級的網(wǎng)絡(luò)
NVIDIA DRIVE Atlan是新一代AI自動駕駛汽車處理器,算力將達(dá)到1000TOPS,約是上一代Orin處理器的4倍,超過了大多數(shù)L5無人駕駛出租車的總計算能力,堪稱 “車輪上的數(shù)據(jù)中心”,將車輛的整個計算基礎(chǔ)設(shè)施集中到一塊系統(tǒng)級芯片上。
這是DRIVE平臺首次集成DPU,通過Arm核為自動駕駛汽車帶來數(shù)據(jù)中心級的網(wǎng)絡(luò),致力于應(yīng)用到2025年的車型。
該SoC采用下一代GPU的體系結(jié)構(gòu)、新型Arm CPU內(nèi)核、新深度學(xué)習(xí)和計算機(jī)視覺加速器,并內(nèi)置為先進(jìn)的網(wǎng)絡(luò)、存儲和安全服務(wù)的BlueField DPU,網(wǎng)絡(luò)速度可達(dá)400Gbps。
據(jù)Fungible和英偉達(dá)的預(yù)測,用于數(shù)據(jù)中心的DPU量級將達(dá)到和數(shù)據(jù)中心服務(wù)器等量的級別。數(shù)據(jù)中心里的服務(wù)器,一般都需要兩張智能網(wǎng)卡,雙運(yùn)營雙備份以保證安全,且一般需要三年更新迭代一次,服務(wù)器每年新增大約千萬量級,每臺服務(wù)器可能沒有GPU,但一定會有一顆或者多顆DPU,好比每臺服務(wù)器都必須配網(wǎng)卡一樣。服務(wù)器每年新增大約1500萬臺,每顆DPU如果以1萬元計算,這將是千億量級的市場規(guī)模。
按照目前數(shù)據(jù)中心市場判斷,整體市場規(guī)模在千億級別
DPU 由智能網(wǎng)卡發(fā)展而來,未來最終將成為基礎(chǔ)設(shè)施處理的重要工具
以太網(wǎng)控制器開始,提高計算能力,從而使普通的NIC變得智能:
收集許多Arm核心。
增加現(xiàn)場可編程門陣列(FPGA),可編程邏輯。
增加一種是自定義設(shè)計的網(wǎng)絡(luò)處理器。
Smart NIC 互聯(lián)通信:
管理側(cè)網(wǎng)絡(luò)后臺任務(wù)是最先遇到資源消耗挑戰(zhàn)問題的,在25bit/s下占用的CPU資源已經(jīng)非常顯著。智能網(wǎng)卡就是為卸載網(wǎng)絡(luò)相關(guān)工作任務(wù)而設(shè)計的。
DPU 數(shù)據(jù)處理:
從本質(zhì)上來說,在智能網(wǎng)卡的基礎(chǔ)上行,不僅僅是網(wǎng)絡(luò),而是整個I/O相關(guān)的工作任務(wù)處理都會面臨資源消耗的挑戰(zhàn)問題,因此DPU在網(wǎng)絡(luò)卸載的基礎(chǔ)上,加入了存儲卸載及虛擬化卸載的解決方案。
IPU 基礎(chǔ)設(shè)施處理:
從云計算公司的角度來看,基礎(chǔ)設(shè)施處理器平臺不僅承載網(wǎng)絡(luò)、存儲及虛擬化的卸載,還需要承擔(dān)安全、管理、監(jiān)控等各種管理面的功能,更為關(guān)鍵的是物理隔離業(yè)務(wù)和管理:業(yè)務(wù)在CPU和GPU,管理在DPU(或者更準(zhǔn)確地稱為IPU)。目前英特爾已經(jīng)使用 FPGA 部署了 IPU,微軟、百度、京東云和 VMWare是買家。通過特定功能,IPU可對數(shù)據(jù)中心中基于微服務(wù)架構(gòu)的現(xiàn)代應(yīng)用程序進(jìn)行加速。谷歌和Facebook的研究表明,微服務(wù)通信開銷可消耗22%到80%的CPU性能。
DPU目前的主要架構(gòu)
基于FPGA的SmartNIC
Pro:靈活性高,可編程
可以像處理網(wǎng)絡(luò)和存儲一樣處理計算,在開發(fā)上,可以如CPU一樣具有高度的可編程性,也可以像在SoC解決方案上一樣快速開發(fā)新功能。如賽靈思宣稱,其Alveo U25與基于Arm多核的SmartNIC相比,在相同功率下,性能可提高10倍。
基于ARM多核陣列
Pro:可以卸載明確定義的任務(wù),例如標(biāo)準(zhǔn)化的安全和存儲協(xié)議,GPU可以從與DPU融合中受益
Con:
基于軟件可編程處理器,由于缺乏處理器并行性,這些處理器在用于網(wǎng)絡(luò)處理時速度較慢
多核 SmartNIC ASIC中的固定功能引擎無法擴(kuò)展來處理新的加密或安全算法,因?yàn)樗鼈內(nèi)狈ψ銐虻目删幊绦?,只能適應(yīng)輕微的算法更改。
異構(gòu)核陣列
Pro:異構(gòu)具有更高的靈活性,并能帶來更高效的數(shù)據(jù)處理效率
Con:需要自研架構(gòu),研發(fā)投入較高。如國內(nèi)中科馭數(shù)的KPU架構(gòu),他們將四類異構(gòu)核組織起來,分別處理網(wǎng)絡(luò)協(xié)議,OLAP\OLTP處理,機(jī)器學(xué)習(xí)和安全加密運(yùn)算核。
目前的趨勢是趨于折中,且專用核的比重越來越大,正在成為最新的產(chǎn)品趨勢,以英偉達(dá)的BlueField2系列DPU來看,就包括4個Arm核及多個專用加速核區(qū)域,F(xiàn)ungible的DPU則包含6大類的專用核,和52個MIPS小型通用核。
DPU賽道上主要玩家
大廠收購初創(chuàng)企業(yè)
在DPU這一新興芯片賽道上已有英偉達(dá)(收購Mellanox)、英特爾(收購Bearfoot )、Broadcom和Marvell(收購Cavium)、 Fungible(初創(chuàng)) 、Xllinx等巨頭,主要以收購初創(chuàng)企業(yè)的方式完成。
初創(chuàng)企業(yè)團(tuán)隊來自大廠背景,專注單一架構(gòu)的芯片
他們成立時間大部分在2018年及以后,在半年內(nèi)均完成了多輪融資,前期投資機(jī)構(gòu)持續(xù)加碼。
市場中DPU玩家與所有芯片廠商類似,在產(chǎn)業(yè)鏈中主要負(fù)責(zé)IC設(shè)計環(huán)節(jié),僅有少部分設(shè)計框架設(shè)計。
EDA:設(shè)計芯片的軟件高度壟斷:美國的Synopsys、美國的Cadence 和西門子旗下的 Mentor Graphicss占領(lǐng)95%市場。
框架結(jié)構(gòu):市場中DPU玩家與所有芯片廠商類似,在產(chǎn)業(yè)鏈中主要負(fù)責(zé)IC設(shè)計環(huán)節(jié),僅有少部分設(shè)計框架設(shè)計。
ARM架構(gòu)較為壟斷,和intel的x86在數(shù)據(jù)中心市場形成直接競爭。
DPU廠商自研框架較少,目前
國內(nèi)僅有中科馭數(shù)公開KPU自研框架。
英偉達(dá)計劃收購ARM。(近期遭到擱置)
IC設(shè)計:我國初創(chuàng)芯片設(shè)計(DPU設(shè)計)廠商較多,競爭最為激烈。
晶圓測試&封裝制造:我國初創(chuàng)芯片(DPU)廠商和博通等類似,以Fabless模式為主,只負(fù)責(zé)芯片的電路設(shè)計與銷售。將生產(chǎn)、測試、封裝等環(huán)節(jié)外包。
無龐大實(shí)體資產(chǎn),創(chuàng)始的投資規(guī)模小、進(jìn)入門坎相對低
較無法做到完善的上下游工藝整合、較高難度的領(lǐng)先設(shè)計。代工廠會將制作完成的芯片送回 IC 設(shè)計公司、繼續(xù)進(jìn)行測試與分析。
DPU產(chǎn)品至今商業(yè)化并不算成功,究其原因包括:
市面上的DPU產(chǎn)品功能覆蓋和場景覆蓋能力不足,難以滿足不同客戶對于DPU產(chǎn)品快速使用的需求。因此,如何讓市場形成更多有效的DPU產(chǎn)品是推動商業(yè)化的關(guān)鍵, DPU產(chǎn)品需要結(jié)合用戶的具體需求,從應(yīng)用場景出發(fā),向下構(gòu)建底層體系,從而實(shí)現(xiàn)快速的商業(yè)化落地。
現(xiàn)有數(shù)據(jù)中心多為小型數(shù)據(jù)中心,真正運(yùn)算量到了一定量及的超級大型數(shù)據(jù)中心做降本才更有意義。隨著數(shù)據(jù)量的不斷增加和邊緣計算應(yīng)用的增加,未來DPU的市場會逐步擴(kuò)大。
因此,目前DPU廠商在商業(yè)化的道路上面臨的主要競爭對手來自自有商業(yè)應(yīng)用場景的超大型云服務(wù)器廠商。
云提供商對于自身的需求最清楚,因此自研芯片非常合乎情理,而且有機(jī)會能為自身的云服務(wù)提供差異化競爭的能力。
云服務(wù)器廠商:亞馬遜AWS從2013年開始用Nitro卡(智能網(wǎng)卡,如今已經(jīng)到了第四代),亮點(diǎn)在于擁有控制EC2實(shí)例的業(yè)務(wù)邏輯。目前,亞馬遜馬遜為AWS已經(jīng)發(fā)布了基于ARM核的自研處理器Graviton。
同樣做國內(nèi),阿里也有類似的產(chǎn)品邏輯,比如X-Dragon MOC,如果谷歌等其它云服務(wù)商也跟進(jìn)使用ARM架構(gòu)自研芯片,那么這些云廠商就會成為芯片大廠的客戶同時也是競爭對手。
8-9年后,DPU將作為IT基礎(chǔ)設(shè)施中的主流方案。屆時,從云計算公司開始,至大中型互聯(lián)網(wǎng)公司再到中小型企業(yè)客戶群體將會依次完成從CPU到DPU的云計算引擎迭代更新。
總結(jié)
DPU,即數(shù)據(jù)處理單元芯片
有助于提高云計算及相關(guān)產(chǎn)業(yè)的效率和安全性、降低時間和經(jīng)濟(jì)成本,
收到整體政策和相關(guān)產(chǎn)業(yè)發(fā)展的支持
相關(guān)初創(chuàng)企業(yè)發(fā)展迅速,融資市場蓬勃
但相關(guān)產(chǎn)品具體落地應(yīng)用仍然受限,
主要在于目前存量機(jī)房、服務(wù)器數(shù)量較多,新服務(wù)器增量不及預(yù)期,且新組件安裝成本較高
且云計算市場集中度較高,使用者傾向于使用自研芯片
如果有自研架構(gòu)可以解決通用FPGA和arm架構(gòu)面臨的問題,并與落地應(yīng)用客戶溝通較深,對業(yè)務(wù)直接應(yīng)用有更多了解,將有極大競爭優(yōu)勢。
審核編輯:湯梓紅
評論
查看更多