0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

詳細(xì)分析DPU認(rèn)識的四個層級

jf_C6sANWk1 ? 來源:軟硬件融合 ? 作者:Chaobowx ? 2022-11-21 17:24 ? 次閱讀

1 (背景)云計(jì)算復(fù)雜計(jì)算場景挑戰(zhàn)

云計(jì)算是由IaaS、PaaS以及SaaS組成的分層服務(wù)體系,計(jì)算、存儲和網(wǎng)絡(luò)是IaaS層核心的三類服務(wù)。

云計(jì)算的特點(diǎn):

超大的規(guī)模、大量的數(shù)據(jù)、復(fù)雜的網(wǎng)絡(luò)以及無處不在的安全問題;

虛擬化、多租戶;

復(fù)雜系統(tǒng)解構(gòu)以及可擴(kuò)展性;

繁重的工作負(fù)載以及針對特定場景的服務(wù);

可遷移性,和對設(shè)備和服務(wù)接口一致性的要求。

底層硬件架構(gòu)挑戰(zhàn):

如何兼顧性能和靈活性;

從業(yè)務(wù)異構(gòu)加速、工作任務(wù)卸載,到業(yè)務(wù)和管理分離;

如何實(shí)現(xiàn)接口的標(biāo)準(zhǔn)化和彈性,以及硬件加速的虛擬化和個性化;

如何實(shí)現(xiàn)硬件加速的彈性和支持軟件的長期迭代;

如何硬件高可用;

最大挑戰(zhàn):一個平臺應(yīng)對上述所有挑戰(zhàn)。

2 (理論)軟硬件融合綜述

2.1 軟硬件融合的背景

deb2c958-67a5-11ed-8abf-dac502259ad0.png

軟件應(yīng)用層出不窮,并且快速迭代。兩年一個新的軟件熱點(diǎn),并且,已有熱點(diǎn)技術(shù)仍在快速演進(jìn)和迭代。

而硬件越來越復(fù)雜,芯片工藝走向5nm以下,甚至即將進(jìn)入亞納米,3D堆疊封裝,4D的Chiplet互聯(lián)。這都使得芯片規(guī)模越來越大。芯片如此復(fù)雜,越來越難以駕馭;同時(shí),芯片的一次性成本及研發(fā)風(fēng)險(xiǎn)都變得越來越高。

CPU性能瓶頸,但服務(wù)器的工作負(fù)載數(shù)量和單個負(fù)載的算力消耗仍在增加,“摩爾定律”要想持續(xù),必須需要更多更復(fù)雜的硬件加速。而ASIC/DSA的靈活性不夠,難以滿足應(yīng)用的多樣和變化,也使得芯片越來越難以大規(guī)模落地。

軟硬件之間的鴻溝越拉越大:CPU軟件性能低下,定制ASIC難以大規(guī)模復(fù)制;軟件迭代越來越快,硬件迭代卻越來越慢。芯片高投入高風(fēng)險(xiǎn),嚴(yán)重制約著軟件的發(fā)展。

2.2 軟件和硬件的定義

deccaf80-67a5-11ed-8abf-dac502259ad0.png

指令是軟件和硬件的媒介,指令的復(fù)雜度(也即單位計(jì)算的密度)決定了系統(tǒng)的軟硬件解耦程度。

按照指令的復(fù)雜度劃分,典型的處理器平臺大致分為CPU、協(xié)處理器、GPUFPGA、DSA、ASIC等。從左往右,各個處理器平臺的單位指令越來越復(fù)雜,性能越來越好,而靈活性卻越來越低。

我們把任務(wù)在CPU運(yùn)行,定義為軟件運(yùn)行;把任務(wù)在協(xié)處理器、GPU、FPGA、DSA或ASIC運(yùn)行,則定義為硬件加速運(yùn)行。

2.3 軟硬件融合

dee3c9ea-67a5-11ed-8abf-dac502259ad0.png

把一個Workload映射到處理引擎,有如下特點(diǎn):

均衡:根據(jù)任務(wù)特點(diǎn),映射到CPU、GPU、DSA、ASIC等最合適的處理引擎。

動態(tài):任務(wù)最合適的處理引擎,并非一成不變,而是隨著系統(tǒng)發(fā)展迭代有可能Offload/Onload。

復(fù)雜的系統(tǒng),由分層分塊的各個組件有機(jī)組成。軟硬件融合,不改變系統(tǒng)層次結(jié)構(gòu)和組件交互關(guān)系,但打破軟硬件的界限,通過系統(tǒng)級的協(xié)同,達(dá)成整體最優(yōu)。

傳統(tǒng)分層很清晰,下層硬件上層軟件;軟硬件融合的分層分塊,每個任務(wù)模塊都是不同程度軟硬件解耦基礎(chǔ)上的軟硬件協(xié)同。整個系統(tǒng)呈現(xiàn)出:軟件中有硬件,硬件中有軟件,軟硬件融合成一體。

df03a4e0-67a5-11ed-8abf-dac502259ad0.png

《軟硬件融合》圖書的副標(biāo)題是“超大規(guī)模云計(jì)算架構(gòu)創(chuàng)新之路”,來源是:①復(fù)雜分層的系統(tǒng)、②CPU性能瓶頸、③超大規(guī)模以及④特定場景服務(wù),這些原因共同使得:軟硬件融合當(dāng)前主要是系統(tǒng)不斷卸載。

“無規(guī)模,不卸載”。哪些任務(wù)適合卸載?

性能敏感,占據(jù)較多CPU資源;

廣泛部署,運(yùn)行于眾多服務(wù)器。

宏觀的看,分層的系統(tǒng),越上層越靈活軟件成分越多,越下層越固定硬件成分越多,根據(jù)這個特點(diǎn),軟硬件融合卸載可以形成如下趨勢:

被動的趨勢。龐大的規(guī)模以及特定場景服務(wù),使得云計(jì)算底層Workload逐漸穩(wěn)定并且逐步Offload到硬件。

主動的趨勢。軟硬件融合架構(gòu),使得“硬件”更加靈活,功能也更加強(qiáng)大,使得更多的層次功能向“硬件”加速轉(zhuǎn)移。

2.4 軟硬件融合的應(yīng)用領(lǐng)域

df1fee3e-67a5-11ed-8abf-dac502259ad0.png

云計(jì)算的規(guī)模龐大,算力要求最高,系統(tǒng)也最復(fù)雜。所以,云計(jì)算最先遇到各種挑戰(zhàn),最需要軟硬件融合。

未來,隨著其他領(lǐng)域的算力需求和系統(tǒng)復(fù)雜度也質(zhì)的提升,必然也需要軟硬件融合相關(guān)技術(shù)。軟硬件融合,面向未來復(fù)雜計(jì)算場景,超異構(gòu)混合計(jì)算,算力需求再上1-2個數(shù)量級。

軟硬件融合相關(guān)技術(shù),從云計(jì)算抽象出來,反過來指引包括云計(jì)算在內(nèi)的各種復(fù)雜計(jì)算場景的芯片及系統(tǒng)設(shè)計(jì)。

3(技術(shù))軟硬件融合技術(shù)基礎(chǔ)

df47d07a-67a5-11ed-8abf-dac502259ad0.png

軟硬件融合相關(guān)的技術(shù)包括:

軟硬件接口。聚焦軟件和硬件高效的數(shù)據(jù)交互;

高性能網(wǎng)絡(luò)。例如RDMA和擁塞控制。

算法加速和任務(wù)卸載。算法硬件實(shí)現(xiàn)以及任務(wù)卸載框架。

虛擬化的硬件加速。虛擬化處理的高性能實(shí)現(xiàn)。

異構(gòu)計(jì)算加速平臺。獨(dú)立/集成的GPU/FPGA/DSA異構(gòu)加速平臺。

4(場景)DPU/IPU,云計(jì)算軟硬件融合的核心承載

4.1 CPU卸載視角:DPU是集成加速平臺

df66f37e-67a5-11ed-8abf-dac502259ad0.png

需要有獨(dú)立的加速平臺,不斷的把工作任務(wù)從CPU軟件卸載到硬件加速。因此,DPU/IPU主要用于底層通用任務(wù)加速,而GPU/FPGA/DSA用于應(yīng)用層的業(yè)務(wù)加速。

NVIDIA 2020年5月發(fā)布DPU,10月份大張旗鼓宣傳;作者2020年8月份提出四階段論;Intel 2021年6月份發(fā)布IPU。

4.2 DPU的額外價(jià)值:業(yè)務(wù)管理分離,釋放AI強(qiáng)勁動力

df76cb3c-67a5-11ed-8abf-dac502259ad0.png

業(yè)務(wù)和管理分離,有非常多的額外好處,如:

CPU資源完全交付;

傳統(tǒng)客戶方便上云;

主機(jī)側(cè)獨(dú)立安全域;

物理機(jī)+虛擬機(jī)的優(yōu)勢合并;

統(tǒng)一公有云和私有云運(yùn)維。

df8ce520-67a5-11ed-8abf-dac502259ad0.png

CPU性能瓶頸,IO帶寬持續(xù)增大,IO成為系統(tǒng)瓶頸。DPU/IPU增強(qiáng)了IO的功能,并且逐漸吞噬CPU和GPU的通用工作任務(wù)。

4.3 以數(shù)據(jù)為中心

df9e4748-67a5-11ed-8abf-dac502259ad0.png

大數(shù)據(jù)、AI等場景呈現(xiàn)“高數(shù)據(jù)量低計(jì)算量”的特點(diǎn),并且“云原生”等趨勢使得云計(jì)算復(fù)雜系統(tǒng)解構(gòu),進(jìn)一步增強(qiáng)了這一特點(diǎn)。

以計(jì)算為中心,指令控制流驅(qū)動計(jì)算;未來,以數(shù)據(jù)為中心,數(shù)據(jù)流驅(qū)動計(jì)算。

4.4 DPU/IPU典型案例

典型案例:AWS Nitro系統(tǒng) (偏通用可編程vs NVIDIA Bluefield DPU (偏定制極致性能)。

dfc27be0-67a5-11ed-8abf-dac502259ad0.png

AWS Nitro系統(tǒng)包括:VPC加速卡、EBS加速卡、本地存儲加速卡、Nitro控制器、安全芯片以及Lite Hypervisor。

dfe9268c-67a5-11ed-8abf-dac502259ad0.png

NVIDIA DPU-2的優(yōu)勢:硬件網(wǎng)絡(luò)加速/RDMA網(wǎng)卡/單芯片SOC;劣勢:存儲軟件卸載/非標(biāo)接口/難以差異化/網(wǎng)絡(luò)無法數(shù)據(jù)面編程。

5(本質(zhì))基于軟硬件融合的超異構(gòu)計(jì)算

5.1 DPU成為計(jì)算的核心

dffd9964-67a5-11ed-8abf-dac502259ad0.png

CPU、GPU和DPU,既相互協(xié)作,又相互競爭?;ヂ?lián)網(wǎng)法則:得入口者得天下。DPU/IPU成為數(shù)據(jù)中心算力和服務(wù)的核心。

e02e3d58-67a5-11ed-8abf-dac502259ad0.png

傳統(tǒng)的觀點(diǎn),大家認(rèn)為DPU是CPU的任務(wù)卸載。而從軟硬件融合觀點(diǎn),則認(rèn)為:DPU是包含嵌入式CPU/GPU在內(nèi)的超異構(gòu)計(jì)算平臺,而獨(dú)立CPU/GPU是DPU的擴(kuò)展。

5.2 超異構(gòu)和軟硬件融合

當(dāng)前,大家對DPU的認(rèn)識還沒有形成定論,從DPU到超異構(gòu)計(jì)算,整個認(rèn)識是逐級增強(qiáng)的:

Level 1:DPU是CPU的任務(wù)卸載/加速。

Level 2:IPU是基礎(chǔ)設(shè)施,支撐上層應(yīng)用。

Level 3:DPU/IPU是計(jì)算的核心,CPU和GPU成為擴(kuò)展。

Level 4:DPU/IPU的本質(zhì)是超異構(gòu)計(jì)算,需要在極致靈活性的基礎(chǔ)上,提供極致的性能。

要實(shí)現(xiàn)超異構(gòu)計(jì)算,為什么需要軟硬件融合架構(gòu)(Converged Architecture of Software and Hardware,CASH)?軟硬件融合能夠做到:

性能。相比GPGPU,性能再提升100+倍;相比DSA,性能再提升10+倍。

靈活性。接近于CPU的靈活性、通用可編程性。

資源效率。跟DSA接近的資源效率,單位晶體管消耗下最極致的性能。

設(shè)計(jì)規(guī)模。軟硬件融合,駕馭10+倍更大規(guī)模的設(shè)計(jì)。

架構(gòu)?;谲浻布诤霞軜?gòu)的超異構(gòu)計(jì)算:CPU + GPU + DSA + ASIC + etc.。

生態(tài)。開放的平臺及生態(tài),開放、標(biāo)準(zhǔn)的編程模型和訪問接口,融合主流開源軟件。

5.3 第四代算力革命:基于軟硬件融合的超異構(gòu)計(jì)算

e0642c24-67a5-11ed-8abf-dac502259ad0.png






審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • asic
    +關(guān)注

    關(guān)注

    34

    文章

    1200

    瀏覽量

    120510
  • DPU
    DPU
    +關(guān)注

    關(guān)注

    0

    文章

    358

    瀏覽量

    24184
  • DSA
    DSA
    +關(guān)注

    關(guān)注

    0

    文章

    48

    瀏覽量

    15158

原文標(biāo)題:軟硬件融合:從DPU到超異構(gòu)計(jì)算

文章出處:【微信號:阿寶1990,微信公眾號:阿寶1990】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    DVI接口詳細(xì)分析

    DVI接口詳細(xì)分析DVI 接口規(guī)格和定義 DVI 有DVI 1.0 和DVI 2.0 兩種標(biāo)準(zhǔn),其中 DVI 1.0 僅用了其中的一組信號傳輸信道(data0-data2 ),傳輸圖像的最高像素時(shí)鐘
    發(fā)表于 08-11 09:51

    工程師應(yīng)該掌握的20模擬電路(詳細(xì)分析及參考答案).pdf

    工程師應(yīng)該掌握的20模擬電路(詳細(xì)分析及參考答案).pdf
    發(fā)表于 04-07 13:28

    工程師應(yīng)該掌握的20模擬電路(詳細(xì)分析及參考答案)

    工程師應(yīng)該掌握的20模擬電路(詳細(xì)分析及參考答案)
    發(fā)表于 08-17 09:58

    uboot代碼詳細(xì)分析

    [url=]uboot代碼詳細(xì)分析[/url]
    發(fā)表于 01-29 13:51

    詳細(xì)分析一下USB協(xié)議

    本文跟大家一起詳細(xì)分析一下USB協(xié)議。
    發(fā)表于 05-24 06:16

    詳細(xì)分析stm32f10x.h

    每日開講---學(xué)習(xí)STM32不得不看的剖析(詳細(xì)分析stm32f10x.h)摘要: 學(xué)習(xí)STM32不得不看的剖析(詳細(xì)分析stm32f10x.h)。/**這里是STM32比較重要的頭文件*******************************************
    發(fā)表于 08-05 07:44

    詳細(xì)分析了VTIM和VMIN的功能

    上一篇文章中,我們詳細(xì)分析了VTIM和VMIN的功能,《嵌入式Linux 串口編程系列2--termios的VMIN和VTIME深入理解》 也明白了這兩參數(shù)設(shè)計(jì)的初衷和使用方法,接下來我們 就詳細(xì)
    發(fā)表于 11-05 07:09

    電子工程師必須掌握的20模擬電路詳細(xì)分析

    本文檔的主要內(nèi)容詳細(xì)介紹的是硬件工程師必須掌握的20重要模擬電路的概述和參考答案以及詳細(xì)分析
    發(fā)表于 09-27 08:22

    電子工程師需要掌握的20模擬電路的詳細(xì)分析

    電子工程師需要掌握的20模擬電路的詳細(xì)分析
    發(fā)表于 09-28 06:22

    電子工程師必須掌握的20模擬電路詳細(xì)分析

    內(nèi)含參考答案以及詳細(xì)分析
    發(fā)表于 10-07 07:15

    電子整流器工作原理詳細(xì)分析

    電子整流器工作原理詳細(xì)分析
    發(fā)表于 02-27 10:43 ?2.5w次閱讀

    電子工程師必須掌握的20模擬電路詳細(xì)分析

    電子工程師必須掌握的20模擬電路詳細(xì)分析
    發(fā)表于 06-08 17:52 ?36次下載

    Buck變換器原理詳細(xì)分析

    Buck變換器原理詳細(xì)分析
    發(fā)表于 09-15 17:26 ?30次下載
    Buck變換器原理<b class='flag-5'>詳細(xì)分析</b>

    物聯(lián)網(wǎng)的產(chǎn)業(yè)生態(tài)是怎樣的詳細(xì)分析概述

    物聯(lián)網(wǎng)的產(chǎn)業(yè)生態(tài)是怎樣的詳細(xì)分析概述
    的頭像 發(fā)表于 12-08 10:00 ?5154次閱讀

    正激有源鉗位的詳細(xì)分析

    正激有源鉗位的詳細(xì)分析介紹。
    發(fā)表于 06-16 16:57 ?63次下載