1 (背景)云計(jì)算復(fù)雜計(jì)算場景挑戰(zhàn)
云計(jì)算是由IaaS、PaaS以及SaaS組成的分層服務(wù)體系,計(jì)算、存儲和網(wǎng)絡(luò)是IaaS層核心的三類服務(wù)。
云計(jì)算的特點(diǎn):
超大的規(guī)模、大量的數(shù)據(jù)、復(fù)雜的網(wǎng)絡(luò)以及無處不在的安全問題;
虛擬化、多租戶;
復(fù)雜系統(tǒng)解構(gòu)以及可擴(kuò)展性;
繁重的工作負(fù)載以及針對特定場景的服務(wù);
可遷移性,和對設(shè)備和服務(wù)接口一致性的要求。
底層硬件架構(gòu)挑戰(zhàn):
如何兼顧性能和靈活性;
從業(yè)務(wù)異構(gòu)加速、工作任務(wù)卸載,到業(yè)務(wù)和管理分離;
如何實(shí)現(xiàn)接口的標(biāo)準(zhǔn)化和彈性,以及硬件加速的虛擬化和個性化;
如何實(shí)現(xiàn)硬件加速的彈性和支持軟件的長期迭代;
如何硬件高可用;
最大挑戰(zhàn):一個平臺應(yīng)對上述所有挑戰(zhàn)。
2 (理論)軟硬件融合綜述
2.1 軟硬件融合的背景
軟件應(yīng)用層出不窮,并且快速迭代。兩年一個新的軟件熱點(diǎn),并且,已有熱點(diǎn)技術(shù)仍在快速演進(jìn)和迭代。
而硬件越來越復(fù)雜,芯片工藝走向5nm以下,甚至即將進(jìn)入亞納米,3D堆疊封裝,4D的Chiplet互聯(lián)。這都使得芯片規(guī)模越來越大。芯片如此復(fù)雜,越來越難以駕馭;同時(shí),芯片的一次性成本及研發(fā)風(fēng)險(xiǎn)都變得越來越高。
CPU性能瓶頸,但服務(wù)器的工作負(fù)載數(shù)量和單個負(fù)載的算力消耗仍在增加,“摩爾定律”要想持續(xù),必須需要更多更復(fù)雜的硬件加速。而ASIC/DSA的靈活性不夠,難以滿足應(yīng)用的多樣和變化,也使得芯片越來越難以大規(guī)模落地。
軟硬件之間的鴻溝越拉越大:CPU軟件性能低下,定制ASIC難以大規(guī)模復(fù)制;軟件迭代越來越快,硬件迭代卻越來越慢。芯片高投入高風(fēng)險(xiǎn),嚴(yán)重制約著軟件的發(fā)展。
2.2 軟件和硬件的定義
指令是軟件和硬件的媒介,指令的復(fù)雜度(也即單位計(jì)算的密度)決定了系統(tǒng)的軟硬件解耦程度。
按照指令的復(fù)雜度劃分,典型的處理器平臺大致分為CPU、協(xié)處理器、GPU、FPGA、DSA、ASIC等。從左往右,各個處理器平臺的單位指令越來越復(fù)雜,性能越來越好,而靈活性卻越來越低。
我們把任務(wù)在CPU運(yùn)行,定義為軟件運(yùn)行;把任務(wù)在協(xié)處理器、GPU、FPGA、DSA或ASIC運(yùn)行,則定義為硬件加速運(yùn)行。
2.3 軟硬件融合
把一個Workload映射到處理引擎,有如下特點(diǎn):
均衡:根據(jù)任務(wù)特點(diǎn),映射到CPU、GPU、DSA、ASIC等最合適的處理引擎。
動態(tài):任務(wù)最合適的處理引擎,并非一成不變,而是隨著系統(tǒng)發(fā)展迭代有可能Offload/Onload。
復(fù)雜的系統(tǒng),由分層分塊的各個組件有機(jī)組成。軟硬件融合,不改變系統(tǒng)層次結(jié)構(gòu)和組件交互關(guān)系,但打破軟硬件的界限,通過系統(tǒng)級的協(xié)同,達(dá)成整體最優(yōu)。
傳統(tǒng)分層很清晰,下層硬件上層軟件;軟硬件融合的分層分塊,每個任務(wù)模塊都是不同程度軟硬件解耦基礎(chǔ)上的軟硬件協(xié)同。整個系統(tǒng)呈現(xiàn)出:軟件中有硬件,硬件中有軟件,軟硬件融合成一體。
《軟硬件融合》圖書的副標(biāo)題是“超大規(guī)模云計(jì)算架構(gòu)創(chuàng)新之路”,來源是:①復(fù)雜分層的系統(tǒng)、②CPU性能瓶頸、③超大規(guī)模以及④特定場景服務(wù),這些原因共同使得:軟硬件融合當(dāng)前主要是系統(tǒng)不斷卸載。
“無規(guī)模,不卸載”。哪些任務(wù)適合卸載?
性能敏感,占據(jù)較多CPU資源;
廣泛部署,運(yùn)行于眾多服務(wù)器。
宏觀的看,分層的系統(tǒng),越上層越靈活軟件成分越多,越下層越固定硬件成分越多,根據(jù)這個特點(diǎn),軟硬件融合卸載可以形成如下趨勢:
被動的趨勢。龐大的規(guī)模以及特定場景服務(wù),使得云計(jì)算底層Workload逐漸穩(wěn)定并且逐步Offload到硬件。
主動的趨勢。軟硬件融合架構(gòu),使得“硬件”更加靈活,功能也更加強(qiáng)大,使得更多的層次功能向“硬件”加速轉(zhuǎn)移。
2.4 軟硬件融合的應(yīng)用領(lǐng)域
云計(jì)算的規(guī)模龐大,算力要求最高,系統(tǒng)也最復(fù)雜。所以,云計(jì)算最先遇到各種挑戰(zhàn),最需要軟硬件融合。
未來,隨著其他領(lǐng)域的算力需求和系統(tǒng)復(fù)雜度也質(zhì)的提升,必然也需要軟硬件融合相關(guān)技術(shù)。軟硬件融合,面向未來復(fù)雜計(jì)算場景,超異構(gòu)混合計(jì)算,算力需求再上1-2個數(shù)量級。
軟硬件融合相關(guān)技術(shù),從云計(jì)算抽象出來,反過來指引包括云計(jì)算在內(nèi)的各種復(fù)雜計(jì)算場景的芯片及系統(tǒng)設(shè)計(jì)。
3(技術(shù))軟硬件融合技術(shù)基礎(chǔ)
軟硬件融合相關(guān)的技術(shù)包括:
軟硬件接口。聚焦軟件和硬件高效的數(shù)據(jù)交互;
高性能網(wǎng)絡(luò)。例如RDMA和擁塞控制。
算法加速和任務(wù)卸載。算法硬件實(shí)現(xiàn)以及任務(wù)卸載框架。
虛擬化的硬件加速。虛擬化處理的高性能實(shí)現(xiàn)。
異構(gòu)計(jì)算加速平臺。獨(dú)立/集成的GPU/FPGA/DSA異構(gòu)加速平臺。
4(場景)DPU/IPU,云計(jì)算軟硬件融合的核心承載
4.1 CPU卸載視角:DPU是集成加速平臺
需要有獨(dú)立的加速平臺,不斷的把工作任務(wù)從CPU軟件卸載到硬件加速。因此,DPU/IPU主要用于底層通用任務(wù)加速,而GPU/FPGA/DSA用于應(yīng)用層的業(yè)務(wù)加速。
NVIDIA 2020年5月發(fā)布DPU,10月份大張旗鼓宣傳;作者2020年8月份提出四階段論;Intel 2021年6月份發(fā)布IPU。
4.2 DPU的額外價(jià)值:業(yè)務(wù)管理分離,釋放AI強(qiáng)勁動力
業(yè)務(wù)和管理分離,有非常多的額外好處,如:
CPU資源完全交付;
傳統(tǒng)客戶方便上云;
主機(jī)側(cè)獨(dú)立安全域;
物理機(jī)+虛擬機(jī)的優(yōu)勢合并;
統(tǒng)一公有云和私有云運(yùn)維。
CPU性能瓶頸,IO帶寬持續(xù)增大,IO成為系統(tǒng)瓶頸。DPU/IPU增強(qiáng)了IO的功能,并且逐漸吞噬CPU和GPU的通用工作任務(wù)。
4.3 以數(shù)據(jù)為中心
大數(shù)據(jù)、AI等場景呈現(xiàn)“高數(shù)據(jù)量低計(jì)算量”的特點(diǎn),并且“云原生”等趨勢使得云計(jì)算復(fù)雜系統(tǒng)解構(gòu),進(jìn)一步增強(qiáng)了這一特點(diǎn)。
以計(jì)算為中心,指令控制流驅(qū)動計(jì)算;未來,以數(shù)據(jù)為中心,數(shù)據(jù)流驅(qū)動計(jì)算。
4.4 DPU/IPU典型案例
典型案例:AWS Nitro系統(tǒng) (偏通用可編程)vs NVIDIA Bluefield DPU (偏定制極致性能)。
AWS Nitro系統(tǒng)包括:VPC加速卡、EBS加速卡、本地存儲加速卡、Nitro控制器、安全芯片以及Lite Hypervisor。
NVIDIA DPU-2的優(yōu)勢:硬件網(wǎng)絡(luò)加速/RDMA網(wǎng)卡/單芯片SOC;劣勢:存儲軟件卸載/非標(biāo)接口/難以差異化/網(wǎng)絡(luò)無法數(shù)據(jù)面編程。
5(本質(zhì))基于軟硬件融合的超異構(gòu)計(jì)算
5.1 DPU成為計(jì)算的核心
CPU、GPU和DPU,既相互協(xié)作,又相互競爭?;ヂ?lián)網(wǎng)法則:得入口者得天下。DPU/IPU成為數(shù)據(jù)中心算力和服務(wù)的核心。
傳統(tǒng)的觀點(diǎn),大家認(rèn)為DPU是CPU的任務(wù)卸載。而從軟硬件融合觀點(diǎn),則認(rèn)為:DPU是包含嵌入式CPU/GPU在內(nèi)的超異構(gòu)計(jì)算平臺,而獨(dú)立CPU/GPU是DPU的擴(kuò)展。
5.2 超異構(gòu)和軟硬件融合
當(dāng)前,大家對DPU的認(rèn)識還沒有形成定論,從DPU到超異構(gòu)計(jì)算,整個認(rèn)識是逐級增強(qiáng)的:
Level 1:DPU是CPU的任務(wù)卸載/加速。
Level 2:IPU是基礎(chǔ)設(shè)施,支撐上層應(yīng)用。
Level 3:DPU/IPU是計(jì)算的核心,CPU和GPU成為擴(kuò)展。
Level 4:DPU/IPU的本質(zhì)是超異構(gòu)計(jì)算,需要在極致靈活性的基礎(chǔ)上,提供極致的性能。
要實(shí)現(xiàn)超異構(gòu)計(jì)算,為什么需要軟硬件融合架構(gòu)(Converged Architecture of Software and Hardware,CASH)?軟硬件融合能夠做到:
性能。相比GPGPU,性能再提升100+倍;相比DSA,性能再提升10+倍。
靈活性。接近于CPU的靈活性、通用可編程性。
資源效率。跟DSA接近的資源效率,單位晶體管消耗下最極致的性能。
設(shè)計(jì)規(guī)模。軟硬件融合,駕馭10+倍更大規(guī)模的設(shè)計(jì)。
架構(gòu)?;谲浻布诤霞軜?gòu)的超異構(gòu)計(jì)算:CPU + GPU + DSA + ASIC + etc.。
生態(tài)。開放的平臺及生態(tài),開放、標(biāo)準(zhǔn)的編程模型和訪問接口,融合主流開源軟件。
5.3 第四代算力革命:基于軟硬件融合的超異構(gòu)計(jì)算
審核編輯:劉清
-
asic
+關(guān)注
關(guān)注
34文章
1200瀏覽量
120510 -
DPU
+關(guān)注
關(guān)注
0文章
358瀏覽量
24184 -
DSA
+關(guān)注
關(guān)注
0文章
48瀏覽量
15158
原文標(biāo)題:軟硬件融合:從DPU到超異構(gòu)計(jì)算
文章出處:【微信號:阿寶1990,微信公眾號:阿寶1990】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論