電子發(fā)燒友網(wǎng)報(bào)道(文/周凱揚(yáng))對(duì)于高效的數(shù)據(jù)并行負(fù)載處理來說,矢量架構(gòu)的吸引力越來越大,主流ISA都開始注意到這一點(diǎn)。就拿我們熟悉的前超算王者——日本的富岳來說,其處理器富士通A64FX就是基于Arm可伸縮矢量擴(kuò)展(SVE)的。
Arm也在隨后推出的Armv9架構(gòu)中提出了改良版的SVE2,并在其中加入了對(duì)NEON的兼容,SVE2在HPC之外的市場(chǎng)應(yīng)用中做出了指令優(yōu)化,甚至可以用于手機(jī)、汽車等智能設(shè)備中。
正是因?yàn)橛辛薙VE的存在,富岳才得以單靠通用處理器完成高性能的大數(shù)據(jù)運(yùn)算,而不是像其他主流超算一樣,還要靠堆積GPU、FPGA和AI加速器等片外加速器才能實(shí)現(xiàn)可觀的性能,我國(guó)的神威太湖之光同樣運(yùn)用了這樣的矢量設(shè)計(jì)思路。但以上這些都是專有架構(gòu),微架構(gòu)不透明的同時(shí)也限制了開源和定制化方案的出現(xiàn),而這些均可以在RISC-V上一一實(shí)現(xiàn)。
RISC-V矢量處理器的吸引力
RISC-V的矢量擴(kuò)展RVV自2015年提出以來,已經(jīng)有了長(zhǎng)足的進(jìn)展,也有了正式的1.0版本規(guī)范。與傳統(tǒng)的SIMD指令相比,RVV提供動(dòng)態(tài)的矢量長(zhǎng)度修改,做到了更高的效率、更小的代碼體積和更簡(jiǎn)單的循環(huán)結(jié)束。我們近期已經(jīng)看到了不少RISC-V處理器被廣泛使用的新聞,比如谷歌選擇在其TPU上加入SiFive的X280處理器,其實(shí)看重的就是它在矢量處理上的優(yōu)勢(shì)。
SiFive矢量處理器 / SiFive
所以我們看到在SiFive的處理器產(chǎn)品中,像Performance P270和Intelligence X280都擁有優(yōu)秀的矢量處理能力,后者更是引入了一個(gè)512位矢量寄存器長(zhǎng)度的架構(gòu),在完全支持矢量擴(kuò)展標(biāo)準(zhǔn)的同時(shí),還支持動(dòng)態(tài)可變矢量長(zhǎng)度的運(yùn)算。SiFive也在其矢量擴(kuò)展上做出了改進(jìn),稱其為SiFive智能擴(kuò)展,與直接基于RV64GCV架構(gòu)的設(shè)計(jì)相比,X280的智能擴(kuò)展在INT8格式下的矩陣乘法運(yùn)算時(shí)可將執(zhí)行速度提高12倍。
而且這不僅僅造福的是數(shù)據(jù)中心,還有受制于功耗卻又需要高吞吐量和單線程性能的邊緣應(yīng)用,比如AR/VR、數(shù)碼相機(jī)等等。SiFive同樣測(cè)試了可用于移動(dòng)端或嵌入式設(shè)備的輕量級(jí)神經(jīng)網(wǎng)絡(luò)MobileNet,相較基于RISC-V標(biāo)量的架構(gòu),SiFive智能擴(kuò)展可以將速度提升144倍。
同樣的還有晶心科技推出的RISC-V矢量處理器NX27V,該處理器采用了5級(jí)流水線的設(shè)計(jì),晶心為其設(shè)計(jì)了強(qiáng)大的矢量處理單元,擁有32個(gè)矢量寄存器,最高支持512位的矢量長(zhǎng)度,為了進(jìn)一步支持AI應(yīng)用,晶心還為其增加了BF16和INT4的數(shù)據(jù)格式支持。據(jù)正在打造可擴(kuò)展的高性能AI超算的初創(chuàng)公司Luminous Computing透露,他們打造的系統(tǒng)用到了數(shù)百個(gè)NX27V VPU核心,極大地提升了該系統(tǒng)的深度學(xué)習(xí)性能。
開源RISC-V矢量處理器
RISC-V作為開源架構(gòu)最棒的一點(diǎn)就在于,總是不缺香山處理器這樣優(yōu)秀的開源方案。比如2019年推出的Ara就是一款高效矢量協(xié)處理器,用于輔助OpenHW的CVA6 RISC-V應(yīng)用處理器Ara,只不過Ara剛發(fā)布之際還是基于早期的RVV規(guī)范設(shè)計(jì)的。
來自蘇黎世聯(lián)邦理工學(xué)院(ETH)和華為蘇黎世研究中心的研究員們借助Ara的啟發(fā),基于RVV1.0發(fā)表了一個(gè)開源的高效RISC-V矢量處理器設(shè)計(jì)。他們基于格芯的22FDX工藝進(jìn)行了吞吐量和PPA的驗(yàn)證,整個(gè)系統(tǒng)運(yùn)行頻率為1.34GH,在關(guān)鍵的矩陣乘法內(nèi)核下,F(xiàn)PU的利用率可以達(dá)到98%以上。
相較之下,SiFive的X280和另一個(gè)開源矢量協(xié)處理器Vicuna宣稱的FPU利用率大于90%,伯克利的開源方案Hwacha可以做到95%以上。為了展示從RVV擴(kuò)展這么多年以來的改進(jìn),他們也與基于RVV 0.5版下的設(shè)計(jì)做了對(duì)比,結(jié)果是在面積占用上有了15%的提升,吞吐量也有了6%的提升,雙精度計(jì)算效率也做到了37.1GFLOPS/W。
結(jié)語
AI時(shí)代下,矢量處理的應(yīng)用場(chǎng)景已經(jīng)遠(yuǎn)超我們的現(xiàn)象,包括深度學(xué)習(xí)、推薦系統(tǒng)、鍵值存儲(chǔ)和HPC等,都已經(jīng)廣泛利用了矢量計(jì)算。但如何做到高效高性能,才是未來所有ISA的努力方向,而RISC-V作為后來者,反而能在這上面找到彎道超車的機(jī)會(huì)。
Arm也在隨后推出的Armv9架構(gòu)中提出了改良版的SVE2,并在其中加入了對(duì)NEON的兼容,SVE2在HPC之外的市場(chǎng)應(yīng)用中做出了指令優(yōu)化,甚至可以用于手機(jī)、汽車等智能設(shè)備中。
正是因?yàn)橛辛薙VE的存在,富岳才得以單靠通用處理器完成高性能的大數(shù)據(jù)運(yùn)算,而不是像其他主流超算一樣,還要靠堆積GPU、FPGA和AI加速器等片外加速器才能實(shí)現(xiàn)可觀的性能,我國(guó)的神威太湖之光同樣運(yùn)用了這樣的矢量設(shè)計(jì)思路。但以上這些都是專有架構(gòu),微架構(gòu)不透明的同時(shí)也限制了開源和定制化方案的出現(xiàn),而這些均可以在RISC-V上一一實(shí)現(xiàn)。
RISC-V矢量處理器的吸引力
RISC-V的矢量擴(kuò)展RVV自2015年提出以來,已經(jīng)有了長(zhǎng)足的進(jìn)展,也有了正式的1.0版本規(guī)范。與傳統(tǒng)的SIMD指令相比,RVV提供動(dòng)態(tài)的矢量長(zhǎng)度修改,做到了更高的效率、更小的代碼體積和更簡(jiǎn)單的循環(huán)結(jié)束。我們近期已經(jīng)看到了不少RISC-V處理器被廣泛使用的新聞,比如谷歌選擇在其TPU上加入SiFive的X280處理器,其實(shí)看重的就是它在矢量處理上的優(yōu)勢(shì)。
SiFive矢量處理器 / SiFive
而且這不僅僅造福的是數(shù)據(jù)中心,還有受制于功耗卻又需要高吞吐量和單線程性能的邊緣應(yīng)用,比如AR/VR、數(shù)碼相機(jī)等等。SiFive同樣測(cè)試了可用于移動(dòng)端或嵌入式設(shè)備的輕量級(jí)神經(jīng)網(wǎng)絡(luò)MobileNet,相較基于RISC-V標(biāo)量的架構(gòu),SiFive智能擴(kuò)展可以將速度提升144倍。
同樣的還有晶心科技推出的RISC-V矢量處理器NX27V,該處理器采用了5級(jí)流水線的設(shè)計(jì),晶心為其設(shè)計(jì)了強(qiáng)大的矢量處理單元,擁有32個(gè)矢量寄存器,最高支持512位的矢量長(zhǎng)度,為了進(jìn)一步支持AI應(yīng)用,晶心還為其增加了BF16和INT4的數(shù)據(jù)格式支持。據(jù)正在打造可擴(kuò)展的高性能AI超算的初創(chuàng)公司Luminous Computing透露,他們打造的系統(tǒng)用到了數(shù)百個(gè)NX27V VPU核心,極大地提升了該系統(tǒng)的深度學(xué)習(xí)性能。
開源RISC-V矢量處理器
RISC-V作為開源架構(gòu)最棒的一點(diǎn)就在于,總是不缺香山處理器這樣優(yōu)秀的開源方案。比如2019年推出的Ara就是一款高效矢量協(xié)處理器,用于輔助OpenHW的CVA6 RISC-V應(yīng)用處理器Ara,只不過Ara剛發(fā)布之際還是基于早期的RVV規(guī)范設(shè)計(jì)的。
來自蘇黎世聯(lián)邦理工學(xué)院(ETH)和華為蘇黎世研究中心的研究員們借助Ara的啟發(fā),基于RVV1.0發(fā)表了一個(gè)開源的高效RISC-V矢量處理器設(shè)計(jì)。他們基于格芯的22FDX工藝進(jìn)行了吞吐量和PPA的驗(yàn)證,整個(gè)系統(tǒng)運(yùn)行頻率為1.34GH,在關(guān)鍵的矩陣乘法內(nèi)核下,F(xiàn)PU的利用率可以達(dá)到98%以上。
相較之下,SiFive的X280和另一個(gè)開源矢量協(xié)處理器Vicuna宣稱的FPU利用率大于90%,伯克利的開源方案Hwacha可以做到95%以上。為了展示從RVV擴(kuò)展這么多年以來的改進(jìn),他們也與基于RVV 0.5版下的設(shè)計(jì)做了對(duì)比,結(jié)果是在面積占用上有了15%的提升,吞吐量也有了6%的提升,雙精度計(jì)算效率也做到了37.1GFLOPS/W。
結(jié)語
AI時(shí)代下,矢量處理的應(yīng)用場(chǎng)景已經(jīng)遠(yuǎn)超我們的現(xiàn)象,包括深度學(xué)習(xí)、推薦系統(tǒng)、鍵值存儲(chǔ)和HPC等,都已經(jīng)廣泛利用了矢量計(jì)算。但如何做到高效高性能,才是未來所有ISA的努力方向,而RISC-V作為后來者,反而能在這上面找到彎道超車的機(jī)會(huì)。
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。
舉報(bào)投訴
-
RISC-V
+關(guān)注
關(guān)注
45文章
2287瀏覽量
46185
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
RISC-V架構(gòu)及MRS開發(fā)環(huán)境回顧
Sherwani的預(yù)測(cè),5年后RISC-V指令的處理器就有可能進(jìn)軍服務(wù)器市場(chǎng)。
③、RISC-V的應(yīng)用之三:存儲(chǔ)市場(chǎng)
硬盤本身并不需要像SSD那樣龐大的計(jì)算資源,但是由于新的磁記錄技
發(fā)表于 12-16 23:08
《RISC-V能否復(fù)制Linux 的成功?》
,創(chuàng)建實(shí)現(xiàn)自有加速器算法的自定義異構(gòu)集群。RISC-V作為一種ISA,我們一開始是在處理器內(nèi)核中采用吸引人的通用構(gòu)建塊,然后在此基礎(chǔ)上進(jìn)行構(gòu)建,同時(shí)還利用最好的商業(yè)工具增強(qiáng)使用者的信心。所以,IP
發(fā)表于 11-26 20:20
什么是RISC-V?以及RISC-V和ARM、X86的區(qū)別
圖紙,處理器就是房子。
RISC和RISC-V的區(qū)別
RISC全稱Reduced Instruction Set Computer,即精簡(jiǎn)指令計(jì)算
發(fā)表于 11-16 16:14
RISC-V,即將進(jìn)入應(yīng)用的爆發(fā)期
計(jì)算機(jī)由控制整體的CPU(中央處理器)和加速器兩部分構(gòu)成。在AI計(jì)算中,功耗和效率是兩個(gè)關(guān)鍵因素。RISC-V架構(gòu)通過其簡(jiǎn)潔的設(shè)計(jì)和定制化的擴(kuò)展,可以實(shí)現(xiàn)高效的能量使用。該架構(gòu)能夠通過
發(fā)表于 10-31 16:06
加入全球 RISC-V Advocate 行列,共筑 RISC-V 的未來 !
加入RISC-VAdvocate行列!我們正在尋找來自世界各地的RISC-V愛好者,通過全球推廣和參與,成為支持RISC-V進(jìn)步的關(guān)鍵參與者。作為一名RISC-VAdvocate,您將
RISC-V Summit China 2024 | 青稞RISC-V+接口PHY,賦能RISC-V高效落地
獲三份益
青稞RISC-V,更懂下游客戶的MCU內(nèi)核
通用RISC-V架構(gòu)進(jìn)入MCU行業(yè)難免水土不服。沁恒通過“架構(gòu)級(jí)”創(chuàng)新,解決下游開發(fā)/應(yīng)用過程中的痛點(diǎn)問題,讓青稞RISC-V更接
發(fā)表于 08-30 17:37
risc-v的發(fā)展歷史
了基于RISC-V指令集的服務(wù)器處理器,安謀科技也推出了RISC-V MCU等產(chǎn)品。
學(xué)術(shù)界與開源社區(qū):RISC-V架構(gòu)在學(xué)術(shù)界和開源社區(qū)中也得到了廣泛的研究和應(yīng)用。許多研究機(jī)構(gòu)和開發(fā)
發(fā)表于 07-29 17:20
rIsc-v的缺的是什么?
RISC-V作為一種開源的指令集架構(gòu)(ISA),自其誕生以來就受到廣泛關(guān)注和應(yīng)用,但它也存在一些不足之處。以下是RISC-V架構(gòu)目前存在的主要缺點(diǎn):
1. 性能問題
相對(duì)于專用ISA的性能差距:盡管
發(fā)表于 07-29 17:18
RISC-V適合什么樣的應(yīng)用場(chǎng)景
設(shè)計(jì)使得開發(fā)者可以靈活選擇所需的指令集和模塊,以滿足嵌入式系統(tǒng)的各種性能要求。
3. 人工智能(AI)和機(jī)器學(xué)習(xí)(ML)
高性能計(jì)算:RISC-V結(jié)合AI加速器或協(xié)處理器,可以提供高效的人工智能
發(fā)表于 07-29 17:16
為什么要有RISC-V
RISC-V(“RISC five”)的目標(biāo)是成為一個(gè)通用的指令集架構(gòu)(ISA):①、它要能適應(yīng)包括從最袖珍的嵌入式控制器,到最快的高性能計(jì)算機(jī)等各種規(guī)模的
發(fā)表于 07-27 15:05
淺析RISC-V領(lǐng)先ARM的優(yōu)勢(shì)
RISC-V的開源特性和定制化能力使其在某些特定領(lǐng)域具有更強(qiáng)的競(jìng)爭(zhēng)力。
綜上所述,RISC-V相對(duì)于ARM的優(yōu)勢(shì)主要體現(xiàn)在開源與免費(fèi)、定制化能力強(qiáng)、生態(tài)系統(tǒng)的快速發(fā)展、安全性與可靠性以及應(yīng)用領(lǐng)域廣泛等方面。這些優(yōu)勢(shì)使得
發(fā)表于 06-27 08:45
Ubuntu現(xiàn)已適配RISC-V單板計(jì)算機(jī)Milk-V Mars
科技高性能RISC-V多媒體處理器昉·驚鴻-7110(JH-7110)。RISC-V單板計(jì)算機(jī)Milk-VMarsMilk-VMars是全球首款信用卡大小的四核高性
國(guó)產(chǎn)RISC-V MCU推薦
,CH583搭載32位青稞RISC-V處理器WCH RISC-V4A,低功耗兩級(jí)流水線,高性能,擁有多檔系統(tǒng)主頻,最低32KHz ,擁有特有高速的中斷響應(yīng)機(jī)制。
單片搞定Wi-Fi和藍(lán)牙
許多網(wǎng)友也
發(fā)表于 04-17 11:00
什么是RISC-V?RISC-V的關(guān)鍵技術(shù)
RISC-V不僅僅是一個(gè)流行語;它建立在堅(jiān)實(shí)的技術(shù)基礎(chǔ)之上,使其有別于其他指令集架構(gòu) (ISA)。RISC-V的核心是基于精簡(jiǎn)指令集計(jì)算(RISC)原則,強(qiáng)調(diào)效率和性能。
發(fā)表于 03-26 09:34
?3555次閱讀
RISC-V 基礎(chǔ)學(xué)習(xí):RISC-V 基礎(chǔ)介紹
計(jì)算機(jī)指令設(shè)計(jì)架構(gòu)后。我們來看看 RISC-V。
RISC-V 的 “V”, 有兩層意思,一方面代表第5代 RISC;另一方面, “
發(fā)表于 03-12 10:25
評(píng)論