電子發(fā)燒友網(wǎng)報道(文/吳子鵬)說起AI大模型的訓練和推理,很多人的第一想法肯定是英偉達芯片,那么背后也就是ARM架構。統(tǒng)計數(shù)據(jù)顯示,在AI芯片領域,英偉達一家獨占七成市場份額;如果單獨看AI大模型訓練芯片,正如花旗研究分析師Christopher Danely提到的,英偉達的市場占比超過九成。
實際上,即便是谷歌、亞馬遜、Meta、IBM及其他一些企業(yè)提供的AI芯片,背后的架構也基本是ARM架構。那么,目前同樣大火的RISC-V架構是否能夠在AI大模型市場捕捉到機會呢?
RISC-V在AI大模型領域的嘗試
當然,雖然在芯片性能方面還無法和ARM架構芯片正面抗衡,不過RISC-V架構陣營也沒有坐以待斃,而是在積極探索進入AI大模型市場的機會,且已經(jīng)有一些成果。
在今年的世界互聯(lián)網(wǎng)大會烏鎮(zhèn)峰會上,希姆計算聯(lián)合國鑫發(fā)布基于RISC-V架構打造的大模型系列一體機,包括2U4卡、4U8卡機,支持部署6B、7B、13B參數(shù)規(guī)模的大模型。
這就是很好的聯(lián)動,希姆計算成立于2019年4月,成立之初就確立了基于RISC-V指令集設計數(shù)據(jù)中心高性能芯片的技術路線、由專用計算(DSA,領域?qū)S眉軜嫞┫蛲ㄓ糜嬎悖?a href="http://wenjunhu.com/v/tag/132/" target="_blank">CPU)逐步演進的發(fā)展戰(zhàn)略。目前,該公司已經(jīng)有一款加速卡產(chǎn)品——STCP920。
STCP920是希姆計算基于RISC-V架構打造的人工智能計算加速卡,混合支持FP16/INT8數(shù)據(jù)類型。算力表現(xiàn)為:半精度浮點運算速度(FP16)為128TFLOPS;整數(shù)運算速度(INT8)為256 TOPS。內(nèi)存類型為LPDDR4X,內(nèi)存帶寬為119.4GB/S。
國鑫則是中國領先的服務器解決方案供應商,具有全產(chǎn)業(yè)鏈的自主研發(fā)能力和生產(chǎn)能力,是目前中國屈指可數(shù)的集研發(fā)、生產(chǎn)、銷售、服務于一體的服務器和存儲軟硬件廠商之一。目前,該公司在智算中心方面的服務器主要還是基于英特爾和AMD的芯片產(chǎn)品。
再看另一個案例,來自芯至科技。該公司今年才開始正式運營,不過卻在助推RISC-V進入大模型運算方面做出了突出的成績。根據(jù)該公司官網(wǎng)信息,芯至科技在今年發(fā)布了全球首款Risc-V based GPGPU SIMT核——焦山核(Turbocore)V100。
焦山核V100全面支持SIMT,支持RV32G指令集,支持Tensor擴展指令集,支持類CUDA編程模型,提供硬件任務調(diào)度,指令并行度為32Threads*128??杀挥糜贕PGPU進行AI推理等多種場景,單核性能不低于16T Int8/GHz,預計采用12nm工藝流片,頻率將不低于1.2GHZ。
芯至科技聯(lián)合創(chuàng)始人、首席芯片架構師兼副總裁尹文此前表示,AI大模型落地到推理側的新機會與RISC-V架構創(chuàng)新不謀而合,Scaler小標量+SIMT大算力的指令集/微架構融合將是未來RISC-V發(fā)力的重點,能以相對低的成本,為AI推理側應用提供高效支持。
尹文這種“RISC-V可以做線程級并行AI計算”的想法,和英特爾是不謀而合的。英特爾Piuma是一個定制RISC內(nèi)核的特殊芯片,它的特殊之處在雖然只有8個核心,但是卻有528個線程,單核擁有66個線程。另外,Piuma芯片還具有非??植赖幕ヂ?lián)能力,最多可以實現(xiàn)131072個Piuma芯片互連,讓一個芯片集群擁有1680萬個核心,這會帶來非??植赖臄?shù)據(jù)并行能力。雖然英特爾沒有說這是RISC-V內(nèi)核,但是技術上是一脈相通的,給行業(yè)發(fā)展提供了一個全新的思路。
另外,我們看一下阿里平頭哥,該公司最近連發(fā)了三顆RISC-V處理器內(nèi)核——首次實現(xiàn)AI矩陣擴展的C907、滿足Vector1.0標準的C920,以及實時處理器R910。其中,C920已經(jīng)新增支持Transformer模型,C907首次實現(xiàn)了獨立矩陣運算(Matrix)擴展,這些內(nèi)核都表明商用RISC-V內(nèi)核確實在向著AI大模型的核心戰(zhàn)場進展,滿足性能指標只會是時間問題。
除了上述提到的,另外國芯科技和上海清華國際創(chuàng)新中心、智繪微電子已經(jīng)簽署了關于開源RISC-V GPGPU合作開發(fā)的備忘錄,這也是一種積極的探索。從理論上說,RISC-V的Vector擴展支持用GPGPU方式來執(zhí)行,那么基于RISC-V實現(xiàn)GPGPU就有了可行性。
RISC-V在AI大模型領域的挑戰(zhàn)
根據(jù)此前的報道,在一項專業(yè)基準測試中,專注高性能RISC-V芯片的Tenstorrent推出基于自有處理器內(nèi)核的RISC-V CPU芯片,該芯片的評分領先于英特爾的Sapphire Rapids、英偉達的Grace和AMD的Zen4。這說明,在傳統(tǒng)CPU方向上,RISC-V架構已經(jīng)開始嶄露頭角,證明了RISC-V架構做高性能芯片的能力,那么在AI大模型方面會遇到哪些挑戰(zhàn)呢?
在AI大模型這類型應用中,RISC-V架構第一大挑戰(zhàn)肯定是內(nèi)核本身。通過美國對于我國的AI芯片禁令就可以看出,AI芯片做大模型訓練是有一定門檻的,低于這個門檻效果就會大打折扣,雖然RISC-V架構已經(jīng)做了很多嘗試,不過總體性能和長期深耕GPU領域的ARM架構肯定沒法比。當然,英特爾和芯至科技這類嘗試說明,RISC-V架構可以率先攻克大模型推理芯片市場以及終端一體機市場。
在性能背后就會牽扯出第二問題——專利。英偉達等芯片廠商以及Arm公司在高性能計算芯片領域儲備了大量的專利,為了追求極致的運算性能,很多方式方法都已經(jīng)被論證過了,并形成了專利,要繞開這些專利限制實現(xiàn)高性能計算芯片,進一步提升了相關廠商的研發(fā)難度。
第三個問題也是一個老生常談的問題,那就是生態(tài)。AI大模型這類型的應用,無論是訓練端還是推理端,都會是一個軟硬件結合的系統(tǒng),尤其是具體到某一個細分領域的推理應用,具有豐富的上層應用,也就需要更高效的軟硬件融合。不過,目前對于RISC-V架構而言,很多生態(tài)還是荒漠,比如DDK、接口、中間件這些關鍵的生態(tài)工具,基本還沒有。
小結
還記得之前平頭哥的觀點:RISC-V將成為AI時代的原生架構,各行業(yè)芯片都值得用RISC-V做一次。那么,應用于AI大模型的芯片也是如此。不過,目前應用于這一領域的芯片還在高速地發(fā)展,這給RISC-V架構增加了追趕的難度,且生態(tài)封閉的問題需要從業(yè)者有更大的勇氣和決心。目前,RISC-V在AI大模型應用中已經(jīng)有所嘗試,接下來要做到的就是完善產(chǎn)品和生態(tài),沒有其他捷徑可走。
-
AI
+關注
關注
87文章
30947瀏覽量
269216 -
RISC-V
+關注
關注
45文章
2287瀏覽量
46185 -
AI芯片
+關注
關注
17文章
1887瀏覽量
35048 -
阿里平頭哥
+關注
關注
0文章
9瀏覽量
1842 -
大模型
+關注
關注
2文章
2465瀏覽量
2763 -
芯至科技
+關注
關注
0文章
2瀏覽量
82 -
AI大模型
+關注
關注
0文章
316瀏覽量
310
發(fā)布評論請先 登錄
相關推薦
評論