本土RISC-V CPU IP領(lǐng)軍企業(yè)——芯來(lái)科技正式發(fā)布首款針對(duì)人工智能應(yīng)用的專用處理器產(chǎn)品線Nuclei Intelligence(NI)系列,以及NI系列的第一款AI專用RISC-V處理器CPU IP——NI900系列內(nèi)核。
隨著Chatgpt的橫空出世,全球掀起一股AI的浪潮,從云端數(shù)據(jù)中心到邊緣側(cè)對(duì)AI的需求進(jìn)一步提升。AI應(yīng)用主要分布在訓(xùn)練和推理,需要大量的并行計(jì)算和NPU來(lái)完成,更離不開(kāi)高性能CPU的算力加持。CPU有著廣泛的普及性、兼容性、可擴(kuò)展性和可靠性,并通過(guò)多核多節(jié)點(diǎn)進(jìn)行串行計(jì)算、混合計(jì)算和安全防護(hù)等復(fù)雜任務(wù);除此之外,CPU的通用矢量(Vector)指令集也可以提供強(qiáng)大且通用的并行計(jì)算能力,在AI領(lǐng)域進(jìn)行高效的并行計(jì)算、前處理、后處理、激活函數(shù)等工作,更加靈活地處理GPU和NPU相對(duì)難以處理的復(fù)雜計(jì)算任務(wù)。
近期OpenAI發(fā)布的Sora模型將AI能夠理解和生成的內(nèi)容模態(tài)從文字和圖片拓展到視頻,進(jìn)一步證明基礎(chǔ)模型能力上限不斷被突破,想象空間被打開(kāi),對(duì)算力基礎(chǔ)設(shè)施的需求也遠(yuǎn)沒(méi)有停止。芯來(lái)科技此次推出的NI900重點(diǎn)布局AI應(yīng)用場(chǎng)景,助力本土芯片設(shè)計(jì)公司快速完成AI產(chǎn)品的設(shè)計(jì)。
NI900基于900系列處理器,針對(duì)“AI應(yīng)用”進(jìn)行了多項(xiàng)特性優(yōu)化
基礎(chǔ)標(biāo)量處理器:
可以配置為900系列的RV32或RV64的任何一款N900、U900、NX900、UX900。
RVV1.0 VPU: 可配置基于RISC-V V Extension(RVV1.0 Vector指令集)的VPU單元,VPU的VLEN可配置為512-bit或者1024-bit。在INT8數(shù)據(jù)類型下對(duì)性能帶來(lái)的提升達(dá)數(shù)百倍;在INT32與FP32數(shù)據(jù)類型下對(duì)性能帶來(lái)的提升達(dá)數(shù)十倍。 NPU加速器:
可通過(guò)NI900的IOCP(IO Coherent Port)與處理器緊耦合,實(shí)現(xiàn)對(duì)CPU內(nèi)部Cache的一致性。
用戶自定義指令擴(kuò)展接口: 用戶可以使用Nuclei的NICE硬件擴(kuò)展接口,增加自己自定義的指令,包括Scalar或Vector指令。
NI900支持RISC-VVector1.0標(biāo)準(zhǔn)
矢量擴(kuò)展被稱之為RV指令集標(biāo)準(zhǔn)最重要的一組擴(kuò)展,2015年發(fā)起,2021年正式生成標(biāo)準(zhǔn)。
RVV 1.0支持的數(shù)據(jù)類型廣泛,運(yùn)算類型豐富且可動(dòng)態(tài)擴(kuò)展,同一套指令可無(wú)修改適配各種微架構(gòu)實(shí)現(xiàn)。
RISC-V GCC從10.2版本已經(jīng)支持RVV1.0指令,目前GCC13對(duì)應(yīng)的intrinsic API接口已經(jīng)升級(jí)到最新v0.12版本,且已部分支持自動(dòng)向量化;預(yù)計(jì)GCC14正式發(fā)布,GCC的自動(dòng)向量化會(huì)更加完備。RISC-V CLANG17版本也已支持最新v0.12版本intrinsic APl, 支持自動(dòng)向量化。
RISC-V Linux 5.18 版本開(kāi)始支持RVV,其它各種計(jì)算庫(kù)及應(yīng)用中間件都快速支持了RVV1.0。
有了RVV1.0標(biāo)準(zhǔn)和軟件生態(tài)的完備,為應(yīng)對(duì)AI算力的需求,需要RISC-V CPU 在微架構(gòu)設(shè)計(jì)上做更多有針對(duì)性的設(shè)計(jì)。
NI900擁有強(qiáng)大的并行計(jì)算能力
RVV參數(shù)描述:
VLEN:一個(gè)向量寄存器的總bit數(shù)(寬度)
DLEN:內(nèi)部運(yùn)算單元能夠并行處理的一個(gè)向量元素的最大bit數(shù)
ELEN:并行處理的數(shù)據(jù)類型的最大寬度,如果ELEN=32,則最大的處理數(shù)據(jù)類型是INT32和FP32
可配選項(xiàng) | 參數(shù)值 |
VLEN_512 | VLEN=512,DLEN=512,ELEN=32/64 |
VLEN_1024 | VLEN=1024,DLEN=1024,ELEN=32/64 |
VPU支持的數(shù)據(jù)類型和計(jì)算能力:
1024-bit的VPU支持多種數(shù)據(jù)類型的計(jì)算,包括:INT8 / 16 / 32 / 64, BFP16 / FP16 / FP32 / FP64。
1024-bit的VPU支持每個(gè)時(shí)鐘完成128x8-bit / 64x16-bit / 32x32-bit / 16x64-bit的數(shù)據(jù)計(jì)算
NI900擁有強(qiáng)大的Memory讀寫能力
?
VPU和CoreLSU共享MMU資源
VPU并非獨(dú)立的協(xié)處理器,而是與主Core的內(nèi)存空間實(shí)現(xiàn)完全的Coherent
Vector指令與普通Scalar一樣,支持虛擬地址訪問(wèn),使得NI900的Vector指令可以無(wú)縫運(yùn)行于大型操作系統(tǒng)之上
VPU和CoreLSU共享Memory資源與通道
VPU擁有最高512-bit位寬直接訪問(wèn)DCache
VPU擁有最高1024-bit位寬直接訪問(wèn)DLM
DLM具備1024-bit的SlavePort供SoC訪問(wèn)
可單獨(dú)配置VLMport以進(jìn)一步增加性能
VLMport可以直接連接到外部加速器或者內(nèi)存
VLMport位寬=VLEN(目前支持最多1024-bit)
ScalarCore也可以通過(guò)LoadStore訪問(wèn)到VLM區(qū)間
NI900的VPU帶來(lái)極大的性能提升
通過(guò)強(qiáng)大的運(yùn)算能力與強(qiáng)勁的Memory讀寫通道,NI900能帶來(lái)極大的并行計(jì)算性能提升。
如圖所示,VLEN=1024-bit的VPU在INT8數(shù)據(jù)類型下對(duì)性能帶來(lái)的提升達(dá)數(shù)百倍:
?
如圖所示,VLEN=1024-bit的VPU在INT32數(shù)據(jù)類型下對(duì)性能帶來(lái)的提升達(dá)數(shù)十倍:
如圖所示,VLEN=512-bit的VPU在FP32數(shù)據(jù)類型下對(duì)性能帶來(lái)的提升達(dá)數(shù)十倍:
NI900支持NPU等AI加速器與處理器緊耦合,實(shí)現(xiàn)對(duì)CPU內(nèi)部Cache的一致性
NI900支持整合外部AI加速器、NPU、PCIe、DMA,通過(guò)900系列的IOCP(IO Coherent Port)與900系列處理器緊耦合,實(shí)現(xiàn)對(duì)CPU內(nèi)部Cache的一致性。
NI900的Scalar/VectorNICE自定義指令接口提供更多特定場(chǎng)景的優(yōu)化可能性 NICE(Nuclei Instruction Co-unit Extension)是芯來(lái)CPU IP的一種用戶可擴(kuò)展指令接口機(jī)制,允許用戶基于芯片的標(biāo)準(zhǔn)通用CPU內(nèi)核定義自己的擴(kuò)展指令集。
NI900提供用于Scalar指令擴(kuò)展的NICE接口,可支持單周期,多周期,流水線等不同指令類型
NI900提供用于Vector指令擴(kuò)展的NICE接口,可支持單周期,多周期,流水線等不同指令類型
NI900的NICE擴(kuò)展單元不僅可以進(jìn)行運(yùn)算型的自定義指令擴(kuò)展,還可以通過(guò)專用總線訪問(wèn)Core的存儲(chǔ)資源(DCache等)實(shí)現(xiàn)與主Core的內(nèi)存一致性,總線位寬可以達(dá)到VLEN(最高1024-bit)
用戶可以結(jié)合自己的應(yīng)用擴(kuò)展自定義指令,將NI900處理器內(nèi)核擴(kuò)展成為面向AI領(lǐng)域進(jìn)一步強(qiáng)化的專用處理器。
RISC-V生態(tài)日益成熟,芯來(lái)NI900賦能AI時(shí)代
CPU是算力結(jié)構(gòu)中必不可少的一個(gè)環(huán)節(jié),在已經(jīng)到來(lái)的人工智能算力時(shí)代,通用和專用芯片結(jié)合而成的異構(gòu)計(jì)算是未來(lái)AI算力基礎(chǔ)設(shè)施的主流。芯來(lái)致力于提供標(biāo)量、矢量、以及自定義指令結(jié)合的計(jì)算架構(gòu),以滿足端側(cè)云側(cè)數(shù)據(jù)中心的多元化的算力需求。
目前NI900已經(jīng)獲得多家下游客戶的認(rèn)可并投入產(chǎn)品設(shè)計(jì)中,未來(lái)芯來(lái)將推出更多NI系列處理器內(nèi)核IP,賦能AI時(shí)代的算力基礎(chǔ)設(shè)施建設(shè)。
審核編輯:劉清
-
處理器
+關(guān)注
關(guān)注
68文章
19382瀏覽量
230463 -
人工智能
+關(guān)注
關(guān)注
1792文章
47497瀏覽量
239194 -
RISC-V
+關(guān)注
關(guān)注
45文章
2307瀏覽量
46293 -
AI加速器
+關(guān)注
關(guān)注
1文章
69瀏覽量
8657 -
芯來(lái)科技
+關(guān)注
關(guān)注
0文章
61瀏覽量
3051
原文標(biāo)題:芯來(lái)科技發(fā)布最新NI系列內(nèi)核,NI900矢量寬度可達(dá)512/1024位
文章出處:【微信號(hào):nucleisys,微信公眾號(hào):芯來(lái)科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論