域名停靠应用下载软件大全,亚洲国产中文日本韩国欧美mv,午夜电影网日韩欧美1区2区

為了應(yīng)對大模型（LLM）、AIGC等智能化浪潮的挑戰(zhàn)，進(jìn)迭時空通過AI指令擴(kuò)展，在RISC-V CPU中注入了原生AI算力。這種具有原生AI能力的CPU，我們稱之為AI CPU。K1作為進(jìn)迭時空第一顆AI CPU芯片，已于今年4月份發(fā)布。

下面我們以K1為例，結(jié)合llama.cpp來展示AI CPU在大模型領(lǐng)域的優(yōu)勢。

llama.cpp是一個開源的高性能CPU/GPU大語言模型推理框架，適用于消費級設(shè)備及邊緣設(shè)備。開發(fā)者可以通過工具將各類開源大語言模型轉(zhuǎn)換并量化成gguf格式的文件，然后通過llama.cpp實現(xiàn)本地推理。

得益于RISC-V社區(qū)的貢獻(xiàn)，已有l(wèi)lama.cpp在K1上高效運行的案例，但大語言模型的CPU資源使用過高，使其很難負(fù)載其他的上層應(yīng)用。為此進(jìn)迭時空在llama.cpp社區(qū)版本的基礎(chǔ)上，基于IME矩陣加速拓展指令，對大模型相關(guān)算子進(jìn)行了優(yōu)化，在僅使用4核CPU的情況下，達(dá)到目前社區(qū)最好版本8核性能的2-3倍，充分釋放了CPU Loading，給開發(fā)者更多空間實現(xiàn)AI應(yīng)用。

Ollama是一個開源的大型語言模型服務(wù)工具，它幫助用戶快速在本地運行大模型。通過簡單的安裝指令，用戶可以執(zhí)行一條命令就在本地運行開源大型語言模型，如Llama、Qwen、Gemma等。

部署實踐

工具與模型準(zhǔn)備

#在K1上拉取ollama與llama.cpp預(yù)編譯包apt updateapt install spacemit-ollama-toolkit
#k開啟ollama服務(wù)ollama serve
#下載模型wget -P /home/llm/ https://archive.spacemit.com/spacemit-ai/ModelZoo/gguf/qwen2.5-0.5b-q4_0_16_8.gguf
#導(dǎo)入模型，例為qwen2.5-0.5b#modelfile地址：https://archive.spacemit.com/spacemit-ai/ollama/modelfile/qwen2.5-0.5b.modelfileollama create qwen2 -f qwen2.5-0.5b.modelfile
#運行模型ollama run qwen2

Ollama效果展示

性能與資源展示

我們選取了端側(cè)具有代表性的0.5B-4B尺寸的大語言模型，展示K1的AI擴(kuò)展指令的加速效果。

參考性能分別為llama.cpp的master分支（下稱官方版本），以及RISC-V社區(qū)的優(yōu)化版本（下稱RISC-V社區(qū)版本，GitHub地址為：

https://github.com/xctan/llama.cpp/tree/rvv_q4_0_8x8）

所有模型均采用4bit量化。其中RISC-V社區(qū)版本以及官方版本模型為最優(yōu)實現(xiàn)的加速效果，模型量化時將token-embedding-type設(shè)置為q8_0。

llama.cpp的進(jìn)迭時空版本CPU占用情況：

llama.cpp的RISC-V社區(qū)版本CPU占用情況：

參考文檔

https://github.com/ggerganov/llama.cpp

https://github.com/ollama/ollama

https://github.com/QwenLM/Qwen2.5

Qwen2 Technical Report

https://ollama.com

結(jié)語

進(jìn)迭時空在K1平臺上大模型部署方面取得了初步進(jìn)展，其卓越的性能與高度的開放性令人矚目。這為開發(fā)者們提供了一個極為友好的環(huán)境，使他們能夠輕松依托社區(qū)資源，進(jìn)一步拓展和創(chuàng)新，開發(fā)出更多豐富的應(yīng)用。

我們滿懷期待地憧憬著K1平臺上未來可能出現(xiàn)的更多大語言模型應(yīng)用的創(chuàng)新設(shè)想。在此過程中，我們將持續(xù)保持關(guān)注并不斷推進(jìn)相關(guān)工作。此外，本文所提及的預(yù)發(fā)布軟件包，將在年底以源代碼的形式開源，以供廣大開發(fā)者共同學(xué)習(xí)與探索。

阅读全文

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

芯片

芯片

+關(guān)注

關(guān)注
459

文章
52438

瀏覽量
439795
cpu

cpu

+關(guān)注

關(guān)注
68

文章
11070

瀏覽量
216803
大模型

大模型

+關(guān)注

關(guān)注
2

文章
3117

瀏覽量
4028

搜索歷史

K1 AI CPU基于llama.cpp與Ollama的大模型部署實踐

評論