這是RISC-V跑大模型系列的第二篇文章,主要教大家如何將LLaMA移植到RISC-V環(huán)境里。
1. 環(huán)境準(zhǔn)備
2)確保機(jī)器有足夠的內(nèi)存加載完整模型(7B模型需要13~15G)
3)下載原版LLaMA模型和擴(kuò)展了的中文模型
LLaMA原版模型:
https://ipfs.io/ipfs/Qmb9y5GCkTG7ZzbBWMu2BXwMkzyCKcUjtEKPpgdZ7GEFKm/
2. 模型下載
從LLaMA原版模型地址上下載下述文件(我們使用的是7B):
最后文件下載完成后的結(jié)果如下:
3. 加載并啟動(dòng)
1)這一步需要下載llama.cpp,請(qǐng)輸入以下命令進(jìn)行下載和編譯:
git clone https://github.com/ggerganov/llama.cpp && cd llama.cpp && make
2)將第二步下載的文件移到llama.cpp/models/下,使用命令:
python3 convert-pth-to-ggml.py models/7B/ 0
3)將.pth模型權(quán)重轉(zhuǎn)換為ggml的FP32格式,生成文件路徑為models/7B/ggml-model-f32.bin。
4)運(yùn)行./main二進(jìn)制文件,-m命令指定Q4量化模型(也可加載ggml-FP16的模型)。以下是解碼參數(shù):
./main models/7B/ggml-model-f32.bin --color -f prompts/alpaca.txt -ins -c 256 --temp 0.2 -n 128 --repeat_penalty 1.3
參數(shù)解釋:
-ins | 啟動(dòng)類ChatGPT對(duì)話交流的運(yùn)行模式 |
-f | 指定prompt模板,alpaca模型請(qǐng)加載prompts/alpaca.txt |
-c | 控制上下文的長(zhǎng)度,值越大越能參考更長(zhǎng)的對(duì)話歷史(默認(rèn):512) |
-n | 控制回復(fù)生成的最大長(zhǎng)度(默認(rèn):128) |
-t | 控制batch size(默認(rèn):8),可適當(dāng)增加 |
--repeat_penalty | 控制線程數(shù)量(默認(rèn):4),可適當(dāng)增加 |
--temp | 控制線程數(shù)量(默認(rèn):4),可適當(dāng)增加 |
--top_p, top_k |
控制解碼采樣的相關(guān)數(shù)據(jù) |
4.結(jié)束
本篇教程到這里就結(jié)束了。是不是覺得LLaMA的速度比較慢而且不支持中文,沒關(guān)系,在下一期中,我們會(huì)為L(zhǎng)LaMA擴(kuò)充中文,并優(yōu)化加速LLaMA,記得繼續(xù)關(guān)注我們哦。
另外,RISC -V跑大模型系列文章計(jì)劃分為四期:
1.RISC -V跑大模型(一)
2. RISC-V 跑大模型(二):LLaMA零基礎(chǔ)移植教程(本篇)
3.LLaMA擴(kuò)充中文+優(yōu)化加速(計(jì)劃)
4. 更多性能優(yōu)化策略。(計(jì)劃)
審核編輯 黃宇
-
RISC-V
+關(guān)注
關(guān)注
45文章
2287瀏覽量
46185 -
大模型
+關(guān)注
關(guān)注
2文章
2465瀏覽量
2762 -
LLM
+關(guān)注
關(guān)注
0文章
288瀏覽量
351
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論