為了開發(fā)高性能中文基礎(chǔ)模型,填補(bǔ)中文基礎(chǔ)模型百億到千億級(jí)預(yù)訓(xùn)練參數(shù)的空白,大數(shù)據(jù)系統(tǒng)計(jì)算技術(shù)國家工程實(shí)驗(yàn)室團(tuán)隊(duì)在人工智能項(xiàng)目伶荔(Linly)框架下,推出了伶荔說系列中文語言大模型,目前包含中文基礎(chǔ)模型和對話模型。
其中,中文基礎(chǔ)模型以 LLaMA 為底座,利用中文和中英平行增量預(yù)訓(xùn)練,將它在英文上強(qiáng)大語言能力遷移到中文上。更進(jìn)一步,匯總了目前公開的多語言指令數(shù)據(jù),對中文模型進(jìn)行了大規(guī)模指令跟隨訓(xùn)練,實(shí)現(xiàn)了 Linly-ChatFlow 對話模型。
根據(jù)介紹,相比已有的中文開源模型,伶荔模型具有以下優(yōu)勢:
在 32*A100 GPU 上訓(xùn)練了不同量級(jí)和功能的中文模型,對模型充分訓(xùn)練并提供強(qiáng)大的 baseline。據(jù)知,33B 的 Linly-Chinese-LLAMA 是目前最大的中文 LLaMA 模型。
公開所有訓(xùn)練數(shù)據(jù)、代碼、參數(shù)細(xì)節(jié)以及實(shí)驗(yàn)結(jié)果,確保項(xiàng)目的可復(fù)現(xiàn)性,用戶可以選擇合適的資源直接用于自己的流程中。
項(xiàng)目具有高兼容性和易用性,提供可用于 CUDA 和 CPU 的量化推理框架,并支持 Huggingface 格式。
目前公開可用的模型有:
Linly-Chinese-LLaMA:中文基礎(chǔ)模型,基于 LLaMA 在高質(zhì)量中文語料上增量訓(xùn)練強(qiáng)化中文語言能力,現(xiàn)已開放 7B、13B 和 33B 量級(jí),65B 正在訓(xùn)練中。
Linly-ChatFlow:中文對話模型,在 400 萬指令數(shù)據(jù)集合上對中文基礎(chǔ)模型指令精調(diào),現(xiàn)已開放 7B、13B 對話模型。
Linly-ChatFlow-int4 :ChatFlow 4-bit 量化版本,用于在 CPU 上部署模型推理。
進(jìn)行中的項(xiàng)目:
Linly-Chinese-BLOOM:基于 BLOOM 中文增量訓(xùn)練的中文基礎(chǔ)模型,包含 7B 和 175B 模型量級(jí),可用于商業(yè)場景。
項(xiàng)目特點(diǎn)
Linly 項(xiàng)目具有以下特點(diǎn):
1. 大規(guī)模中文增量訓(xùn)練,利用翻譯數(shù)據(jù)提速中文模型收斂
在訓(xùn)練數(shù)據(jù)方面,項(xiàng)目盡可能全面的收集了各類中文語料和指令數(shù)據(jù)。無監(jiān)督訓(xùn)練使用了上億條高質(zhì)量的公開中文數(shù)據(jù),包括新聞、百科、文學(xué)、科學(xué)文獻(xiàn)等類型。和通常的無監(jiān)督預(yù)訓(xùn)練不同,項(xiàng)目在訓(xùn)練初期加入了大量中英文平行語料,幫助模型將英文能力快速遷移到中文上。
在指令精調(diào)階段,項(xiàng)目匯總了開源社區(qū)的指令數(shù)據(jù)資源,包括多輪對話、多語言指令、GPT4/ChatGPT 問答、思維鏈數(shù)據(jù)等等,經(jīng)過篩選后使用 500 萬條數(shù)據(jù)進(jìn)行指令精調(diào)得到 Linly-ChatFlow 模型。訓(xùn)練使用的數(shù)據(jù)集也在項(xiàng)目里提供。
訓(xùn)練流程如圖所示:
2. 全參數(shù)訓(xùn)練,覆蓋多個(gè)模型量級(jí)
目前基于 LLaMA 的中文模型通常使用 LoRA 方法進(jìn)行訓(xùn)練,LoRA 凍結(jié)預(yù)訓(xùn)練的模型參數(shù),通過往模型中加入額外的網(wǎng)絡(luò)層,并只訓(xùn)練這些新增的網(wǎng)絡(luò)層參數(shù),來實(shí)現(xiàn)快速適配。雖然 LoRA 能夠提升訓(xùn)練速度且降低設(shè)備要求,但性能上限低于全參數(shù)訓(xùn)練。為了使模型獲得盡可能強(qiáng)的中文語言能力,該項(xiàng)目對所有參數(shù)量級(jí)都采用全參數(shù)訓(xùn)練,開銷大約是 LoRA 的 3-5 倍。
伶荔語言模型利用 TencentPretrain 多模態(tài)預(yù)訓(xùn)練框架,集成 DeepSpeed ZeRO3 以 FP16 流水線并行訓(xùn)練。目前已開放 7B、13B、33B 模型權(quán)重,65B 模型正在訓(xùn)練中。模型仍在持續(xù)迭代,將定期更新,損失收斂情況如圖所示:
3. 可支持本地 CPU int4 推理、消費(fèi)級(jí) GPU 推理
大模型通常具有數(shù)百億參數(shù)量,提高了使用門檻。為了讓更多用戶使用 Linly-ChatFlow 模型,開發(fā)團(tuán)隊(duì)在項(xiàng)目中集成了高可用模型量化推理方案,支持 int4 量化 CPU 推理可以在手機(jī)或者筆記本電腦上使用,int8 量化使用 CUDA 加速可以在消費(fèi)級(jí) GPU 推理 13B 模型。此外,項(xiàng)目中還集成了微服務(wù)部署,用戶能夠一鍵將模型部署成服務(wù),方便二次開發(fā)。
未來工作
據(jù)透露,伶荔說系列模型目前仍處于欠擬合,正在持續(xù)訓(xùn)練中,未來 33B 和 65B 的版本或?qū)砀@艷的性能。在另一方面,項(xiàng)目團(tuán)隊(duì)不僅公開了對話模型,還公開了中文基礎(chǔ)模型和相應(yīng)的訓(xùn)練代碼與數(shù)據(jù)集,向社區(qū)提供了一套可復(fù)現(xiàn)的對話模型方案,目前也有團(tuán)隊(duì)基于其工作實(shí)現(xiàn)了金融、醫(yī)學(xué)等領(lǐng)域的垂直領(lǐng)域?qū)υ捘P汀?/p>
在之后的工作,項(xiàng)目團(tuán)隊(duì)將繼續(xù)對伶荔說系列模型進(jìn)行改進(jìn),包括嘗試人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)、適用于中文的字詞結(jié)合 tokenizer、更高效的 GPU int3/int4 量化推理方法等等。伶荔項(xiàng)目還將針對虛擬人、醫(yī)療以及智能體場景陸續(xù)推出伶荔系列大模型。
審核編輯 :李倩
-
cpu
+關(guān)注
關(guān)注
68文章
10870瀏覽量
211899 -
人工智能
+關(guān)注
關(guān)注
1791文章
47314瀏覽量
238645 -
開源
+關(guān)注
關(guān)注
3文章
3358瀏覽量
42523 -
語言模型
+關(guān)注
關(guān)注
0文章
526瀏覽量
10277
原文標(biāo)題:“伶荔”(Linly) 開源大規(guī)模中文語言模型
文章出處:【微信號(hào):OSC開源社區(qū),微信公眾號(hào):OSC開源社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論