5月11日訊,多方企業(yè)與機(jī)構(gòu)聯(lián)手的日本研究小組昨日公布了Fugaku-LLM大型模型。該模型最大特點(diǎn)在于在Arm架構(gòu)超算“富岳”上完成了訓(xùn)練。
自2023年5月起,F(xiàn)ugaku-LLM模型的開(kāi)發(fā)工作開(kāi)始展開(kāi),最初參與團(tuán)隊(duì)包括富士通、東京工業(yè)大學(xué)、日本東北大學(xué)以及日本理化學(xué)研究所(簡(jiǎn)稱理研)。
至同年8月,又有三家合作伙伴——名古屋大學(xué)、CyberAgent(同時(shí)也是游戲巨頭Cygames的母公司)及HPC-AI領(lǐng)域創(chuàng)新企業(yè)Kotoba Technologies加入項(xiàng)目。
研究團(tuán)隊(duì)在昨日的新聞發(fā)布會(huì)上表示,他們成功利用富岳超算的強(qiáng)大性能,使矩陣乘法運(yùn)算速度提升6倍,通信速度提高3倍,從而證明大型純CPU超算同樣適用于大模型訓(xùn)練。
Fugaku-LLM模型參數(shù)規(guī)模達(dá)13B,成為日本國(guó)內(nèi)最大的大型語(yǔ)言模型。
該模型采用13824個(gè)富岳超算節(jié)點(diǎn),在3800億個(gè)Token上進(jìn)行訓(xùn)練,其中60%為日語(yǔ)數(shù)據(jù),其余40%涵蓋英語(yǔ)、數(shù)學(xué)、代碼等內(nèi)容。
研究團(tuán)隊(duì)表示,F(xiàn)ugaku-LLM模型能夠在交流過(guò)程中自然運(yùn)用日語(yǔ)敬語(yǔ)等特殊表達(dá)方式。
在測(cè)試結(jié)果方面,該模型在日語(yǔ)MT-Bench模型基準(zhǔn)測(cè)試中的平均得分高達(dá)5.5,位列基于日本語(yǔ)料資源的開(kāi)放模型之首;在人文社科類別的測(cè)試中更獲得了9.18的高分。
現(xiàn)如今,F(xiàn)ugaku-LLM模型已在GitHub和Hugging Face平臺(tái)公開(kāi)發(fā)布,外部研究人員和工程師可在遵循許可協(xié)議的基礎(chǔ)上,將該模型應(yīng)用于學(xué)術(shù)和商業(yè)領(lǐng)域。
-
cpu
+關(guān)注
關(guān)注
68文章
10983瀏覽量
214782 -
模型
+關(guān)注
關(guān)注
1文章
3444瀏覽量
49695 -
語(yǔ)言模型
+關(guān)注
關(guān)注
0文章
555瀏覽量
10542 -
大模型
+關(guān)注
關(guān)注
2文章
2873瀏覽量
3607
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
小白學(xué)大模型:構(gòu)建LLM的關(guān)鍵步驟

GPU是如何訓(xùn)練AI大模型的
什么是LLM?LLM在自然語(yǔ)言處理中的應(yīng)用
如何訓(xùn)練自己的LLM模型
LLM和傳統(tǒng)機(jī)器學(xué)習(xí)的區(qū)別
端到端InfiniBand網(wǎng)絡(luò)解決LLM訓(xùn)練瓶頸

LLM預(yù)訓(xùn)練的基本概念、基本原理和主要優(yōu)勢(shì)
llm模型訓(xùn)練一般用什么系統(tǒng)
llm模型有哪些格式
LLM模型和LMM模型的區(qū)別
llm模型和chatGPT的區(qū)別
大語(yǔ)言模型(LLM)快速理解

評(píng)論