7月22日最新資訊,Hugging Face科技公司在語(yǔ)言模型領(lǐng)域再創(chuàng)新高,正式推出了SmolLM系列——一款專(zhuān)為適應(yīng)多樣計(jì)算資源而設(shè)計(jì)的緊湊型語(yǔ)言模型家族。該系列包含三個(gè)版本,分別搭載了1.35億、3.6億及17億參數(shù),旨在以高效能應(yīng)對(duì)不同應(yīng)用場(chǎng)景。
據(jù)Hugging Face SmolLM項(xiàng)目的首席機(jī)器學(xué)習(xí)工程師Loubna Ben Allal介紹:“我們認(rèn)識(shí)到,并非每項(xiàng)任務(wù)都需要龐大的模型來(lái)支撐,正如鉆孔無(wú)需重型破碎球一樣。專(zhuān)為特定任務(wù)定制的小型模型,同樣能夠勝任繁重的工作?!?/p>
尤為引人注目的是,即便是家族中最小的成員SmolLM-135M,在訓(xùn)練數(shù)據(jù)相對(duì)有限的情況下,其性能仍超越了Meta的MobileLM-125M模型,展現(xiàn)出非凡的潛力。而SmolLM-360M則自豪地宣稱(chēng),在性能上已凌駕于所有參數(shù)少于5億的模型之上。至于旗艦產(chǎn)品SmolLM-1.7B,更是在一系列基準(zhǔn)測(cè)試中力壓群雄,包括微軟的Phi-1.5和Meta的MobileLM-1.5B等強(qiáng)勁對(duì)手。
Hugging Face不僅在技術(shù)上追求卓越,更在開(kāi)放共享上樹(shù)立了典范。公司決定將SmolLM的整個(gè)開(kāi)發(fā)流程,從數(shù)據(jù)管理到訓(xùn)練步驟,全部對(duì)外開(kāi)源。這一舉措不僅彰顯了公司對(duì)開(kāi)源文化的堅(jiān)定支持,也體現(xiàn)了對(duì)可重復(fù)研究的高度重視,為行業(yè)內(nèi)的科研人員提供了寶貴的資源。
SmolLM系列的卓越表現(xiàn),離不開(kāi)其背后精心策劃的高質(zhì)量訓(xùn)練數(shù)據(jù)。這些模型依托于Cosmo語(yǔ)料庫(kù)構(gòu)建,該語(yǔ)料庫(kù)融合了Cosmopedia v2(包含合成教科書(shū)與故事)、Python Edu(教育導(dǎo)向的Python示例)以及FineWeb Edu(精選教育網(wǎng)絡(luò)內(nèi)容)等多維度資源,確保了模型學(xué)習(xí)內(nèi)容的豐富性與準(zhǔn)確性。
Loubna Ben Allal強(qiáng)調(diào):“SmolLM系列的成功,是對(duì)數(shù)據(jù)質(zhì)量重要性的有力證明。我們創(chuàng)新性地結(jié)合了網(wǎng)絡(luò)數(shù)據(jù)與合成數(shù)據(jù),通過(guò)精心策劃,打造出了這些性能卓越的小型模型?!边@一成就不僅為語(yǔ)言模型領(lǐng)域注入了新的活力,也為未來(lái)智能應(yīng)用的發(fā)展開(kāi)辟了更加廣闊的道路。
-
數(shù)據(jù)管理
+關(guān)注
關(guān)注
1文章
308瀏覽量
19881 -
語(yǔ)言模型
+關(guān)注
關(guān)注
0文章
556瀏覽量
10584
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
利用英特爾OpenVINO在本地運(yùn)行Qwen2.5-VL系列模型

從OpenVINO? 2019_R3下載的face-detection-retail-0004模型,運(yùn)行時(shí)報(bào)錯(cuò)怎么解決?
DeepSeek模型為何掀起如此大的波瀾
Hugging Face推出最小AI視覺(jué)語(yǔ)言模型
谷歌推出效率與性能躍階的全新開(kāi)放模型標(biāo)準(zhǔn)

評(píng)論