0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌開源70億參數(shù)大語言模型,全方位超越Meta Llama-2?

E4Life ? 來源:電子發(fā)燒友 ? 作者:周凱揚(yáng) ? 2024-02-23 00:15 ? 次閱讀

電子發(fā)燒友網(wǎng)報(bào)道(文/周凱揚(yáng))在Sora把AI生成領(lǐng)域的視線全部吸引過去的這段時(shí)間里,谷歌卻依然在竭盡全力推進(jìn)新的生成模型發(fā)展。除了上周發(fā)布的下一代Gemini 1.5外,谷歌也在近日推出了一系列基于Gemini打造的開源模型Gemma。

谷歌加入AI模型開源陣營,Gemma橫空出世

根據(jù)谷歌的介紹,Gemma是由谷歌DeepMind以及其他團(tuán)隊(duì)開發(fā),由Gemini啟發(fā)并采用了相同的研究與技術(shù)的輕量級(jí)模型。與之一起發(fā)布的還有全新的響應(yīng)式生成AI工具包,為利用Gemma創(chuàng)造更安全的AI應(yīng)用提供關(guān)鍵工具和指導(dǎo)。

參數(shù)大小上來看,Gemma分為20億參數(shù)(Gemma 2B)和70億(Gemma 7B)參數(shù)兩個(gè)版本,且每個(gè)版本又有基礎(chǔ)版(預(yù)訓(xùn)練)和指令調(diào)整版兩個(gè)變體。其中70億參數(shù)的版本適合消費(fèi)級(jí)的GPU和TPU開發(fā),而20億參數(shù)的版本可以用于CPU和端側(cè)應(yīng)用上。

在預(yù)訓(xùn)練數(shù)據(jù)上,Gemma 2B和7B分別采用了2T和6T的Token進(jìn)行訓(xùn)練,數(shù)據(jù)來源是以英文為主的網(wǎng)絡(luò)文檔、數(shù)學(xué)計(jì)算和代碼。需要注意的是,盡管其背后所采用的技術(shù)與Gemini類似,但這些模型并不屬于多模態(tài)模型,也并不適合用于追求極致的多語言任務(wù)性能。

在訓(xùn)練硬件上,谷歌采用了自研的TPUv5e,其中Gemma 7B用到了4096塊TPUv5e進(jìn)行訓(xùn)練,Gemma 2B用到了512塊TPUv5e進(jìn)行訓(xùn)練。

開源LLM混戰(zhàn),Gemma 7B超越Llama-2 13B?

根據(jù)谷歌官方提供的數(shù)據(jù),與Meta的Llama-2相比,Gemma 7B在多個(gè)項(xiàng)目上展現(xiàn)出了優(yōu)勢(shì),比如大規(guī)模多任務(wù)語言理解(MMLU)、GSM8K和Math計(jì)算和HumanEval Python代碼生成等應(yīng)用上,都超過了Llama-2 7B,甚至不少超過了Llama-2 13B。

wKgaomXXHwmAORLbAAExLTvutQk859.png
開源模型文本任務(wù)性能對(duì)比 / 谷歌


谷歌表示,與同等體量的開源模型對(duì)比,比如LLaMA-2和Mistral等,18項(xiàng)文字相關(guān)的任務(wù)中,Gemma能夠做到在11項(xiàng)任務(wù)中性能勝出,且平均性能得分占優(yōu)。

不過Gemma也并不是完全超越了Llama-2,從Huggingface給出的平均得分來看,Gemma 7B超過了同級(jí)別的Llama 2 7B,但還是低于LLama 2 70B Chat,不過考慮到這兩者之間的參數(shù)差異,也印證了Gemma 7B的強(qiáng)大。至于Gemma 2B,與同規(guī)格的其他優(yōu)秀開源LLM相比,比如PHI-2(2.7B),也不存在優(yōu)勢(shì)。

作為一個(gè)輕量級(jí)的模型,Gemma也對(duì)跨設(shè)備兼容性做了優(yōu)化,可以在筆記本、PC、IoT設(shè)備、智能手機(jī)和云端運(yùn)行。谷歌也與英偉達(dá)達(dá)成合作,Gemma針對(duì)英偉達(dá)的GPU硬件進(jìn)行了優(yōu)化,無論是云端的AI GPU還是桌面端的RTX AI PC,都能享受Gemma帶來的性能。

寫在最后

盡管Gemma是谷歌首個(gè)大型的開源LLM,但這早已經(jīng)不是谷歌對(duì)開源AI社區(qū)做出的首個(gè)貢獻(xiàn)了,諸如Transformers, TensorFlow, BERT, T5, JAX, AlphaFold和AlphaCode等,可以說當(dāng)前AI能夠有如此繁榮的開發(fā)生態(tài),谷歌做出了不少貢獻(xiàn)。無疑Gemma的出現(xiàn),也會(huì)給AI開發(fā)生態(tài)帶來新的選擇。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6168

    瀏覽量

    105392
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    30896

    瀏覽量

    269108
  • 算力
    +關(guān)注

    關(guān)注

    1

    文章

    977

    瀏覽量

    14822
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2450

    瀏覽量

    2714
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    Meta重磅發(fā)布Llama 3.3 70B:開源AI模型的新里程碑

    ?在人工智能領(lǐng)域,Meta的最新動(dòng)作再次引起了全球的關(guān)注。今天,我們見證了Meta發(fā)布的 Llama 3.3 70B 模型,這是一個(gè)
    的頭像 發(fā)表于 12-18 16:46 ?127次閱讀
    <b class='flag-5'>Meta</b>重磅發(fā)布<b class='flag-5'>Llama</b> 3.3 <b class='flag-5'>70</b>B:<b class='flag-5'>開源</b>AI<b class='flag-5'>模型</b>的新里程碑

    Meta發(fā)布Llama 3.2量化版模型

    近日,Meta開源Llama 3.2的1B與3B模型后,再次為人工智能領(lǐng)域帶來了新進(jìn)展。10月24日,Meta正式推出了這兩個(gè)
    的頭像 發(fā)表于 10-29 11:05 ?391次閱讀

    亞馬遜云科技上線Meta Llama 3.2模型

    亞馬遜云科技近日宣布,Meta公司的新一代模型Llama 3.2已在其平臺(tái)上正式上線。該模型包括Meta首款多模態(tài)
    的頭像 發(fā)表于 10-11 18:08 ?460次閱讀

    Meta發(fā)布全新開源模型Llama 3.1

    科技巨頭Meta近期震撼發(fā)布了其最新的開源人工智能(AI)模型——Llama 3.1,這一舉措標(biāo)志著Meta在AI領(lǐng)域的又一重大突破。
    的頭像 發(fā)表于 07-24 18:25 ?1442次閱讀

    Meta即將發(fā)布超強(qiáng)開源AI模型Llama 3-405B

    在人工智能領(lǐng)域的激烈競爭中,Meta公司再次擲出重磅炸彈,宣布將于7月23日正式發(fā)布其最新力作——Llama 3-405B,一個(gè)擁有驚人4050參數(shù)
    的頭像 發(fā)表于 07-18 09:58 ?994次閱讀

    Optimum Intel三步完成Llama3在算力魔方的本地量化和部署

    Llama3 是Meta最新發(fā)布的開源語言模型(LLM), 當(dāng)前已開源8B和
    的頭像 發(fā)表于 05-10 10:34 ?1057次閱讀
    Optimum Intel三步完成<b class='flag-5'>Llama</b>3在算力魔方的本地量化和部署

    Meta Llama 3基礎(chǔ)模型現(xiàn)已在亞馬遜云科技正式可用

    亞馬遜云科技近日宣布,Meta公司最新發(fā)布的兩款Llama 3基礎(chǔ)模型——Llama 3 8B和Llama 3
    的頭像 發(fā)表于 05-09 10:39 ?400次閱讀

    英特爾AI產(chǎn)品助力其運(yùn)行Meta新一代大語言模型Meta Llama 3

    英特爾豐富的AI產(chǎn)品——面向數(shù)據(jù)中心的至強(qiáng)處理器,邊緣處理器及AI PC等產(chǎn)品為開發(fā)者提供最新的優(yōu)化,助力其運(yùn)行Meta新一代大語言模型Meta L
    的頭像 發(fā)表于 04-28 11:16 ?639次閱讀

    高通支持Meta Llama 3大語言模型在驍龍旗艦平臺(tái)上實(shí)現(xiàn)終端側(cè)執(zhí)行

    高通和Meta合作優(yōu)化Meta Llama 3大語言模型,支持在未來的驍龍旗艦平臺(tái)上實(shí)現(xiàn)終端側(cè)執(zhí)行。
    的頭像 發(fā)表于 04-20 09:13 ?515次閱讀

    Meta推出最強(qiáng)開源模型Llama 3 要挑戰(zhàn)GPT

    公司這次開源Llama 3 8B與70B兩款不同規(guī)模的模型,開發(fā)者可以免費(fèi)使用,而Meta公司還將陸續(xù)推出一系列具備多模態(tài)、多
    的頭像 發(fā)表于 04-19 17:00 ?838次閱讀

    Meta推出新一代語言模型LLAMA 3,性能優(yōu)于GPT-3.5

    Meta決定將Llama 3的80參數(shù)開源,以期讓更多人能夠接觸到尖端的AI技術(shù)。全球范圍內(nèi)的開發(fā)者、研究員以及對(duì)AI充滿好奇的人士均可
    的頭像 發(fā)表于 04-19 10:21 ?866次閱讀

    LLaMA 2是什么?LLaMA 2背后的研究工作

    Meta 發(fā)布的 LLaMA 2,是新的 sota 開源大型語言模型 (LLM)。
    的頭像 發(fā)表于 02-21 16:00 ?1124次閱讀

    Meta發(fā)布CodeLlama70B開源模型

    Meta發(fā)布CodeLlama70B開源模型 Meta發(fā)布了開源
    的頭像 發(fā)表于 01-31 10:30 ?1421次閱讀

    Meta發(fā)布開源模型Code Llama 70B

    近日,Meta宣布推出了一款新的開源模型Code Llama 70B,這是其“Code Llama
    的頭像 發(fā)表于 01-31 09:24 ?932次閱讀

    Meta推出最新版AI代碼生成模型Code Llama70B

    Meta近日宣布了其最新版本的AI代碼生成模型Code Llama70B,并稱其為“目前最大、最優(yōu)秀的模型”。這一更新標(biāo)志著Meta在AI代
    的頭像 發(fā)表于 01-30 18:21 ?1450次閱讀