0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

悟道·天鷹 Aquila + 天秤 FlagEval,打造大模型能力與評(píng)測(cè)標(biāo)準(zhǔn)雙標(biāo)桿

硬科技星球 ? 來(lái)源:硬科技星球 ? 作者:硬科技星球 ? 2023-06-27 16:37 ? 次閱讀

為推動(dòng)大模型在產(chǎn)業(yè)落地和技術(shù)創(chuàng)新,智源研究院發(fā)布“開源商用許可語(yǔ)言大模型系列+開放評(píng)測(cè)平臺(tái)” 2 大重磅成果,打造“大模型進(jìn)化流水線”,持續(xù)迭代、持續(xù)開源開放。

01

悟道·天鷹(Aquila)

開源商用許可語(yǔ)言大模型系列

悟道·天鷹(Aquila) 語(yǔ)言大模型是首個(gè)具備中英雙語(yǔ)知識(shí)、支持商用許可協(xié)議、國(guó)內(nèi)數(shù)據(jù)合規(guī)需求的開源語(yǔ)言大模型。

悟道·天鷹(Aquila)語(yǔ)言大模型在中英文高質(zhì)量語(yǔ)料基礎(chǔ)上從 0 開始訓(xùn)練,通過(guò)數(shù)據(jù)質(zhì)量的控制、多種訓(xùn)練的優(yōu)化方法,實(shí)現(xiàn)在更小的數(shù)據(jù)集、更短的訓(xùn)練時(shí)間,獲得比其它開源模型更優(yōu)的性能。系列模型包括 Aquila基礎(chǔ)模型(7B、33B),AquilaChat對(duì)話模型(7B、33B)以及 AquilaCode-7B “文本-代碼”生成模型,

后續(xù)將持續(xù)更新迭代并開源更新版本。

開源地址:https://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila

Aquila基礎(chǔ)模型(7B、33B)

在技術(shù)上繼承了 GPT-3、LLaMA 等的架構(gòu)設(shè)計(jì)優(yōu)點(diǎn),替換了一批更高效的底層算子實(shí)現(xiàn)、重新設(shè)計(jì)實(shí)現(xiàn)了中英雙語(yǔ)的 tokenizer,升級(jí)了 BMTrain 并行訓(xùn)練方法,實(shí)現(xiàn)了比 Magtron+DeepSpeed ZeRO-2

將近8倍的訓(xùn)練效率

AquilaChat 對(duì)話模型(7B、33B)

支持流暢的文本對(duì)話及多種語(yǔ)言類生成任務(wù),通過(guò)定義可擴(kuò)展的特殊指令規(guī)范,實(shí)現(xiàn) AquilaChat對(duì)其它模型和工具的調(diào)用,且易于擴(kuò)展。例如,調(diào)用智源開源的 AltDiffusion 多語(yǔ)言文圖生成模型,實(shí)現(xiàn)了流暢的文圖生成能力。配合智源 InstructFace 多步可控文生圖模型,輕松實(shí)現(xiàn)對(duì)人臉圖像的多步可控編輯。

AquilaChat 訓(xùn)練過(guò)程中,實(shí)現(xiàn)了模型能力與指令微調(diào)數(shù)據(jù)的循環(huán)迭代,包括數(shù)據(jù)集的高效篩選與優(yōu)化,充分挖掘基礎(chǔ)模型的潛力。

AquilaChat 支持可擴(kuò)展的特殊指令規(guī)范,令用戶可在AquilaChat中輕松實(shí)現(xiàn)多任務(wù)、工具的嵌入,如文圖生成,下圖示例為在對(duì)話中調(diào)用智源開源的多語(yǔ)言文圖生成模型 AltDiffusion。

AquilaChat 具備強(qiáng)大的指令分解能力,配合智源InstructFace多步可控文生圖模型,輕松實(shí)現(xiàn)對(duì)圖片的多步可控編輯。

AquilaCode-7B “文本-代碼”生成模型,

基于 Aquila-7B 強(qiáng)大的基礎(chǔ)模型能力,以小數(shù)據(jù)集、小參數(shù)量,實(shí)現(xiàn)高性能,是目前支持中英雙語(yǔ)的、性能最好的開源代碼模型,經(jīng)過(guò)了高質(zhì)量過(guò)濾、使用有合規(guī)開源許可的訓(xùn)練代碼數(shù)據(jù)進(jìn)行訓(xùn)練。

此外,AquilaCode-7B 分別在英偉達(dá)和***上完成了代碼模型的訓(xùn)練,并通過(guò)對(duì)多種架構(gòu)的代碼+模型開源,推動(dòng)芯片創(chuàng)新和百花齊放。

02

天秤(FlagEval)

大模型評(píng)測(cè)體系及開放平臺(tái)

天秤(FlagEval)大模型評(píng)測(cè)體系及開放平臺(tái),旨在建立科學(xué)、公正、開放的評(píng)測(cè)基準(zhǔn)、方法、工具集,協(xié)助研究人員全方位評(píng)估基礎(chǔ)模型及訓(xùn)練算法的性能,同時(shí)探索利用AI方法實(shí)現(xiàn)對(duì)主觀評(píng)測(cè)的輔助,大幅提升評(píng)測(cè)的效率和客觀性。

目前已推出語(yǔ)言大模型評(píng)測(cè)、多國(guó)語(yǔ)言文圖大模型評(píng)測(cè)及文圖生成評(píng)測(cè)等工具,并對(duì)各種語(yǔ)言基礎(chǔ)模型、跨模態(tài)基礎(chǔ)模型實(shí)現(xiàn)評(píng)測(cè)。后續(xù)將全面覆蓋基礎(chǔ)模型、預(yù)訓(xùn)練算法、微調(diào)算法等三大評(píng)測(cè)對(duì)象,包括自然語(yǔ)言處理(NLP)、計(jì)算機(jī)視覺(jué)(CV)、語(yǔ)音(Audio)及多模態(tài)(Multimodal)等四大評(píng)測(cè)場(chǎng)景和豐富的下游任務(wù)。

首期推出的 FlagEval 大語(yǔ)言模型評(píng)測(cè)體系,創(chuàng)新構(gòu)建了“能力-任務(wù)-指標(biāo)”三維評(píng)測(cè)框架,細(xì)粒度刻畫基礎(chǔ)模型的認(rèn)知能力邊界,可視化呈現(xiàn)評(píng)測(cè)結(jié)果,總計(jì) 600+ 評(píng)測(cè)維度,任務(wù)維度包括 22 個(gè)主觀&客觀評(píng)測(cè)數(shù)據(jù)集。除了知名的公開數(shù)據(jù)集 HellaSwag、MMLU、C-Eval等,F(xiàn)lagEval 還集成了包括智源自建的主觀評(píng)測(cè)數(shù)據(jù)集 Chinese Linguistics & Cognition Challenge (CLCC) ,北京大學(xué)與閩江學(xué)院共建的語(yǔ)義關(guān)系判斷、多義詞理解、修辭手法判斷評(píng)測(cè)數(shù)據(jù)集。更多維度的評(píng)測(cè)數(shù)據(jù)集也在陸續(xù)集成中。

FlagEval 評(píng)測(cè)榜單目前涵蓋了前面談到的22 個(gè)主觀和客觀評(píng)測(cè)集,84433 道題目,細(xì)粒度刻畫大模型的認(rèn)知能力?;凇拔虻?· 天鷹”Aquila 基礎(chǔ)模型(7B)打造的 AquilaChat 對(duì)話模型,在 FlagEval 大語(yǔ)言模型評(píng)測(cè)榜單上,目前暫時(shí)在“主觀+客觀”的評(píng)測(cè)上領(lǐng)先其他同參數(shù)量級(jí)別的開源對(duì)話模型。

在我們當(dāng)前的最新評(píng)測(cè)結(jié)果中,AquilaChat 以大約相當(dāng)于其他模型 50% 的訓(xùn)練數(shù)據(jù)量(SFT 數(shù)據(jù)+預(yù)訓(xùn)練數(shù)據(jù)分別統(tǒng)計(jì))達(dá)到了最優(yōu)性能。

但由于當(dāng)前的英文數(shù)據(jù)僅訓(xùn)練了相當(dāng)于Alpaca的40%,所以在英文的客觀評(píng)測(cè)上還暫時(shí)落后于基于 LLaMA 進(jìn)行指令微調(diào)的Alpaca。隨著后續(xù)訓(xùn)練的進(jìn)行,我們相信很快可以超越。

悟道·天鷹(Aquila)模型還在迭代進(jìn)步的過(guò)程中,天秤(FlagEval)評(píng)測(cè)能力也在不斷的擴(kuò)充中,因而此評(píng)測(cè)結(jié)果只是暫時(shí)的,新的評(píng)測(cè)結(jié)果還會(huì)不斷更新。此外,F(xiàn)lagEval的評(píng)測(cè)體系方法及相關(guān)研究還需要繼續(xù)深入,當(dāng)前對(duì)模型能力的覆蓋程度仍有很大的進(jìn)步空間,智源也期待與多方合作,共同打造全面、科學(xué)的評(píng)測(cè)方法體系。

天秤(FlagEval)開放評(píng)測(cè)平臺(tái)現(xiàn)已開放申請(qǐng)(flageval.baai.ac.cn),打造自動(dòng)化評(píng)測(cè)與自適應(yīng)評(píng)測(cè)機(jī)制,可輔助模型研發(fā)團(tuán)隊(duì)利用評(píng)測(cè)結(jié)果指導(dǎo)模型訓(xùn)練,同時(shí)支持英偉達(dá)、昇騰(鵬城云腦)、寒武紀(jì)、昆侖芯等多種芯片架構(gòu)及 PyTorch、MindSpore 等多種深度學(xué)習(xí)框架。

作為“科技創(chuàng)新2030”旗艦項(xiàng)目重要課題,天秤(FlagEval)正與北京大學(xué)、北京航空航天大學(xué)、北京師范大學(xué)、北京郵電大學(xué)、閩江學(xué)院、南開大學(xué)、中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究院、中國(guó)科學(xué)院自動(dòng)化研究所等合作單位共建(按首字母排序),定期發(fā)布權(quán)威評(píng)測(cè)榜單。

總的來(lái)說(shuō),智源此次發(fā)布的 2 大重磅成果僅僅是一個(gè)新的起點(diǎn):

一方面,悟道 · 天鷹 Aquila 語(yǔ)言大模型將不斷完善訓(xùn)練數(shù)據(jù)、優(yōu)化訓(xùn)練方法、提升模型性能,在更優(yōu)秀的基礎(chǔ)模型基座上,培育枝繁葉茂的“模型樹”,持續(xù)開源開放。

另一方面,天秤 FlagEval 大模型評(píng)測(cè)體系及開放平臺(tái)將繼續(xù)拓展“大模型認(rèn)知能力”框架,集成豐富的數(shù)據(jù)集與評(píng)測(cè)指標(biāo),并探索與心理學(xué)、教育學(xué)、倫理學(xué)等社會(huì)學(xué)科的交叉研究,以期更加科學(xué)、全面地評(píng)價(jià)語(yǔ)言大模型。

「模型 + 評(píng)測(cè)」雙輪驅(qū)動(dòng),

加速大模型技術(shù)創(chuàng)新與產(chǎn)業(yè)落地。歡迎學(xué)界、產(chǎn)業(yè)界同仁提供建議。

審核編輯黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2533

    瀏覽量

    3004
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    生成式人工智能模型的安全可信評(píng)測(cè)

    受到關(guān)注。但當(dāng)前大模型仍然面臨可信瓶頸,無(wú)法開展大規(guī)模應(yīng)用。大模型的安全可信受到高度關(guān)注,國(guó)內(nèi)外已經(jīng)有多項(xiàng)法規(guī)與標(biāo)準(zhǔn)快速制定并落地。本文以層次化的結(jié)構(gòu),構(gòu)建了生成式人工智能的安全可信評(píng)測(cè)
    的頭像 發(fā)表于 01-22 13:55 ?170次閱讀
    生成式人工智能<b class='flag-5'>模型</b>的安全可信<b class='flag-5'>評(píng)測(cè)</b>

    首批首家!DataCanvas Alaya NeW智算操作系統(tǒng)通過(guò)中國(guó)信通院“大模型計(jì)算資源調(diào)度平臺(tái)” 標(biāo)準(zhǔn)評(píng)測(cè)

    1月8日,“大模型工程化成果發(fā)布會(huì)”在北京圓滿召開。會(huì)上,中國(guó)信息通信研究院(簡(jiǎn)稱“中國(guó)信通院”)正式發(fā)布6項(xiàng)AIInfra(人工智能基礎(chǔ)平臺(tái))標(biāo)準(zhǔn)成果,憑借領(lǐng)先的應(yīng)用效能和靈活的擴(kuò)展能力,九章云極
    的頭像 發(fā)表于 01-10 11:24 ?217次閱讀
    首批首家!DataCanvas Alaya NeW智算操作系統(tǒng)通過(guò)中國(guó)信通院“大<b class='flag-5'>模型</b>計(jì)算資源調(diào)度平臺(tái)” <b class='flag-5'>標(biāo)準(zhǔn)</b><b class='flag-5'>評(píng)測(cè)</b>

    騰訊混元文生圖登頂智源FlagEval評(píng)測(cè)榜首

    近日,北京智源人工智能研究院(BAAI)發(fā)布了最新的FlagEval模型評(píng)測(cè)排行榜,其中多模態(tài)模型評(píng)測(cè)榜單的文生圖
    的頭像 發(fā)表于 12-25 10:06 ?249次閱讀

    商湯日日新多模態(tài)大模型權(quán)威評(píng)測(cè)第一

    剛剛,商湯科技日日新SenseNova多模態(tài)大模型,在權(quán)威綜合評(píng)測(cè)權(quán)威平臺(tái)OpenCompass的多模態(tài)評(píng)測(cè)中取得榜單第一。
    的頭像 發(fā)表于 12-20 10:39 ?304次閱讀

    國(guó)家管網(wǎng)集團(tuán)與華為聯(lián)合打造“管網(wǎng)”大模型

    近日,國(guó)家管網(wǎng)集團(tuán) “管網(wǎng)”大模型正式上線應(yīng)用?!肮芫W(wǎng)”大模型基于華為算力底座和技術(shù)棧,打造“管網(wǎng)制度流程+數(shù)據(jù)+IT+大模型”體系,構(gòu)建具有管網(wǎng)特色的大
    的頭像 發(fā)表于 12-04 11:07 ?379次閱讀

    通用大模型評(píng)測(cè)標(biāo)準(zhǔn)正式發(fā)布

    近日,在2024中國(guó)移動(dòng)全球合作伙伴大會(huì)上,一項(xiàng)關(guān)于大模型評(píng)測(cè)體系建設(shè)的新成果——《通用大模型評(píng)測(cè)標(biāo)準(zhǔn)》正式發(fā)布。這一
    的頭像 發(fā)表于 10-14 15:52 ?548次閱讀

    云知聲山海大模型多項(xiàng)能力全球領(lǐng)跑

    國(guó)內(nèi)人工智能權(quán)威機(jī)構(gòu)清華大學(xué)基礎(chǔ)模型研究中心發(fā)布SuperBench九月綜合榜單。本次評(píng)測(cè)選取海內(nèi)外24個(gè)具有代表性的大模型,結(jié)果顯示,山海大模型對(duì)齊、智能體、安全等多項(xiàng)
    的頭像 發(fā)表于 10-12 14:30 ?448次閱讀
    云知聲山海大<b class='flag-5'>模型</b>多項(xiàng)<b class='flag-5'>能力</b>全球領(lǐng)跑

    云知聲山海大模型醫(yī)療專業(yè)能力全球第一

    ,各項(xiàng)指標(biāo)全面超越GPT-4,充分展現(xiàn)出山海大模型在擁有業(yè)內(nèi)一流的通用能力之外,更具備打造世界領(lǐng)先的行業(yè)大模型能力
    的頭像 發(fā)表于 09-19 15:47 ?392次閱讀

    智能制造能力成熟度模型是什么?

    ),賦予每個(gè)級(jí)別明確定義,相應(yīng)標(biāo)準(zhǔn)和實(shí)現(xiàn)的必要條件。從最低級(jí)到最高級(jí),智能制造能力是逐級(jí)提升的,每個(gè)級(jí)別都在前一個(gè)級(jí)別的基礎(chǔ)上提升完善,同時(shí)也構(gòu)成了向下一個(gè)級(jí)別提升演進(jìn)的基礎(chǔ),從而體現(xiàn)了智能制造能力的層層遞進(jìn)和不斷發(fā)展完善的過(guò)程
    的頭像 發(fā)表于 06-12 11:25 ?846次閱讀
    智能制造<b class='flag-5'>能力</b>成熟度<b class='flag-5'>模型</b>是什么?

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型評(píng)測(cè)

    任務(wù)、評(píng)測(cè)集構(gòu)建標(biāo)準(zhǔn)評(píng)測(cè)方式三個(gè)部分。特別地,為了關(guān)注大語(yǔ)言模型在中文場(chǎng)景的優(yōu)化和應(yīng)用,該框架特別注重中文特有語(yǔ)境下的能力考察。其貢獻(xiàn)在于
    發(fā)表于 05-07 17:12

    名單公布!【書籍評(píng)測(cè)活動(dòng)NO.31】大語(yǔ)言模型:原理與工程實(shí)踐

    放棄本次試用評(píng)測(cè)資格! 緣起:為什么要寫這本書 OpenAI的ChatGPT自推出以來(lái),迅速成為人工智能領(lǐng)域的焦點(diǎn)。ChatGPT在語(yǔ)言理解、生成、規(guī)劃及記憶等多個(gè)維度展示了強(qiáng)大的能力。這不僅體現(xiàn)在
    發(fā)表于 03-18 15:49

    名單公布!【書籍評(píng)測(cè)活動(dòng)NO.30】大規(guī)模語(yǔ)言模型:從理論到實(shí)踐

    評(píng)測(cè)資格! 2022年11月,ChatGPT的問(wèn)世展示了大模型的強(qiáng)大潛能,對(duì)人工智能領(lǐng)域有重大意義,并對(duì)自然語(yǔ)言處理研究產(chǎn)生了深遠(yuǎn)影響,引發(fā)了大模型研究的熱潮。 距ChatGPT問(wèn)世不到一年,截至
    發(fā)表于 03-11 15:16

    華為云盤古大模型通過(guò)金融大模型標(biāo)準(zhǔn)符合性驗(yàn)證

    近日,在中國(guó)信通院組織的可信AI大模型標(biāo)準(zhǔn)符合性驗(yàn)證中,華為云的盤古大模型表現(xiàn)出色,成功通過(guò)了金融大模型標(biāo)準(zhǔn)的符合性驗(yàn)證,并榮獲優(yōu)秀級(jí)(4+
    的頭像 發(fā)表于 03-05 10:12 ?684次閱讀

    華為云盤古大模型通過(guò)金融大模型標(biāo)桿驗(yàn)證,獲最高評(píng)級(jí)

    該驗(yàn)證標(biāo)準(zhǔn)主要關(guān)注金融大模型對(duì)語(yǔ)言,語(yǔ)音,視覺(jué)以及多模態(tài)任務(wù)等多元領(lǐng)域的適應(yīng)能力,涵蓋數(shù)據(jù)合規(guī)性,模型安全性和服務(wù)穩(wěn)定性等關(guān)鍵要素。
    的頭像 發(fā)表于 03-04 15:58 ?727次閱讀

    模型開源開放評(píng)測(cè)體系司南正式發(fā)布

    近日,大模型開源開放評(píng)測(cè)體系司南(OpenCompass2.0)正式發(fā)布,旨在為大語(yǔ)言模型、多模態(tài)模型等各類模型提供一站式
    的頭像 發(fā)表于 02-05 11:28 ?1123次閱讀