欧美日韩综合一区在线播放,黄色一级毛片视频在线,国产拍偷精品网国产精品视频

【摘要】大模型（LLM）已經(jīng)成為了大多數(shù)語言相關(guān)的技術(shù)的基石，然而大模型的能力、限制、風(fēng)險還沒有被大家完整地認(rèn)識。該文為大模型評估方向的綜述論文，由Percy Liang團(tuán)隊(duì)打造，將2022年四月份前的大模型進(jìn)行了統(tǒng)一的評估。其中，被評估的模型包括GPT-3，InstructGPT等。在經(jīng)過大量的實(shí)驗(yàn)之后，論文提出了一些可供參考的經(jīng)驗(yàn)總結(jié)。

1. 在所有被評估的模型中，InstructGPT davinci v2(175B)在準(zhǔn)確率，魯棒性，公平性三方面上表現(xiàn)最好。論文主要聚焦的是國外大公司的語言大模型，而國內(nèi)的知名大模型，如華為的Pangu系列以及百度的文心系列，論文并沒有給出相關(guān)的測評數(shù)據(jù)。下圖展示了各模型間在各種NLP任務(wù)中頭對頭勝率（Head-to-head win rate）的情況?？梢钥吹?，出自O(shè)penAI的InstructGPT davinci v2在絕大多數(shù)任務(wù)中都可以擊敗其他模型。最近的大火的ChatGPT誕生于這篇論文之后，因此這篇論文沒有對ChatGPT的測評，但ChatGPT是InstructGPT的升級版，相信ChatGPT可以取得同樣優(yōu)異的成績。在下圖中，準(zhǔn)確率的綜合第二名由微軟的TNLG獲得，第三名由初創(chuàng)公司Anthropic獲得。同時我們也可以看到，要想在準(zhǔn)確率額上獲得55%及以上的勝率，需要至少50B的大小，可見大模型是趨勢所向。

2. 由于硬件、架構(gòu)、部署模式的區(qū)別，不同模型的準(zhǔn)確率和效率之間沒有強(qiáng)相關(guān)性。而準(zhǔn)確率與魯棒性（Robustness）、公平性（Fairness）之間有一定的正相關(guān)關(guān)系（如下圖所示）。

如今，大模型的參數(shù)規(guī)模都非常巨大。GPT-3具有1750億個參數(shù)，部署這樣一個大模型，無論在成本上還是工程上都是極大的挑戰(zhàn)。同時，由于需要開放API給用戶使用，OpenAI還需要考慮GPT-3的推理速度。文章的測試結(jié)果顯示，GPT-3的推理速度并沒有顯著地比參數(shù)更少地模型慢，可能是在硬件、架構(gòu)和部署模式上都有一定地優(yōu)勢，足以彌補(bǔ)參數(shù)規(guī)模上的劣勢。

3. InstructGPT davinci v2(175B)在知識密集型的任務(wù)上取得了遠(yuǎn)超其他模型的成績，在TruthfulQA數(shù)據(jù)集上獲得了62.0%的準(zhǔn)確率，遠(yuǎn)超第二名Anthropic-LM v4-s3 (52B) 36.2%的成績。（TruthfulQA是衡量語言模型在生成問題答案時是否真實(shí)的測評數(shù)據(jù)集。該數(shù)據(jù)集包括817個問題，涵蓋38個類別，包括健康，法律，金融和政治。作者精心設(shè)計了一些人會因?yàn)殄e誤的先驗(yàn)知識或誤解而錯誤回答的問題。）與此同時，TNLG v2(530B)在部分知識密集型任務(wù)上也有優(yōu)異的表現(xiàn)。作者認(rèn)為模型的規(guī)模對學(xué)習(xí)真實(shí)的知識起到很大的貢獻(xiàn)，這一點(diǎn)可以從兩個大模型的優(yōu)異表現(xiàn)中推測得到。

4. 在推理（Reasoning）任務(wù)上，Codex davinci v2在代碼生成和文本推理任務(wù)上表現(xiàn)都很優(yōu)異，甚至遠(yuǎn)超一些以文本為訓(xùn)練語料的模型。這一點(diǎn)在數(shù)學(xué)推理的數(shù)據(jù)上表現(xiàn)最明顯。在GSM8K數(shù)據(jù)集上，Codex davinci v2獲得了52.1%的正確率，第二名為InstructGPT davinci v2(175B)的35.0%，且沒有其他模型正確率超過16%。Codex davinci v2主要是用于解決代碼相關(guān)的問題，例如代碼生成、代碼總結(jié)、注釋生成、代碼修復(fù)等，它在文本推理任務(wù)上的優(yōu)秀表現(xiàn)可能是其在代碼數(shù)據(jù)上訓(xùn)練的結(jié)果，因?yàn)榇a是更具有邏輯關(guān)系的語言，在這樣的數(shù)據(jù)集上訓(xùn)練也許可以提升模型的推理能力。

5. 所有的大模型都對輸入（Prompt）的形式非常敏感。論文主要采用few-shot這種In-context learning的形式增強(qiáng)輸入（Prompt）。

如上圖所示，在不同任務(wù)上，in-context examples的數(shù)量影響不同，在不同的模型上也是如此。由于有些任務(wù)比較簡單，例如二分類的IMDB數(shù)據(jù)庫，增加in-context examples并不會對結(jié)果有明顯的影響。在模型方面，由于window size的限制，過多的in-context examples可能導(dǎo)致剩余的window size不足以生成一個完成答案，因而對生成結(jié)果造成負(fù)面的影響。

點(diǎn)擊“閱讀原文”，了解更多！

原文標(biāo)題：技術(shù)速遞 | 論文分享《Holistic Evaluation of Language Models》

文章出處：【微信公眾號：華為DevCloud】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴