0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Meta AI重磅推出LIMA!媲美GPT-4、無需RLHF就能對齊!

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 2023-05-24 15:00 ? 次閱讀

昨天Meta AI+CMU這篇文章一出,twitter都炸了!

LIMA,只使用1000個精心挑選的樣本微調(diào)一個 65B LLaMa,無需RLHF,性能媲美甚至優(yōu)于GPT-4!

42dab890-f915-11ed-90ce-dac502259ad0.png

論文:LIMA: Less Is More for Alignment
地址:https://arxiv.org/pdf/2305.11206.pdf

天下人苦“對齊”久矣!要讓預(yù)訓(xùn)練語言模型的響應(yīng)和特定任務(wù)和用戶偏好對齊,動輒需要百萬示例數(shù)據(jù)集上的instruction tuning、以及最近從人類反饋中進(jìn)行的強(qiáng)化學(xué)習(xí),才能實(shí)現(xiàn)ChatGPT級別的性能。

這篇文章旨在用簡單的方法解決復(fù)雜的對齊問題,作者提出表面對齊假說(Superficial Alignment Hypothesis),將對齊視為一個簡單的過程:學(xué)習(xí)與用戶交互的樣式或格式,來展示預(yù)訓(xùn)練期間就已經(jīng)獲得的知識和能力!

結(jié)果發(fā)現(xiàn),少量高質(zhì)量樣例上的簡單微調(diào)就足以與當(dāng)今最先進(jìn)的技術(shù)競爭!這也證明預(yù)訓(xùn)練過程的強(qiáng)大威力和重要性,遠(yuǎn)勝于大規(guī)模instruction tuning和強(qiáng)化學(xué)習(xí)!

4305ce22-f915-11ed-90ce-dac502259ad0.jpg

實(shí)驗設(shè)置

數(shù)據(jù)集來源:這1000個近似真實(shí)用戶提示和高質(zhì)量響應(yīng)的示例中,有750個來自Stack Exchange和wikiHow這樣的社區(qū)論壇,其余250個則是手動編寫。

微調(diào)的超參數(shù):使用AdamW進(jìn)行微調(diào),其中,權(quán)重衰減為0.1。沒有熱身步驟,初始學(xué)習(xí)率設(shè)置為,并線性地降至訓(xùn)練結(jié)束時的。批量大小設(shè)為32個示例(更小的模型為64個),長度大于2048 token的文本將被裁剪。與以往的顯著不同是在殘差連接上應(yīng)用dropout,從底層的 開始,線性升高到最后一層的 (更小的模型為 )。

基準(zhǔn)模型

實(shí)驗將 LIMA 與五個基準(zhǔn)模型進(jìn)行比較:

(1)Alpaca 65B:將 LLaMa 65B 在 Alpaca 訓(xùn)練集中的 52,000 個樣例上進(jìn)行微調(diào);(2) OpenAI 的DaVinci003,經(jīng)過 RLHF 訓(xùn)練的大語言模型;(3) 基于 PaLM 的 谷歌Bard;(4) Anthropic 的Claude, 52B 參數(shù),經(jīng)過從 AI 反饋進(jìn)行強(qiáng)化學(xué)習(xí) (Constitutional AI) 訓(xùn)練;(5) OpenAI 的GPT-4,經(jīng)過 RLHF 訓(xùn)練,目前認(rèn)為最先進(jìn)的大語言模型。

結(jié)果

根據(jù)人類偏好的實(shí)驗結(jié)果,LIMA 的表現(xiàn)比 Alpaca 65B 和 DaVinci003 都要更好!盡管Alpaca 65B 的訓(xùn)練數(shù)據(jù)量比 LIMA 高52倍,而DaVinci003 采用了 RLHF,一種被認(rèn)為是更優(yōu)秀的對齊方法。

Bard 情況要好,在 42% 的時間產(chǎn)生了比 LIMA 更好的響應(yīng);然而,這也意味著至少58%的時間, LIMA 的表現(xiàn)和 Bard 相當(dāng)。

最后,雖然 Claude 和 GPT-4 通常比 LIMA 的表現(xiàn)更加出色,但很多情況下,LIMA 確實(shí)能產(chǎn)生更好的響應(yīng)。有些諷刺的是,即使是 GPT-4 也有19% 的時間會認(rèn)為 LIMA 的輸出更好。

43353a0e-f915-11ed-90ce-dac502259ad0.png

我們來欣賞下LLaMa的出色表演。藍(lán)色文本為prompt,左邊是與訓(xùn)練集中示例相關(guān)的提示,中間是訓(xùn)練集中不存在的提示,右邊則是挑戰(zhàn)模型拒絕不安全行為。

4340f290-f915-11ed-90ce-dac502259ad0.png

數(shù)據(jù)質(zhì)量和多樣性更重要

為了證明LIMA (Less Is More for Alignment)這個少勝于多的觀點(diǎn),作者通過消融實(shí)驗研究了訓(xùn)練數(shù)據(jù)的多樣性、質(zhì)量和數(shù)量對模型的影響。

結(jié)果發(fā)現(xiàn),數(shù)據(jù)質(zhì)量對生成質(zhì)量存在顯著影響,使用篩選過的數(shù)據(jù)集訓(xùn)練的模型與使用未經(jīng)過濾的數(shù)據(jù)源訓(xùn)練的模型之間存在0.5分差異。但是,令人驚訝的是,示例數(shù)量的加倍并不能改善響應(yīng)的質(zhì)量。這表明對齊的 scaling laws 不僅僅取決于數(shù)量,而在于保證質(zhì)量的同時提高提示的多樣性。

43505276-f915-11ed-90ce-dac502259ad0.png

多輪對話

不過,一個僅在1,000個單輪對話上進(jìn)行微調(diào)的模型能否從事多輪對話(Multi-Turn Dialogue)呢?

在零樣本上,LIMA的響應(yīng)出奇地連貫,并引用了前面對話的信息。但很明顯,這個模型正在超出分布范圍;在10次交流中有6次,LIMA在3個互動之內(nèi)未能遵循提示。

為了提高對話能力,作者收集了30個多輪對話鏈。使用組合的1,030個示例對預(yù)訓(xùn)練的LLaMa模型進(jìn)行微調(diào),得到一個新版本的LIMA,并針對相同的提示進(jìn)行了10次實(shí)時對話。發(fā)現(xiàn)加入這30個示例后生成質(zhì)量顯著提升,優(yōu)質(zhì)響應(yīng)比例從45.2%提高到76.1%!

43857960-f915-11ed-90ce-dac502259ad0.png

30個樣本的有限監(jiān)督就能調(diào)用模型的多輪對話能力,這也支持了作者提出的表面對齊假說,即:這些能力是在預(yù)訓(xùn)練期間學(xué)習(xí)的。

總結(jié)

作者在discussion部分指出了該方法的一系列問題:比如構(gòu)建數(shù)據(jù)集示例需要巨大的腦力投入、難以擴(kuò)展,不如產(chǎn)品級別的模型穩(wěn)健等~

話雖如此,這篇研究證明了簡單方法就有解決復(fù)雜對齊問題的潛力。幾乎所有大語言模型中的知識都是在預(yù)訓(xùn)練期間學(xué)習(xí)的,教導(dǎo)模型產(chǎn)生高質(zhì)量輸出只需少量但精心的instructional tuning.

簡單才是王道!

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    533

    瀏覽量

    10303
  • CMU
    CMU
    +關(guān)注

    關(guān)注

    0

    文章

    21

    瀏覽量

    15266
  • ChatGPT
    +關(guān)注

    關(guān)注

    29

    文章

    1566

    瀏覽量

    7872

原文標(biāo)題:Meta AI 重磅推出LIMA!媲美GPT-4、無需RLHF就能對齊!

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    ChatGPT升級 OpenAI史上最強(qiáng)大模型GPT-4發(fā)布

    ChatGPT升級 史上最強(qiáng)大模型GPT-4發(fā)布 OpenAI正式推出了ChatGPT升級版本,號稱史上最強(qiáng)大模型GPT-4發(fā)布。OpenAI期待GPT-4成為一個更有價值的
    的頭像 發(fā)表于 03-15 18:15 ?2843次閱讀

    關(guān)于GPT-4的產(chǎn)品化狂想

    GPT-4是條件,而不是結(jié)果
    的頭像 發(fā)表于 03-26 10:48 ?3035次閱讀
    關(guān)于<b class='flag-5'>GPT-4</b>的產(chǎn)品化狂想

    AIGC(GPT-4)賦能通信行業(yè)應(yīng)用白皮書

    ”,2023 年 3 月 GPT-4 的發(fā)布則進(jìn)一步推動了“態(tài)勢升 級”。由 ChatGPT/GPT-4 引發(fā)的全球關(guān)注,令許多人回憶起 2016 年 AlphaGo 戰(zhàn)勝人類圍棋世界冠軍的時刻。如果說 AlphaGo 代表了 AI
    發(fā)表于 03-29 16:59 ?27次下載

    GPT-4是這樣搞電機(jī)的

    GPT-4寫電機(jī)基礎(chǔ)程序沒問題
    的頭像 發(fā)表于 04-17 09:41 ?1051次閱讀
    <b class='flag-5'>GPT-4</b>是這樣搞電機(jī)的

    微軟GPT-4搜索引擎重大升級 新Bing開放AI能力

    GPT-4GPT-4有更強(qiáng)悍的能力可以提供創(chuàng)意性文章創(chuàng)作和圖像識別功能。微軟馬上跟進(jìn),宣布旗下的Bing Chat已經(jīng)升級使用了OpenAI提供的GPT-4技術(shù)。 現(xiàn)在,微軟公司在官網(wǎng)聲明稱,基于
    的頭像 發(fā)表于 05-05 17:15 ?2644次閱讀

    一樣媲美GPT-4、Bard,Meta發(fā)布650億參數(shù)語言模型LIMA

    該研究使用了一個 65B 參數(shù)的 LLaMa 模型(該模型稱為 LIMA)在 1000 個精選樣本上進(jìn)行有監(jiān)督學(xué)習(xí),在完全沒使用 RLHF 方法的情況下,LIMA 表現(xiàn)出非常強(qiáng)大的性能,并且能夠很好地泛化到訓(xùn)練數(shù)據(jù)以外的任務(wù)上。
    的頭像 發(fā)表于 05-24 11:46 ?899次閱讀
    一樣<b class='flag-5'>媲美</b><b class='flag-5'>GPT-4</b>、Bard,<b class='flag-5'>Meta</b>發(fā)布650億參數(shù)語言模型<b class='flag-5'>LIMA</b>

    人工通用智能的火花:GPT-4的早期實(shí)驗

    人工智能(AI)研究人員一直在開發(fā)和完善大型語言模型(LLMs),這些模型在各種領(lǐng)域和任務(wù)中表現(xiàn) 出非凡的能力,挑戰(zhàn)我們對學(xué)習(xí)和認(rèn)知的理解。由OpenAI開發(fā)的最新模型GPT-4[Ope23
    發(fā)表于 06-20 15:49 ?1次下載

    GPT-4已經(jīng)會自己設(shè)計芯片了嗎?

    ? GPT-4已經(jīng)會自己設(shè)計芯片了!芯片設(shè)計行業(yè)的一個老大難問題HDL,已經(jīng)被GPT-4順利解決。并且,它設(shè)計的130nm芯片,已經(jīng)成功流片。 GPT-4,已經(jīng)可以幫人類造芯片了! 只用簡單的英語
    的頭像 發(fā)表于 06-20 11:51 ?1000次閱讀
    <b class='flag-5'>GPT-4</b>已經(jīng)會自己設(shè)計芯片了嗎?

    GPT-4催生的接口IP市場空間

    GPT-4大語言模型公布以來,百度、阿里、知乎、出門問問等國內(nèi)互聯(lián)網(wǎng)公司紛紛跟進(jìn),在近兩個月中相繼推出了自家的產(chǎn)品。日前,鮮有公開演講的奇績創(chuàng)壇創(chuàng)始人兼CEO陸奇也分享了他對大模型時代的宏觀思考
    的頭像 發(fā)表于 07-03 14:17 ?893次閱讀

    GPT-4沒有推理能力嗎?

    今年三月,OpenAI 重磅發(fā)布了 GPT-4 大模型,帶來了比 ChatGPT 背后 GPT-3.5 更強(qiáng)的推理、計算、邏輯能力,也引發(fā)了全民使用的熱潮。在各行各領(lǐng)域研究人員、開發(fā)者、設(shè)計師的使用過程中,「
    的頭像 發(fā)表于 08-11 14:20 ?926次閱讀
    <b class='flag-5'>GPT-4</b>沒有推理能力嗎?

    ChatGPT重磅更新 OpenAI發(fā)布GPT-4 Turbo模型價格大降2/3

    ChatGPT重磅更新 OpenAI發(fā)布GPT-4 Turbo模型價格大降2/3 目前OpenAI算是全球大模型的引領(lǐng)者,一舉一動都牽動著大家的關(guān)注,現(xiàn)在ChatGPT迎來重磅更新。 OpenAI
    的頭像 發(fā)表于 11-07 18:20 ?2840次閱讀
    ChatGPT<b class='flag-5'>重磅</b>更新 OpenAI發(fā)布<b class='flag-5'>GPT-4</b> Turbo模型價格大降2/3

    AI觀察 | 今年最火的GPT-4,正在締造科幻版妙手仁心!

    近來,微軟對于提示工程能力的最新研究 1 (鏈接詳見文末)再次吸引了一眾媒體的目光:“無需額外微調(diào)、無需專業(yè)策劃,僅憑提示GPT-4就能化身專家!”報道中這樣描述道 2 。 基于最新提
    的頭像 發(fā)表于 12-11 08:15 ?508次閱讀
    <b class='flag-5'>AI</b>觀察 | 今年最火的<b class='flag-5'>GPT-4</b>,正在締造科幻版妙手仁心!

    ChatGPT plus有什么功能?OpenAI 發(fā)布 GPT-4 Turbo 目前我們所知道的功能

    OpenAI 發(fā)布 GPT-4 Turbo 目前我們所知道的功能分析解答 在最近的OpenAI DevDay上,該組織發(fā)布了一項備受期待的公告:推出GPT-4 Turbo,這是對其突破性AI
    的頭像 發(fā)表于 12-13 09:19 ?1192次閱讀
    ChatGPT plus有什么功能?OpenAI 發(fā)布 <b class='flag-5'>GPT-4</b> Turbo 目前我們所知道的功能

    微軟Copilot全面更新為OpenAI的GPT-4 Turbo模型

    起初,Copilot作為Bing Chat AI助手推出,初期采用GPT-3.5模型,隨后升級至GPT-4取得顯著進(jìn)步,如今再次更新至性能卓越的GP
    的頭像 發(fā)表于 03-13 13:42 ?762次閱讀

    OpenAI推出新模型CriticGPT,用GPT-4自我糾錯

    基于GPT-4的模型——CriticGPT,這款模型專為捕獲ChatGPT代碼輸出中的錯誤而設(shè)計,其獨(dú)特的作用在于,讓人們能夠用GPT-4來查找GPT-4的錯誤。
    的頭像 發(fā)表于 06-29 09:55 ?570次閱讀