不需要 RLHF,LIMA 就能和 GPT-4、Bard、DaVinci003 相媲美,甚至更好。
作為當(dāng)前 AI 領(lǐng)域的頂流,ChatGPT、GPT-4 等大模型在文本理解、生成、推理等方面展現(xiàn)出強(qiáng)大的能力,這離不開其背后的生成領(lǐng)域訓(xùn)練新范式 ——RLHF (Reinforcement Learning from Human Feedback) ,即以強(qiáng)化學(xué)習(xí)的方式依據(jù)人類反饋優(yōu)化語言模型。
使用 RLHF 方法,大型語言模型可與人類偏好保持對(duì)齊,遵循人類意圖,最小化無益、失真或偏見的輸出。但 RLHF 方法依賴于大量的人工標(biāo)注和評(píng)估,因此成本非常高昂。
最近,來自 Meta AI 等機(jī)構(gòu)的研究者在一項(xiàng)研究中指出:在對(duì)齊方面,少即是多。
論文地址:https://arxiv.org/abs/2305.11206
該研究使用了一個(gè) 65B 參數(shù)的 LLaMa 模型(該模型稱為 LIMA)在 1000 個(gè)精選樣本上進(jìn)行有監(jiān)督學(xué)習(xí),在完全沒使用 RLHF 方法的情況下,LIMA 表現(xiàn)出非常強(qiáng)大的性能,并且能夠很好地泛化到訓(xùn)練數(shù)據(jù)以外的任務(wù)上。在人類評(píng)估結(jié)果中,LIMA 甚至可與 GPT-4、Bard、DaVinci003 相媲美。圖靈獎(jiǎng)得主 Yann LeCun 也轉(zhuǎn)推稱贊這項(xiàng)研究。
接下來,讓我們看一下研究細(xì)節(jié)。
研究概述
首先,我們知道訓(xùn)練大型語言模型需要兩個(gè)步驟:
在原始內(nèi)容中進(jìn)行無監(jiān)督預(yù)訓(xùn)練,以學(xué)習(xí)通用表征;
大規(guī)模指令微調(diào)和強(qiáng)化學(xué)習(xí),以更好地對(duì)齊最終任務(wù)和用戶偏好。
該研究訓(xùn)練了一個(gè) 65B 參數(shù)的 LLaMa 語言模型「LIMA」,以衡量這兩個(gè)步驟的重要程度。LIMA 僅在 1000 個(gè)精選 prompt 和回答(response)上使用標(biāo)準(zhǔn)監(jiān)督損失進(jìn)行微調(diào),不涉及任何強(qiáng)化學(xué)習(xí)或人類偏好建模。
LIMA 能夠從訓(xùn)練數(shù)據(jù)的少量樣本中學(xué)習(xí)遵循特定的回答格式,包括從計(jì)劃旅行行程到推測(cè)備用歷史的復(fù)雜查詢。并且,該模型能夠很好地泛化到訓(xùn)練數(shù)據(jù)以外的新任務(wù)上。在一項(xiàng)人體對(duì)照試驗(yàn)中,LIMA 在 43% 的病例中療效都與 GPT-4 媲美甚至更好;相比于 Bard,占比能夠達(dá)到 58%;更別說與使用人類反饋訓(xùn)練的 DaVinci003 對(duì)比了,這個(gè)數(shù)字高達(dá) 65%。
該研究根據(jù)對(duì)比結(jié)果總結(jié)道:大型語言模型中幾乎所有的知識(shí)都是在預(yù)訓(xùn)練期間學(xué)習(xí)的,并且想讓模型產(chǎn)生高質(zhì)量的輸出只需要部分必要的指令調(diào)優(yōu)數(shù)據(jù)。這一點(diǎn)與 RLHF 方法不同,將有助于大型語言模型(LLM)降低訓(xùn)練成本。
數(shù)據(jù)對(duì)齊
研究者提出了表面對(duì)齊假設(shè):模型的知識(shí)和能力幾乎完全是在預(yù)訓(xùn)練期間學(xué)習(xí)的,而對(duì)齊則是教會(huì)它與用戶交互時(shí)如何選擇子分布。如果假設(shè)正確,對(duì)齊主要有關(guān)于學(xué)習(xí)方式,那么該假設(shè)的一個(gè)推論是,人們可以用相當(dāng)少的樣本充分調(diào)整預(yù)訓(xùn)練的語言模型。
為此,研究者收集了 1000 個(gè) prompt 和回答的數(shù)據(jù)集,其中輸出 (回答) 在風(fēng)格上一致,但輸入 (prompt) 是不同的。他們想找出一種有幫助的、AI 助手風(fēng)格的輸出。精選樣本的來源主要包括社區(qū)問答和手動(dòng)撰寫兩部分。除此之外,團(tuán)隊(duì)還收集了一個(gè)包含 300 個(gè) prompt 的測(cè)試集以及一個(gè)包含 50 個(gè) prompt 的開發(fā)集。表 1 展示了不同數(shù)據(jù)源的概覽,并提供了一些統(tǒng)計(jì)數(shù)據(jù)。
社區(qū)問答
研究者從三個(gè)社區(qū)問答網(wǎng)站收集數(shù)據(jù),分別是 Stack Exchange、wikiHow 和 Pushshift Reddit 數(shù)據(jù)集。來自 Stack Exchange 和 wikiHow 的答案與 AI 智能體的行為很一致,因此可以深度挖掘,而 Reddit 的高贊答案往往是幽默的或帶有惡意,需要一種人工的方法來管理回答,遵循適當(dāng)?shù)娘L(fēng)格。
人工撰寫的樣本
為進(jìn)一步豐富數(shù)據(jù),研究團(tuán)隊(duì)還自己制作 prompt,指定兩組作者 (分別為 A 組和 B 組),由他們自己或朋友的興趣各自創(chuàng)建 250 個(gè) prompt。從 A 組中選擇 200 個(gè) prompt 進(jìn)行訓(xùn)練,并將 50 個(gè) prompt 作為保留的開發(fā)集。過濾部分有問題的 prompt 后,將 B 組中剩余的 230 個(gè) prompt 用于測(cè)試。
訓(xùn)練 LIMA
該研究以 LLaMa 65B [Touvron et al., 2023] 作為基礎(chǔ)模型,使用包含 1000 個(gè)樣本的對(duì)齊訓(xùn)練集進(jìn)行了微調(diào)。為了區(qū)分每個(gè)說話者(用戶和助手),該研究在每段話語結(jié)束時(shí)引入一個(gè)特殊的回合結(jié)束 token(EOT),該 token 與停止生成的 EOS 起著相同的作用,但避免了與預(yù)訓(xùn)練模型已注入的 EOS token 產(chǎn)生混淆。
該研究遵循標(biāo)準(zhǔn)的微調(diào)超參數(shù),包括:使用 AdamW [Loshchilov 和 Hutter,2017] 微調(diào) 15 個(gè) epoch,其中 β_1=0.9,β_2=0.95,權(quán)重衰減(weight decay)為 0.1。在沒有預(yù)熱(warmup)步驟的情況下,該研究將初始學(xué)習(xí)率(learning rate)設(shè)置為,并在訓(xùn)練結(jié)束時(shí)衰減到。批大小設(shè)置為 32 個(gè)樣本(對(duì)于較小的模型設(shè)置為 64 個(gè)),超過 2048 個(gè) token 的文本將被修剪。值得注意的是,這種方法與 norm 不同的是使用了殘差 dropout。該研究按照 Ouyang et al. [2022] 的方法,并在殘差連接(residual connection)上應(yīng)用 dropout,底層 p_d=0.0,線性增長(zhǎng)至最后一層 p_d=0.3(對(duì)于較小的模型 p_d=0.2)。該研究發(fā)現(xiàn)發(fā)現(xiàn)困惑度與生成質(zhì)量無關(guān),因此使用留出(held-out)50 樣本開發(fā)集手動(dòng)選擇了第 5 個(gè)和第 10 個(gè) epoch 之間的檢查點(diǎn)。
人類評(píng)估
該研究將 LIMA 與 SOTA 語言模型進(jìn)行了比較評(píng)估,結(jié)果表明 LIMA 優(yōu)于 OpenAI 基于 RLHF 的 DaVinci003 和在 52000 個(gè)樣本上訓(xùn)練的 Alpaca 65B 參數(shù)復(fù)現(xiàn)版本,并且可以生成比 GPT-4 更好或與之媲美的回答。我們來看一下具體的實(shí)驗(yàn)結(jié)果。
結(jié)果
下圖 1 顯示了人類偏好評(píng)估結(jié)果,圖 2 顯示了 GPT-4 偏好評(píng)估結(jié)果。該研究第一個(gè)觀察結(jié)果是,盡管使用 52 倍的數(shù)據(jù)進(jìn)行訓(xùn)練,Alpaca 65B 輸出的結(jié)果往往不如 LIMA,而使用高級(jí)對(duì)齊方法 RLHF 訓(xùn)練的 DaVinci003 也是如此。
谷歌的 Bard 模型則顯示出與 DaVinci003 相反的趨勢(shì),在 42% 的時(shí)間內(nèi)產(chǎn)生比 LIMA 更好的回答;而 58% 的情況 LIMA 的回答與 Bard 相當(dāng)或者更好。
最后,雖然 Claude 和 GPT-4 通常比 LIMA 表現(xiàn)更好,但在很多情況下 LIMA 確實(shí)產(chǎn)生了更好的回答。值得注意的是,即使是 GPT-4 也有 19% 的情況更喜歡 LIMA 的輸出。
分析
雖然研究者主要是針對(duì) SOTA 模型來評(píng)估 LIMA,但值得注意的是,其中一些基線實(shí)際上是高度調(diào)諧的產(chǎn)物,在訓(xùn)練過程中可能已經(jīng)接觸了數(shù)百萬的真實(shí)用戶 prompt,因此創(chuàng)造了一個(gè)非常高的標(biāo)準(zhǔn)。因此,研究者通過手動(dòng)分析 50 個(gè)隨機(jī)樣本來提供一個(gè)絕對(duì)評(píng)估(absolute assessment)。
他們將每個(gè)樣本標(biāo)記為三個(gè)類別中的一個(gè):
失敗,回答不符合 prompt 的要求;
通過,回答符合 prompt 的要求;
優(yōu)秀,模型對(duì) prompt 提供了一個(gè)極好的回答。
結(jié)果如圖 3 所示,50% 的 LIMA 答案被認(rèn)為是優(yōu)秀的,而且它能夠遵循 50 個(gè)分析的 prompt 中除 6 個(gè)以外的所有 prompt,研究者沒有觀察到失敗案例中的任何明顯的趨勢(shì)。
在 50 個(gè)分析樣本中,有 43 個(gè)具有標(biāo)準(zhǔn)格式要求(例如問答、書信)。該研究分析了 13 個(gè)額外的分布外樣本(總共 20 個(gè)),結(jié)果發(fā)現(xiàn) 20% 回答失敗,35% 通過,45% 非常好。雖然樣本數(shù)量非常小,但 LIMA 已經(jīng)在其訓(xùn)練分布之外實(shí)現(xiàn)了類似的性能結(jié)果,這表明 LIMA 能夠很好地泛化。
最后,該研究分析了訓(xùn)練集中少量與安全相關(guān)的樣本(只有 13 個(gè)),并使用來自測(cè)試集的 30 個(gè)潛在敏感 prompt,發(fā)現(xiàn) LIMA 安全地回答了其中的 80%(包括 10 個(gè)帶有惡意 prompt 中的 6 個(gè))。在某些情況下,LIMA 完全拒絕執(zhí)行任務(wù),但當(dāng)惡意意圖比較模糊時(shí),LIMA 更有可能提供不安全的回答。
為什么「Less More」?對(duì)數(shù)據(jù)多樣性、質(zhì)量和數(shù)量的消減
接下來,研究者通過消融實(shí)驗(yàn)探討了訓(xùn)練數(shù)據(jù)的多樣性、質(zhì)量和數(shù)量的影響。他們觀察到,對(duì)于對(duì)齊的目的,擴(kuò)大輸入多樣性和輸出質(zhì)量有可衡量的積極影響,僅僅擴(kuò)大數(shù)量則可能不會(huì)有。
多樣性。為了測(cè)試 prompt 多樣性的效果,同時(shí)控制質(zhì)量和數(shù)量,研究者比較了經(jīng)過質(zhì)量過濾的 Stack Exchange 數(shù)據(jù)和 wikiHow 數(shù)據(jù)的訓(xùn)練效果,前者有異質(zhì)的 prompt 和極好的回答,后者則有同質(zhì)的 prompt 和極好的回答。雖然在此將二者作為多樣性的代表進(jìn)行比較,但研究者也表示,在從兩個(gè)不同來源的數(shù)據(jù)中采樣時(shí),可能會(huì)有其他混淆因素。他們從每個(gè)來源中抽出 2000 個(gè)訓(xùn)練樣本,如圖 5 顯示,更多樣化的 Stack Exchange 數(shù)據(jù)產(chǎn)生了明顯更好的性能。
質(zhì)量。為了測(cè)試回答質(zhì)量的影響,研究者從 Stack Exchange 中抽取了 2000 個(gè)樣本,沒有經(jīng)過任何質(zhì)量或風(fēng)格的過濾,并將在這個(gè)數(shù)據(jù)集上訓(xùn)練的模型與在過濾過的數(shù)據(jù)集上訓(xùn)練的模型進(jìn)行比較。如圖 5 所示,在經(jīng)過過濾和未經(jīng)過過濾的數(shù)據(jù)源上訓(xùn)練的模型之間有 0.5 分的顯著差異。
數(shù)量。增加實(shí)例的數(shù)量是在許多機(jī)器學(xué)習(xí)環(huán)境中提高性能的一個(gè)著名策略。為了測(cè)試它對(duì)該設(shè)置的影響,研究者從 Stack Exchange 中抽取了指數(shù)級(jí)增加的訓(xùn)練集。如圖 6 所示,訓(xùn)練集規(guī)模的翻倍并沒有改善回答質(zhì)量。這個(gè)結(jié)果表明,對(duì)齊不一定只受制于訓(xùn)練樣本的數(shù)量,還與 prompt 多樣性函數(shù)有關(guān)。
多輪對(duì)話
一個(gè)僅在 1000 次單回合互動(dòng)中進(jìn)行微調(diào)的模型能否參與多回合對(duì)話?研究者還在 10 個(gè)現(xiàn)場(chǎng)對(duì)話中測(cè)試了 LIMA,將每個(gè)回答標(biāo)記為失敗、通過或優(yōu)秀。
對(duì)于一個(gè)零樣本聊天機(jī)器人來說,LIMA 的回答展現(xiàn)出了驚人的一致性,它能夠參考對(duì)話中以前的步驟信息。但很明顯的是,該模型的操作超出了分布范圍;在 10 個(gè)對(duì)話中的 6 個(gè),LIMA 在 3 次互動(dòng)中未能遵循 prompt。
為了提高它的對(duì)話能力,研究者收集了 30 個(gè)多輪對(duì)話鏈。在這些對(duì)話中,有 10 個(gè)對(duì)話是由作者創(chuàng)作的,而剩下的 20 個(gè)對(duì)話是基于 Stack Exchange 的評(píng)論鏈,研究者對(duì)其進(jìn)行了編輯以適應(yīng)助手的風(fēng)格。利用合并后的 1030 個(gè)樣本,他們從預(yù)訓(xùn)練的 LLaMa 模型中微調(diào)了一個(gè)新版本的 LIMA,并根據(jù)用于零樣本模型的相同 prompt 進(jìn)行了 10 次現(xiàn)場(chǎng)對(duì)話。
圖 7 顯示了回答質(zhì)量的分布。增加對(duì)話后,大大改善了生成質(zhì)量,將優(yōu)秀回答的比例從 45.2% 提高到 76.1%。此外,失敗率從每 42 個(gè)回合有 15 次失敗(零樣本)下降到每 46 次有 1 次失?。ㄎ⒄{(diào))。
研究者進(jìn)一步比較了整個(gè)對(duì)話的質(zhì)量,發(fā)現(xiàn)微調(diào)模型在 10 個(gè)對(duì)話中的 7 個(gè)表現(xiàn)明顯更好,在 3 個(gè)對(duì)話中與零樣本模型打成平手。從僅僅 30 個(gè)樣本中獲得的這種能力的飛躍,以及零樣本模型可以進(jìn)行對(duì)話的事實(shí),加強(qiáng)了這樣的假設(shè):這種能力是在預(yù)訓(xùn)練中學(xué)習(xí)的,并且可以通過有限的監(jiān)督來調(diào)用。
綜上所述,在 1000 個(gè)精心策劃的例子上對(duì)一個(gè)強(qiáng)大的預(yù)訓(xùn)練語言模型進(jìn)行微調(diào),可以在廣泛的 prompt 中產(chǎn)生顯著的、有競(jìng)爭(zhēng)力的結(jié)果。然而,這種方法也有局限性:首先,構(gòu)建這樣的樣本所付出的腦力勞動(dòng)是巨大的,而且很難擴(kuò)大規(guī)模。其次,LIMA 并不像產(chǎn)品級(jí)模型那樣魯棒,雖然 LIMA 通常會(huì)產(chǎn)生良好的反應(yīng),但在解碼過程中一個(gè)不幸運(yùn)的樣本或一個(gè)敵對(duì)的 prompt 往往會(huì)導(dǎo)致一個(gè)弱的反應(yīng)。盡管如此,這項(xiàng)工作中提出的證據(jù)表明,用簡(jiǎn)單的方法來解決復(fù)雜的對(duì)齊問題是有潛力的。
審核編輯 :李倩
-
AI
+關(guān)注
關(guān)注
87文章
31325瀏覽量
269675 -
語言模型
+關(guān)注
關(guān)注
0文章
533瀏覽量
10303 -
GPT
+關(guān)注
關(guān)注
0文章
354瀏覽量
15446
原文標(biāo)題:沒有RLHF,一樣媲美GPT-4、Bard,Meta發(fā)布650億參數(shù)語言模型LIMA
文章出處:【微信號(hào):AI智勝未來,微信公眾號(hào):AI智勝未來】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論