wkk
隨著大語言模型(LLM)的迅速發(fā)展,眾多開源的LLM性能參差不齊。今天分享的是由Allen AI實驗室聯(lián)合南加大和浙江大學(xué)的最新研究論文,發(fā)表在ACL上。本文提出了一個集成框架(LLM-BLENDER),旨在通過利用多個開源大型語言模型的不同優(yōu)勢使框架始終保持卓越的性能。
下面請大家跟隨我的視角一起來分析LLM-BLENDER框架是如何工作的吧!
論文:LLM-BLENDER: Ensembling Large Language Models with Pairwise Ranking and Generative Fusion
鏈接:https://arxiv.org/pdf/2306.02561
簡介
考慮到眾多LLM有不同的優(yōu)勢和劣勢,本文開發(fā)了一種利用其互補(bǔ)潛力的集成方法,從而提高魯棒性、泛化和準(zhǔn)確性。通過結(jié)合單個LLM的貢獻(xiàn),可以減輕單個LLM中的偏見、錯誤和不確定性信息,從而產(chǎn)生更符合人類偏好的輸出。
LLM-BLENDER
LLM-BLENDER包括兩個模塊:PAIRRANKER和GENFUSER。首先,PAIRRANKER比較N個LLM的輸出,然后通過GENFUSER將它們?nèi)诤?,從排名前K的輸出中生成最終輸出?,F(xiàn)有的方法如instructGPT中的reward model能夠?qū)斎離的輸出Y進(jìn)行排名,但是當(dāng)在多個LLM進(jìn)行組合時其效果并沒有那么明顯。原因在于,它們都是由復(fù)雜的模型產(chǎn)生的,其中一個可能只比另一個好一點。即使對人類來說,在沒有直接比較的情況下衡量候選質(zhì)量也可能是一項挑戰(zhàn)。
因此,本文提出了一種專門用于成對比較的方法PAIRRANKER,以有效地識別候選輸出之間的細(xì)微差異并提高性能。具體地,首先為每個輸入收集N個模型的輸出,然后創(chuàng)建其輸出的N(N?1)/2對。以fφ(x,yi,yj)的形式將輸入 x 和兩個候選輸出yi和yj聯(lián)合編碼為交叉注意力編碼器的輸入,以學(xué)習(xí)并確定哪個候選更好。
在推理階段,計算一個矩陣,該矩陣包含表示成對比較結(jié)果的logits。給定該矩陣,可以推斷給定輸入x的N個輸出的排序。隨后,可以使用來自PAIRRANKER的每個輸入的排名最高的候選者作為最終結(jié)果。
盡管如此,這種方法可能會限制產(chǎn)生比現(xiàn)有候選更好產(chǎn)出的潛力。為了研究這種可能性,從而引入了GENFUSER模塊來融合N個排名的候選輸出中的前K個,并為最終用戶生成改進(jìn)的輸出。
任務(wù)定義
給定輸入x和N個不同的語言模型{M1,., MN },可以通過使用每個模型處理x來生成N個候選輸出Y={y1,.,yN}。
研究目標(biāo)是開發(fā)一種集成學(xué)習(xí)方法,該方法為輸入x產(chǎn)生輸出y,然后計算x與y的最大化相似度Q。與使用固定模型或隨機(jī)選擇x的模型相比,這種方法將產(chǎn)生更好的總體性能。
MixInstruct:一個新的基準(zhǔn)
本文引入了一個新的數(shù)據(jù)集MixInstruct,用于在指令跟隨任務(wù)中對LLM的集成模型進(jìn)行基準(zhǔn)測試。主要從四個來源收集了一組大規(guī)模的指令示例,如下表所示。對數(shù)據(jù)集中的100k個樣本進(jìn)行訓(xùn)練,5k個用于驗證,5k個用于測試。然后,在這110k個示例上運(yùn)行N=11個流行的開源LLM,包括 Vicuna、OpenAssistant、Alpaca、MPT等如下圖所示。
為了獲得候選輸出的性能排名,為ChatGPT設(shè)計了comparative prompts來評估所有候選對。具體來說,對于每個示例,準(zhǔn)備了55對候選者(11×10/2)。對于每一對,要求ChatGPT基于輸入x和真值輸出y來判斷哪一個更好(或聲明平局)。
LLM-BLENDER: 一個新的框架
提出的一個用于集成LLM的框架LLM-BLENDER,如下圖所示。該框架由兩個主要組件組成:成對排序模塊PAIRRANKER和融合模塊GENFUSER。PAIRRANKER模塊學(xué)習(xí)比較每個輸入的所有候選對,然后對候選輸出進(jìn)行排名。選擇前K=3個排名的候選輸出,將它們與輸入x連接起來,并為GENFUSER模塊構(gòu)建輸入序列。GENFUSER模塊是一個seq2seq LM,由它生成為用戶服務(wù)的最終輸出。
PAIRRANKER 架構(gòu)
Encoding:使用Transformer層對一個輸入和一對候選對象進(jìn)行編碼,通過注意力機(jī)制在輸入的上下文中捕獲候選輸出之間的差異。按順序連接這三個片段,并使用特殊標(biāo)記作為分隔符形成單個輸入序列:< source >、< candidate1 >和< candidate2 >。生成的transformer輸入序列的形式為“< s >< source > x < /s > < candidate1 > yi< /s > < candidate2 > yj < /s >”,其中x是源輸入的文本,yi和yj是兩個候選輸出的文本。特殊標(biāo)記< source >、< candidate1 >和< candidate2 >的嵌入分別用作x、yi和yj的表示。
Traning:為了確定兩個候選輸出的分?jǐn)?shù),將X的嵌入分別與yi和yj連接起來,并使它們傳遞給多層感知器,最終層的維度等于要優(yōu)化的Q函數(shù)的數(shù)量。該維度內(nèi)的每個值表示特定Q函數(shù)的score。通過對這些Q個分?jǐn)?shù)取平均值來導(dǎo)出候選輸出的最終分?jǐn)?shù)。并在訓(xùn)練階段應(yīng)用了有效的子采樣策略來確保學(xué)習(xí)效率。訓(xùn)練期間,從候選輸出中隨機(jī)選擇一些組合,而不是所有N(N?1)/2對。實踐發(fā)現(xiàn),每個輸入使用 5 對足以獲得不錯的結(jié)果。
考慮到語言模型的位置嵌入,一對(x,yi,yj)中候選輸出的順序很重要,因為(x,yi,yj)和(x,yj,yi)的比較結(jié)果可能不一致。因此,在訓(xùn)練過程中將每個訓(xùn)練對中候選輸出的順序打亂,以便模型學(xué)習(xí)與其自身一致
Inference:在推理階段,計算每一對候選輸出的分?jǐn)?shù)。在N(N?1)次迭代后,得到矩陣M如下圖所示,為了根據(jù) M 確定最佳候選者,通過引入了聚合函數(shù)來確定候選輸出的最終排名。
GENFUSER: 生成融合
PAIRRANKER的有效性受到從候選輸出中選擇的質(zhì)量的限制。假設(shè),通過合并多個排名靠前的候選輸出,能夠克服這種限制。由于這些得分較高的候選輸出往往表現(xiàn)出互補(bǔ)的優(yōu)勢和劣勢,因此在減輕其缺點的同時結(jié)合它們的優(yōu)勢來生成更好的響應(yīng)是合理的。研究目標(biāo)是設(shè)計一個生成模型,該模型采用輸入x和K個排名靠前的候選輸出,并產(chǎn)生改進(jìn)的輸出作為最終響應(yīng)。為了實現(xiàn)這一點,提出了GENFUSER,這是一種seq2seq方法,用于融合一組以輸入指令為條件的候選輸出,以生成增強(qiáng)的輸出。具體地,使用分隔符標(biāo)記順序連接輸入和K個候選,并微調(diào)類似T5的模型以學(xué)習(xí)生成y。
評估
使用MixInstruct數(shù)據(jù)集進(jìn)行評估,使用DeBERTa作為PAIRRANKER的主干,GENFUSER則是基于Flan-T5-XL ,實驗結(jié)果如下表所示。
主要結(jié)果
LLM具有不同的優(yōu)勢和劣勢
根據(jù)ChatGPT確定LLM的平均等級,按排序順序顯示LLM。在這些模型中,Open Assistant、Vicuna和Alpaca是表現(xiàn)最好的三項,繼它們之后為Baize、Moss和ChatGLM,也在MixInstruction上表現(xiàn)出色。相反,Mosaic MPT、StableLM和Flan-T5在評估中排名倒數(shù)第三。盡管如此,top/bottom模型的平均GPT排名與first/last位置保持著明顯的距差距,這突出了組合LLM的重要性。
頂級LLM并不總是最好的
盡管OA和Vic表現(xiàn)得非常好,但仍有很大一部分示例顯示其他LLM優(yōu)于它們。例如,Koala的平均GPT-Rank為6.76,但大約40%的示例表明Koala產(chǎn)生了更好或同樣優(yōu)于OA和Vic的結(jié)果。這進(jìn)一步強(qiáng)調(diào)了使用LLM-BLENDER框架進(jìn)行排名和融合的重要性。
NLG Metrics
根據(jù)每個Metrics本身對oracle選擇的性能進(jìn)行了全面分析。研究結(jié)果表明,這些選擇在其他指標(biāo)上也表現(xiàn)出良好的性能。這一觀察結(jié)果證實了使用BARTScore為PAIRRANKER提供監(jiān)督的合理性。
PAIRRANKE的表現(xiàn)優(yōu)于其他排名工具
MLM-Scoring無法勝出random selection,突出了其無監(jiān)督范式的局限性。相反,與BARTScore和GPT-Rank的最佳模型(OA)相比,SimCLS、SummaReranker和PAIRRANKER表現(xiàn)出更好的性能。值得注意的是,PAIRRANKER選擇的響應(yīng)的平均GPT排名顯著優(yōu)于最佳模型,以及所有其他排名。
LLM-BLENDER 是最好的
使用從PAIRRANKER中選出的前三名,并將其作為GENFUSER的候選。在此的基礎(chǔ)上,LLM-BLENDER展示了預(yù)期的卓越性能。
排名相關(guān)性
除了只關(guān)注每個排名的top-1之外,還對所有具有GPT排名的候選之間的總體排名相關(guān)性進(jìn)行了全面分析。事實證明,BARTScore與GPT排名的相關(guān)性最高,這表明使用BARTScore提供監(jiān)督為訓(xùn)練。對于排序器來說,MLM得分仍然無法超過random permutations。
更多分析
將PAIRRANKER應(yīng)用于三個典型的自然語言生成(NLG)任務(wù):摘要、機(jī)器翻譯和約束文本生成。發(fā)現(xiàn)PAIRRANKER在使用單個相同的基礎(chǔ)模型解碼N個候選者(使用不同的算法)的上下文中仍然大大優(yōu)于其他方法。
總結(jié)
本文引入了LLM-BLENDER,這是一個創(chuàng)新的集成框架,通過利用多個開源LLM的不同優(yōu)勢來獲得持續(xù)卓越的性能。LLM-BLENDER通過排名的方式來減少單個LLM的弱點,并通過融合生成來整合優(yōu)勢,以提高LLM的能力。
總之,這是一篇非常有趣的文章,想了解更深入的話,還是看下原論文吧~
-
框架
+關(guān)注
關(guān)注
0文章
403瀏覽量
17485 -
模型
+關(guān)注
關(guān)注
1文章
3243瀏覽量
48840 -
語言模型
+關(guān)注
關(guān)注
0文章
524瀏覽量
10277 -
LLM
+關(guān)注
關(guān)注
0文章
288瀏覽量
335
原文標(biāo)題:博采眾長!我全都要!Allen AI推出集成主流大語言模型的LLM-BLENDER框架
文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論