0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Allen AI推出集成主流大語言模型的LLM-BLENDER框架

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 2023-06-11 15:06 ? 次閱讀

wkk

隨著大語言模型(LLM)的迅速發(fā)展,眾多開源的LLM性能參差不齊。今天分享的是由Allen AI實驗室聯(lián)合南加大和浙江大學(xué)的最新研究論文,發(fā)表在ACL上。本文提出了一個集成框架(LLM-BLENDER),旨在通過利用多個開源大型語言模型的不同優(yōu)勢使框架始終保持卓越的性能。

下面請大家跟隨我的視角一起來分析LLM-BLENDER框架是如何工作的吧!

df88c06e-0749-11ee-962d-dac502259ad0.png

論文:LLM-BLENDER: Ensembling Large Language Models with Pairwise Ranking and Generative Fusion
鏈接:https://arxiv.org/pdf/2306.02561

簡介

考慮到眾多LLM有不同的優(yōu)勢和劣勢,本文開發(fā)了一種利用其互補(bǔ)潛力的集成方法,從而提高魯棒性、泛化和準(zhǔn)確性。通過結(jié)合單個LLM的貢獻(xiàn),可以減輕單個LLM中的偏見、錯誤和不確定性信息,從而產(chǎn)生更符合人類偏好的輸出。

LLM-BLENDER

LLM-BLENDER包括兩個模塊:PAIRRANKER和GENFUSER。首先,PAIRRANKER比較N個LLM的輸出,然后通過GENFUSER將它們?nèi)诤?,從排名前K的輸出中生成最終輸出?,F(xiàn)有的方法如instructGPT中的reward model能夠?qū)斎離的輸出Y進(jìn)行排名,但是當(dāng)在多個LLM進(jìn)行組合時其效果并沒有那么明顯。原因在于,它們都是由復(fù)雜的模型產(chǎn)生的,其中一個可能只比另一個好一點。即使對人類來說,在沒有直接比較的情況下衡量候選質(zhì)量也可能是一項挑戰(zhàn)。

因此,本文提出了一種專門用于成對比較的方法PAIRRANKER,以有效地識別候選輸出之間的細(xì)微差異并提高性能。具體地,首先為每個輸入收集N個模型的輸出,然后創(chuàng)建其輸出的N(N?1)/2對。以fφ(x,yi,yj)的形式將輸入 x 和兩個候選輸出yi和yj聯(lián)合編碼為交叉注意力編碼器的輸入,以學(xué)習(xí)并確定哪個候選更好。

在推理階段,計算一個矩陣,該矩陣包含表示成對比較結(jié)果的logits。給定該矩陣,可以推斷給定輸入x的N個輸出的排序。隨后,可以使用來自PAIRRANKER的每個輸入的排名最高的候選者作為最終結(jié)果。

盡管如此,這種方法可能會限制產(chǎn)生比現(xiàn)有候選更好產(chǎn)出的潛力。為了研究這種可能性,從而引入了GENFUSER模塊來融合N個排名的候選輸出中的前K個,并為最終用戶生成改進(jìn)的輸出。

任務(wù)定義

給定輸入x和N個不同的語言模型{M1,., MN },可以通過使用每個模型處理x來生成N個候選輸出Y={y1,.,yN}。

研究目標(biāo)是開發(fā)一種集成學(xué)習(xí)方法,該方法為輸入x產(chǎn)生輸出y,然后計算x與y的最大化相似度Q。與使用固定模型或隨機(jī)選擇x的模型相比,這種方法將產(chǎn)生更好的總體性能。

MixInstruct:一個新的基準(zhǔn)

本文引入了一個新的數(shù)據(jù)集MixInstruct,用于在指令跟隨任務(wù)中對LLM的集成模型進(jìn)行基準(zhǔn)測試。主要從四個來源收集了一組大規(guī)模的指令示例,如下表所示。對數(shù)據(jù)集中的100k個樣本進(jìn)行訓(xùn)練,5k個用于驗證,5k個用于測試。然后,在這110k個示例上運(yùn)行N=11個流行的開源LLM,包括 Vicuna、OpenAssistant、Alpaca、MPT等如下圖所示。

dfd72ae2-0749-11ee-962d-dac502259ad0.png

dff241b0-0749-11ee-962d-dac502259ad0.png

為了獲得候選輸出的性能排名,為ChatGPT設(shè)計了comparative prompts來評估所有候選對。具體來說,對于每個示例,準(zhǔn)備了55對候選者(11×10/2)。對于每一對,要求ChatGPT基于輸入x和真值輸出y來判斷哪一個更好(或聲明平局)。

LLM-BLENDER: 一個新的框架

提出的一個用于集成LLM的框架LLM-BLENDER,如下圖所示。該框架由兩個主要組件組成:成對排序模塊PAIRRANKER和融合模塊GENFUSER。PAIRRANKER模塊學(xué)習(xí)比較每個輸入的所有候選對,然后對候選輸出進(jìn)行排名。選擇前K=3個排名的候選輸出,將它們與輸入x連接起來,并為GENFUSER模塊構(gòu)建輸入序列。GENFUSER模塊是一個seq2seq LM,由它生成為用戶服務(wù)的最終輸出。

e01e1f92-0749-11ee-962d-dac502259ad0.png

PAIRRANKER 架構(gòu)

Encoding:使用Transformer層對一個輸入和一對候選對象進(jìn)行編碼,通過注意力機(jī)制在輸入的上下文中捕獲候選輸出之間的差異。按順序連接這三個片段,并使用特殊標(biāo)記作為分隔符形成單個輸入序列:< source >、< candidate1 >和< candidate2 >。生成的transformer輸入序列的形式為“< s >< source > x < /s > < candidate1 > yi< /s > < candidate2 > yj < /s >”,其中x是源輸入的文本,yi和yj是兩個候選輸出的文本。特殊標(biāo)記< source >、< candidate1 >和< candidate2 >的嵌入分別用作x、yi和yj的表示。

Traning:為了確定兩個候選輸出的分?jǐn)?shù),將X的嵌入分別與yi和yj連接起來,并使它們傳遞給多層感知器,最終層的維度等于要優(yōu)化的Q函數(shù)的數(shù)量。該維度內(nèi)的每個值表示特定Q函數(shù)的score。通過對這些Q個分?jǐn)?shù)取平均值來導(dǎo)出候選輸出的最終分?jǐn)?shù)。并在訓(xùn)練階段應(yīng)用了有效的子采樣策略來確保學(xué)習(xí)效率。訓(xùn)練期間,從候選輸出中隨機(jī)選擇一些組合,而不是所有N(N?1)/2對。實踐發(fā)現(xiàn),每個輸入使用 5 對足以獲得不錯的結(jié)果。

考慮到語言模型的位置嵌入,一對(x,yi,yj)中候選輸出的順序很重要,因為(x,yi,yj)和(x,yj,yi)的比較結(jié)果可能不一致。因此,在訓(xùn)練過程中將每個訓(xùn)練對中候選輸出的順序打亂,以便模型學(xué)習(xí)與其自身一致

Inference:在推理階段,計算每一對候選輸出的分?jǐn)?shù)。在N(N?1)次迭代后,得到矩陣M如下圖所示,為了根據(jù) M 確定最佳候選者,通過引入了聚合函數(shù)來確定候選輸出的最終排名。

e044b03a-0749-11ee-962d-dac502259ad0.png

GENFUSER: 生成融合

PAIRRANKER的有效性受到從候選輸出中選擇的質(zhì)量的限制。假設(shè),通過合并多個排名靠前的候選輸出,能夠克服這種限制。由于這些得分較高的候選輸出往往表現(xiàn)出互補(bǔ)的優(yōu)勢和劣勢,因此在減輕其缺點的同時結(jié)合它們的優(yōu)勢來生成更好的響應(yīng)是合理的。研究目標(biāo)是設(shè)計一個生成模型,該模型采用輸入x和K個排名靠前的候選輸出,并產(chǎn)生改進(jìn)的輸出作為最終響應(yīng)。為了實現(xiàn)這一點,提出了GENFUSER,這是一種seq2seq方法,用于融合一組以輸入指令為條件的候選輸出,以生成增強(qiáng)的輸出。具體地,使用分隔符標(biāo)記順序連接輸入和K個候選,并微調(diào)類似T5的模型以學(xué)習(xí)生成y。

評估

使用MixInstruct數(shù)據(jù)集進(jìn)行評估,使用DeBERTa作為PAIRRANKER的主干,GENFUSER則是基于Flan-T5-XL ,實驗結(jié)果如下表所示。

e07055b4-0749-11ee-962d-dac502259ad0.png

主要結(jié)果

LLM具有不同的優(yōu)勢和劣勢

根據(jù)ChatGPT確定LLM的平均等級,按排序順序顯示LLM。在這些模型中,Open Assistant、Vicuna和Alpaca是表現(xiàn)最好的三項,繼它們之后為Baize、Moss和ChatGLM,也在MixInstruction上表現(xiàn)出色。相反,Mosaic MPT、StableLM和Flan-T5在評估中排名倒數(shù)第三。盡管如此,top/bottom模型的平均GPT排名與first/last位置保持著明顯的距差距,這突出了組合LLM的重要性。

頂級LLM并不總是最好的

盡管OA和Vic表現(xiàn)得非常好,但仍有很大一部分示例顯示其他LLM優(yōu)于它們。例如,Koala的平均GPT-Rank為6.76,但大約40%的示例表明Koala產(chǎn)生了更好或同樣優(yōu)于OA和Vic的結(jié)果。這進(jìn)一步強(qiáng)調(diào)了使用LLM-BLENDER框架進(jìn)行排名和融合的重要性。

NLG Metrics

根據(jù)每個Metrics本身對oracle選擇的性能進(jìn)行了全面分析。研究結(jié)果表明,這些選擇在其他指標(biāo)上也表現(xiàn)出良好的性能。這一觀察結(jié)果證實了使用BARTScore為PAIRRANKER提供監(jiān)督的合理性。

PAIRRANKE的表現(xiàn)優(yōu)于其他排名工具

MLM-Scoring無法勝出random selection,突出了其無監(jiān)督范式的局限性。相反,與BARTScore和GPT-Rank的最佳模型(OA)相比,SimCLS、SummaReranker和PAIRRANKER表現(xiàn)出更好的性能。值得注意的是,PAIRRANKER選擇的響應(yīng)的平均GPT排名顯著優(yōu)于最佳模型,以及所有其他排名。

LLM-BLENDER 是最好的

使用從PAIRRANKER中選出的前三名,并將其作為GENFUSER的候選。在此的基礎(chǔ)上,LLM-BLENDER展示了預(yù)期的卓越性能。

排名相關(guān)性

除了只關(guān)注每個排名的top-1之外,還對所有具有GPT排名的候選之間的總體排名相關(guān)性進(jìn)行了全面分析。事實證明,BARTScore與GPT排名的相關(guān)性最高,這表明使用BARTScore提供監(jiān)督為訓(xùn)練。對于排序器來說,MLM得分仍然無法超過random permutations。

更多分析

將PAIRRANKER應(yīng)用于三個典型的自然語言生成(NLG)任務(wù):摘要、機(jī)器翻譯和約束文本生成。發(fā)現(xiàn)PAIRRANKER在使用單個相同的基礎(chǔ)模型解碼N個候選者(使用不同的算法)的上下文中仍然大大優(yōu)于其他方法。

總結(jié)

本文引入了LLM-BLENDER,這是一個創(chuàng)新的集成框架,通過利用多個開源LLM的不同優(yōu)勢來獲得持續(xù)卓越的性能。LLM-BLENDER通過排名的方式來減少單個LLM的弱點,并通過融合生成來整合優(yōu)勢,以提高LLM的能力。

總之,這是一篇非常有趣的文章,想了解更深入的話,還是看下原論文吧~

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 框架
    +關(guān)注

    關(guān)注

    0

    文章

    403

    瀏覽量

    17485
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3243

    瀏覽量

    48840
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    524

    瀏覽量

    10277
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    0

    文章

    288

    瀏覽量

    335

原文標(biāo)題:博采眾長!我全都要!Allen AI推出集成主流大語言模型的LLM-BLENDER框架

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    NVIDIA 推出大型語言模型云服務(wù)以推進(jìn) AI 和數(shù)字生物學(xué)的發(fā)展

    — GTC — 太平洋時間2022 年 9 月 20 日 — NVIDIA 于今日發(fā)布兩項全新大型語言模型LLM)云 AI 服務(wù)——NVIDIA NeMo 大型
    發(fā)表于 09-21 15:24 ?553次閱讀
    NVIDIA <b class='flag-5'>推出</b>大型<b class='flag-5'>語言</b><b class='flag-5'>模型</b>云服務(wù)以推進(jìn) <b class='flag-5'>AI</b> 和數(shù)字生物學(xué)的發(fā)展

    LLM之外的性價比之選,小語言模型

    。然而在一些對實時性要求較高的應(yīng)用中,比如AI客服、實時數(shù)據(jù)分析等,大語言模型并沒有太大的優(yōu)勢。 ? 在動輒萬億參數(shù)的LLM下,硬件需求已經(jīng)遭受了不小的挑戰(zhàn)。所以面對一些相對簡單的任務(wù)
    的頭像 發(fā)表于 06-03 05:15 ?2237次閱讀
    <b class='flag-5'>LLM</b>之外的性價比之選,小<b class='flag-5'>語言</b><b class='flag-5'>模型</b>

    NVIDIA AI平臺為大型語言模型帶來巨大收益

    隨著大型語言模型LLM )的規(guī)模和復(fù)雜性不斷增長, NVIDIA 今天宣布更新 NeMo Megatron 框架,提供高達(dá) 30% 的訓(xùn)練速度。
    的頭像 發(fā)表于 10-10 15:39 ?895次閱讀
    NVIDIA <b class='flag-5'>AI</b>平臺為大型<b class='flag-5'>語言</b><b class='flag-5'>模型</b>帶來巨大收益

    基于Transformer的大型語言模型LLM)的內(nèi)部機(jī)制

    本文旨在更好地理解基于 Transformer 的大型語言模型LLM)的內(nèi)部機(jī)制,以提高它們的可靠性和可解釋性。 隨著大型語言模型
    的頭像 發(fā)表于 06-25 15:08 ?1480次閱讀
    基于Transformer的大型<b class='flag-5'>語言</b><b class='flag-5'>模型</b>(<b class='flag-5'>LLM</b>)的內(nèi)部機(jī)制

    現(xiàn)已公開發(fā)布!歡迎使用 NVIDIA TensorRT-LLM 優(yōu)化大語言模型推理

    能。該開源程序庫現(xiàn)已作為 NVIDIA NeMo 框架的一部分,在 /NVIDIA/TensorRT-LLM GitHub 資源庫中免費(fèi)提供。 大語言模型徹底改變了人工智能領(lǐng)域,并創(chuàng)造
    的頭像 發(fā)表于 10-27 20:05 ?978次閱讀
    現(xiàn)已公開發(fā)布!歡迎使用 NVIDIA TensorRT-<b class='flag-5'>LLM</b> 優(yōu)化大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>推理

    Snowflake推出面向企業(yè)AI的大語言模型

    Snowflake公司近日推出了企業(yè)級AI模型——Snowflake Arctic,這是一款大型語言模型
    的頭像 發(fā)表于 05-07 10:03 ?473次閱讀

    語言模型(LLM)快速理解

    自2022年,ChatGPT發(fā)布之后,大語言模型(LargeLanguageModel),簡稱LLM掀起了一波狂潮。作為學(xué)習(xí)理解LLM的開始,先來整體理解一下大
    的頭像 發(fā)表于 06-04 08:27 ?983次閱讀
    大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>(<b class='flag-5'>LLM</b>)快速理解

    LLM模型的應(yīng)用領(lǐng)域

    在本文中,我們將深入探討LLM(Large Language Model,大型語言模型)的應(yīng)用領(lǐng)域。LLM是一種基于深度學(xué)習(xí)的人工智能技術(shù),它能夠理解和生成自然
    的頭像 發(fā)表于 07-09 09:52 ?592次閱讀

    llm模型和chatGPT的區(qū)別

    LLM(Large Language Model)是指大型語言模型,它們是一類使用深度學(xué)習(xí)技術(shù)構(gòu)建的自然語言處理(NLP)模型。
    的頭像 發(fā)表于 07-09 09:55 ?1074次閱讀

    llm模型有哪些格式

    LLM(Large Language Model,大型語言模型)是一種深度學(xué)習(xí)模型,主要用于處理自然語言處理(NLP)任務(wù)。
    的頭像 發(fā)表于 07-09 09:59 ?623次閱讀

    AI模型AI框架的關(guān)系

    多個領(lǐng)域取得顯著成果。而AI框架則是為開發(fā)和訓(xùn)練AI模型提供的一套標(biāo)準(zhǔn)接口、特性庫和工具包,它集成了算法的封裝、數(shù)據(jù)的調(diào)用以及計算資源的使用
    的頭像 發(fā)表于 07-15 11:42 ?1091次閱讀

    LLM模型推理加速的關(guān)鍵技術(shù)

    LLM(大型語言模型)大模型推理加速是當(dāng)前人工智能領(lǐng)域的一個研究熱點,旨在提高模型在處理復(fù)雜任務(wù)時的效率和響應(yīng)速度。以下是對
    的頭像 發(fā)表于 07-24 11:38 ?894次閱讀

    新品|LLM Module,離線大語言模型模塊

    。NewModuleLLMLLMModule是一款集成化的離線大語言模型LLM)推理模塊,無需云端,即可提供流暢自然的AI體驗。產(chǎn)品搭載愛
    的頭像 發(fā)表于 11-02 08:08 ?359次閱讀
    新品|<b class='flag-5'>LLM</b> Module,離線大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>模塊

    什么是LLM?LLM在自然語言處理中的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,自然語言處理(NLP)領(lǐng)域迎來了革命性的進(jìn)步。其中,大型語言模型LLM)的出現(xiàn),標(biāo)志著我們對語言理解能力的一次
    的頭像 發(fā)表于 11-19 15:32 ?579次閱讀

    語言模型開發(fā)框架是什么

    語言模型開發(fā)框架是指用于訓(xùn)練、推理和部署大型語言模型的軟件工具和庫。下面,AI部落小編為您介紹
    的頭像 發(fā)表于 12-06 10:28 ?125次閱讀