0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

In-Context-Learning在更大的語言模型上表現(xiàn)不同

深度學(xué)習(xí)自然語言處理 ? 來源:機(jī)器翻譯學(xué)堂 ? 2023-06-12 14:35 ? 次閱讀

最近,在語言模型領(lǐng)域取得了巨大的進(jìn)展,部分是因?yàn)樗鼈兛梢酝ㄟ^In-Context- Learning ( ICL)來完 成各種復(fù)雜的任務(wù)。在ICL中,模型在執(zhí)行未見過的用例之前,會首先接收一些輸入-標(biāo)簽對的示例。一 般來說,ICL對模型的增強(qiáng),有以下原因:

按照上下文示例的格式,利用預(yù)訓(xùn)練階段得到的語義先驗(yàn)知識來預(yù)測標(biāo)簽(例如,當(dāng)看到帶有“正面情感”和“負(fù)面情感”標(biāo)簽的電影評論示例,使用先驗(yàn)知識來做情感分析)。

從給的上下文示例中學(xué)習(xí)輸入-標(biāo)簽的映射(例如,正面評論應(yīng)該映射到一個標(biāo)簽,負(fù)面評論應(yīng)該映射到另一個標(biāo)簽的模式)。

在本文中,我們旨在了解這兩個因素(語義先驗(yàn)知識和輸入-標(biāo)簽映射)在ICL的影響,尤其是當(dāng)語言模 型的規(guī)模發(fā)生變化時。我們通過2種實(shí)驗(yàn)方法來對這兩個因素進(jìn)行研究,實(shí)驗(yàn)方法分別為:翻轉(zhuǎn)標(biāo)簽的 ICL (flipped-label ICL)和語義無關(guān)標(biāo)簽的ICL ( SUL- ICL)。

在翻轉(zhuǎn)標(biāo)簽的ICL中,上下文示例的標(biāo)簽的語義被翻轉(zhuǎn)(例如原先的標(biāo)簽為“Negative”,被反轉(zhuǎn)為 “Positive”),使得語義先驗(yàn)知識和輸入-標(biāo)簽映射不匹配。

ps:可以理解為,語義先驗(yàn)知識中與該上下文示例相似的標(biāo)簽都是“Negative”的,但是此處通過“翻轉(zhuǎn)標(biāo)簽”方法,變?yōu)椤癙ositive”后,先驗(yàn)知識與當(dāng)前的上下文示例的輸入-標(biāo)簽映射產(chǎn)生了不匹配。

在SUL- ICL中,上下文示例的標(biāo)簽被替換為與上下文中所呈現(xiàn)的任務(wù)在語義上無關(guān)的詞語(例如,原 先的標(biāo)簽“Positive”,被替換為"Foo")。

ps:例如,原先的標(biāo)簽為影評領(lǐng)域的,現(xiàn)在替換為美食或者其他領(lǐng)域的詞

我們發(fā)現(xiàn),覆蓋先驗(yàn)知識是隨著模型規(guī)模的增大而涌現(xiàn)的一種能力(ps:覆蓋先驗(yàn)知識可以理解為,從上 下文示例中學(xué)習(xí),而不是預(yù)訓(xùn)練階段的先驗(yàn)知識),從語義無關(guān)標(biāo)簽的上下文中學(xué)習(xí)的能力也是如此。我們還發(fā)現(xiàn),指令微調(diào)(Instruct-tuning)對學(xué)習(xí)先驗(yàn)知識能力的加強(qiáng)上要超過對學(xué)習(xí)輸入-標(biāo)簽映射的 增強(qiáng)。(下圖為普通ICL,翻轉(zhuǎn)標(biāo)簽ICL和語義無關(guān)ICL的示例)

wKgaomSGvN6AMWlZAAE8xuVcMYQ976.jpg

實(shí)驗(yàn)設(shè)計(jì)

我們在七個廣泛使用的自然語言處理(NLP)任務(wù)上進(jìn)行了實(shí)驗(yàn):情感分析、主/客觀分類、問題分類、 重復(fù)問題識別、蘊(yùn)含關(guān)系識別、金融情感分析和仇恨言論檢測。我們在5種LLM上進(jìn)行測試:PaLM、Flan- PaLM、GPT-InstructGPT和Codex。

翻轉(zhuǎn)標(biāo)簽(Flipped Labels-ICL)

在這個實(shí)驗(yàn)中,上下文示例的標(biāo)簽被翻轉(zhuǎn),意味著先驗(yàn)知識和輸入-標(biāo)簽映射不一致(例如,包含正面情 感的句子被標(biāo)記為“Negative”),從而讓我們可以研究模型是否能夠覆蓋其先驗(yàn)知識。在這種情況下, 具備覆蓋先驗(yàn)知識能力的模型的性能應(yīng)該會下降(因?yàn)檎鎸?shí)的評估標(biāo)簽沒有被翻轉(zhuǎn))。(下圖為使用翻 轉(zhuǎn)標(biāo)簽ICL后,不同語言模型的不同尺寸的在測試集上的準(zhǔn)確率變化)

wKgZomSGvO-AQoBpAADCMu1yPK4646.jpg

我們發(fā)現(xiàn),當(dāng)沒有標(biāo)簽被翻轉(zhuǎn)時,大型模型的性能優(yōu)于小型模型(如預(yù)期所示)。但是,當(dāng)我們翻轉(zhuǎn)越來越多的標(biāo)簽時,小型模型的性能保持相對穩(wěn)定,而大型模型的性能下降得非常明顯,甚至低于隨機(jī)猜 測的水平(例如,對于code-davinci-002模型,性能從90%下降到22.5%)。

這些結(jié)果表明,當(dāng)上下文中出現(xiàn)與先驗(yàn)知識不一致的輸入-標(biāo)簽映射時,大型模型可以覆蓋預(yù)訓(xùn)練的先驗(yàn) 知識,而小型模型則無法做到。

?作者說:此處,我理解為,更大的語言模型在覆蓋先驗(yàn)知識的能力上更強(qiáng),也就是更容易從給的上下文示例中學(xué)習(xí)到新的知識,如果給的上下文示例中存在與先驗(yàn)知識沖突的情況,則模型會更加偏重上下文示例。

語義無關(guān)標(biāo)簽(SUL-ICL)

在這個實(shí)驗(yàn)中,我們將標(biāo)簽替換為語義不相關(guān)的標(biāo)簽(例如,在情感分析中,我們使用“foo/bar”代替 “negative/positive”),這意味著模型只能通過學(xué)習(xí)輸入-標(biāo)簽映射來執(zhí)行ICL。如果模型在ICL中主要依 賴于先驗(yàn)知識,那么在進(jìn)行這種更改后,其性能應(yīng)該會下降,因?yàn)樗鼘o法再利用標(biāo)簽的語義含義進(jìn)行 預(yù)測。而如果模型能夠在上下文中學(xué)習(xí)輸入-標(biāo)簽映射,它就能夠?qū)W習(xí)這些語義無關(guān)的映射,并且不應(yīng)該 出現(xiàn)主要性能下降。

(下圖為使用語義無關(guān)標(biāo)簽ICL后,不同語言模型的不同尺寸的在測試集上的準(zhǔn)確率變化)

wKgZomSGvP6ARzwhAACviOyRZZI230.jpg

事實(shí)上,我們發(fā)現(xiàn)對于小型模型來說,使用語義無關(guān)標(biāo)簽導(dǎo)致了更大的性能下降。這表明,小型模型主要依賴于它們的語義先驗(yàn)知識進(jìn)行ICL,而不是從給的的輸入-標(biāo)簽映射示例中學(xué)習(xí)。另一方面,當(dāng)這些標(biāo)簽標(biāo)簽不再具備其原來所有的語義時,大型模型的學(xué)習(xí)上下文中的輸入-標(biāo)簽映射的能力更強(qiáng)。

我們還發(fā)現(xiàn),模型輸入更多的上下文示例對于大型模型的性能的提升要強(qiáng)于小模型,這表明大型模型比 小型模型更擅長從上下文示例中學(xué)習(xí)。

(下圖為使用不同數(shù)量的語義無關(guān)標(biāo)簽ICL后,不同語言模型的不同尺寸的在測試集上的準(zhǔn)確率變化)

wKgaomSGvQyABsu6AACtcOu_hfE481.jpg

指令微調(diào)(Instruction tuning)

指令微調(diào)是一種提高模型性能的常用技術(shù),它將各種自然語言處理(NLP)任務(wù)調(diào)整為指令的形式輸入 給模型(例如,“問題:以下句子的情感是什么?答案:積極的“)。然而,由于該過程使用自然語言標(biāo)簽,一個懸而未決的問題是,它是否提高了學(xué)習(xí)輸入-標(biāo)簽映射的能力,亦或是增強(qiáng)了學(xué)習(xí)并應(yīng)用語義先驗(yàn)知識的能力。這兩者都會給ICL任務(wù)帶來性能提升,因此目前尚不清楚這兩者中哪一個生效了。

我們通過前兩個實(shí)驗(yàn)方法繼續(xù)研究這個問題,但這一次我們專注于比較標(biāo)準(zhǔn)語言模型(PaLM)與經(jīng)過指令微調(diào)的模型(Flan- PaLM)之間的差異。

首先,我們發(fā)現(xiàn)在使用語義無關(guān)標(biāo)簽時, Flan- PaLM要優(yōu)于PaLM。在小型模型中,這種效果非常明顯, Flan- PaLM-8B的性能超過PaLM-8B約9.6%,并且接近PaLM-62B的性能。這一趨勢表明,指令微調(diào)增強(qiáng)了學(xué)習(xí)輸入-標(biāo)簽映射的能力。

(下圖表明:指令微調(diào)后的模型更容易學(xué)習(xí)輸入-標(biāo)簽映射)

wKgZomSGvR6AMFQ_AACRdATvFiU433.jpg

更有趣的是,我們發(fā)現(xiàn)Flan- PaLM在遵循翻轉(zhuǎn)標(biāo)簽方面實(shí)際上比PaLM要差,這意味著經(jīng)過指令調(diào)整的模型無法覆蓋其先驗(yàn)知識(Flan- PaLM模型在100%翻轉(zhuǎn)標(biāo)簽的情況下無法達(dá)到低于隨機(jī)猜測 的水平,而沒有經(jīng)過指令調(diào)整的PaLM模型在相同設(shè)置下可以達(dá)到31%的準(zhǔn)確率)。這些結(jié)果表明,指令調(diào)整必須增加模型在有語義先驗(yàn)知識可用時依賴于語義先驗(yàn)知識的程度。

(下圖表示:指令微調(diào)后的模型,在使用翻轉(zhuǎn)標(biāo)簽ICL時,更不容易覆蓋先驗(yàn)知識)

wKgZomSGvSyAeu9yAABrlAO52H0196.jpg

結(jié)合之前的結(jié)果,我們得出結(jié)論,雖然指令微調(diào)提高了學(xué)習(xí)輸入-標(biāo)簽映射的能力,但它在學(xué)習(xí)語義先驗(yàn) 知識上的加強(qiáng)更為突出。

結(jié)論

通過上述實(shí)驗(yàn),可以得到以下的結(jié)論:

首先,大語言模型可以在輸入足夠多的翻轉(zhuǎn)標(biāo)簽的情況下學(xué)會對先驗(yàn)知識的覆蓋,并且這種能力隨 著模型規(guī)模的增大而加強(qiáng)。

其次,使用語義無關(guān)標(biāo)簽進(jìn)行上下文學(xué)習(xí)的能力隨著模型規(guī)模的增大而加強(qiáng)。

最后,通過對指令微調(diào)后的語言模型的研究,發(fā)現(xiàn)指令微調(diào)雖然可以提高學(xué)習(xí)輸入-標(biāo)簽映射的能 力,但遠(yuǎn)不如其對學(xué)習(xí)語義先驗(yàn)知識的加強(qiáng)。

未來工作

這些結(jié)果強(qiáng)調(diào)了語言模型的ICL行為在模型規(guī)模方面可能發(fā)生變化,而更大的語言模型具有將輸入映射到更多種類型標(biāo)簽的能力,這可能使得模型可以學(xué)習(xí)任意符號的輸入-標(biāo)簽映射。未來的研究可以幫助我們更好地理解這種現(xiàn)象。




審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • Palm
    +關(guān)注

    關(guān)注

    0

    文章

    22

    瀏覽量

    11283
  • icl
    icl
    +關(guān)注

    關(guān)注

    0

    文章

    28

    瀏覽量

    17234
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    488

    瀏覽量

    22038

原文標(biāo)題:In-Context-Learning在更大的語言模型上表現(xiàn)不同

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    大型語言模型的邏輯推理能力探究

    最新研究揭示,盡管大語言模型LLMs語言理解上表現(xiàn)出色,但在邏輯推理方面仍有待提高。為此,研究者們推出了GLoRE,一個全新的邏輯推理評估
    的頭像 發(fā)表于 11-23 15:05 ?1000次閱讀
    大型<b class='flag-5'>語言</b><b class='flag-5'>模型</b>的邏輯推理能力探究

    【大語言模型:原理與工程實(shí)踐】揭開大語言模型的面紗

    超出預(yù)期的能力和表現(xiàn)。這種能力主要體現(xiàn)在學(xué)習(xí)能力提升、語言理解和生成能力,以及創(chuàng)新和探索等方面。大語言模型擁有更大的參數(shù)空間和表征能力,能學(xué)
    發(fā)表于 05-04 23:55

    【大語言模型:原理與工程實(shí)踐】大語言模型的基礎(chǔ)技術(shù)

    的,與上下文語境無關(guān),因此不適用于一詞多義的情況。例如,“蘋果”“我去吃個蘋果”與“這個蘋果手機(jī)好用嗎”這兩個句子中的語義明顯不同,但靜態(tài)詞向量語言模型僅利用同一個向量表示詞的語義,難以刻畫同一個詞
    發(fā)表于 05-05 12:17

    【大語言模型:原理與工程實(shí)踐】大語言模型的評測

    任務(wù)、評測集構(gòu)建標(biāo)準(zhǔn)和評測方式三個部分。特別地,為了關(guān)注大語言模型中文場景的優(yōu)化和應(yīng)用,該框架特別注重中文特有語境下的能力考察。其貢獻(xiàn)在于不僅能更準(zhǔn)確地反映模型
    發(fā)表于 05-07 17:12

    【大語言模型:原理與工程實(shí)踐】大語言模型的應(yīng)用

    類任務(wù)上表現(xiàn)出色,甚至零樣本條件下也能取得良好效果。另一類則需要逐步推理才能完成的任務(wù),類似于人類的系統(tǒng)2,如數(shù)字推理等。然而,隨著參數(shù)量的增加,大語言模型在這類任務(wù)上并未出現(xiàn)質(zhì)的飛
    發(fā)表于 05-07 17:21

    語言模型:原理與工程時間+小白初識大語言模型

    解鎖 我理解的是基于深度學(xué)習(xí),需要訓(xùn)練各種數(shù)據(jù)知識最后生成自己的的語言理解和能力的交互模型。 對于常說的RNN是處理短序列的數(shù)據(jù)時表現(xiàn)出色,耳真正厲害的是Transformer,此框架被推出后直接
    發(fā)表于 05-12 23:57

    HarmonyOS/OpenHarmony應(yīng)用開發(fā)-Stage模型ArkTS語言AbilityStage

    進(jìn)行初始化時回調(diào)。context接口示例:*附件:HarmonyOSOpenHarmony應(yīng)用開發(fā)-stage模型ArkTS語言AbilityStage.docx
    發(fā)表于 04-07 15:16

    微軟視覺語言模型有顯著超越人類的表現(xiàn)

    最近開發(fā)了一種新的圖像編碼對象屬性檢測模型,稱為VinVL(Visual features in Vision-Language),有著顯著超越人類的表現(xiàn)。
    的頭像 發(fā)表于 01-19 14:32 ?1672次閱讀

    應(yīng)用于任意預(yù)訓(xùn)練模型的prompt learning模型—LM-BFF

    /2107.13586.pdf 相關(guān)資源:http://pretrain.nlpedia.ai Part1什么是Prompt Learning 從BERT誕生開始,使用下游任務(wù)數(shù)據(jù)微調(diào)預(yù)訓(xùn)練語言模型 (LM)已成為
    的頭像 發(fā)表于 08-16 11:21 ?4627次閱讀
    應(yīng)用于任意預(yù)訓(xùn)練<b class='flag-5'>模型</b>的prompt <b class='flag-5'>learning</b><b class='flag-5'>模型</b>—LM-BFF

    一文解析In-Context Learning

    本文主要以實(shí)驗(yàn)為主,探究以上影響 ICL 的因素。 實(shí)驗(yàn)設(shè)置 作者采用 12 個模型進(jìn)行了實(shí)驗(yàn)。我們包括 6 種語言模型(表 1),所有這些模型都是僅限解碼器的 dense L
    發(fā)表于 03-22 15:21 ?3638次閱讀

    In-context learning如何工作?斯坦福學(xué)者用貝葉斯方法解開其奧秘

    In-context learning允許用戶為新用例快速構(gòu)建模型,而無需為每個任務(wù)微調(diào)和存儲新參數(shù)。它通常只需要很少的訓(xùn)練示例就可以使模型正常工作,而且即使對于非專家來說,也可以通過
    的頭像 發(fā)表于 04-11 14:07 ?1467次閱讀

    In-context learning介紹

    隨著大規(guī)模預(yù)訓(xùn)練語言模型(LLM)能力的不斷提升,in-context learning(ICL)逐漸成為自然語言處理領(lǐng)域一個新的范式。
    的頭像 發(fā)表于 04-21 10:02 ?1642次閱讀

    模型LLM領(lǐng)域,有哪些可以作為學(xué)術(shù)研究方向?

    隨著全球大煉模型不斷積累的豐富經(jīng)驗(yàn)數(shù)據(jù),人們發(fā)現(xiàn)大模型呈現(xiàn)出很多與以往統(tǒng)計(jì)學(xué)習(xí)模型、深度學(xué)習(xí)模型、甚至預(yù)訓(xùn)練小模型不同的特性,耳熟能詳?shù)娜鏔
    的頭像 發(fā)表于 05-29 14:36 ?1139次閱讀
    大<b class='flag-5'>模型</b>LLM領(lǐng)域,有哪些可以作為學(xué)術(shù)研究方向?

    首篇!Point-In-Context:探索用于3D點(diǎn)云理解的上下文學(xué)習(xí)

    隨著基于廣泛數(shù)據(jù)訓(xùn)練的大模型興起,上下文學(xué)習(xí)(In-Context Learning)已成為一種新的學(xué)習(xí)范式,自然語言處理(NLP)和計(jì)算
    的頭像 發(fā)表于 07-13 14:41 ?776次閱讀
    首篇!Point-In-<b class='flag-5'>Context</b>:探索用于3D點(diǎn)云理解的上下文學(xué)習(xí)

    鴻蒙開發(fā)組件:FA模型Context

    FA模型下只有一個ContextContext中的所有功能都是通過方法來提供的,它提供了一些featureAbility中不存在的方法,相當(dāng)于featureAbility的一個擴(kuò)展和補(bǔ)全。
    的頭像 發(fā)表于 06-21 09:43 ?301次閱讀
    鴻蒙開發(fā)組件:FA<b class='flag-5'>模型</b>的<b class='flag-5'>Context</b>