0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何對(duì)挑選出的demonstration示例進(jìn)行排序

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:深度學(xué)習(xí)自然語(yǔ)言處理 ? 2023-05-23 14:51 ? 次閱讀

1 簡(jiǎn)介?????????

在demonstration selection的方法中,其中有部分方法也考慮到demonstration內(nèi)部示例之間的順序,雖然有的論文里提及他們的ICL方法對(duì)于demonstration內(nèi)部示例順序不敏感,但這些實(shí)驗(yàn)中考慮到的排列順序還是不夠全面,從而導(dǎo)致某些結(jié)論比較片面。毋庸置疑,如何對(duì)挑選出的demonstration示例進(jìn)行排序是demonstration organization的重要部分。對(duì)于同樣樣本組成的demonstration,好的樣本順序可以讓LLM有接近于SOTA的性能,而糟糕的樣本順序會(huì)讓LLM的表現(xiàn)接近于隨機(jī)猜測(cè)。就跟打牌一樣,再好的手牌,不合理安排規(guī)劃出牌順序,很容易就會(huì)一敗涂地。

2 Demonstration ordering

為了更好的研究demonstration樣本排列的影響,需要考慮在不同模型規(guī)模,樣本數(shù)量以及不同模型上的表現(xiàn)。研究發(fā)現(xiàn),隨著模型規(guī)模的增加,demonstration不同樣本排列的效果的方差有所縮小,但是依舊差距明顯,即demonstration好的排列跟壞的排列之間的效果距離很大(見(jiàn)Subj數(shù)據(jù)集)。增加樣本數(shù)量,依舊不能顯著降低這其中的方差。另外,在A模型上表現(xiàn)良好的demonstration排列,在其他的模型效果往往不能得到保證,也就是好的demonstration排列并不能遷移到更多模型中去。

bbc32e6c-f885-11ed-90ce-dac502259ad0.png

圖1:不同模型尺寸下demonstration ordering的影響

bbc859d2-f885-11ed-90ce-dac502259ad0.png

圖2: demonstration ordering在不同模型見(jiàn)的遷移能力

關(guān)于demonstration的排列,最簡(jiǎn)單的方式就是按照跟當(dāng)前問(wèn)題x的關(guān)系來(lái)排序。由于in-context learning中模型的輸入都是demonstration+x(當(dāng)前問(wèn)題),在demonstration中越靠后的示例距離當(dāng)前的問(wèn)題x的距離就越近,于是可以通過(guò)示例跟當(dāng)前問(wèn)題x的相似程度來(lái)對(duì)示例進(jìn)行排序,跟當(dāng)前問(wèn)題x越相似的示例就放在demonstration越靠后的位置。

目前確實(shí)存在若干種demonstration ordering的方法,但是最大的問(wèn)題是在缺乏監(jiān)督驗(yàn)證集的情況下自動(dòng)選擇更優(yōu)的demonstration排列。于是就有研究提出自動(dòng)構(gòu)建探測(cè)集(probing set),具體流程如下 a)給定一個(gè)訓(xùn)練集S={xi, yi},i=1…n,利用一個(gè)模版轉(zhuǎn)換函數(shù)(將樣本數(shù)據(jù)轉(zhuǎn)換成某種自然語(yǔ)言)獲得一個(gè)自然語(yǔ)言數(shù)據(jù)集S’={ti}, ti=input:xi,type:yi。 b)定義n個(gè)訓(xùn)練樣本的所有排列函數(shù)(也就是demonstration的所有排列),F(xiàn)={fm},cm=fm(S’),m=1,…,n!。每個(gè)cm都是n個(gè)t組成的一種排列。 c)對(duì)于每一個(gè)候選排列cm,利用語(yǔ)言模型生成后續(xù)的序列,生成新的樣本,對(duì)生成結(jié)果解析后得到模型生成測(cè)試集D。

bbcf413e-f885-11ed-90ce-dac502259ad0.png

圖3: probing set構(gòu)造流程

有了模型生成數(shù)據(jù)集后,研究者就提出了兩種用于選擇最佳demonstration排列的方法Global entropy(GlobalE)以及Local entropy(LocalE)。對(duì)于每個(gè)demonstration排列cm,在給定demonstration排列cm跟當(dāng)前問(wèn)題x的條件下,會(huì)預(yù)測(cè)所有標(biāo)簽y的概率,將概率最大的標(biāo)簽作為當(dāng)前問(wèn)題x的預(yù)測(cè)結(jié)果,從而計(jì)算整個(gè)探測(cè)集中所有預(yù)測(cè)標(biāo)簽分布的交叉熵作為排列cm的GlobalE得分。而LocalE得分則是計(jì)算每個(gè)探測(cè)集數(shù)據(jù)的預(yù)測(cè)交叉熵的平均值。簡(jiǎn)單的理解就是,如果在探測(cè)集上預(yù)測(cè)的標(biāo)簽分布相對(duì)平衡,那么對(duì)應(yīng)的得分就比較高,作者就認(rèn)為是比較好的demonstration排列。

通過(guò)這兩種方式選擇的demonstration排列,效果上得到明顯提升,并且這種方法還是比較魯棒的,加入更多不好的demonstration排列只會(huì)讓效果越來(lái)越差。

bbd709d2-f885-11ed-90ce-dac502259ad0.png

圖4: 不同demonstration策略的效果對(duì)比

bbddef22-f885-11ed-90ce-dac502259ad0.png

圖5:基于demonstration ordering選擇的demonstration排列的的平均效果

3 總結(jié)????????

Demonstration ordering目前看來(lái)還是一個(gè)值得進(jìn)一步研究的問(wèn)題,即便模型規(guī)模達(dá)到一定程度,依舊對(duì)此敏感。考慮到demonstration排列的數(shù)量跟訓(xùn)練樣本庫(kù)之間是一個(gè)指數(shù)關(guān)系,而目前看到絕大多數(shù)Demonstration ordering都是針對(duì)每個(gè)排列進(jìn)行的,即便可以自動(dòng)構(gòu)建探測(cè)集,計(jì)算成本還是比較高的,很難考慮所有demonstration排列,目前除了根據(jù)與當(dāng)前問(wèn)題的相似度進(jìn)行排序以及上一篇文章提到的馬爾可夫決策過(guò)程可以處理,其他的方法都只停留在理論層面,很難在實(shí)際中大范圍使用。

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3500

    瀏覽量

    50104
  • icl
    icl
    +關(guān)注

    關(guān)注

    0

    文章

    28

    瀏覽量

    17379
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1223

    瀏覽量

    25313

原文標(biāo)題:In-context系列之demonstration ordering

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 0人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    求大神幫忙,感激不盡

    如何把TXT格式的數(shù)據(jù)錄入LabVIEW中,并將某一列挑選出來(lái)用于循環(huán)計(jì)算,感激不盡
    發(fā)表于 05-09 12:47

    復(fù)合材料敲擊檢測(cè)儀數(shù)據(jù)分析與處理系統(tǒng)

    敲擊探頭敲擊材料,信號(hào)通過(guò)信號(hào)采集卡輸入經(jīng)過(guò)觸發(fā)與門(mén)限,記錄各點(diǎn)的時(shí)間并挑選出有損傷的點(diǎn)(損傷處波形寬度會(huì)變化),求教各位大神怎么挑選和記錄[img=110,0][/img]
    發(fā)表于 05-21 15:36

    數(shù)據(jù)的比較和處理怎么完成

    敲擊探頭敲擊材料,信號(hào)通過(guò)信號(hào)采集卡輸入經(jīng)過(guò)觸發(fā)與門(mén)限,記錄各點(diǎn)的時(shí)間并挑選出有損傷的點(diǎn)(損傷處波形寬度會(huì)變化),求教各位大神怎么挑選和記錄
    發(fā)表于 05-21 15:50

    3C認(rèn)證檢測(cè)中EMC問(wèn)題實(shí)例分析(129頁(yè)P(yáng)PT精品)

    3C認(rèn)證檢測(cè)中EMC問(wèn)題實(shí)例分析(129頁(yè)P(yáng)PT)PPT中案例均為挑選出來(lái)的典型類(lèi)。?;貜?fù)后下載。[hide][/hide]
    發(fā)表于 08-24 11:46

    怎樣在采集到的音頻信號(hào)生成的波形圖中挑選出幅值最大的五條??

    本帖最后由 zj121212 于 2015-12-15 16:57 編輯 如標(biāo)題,怎樣在采集到的音頻信號(hào)生成的波形圖中挑選出幅值最大的五條并要求寫(xiě)入文本,文本中包括這五條的幅值和對(duì)應(yīng)頻率??謝謝啦
    發(fā)表于 12-13 15:01

    復(fù)習(xí)c/c++之排序算法

    最小的排在前面3. 依次挑選出剩下的數(shù)據(jù)中最小,進(jìn)行排序 在VS 2013中編寫(xiě)調(diào)試的程序程序代碼如下:#include #include #include #include using
    發(fā)表于 10-12 09:06

    CAD如何繪制房間排序

    `我們?cè)谑褂肅AD制圖軟件繪制圖形的時(shí)候,對(duì)于浩辰CAD建筑軟件來(lái)說(shuō)可以直接對(duì)房間進(jìn)行排序,今天的CAD教程,小編就來(lái)給CAD制圖初學(xué)入門(mén)者介紹一下關(guān)于浩辰建筑CAD如何繪制房間排序?建筑設(shè)計(jì)→房間
    發(fā)表于 02-26 17:48

    如何挑選出好的場(chǎng)效應(yīng)晶體管?

    如何挑選出好的場(chǎng)效應(yīng)晶體管?晶體三極管選用技巧有哪些?
    發(fā)表于 06-18 06:50

    STM32F429的時(shí)鐘走向

    上圖從左往右看,就是整個(gè) STM32F429的時(shí)鐘走向。這里,我們挑選出 13個(gè)重要的地方進(jìn)行介紹(圖 5.2.2.1 中標(biāo)出的1~13)。1, 這是進(jìn)入 PLL之前的時(shí)鐘分頻系數(shù)(M),取值范圍
    發(fā)表于 08-09 06:25

    開(kāi)關(guān)電源工作頻率是依據(jù)什么挑選

    癥”。我來(lái)給你診斷一下病因,一是因?yàn)樽约翰粔蚯宄约旱膶?shí)在需求,二是一些性能參數(shù)不夠了解,沒(méi)有比較專(zhuān)業(yè)的指引。電源工程師在挑選主控IC時(shí),因?yàn)閺S(chǎng)家很多,參數(shù)挑選也多種多樣,然后很難挑選出合適自己運(yùn)用的電源IC。
    發(fā)表于 10-28 06:50

    如何挑選出最佳的LDO

    本文所述的概念將使設(shè)計(jì)人員能夠根據(jù)系統(tǒng)要求挑選最佳的LDO。
    發(fā)表于 10-29 06:26

    谷歌Play Music大更新!用深度學(xué)習(xí)挑選出最應(yīng)景的BGM

    下雨天和什么歌最配?去健身房聽(tīng)什么歌能讓你在跑步機(jī)上堅(jiān)持半小時(shí)以上?對(duì)于酷愛(ài)音樂(lè)的選擇困難癥來(lái)說(shuō),在不同的環(huán)境里挑選什么樣的播放列表實(shí)在是件太燒腦的事兒。而現(xiàn)在,谷歌要用人工智能來(lái)幫你做出選擇。
    發(fā)表于 11-16 11:18 ?830次閱讀

    精選10個(gè)Python開(kāi)源項(xiàng)目

    過(guò)去一個(gè)月里,我們對(duì)近 250 個(gè) Python 開(kāi)源項(xiàng)目進(jìn)行了排名,并挑選出熱度前 10 的項(xiàng)目。
    的頭像 發(fā)表于 11-12 09:47 ?6586次閱讀

    如何從13個(gè)Kaggle比賽中挑選出的最好的Kaggle kernel

    。機(jī)器學(xué)習(xí)和圖像分類(lèi)也不例外,工程師們可以通過(guò)參加像Kaggle這樣的競(jìng)賽來(lái)展示最佳實(shí)踐。在這篇文章中,我將給你很多資源來(lái)學(xué)習(xí),聚焦于從13個(gè)Kaggle比賽中挑選出的最好的Kaggle kernel。 這些比賽是: Intel Image Classification:https://w
    的頭像 發(fā)表于 06-27 09:26 ?2152次閱讀

    挑選開(kāi)關(guān)電源的工作頻率是依據(jù)什么?

    癥”。我來(lái)給你診斷一下病因,一是因?yàn)樽约翰粔蚯宄约旱膶?shí)在需求,二是一些性能參數(shù)不夠了解,沒(méi)有比較專(zhuān)業(yè)的指引。電源工程師在挑選主控IC時(shí),因?yàn)閺S(chǎng)家很多,參數(shù)挑選也多種多樣,然后很難挑選出合適自己運(yùn)用的電源IC。
    發(fā)表于 10-21 14:51 ?8次下載
    <b class='flag-5'>挑選</b>開(kāi)關(guān)電源的工作頻率是依據(jù)什么?

    電子發(fā)燒友

    中國(guó)電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會(huì)員交流學(xué)習(xí)
    • 獲取您個(gè)性化的科技前沿技術(shù)信息
    • 參加活動(dòng)獲取豐厚的禮品