0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何充分挖掘預(yù)訓(xùn)練視覺(jué)-語(yǔ)言基礎(chǔ)大模型的更好零樣本學(xué)習(xí)能力

jf_pmFSk4VX ? 來(lái)源:GiantPandaCV ? 作者:GiantPandaCV ? 2022-10-19 14:39 ? 次閱讀

融入了Prompt的新模式大致可以歸納成”pre-train, prompt, and predict“,在該模式中,下游任務(wù)被重新調(diào)整成類似預(yù)訓(xùn)練任務(wù)的形式。例如,通常的預(yù)訓(xùn)練任務(wù)有Masked Language Model, 在文本情感分類任務(wù)中,對(duì)于 "I love this movie." 這句輸入,可以在后面加上prompt "The movie is ___" 這樣的形式,然后讓PLM用表示情感的答案填空如 "great"、"fantastic" 等等,最后再將該答案轉(zhuǎn)化成情感分類的標(biāo)簽,這樣以來(lái),通過(guò)選取合適的prompt,我們可以控制模型預(yù)測(cè)輸出,從而一個(gè)完全無(wú)監(jiān)督訓(xùn)練的PLM可以被用來(lái)解決各種各樣的下游任務(wù)。

因此,合適的prompt對(duì)于模型的效果至關(guān)重要。大量研究表明,prompt的微小差別,可能會(huì)造成效果的巨大差異。研究者們就如何設(shè)計(jì)prompt做出了各種各樣的努力——自然語(yǔ)言背景知識(shí)的融合、自動(dòng)生成prompt的搜索、不再拘泥于語(yǔ)言形式的prompt探索等等。

而對(duì)于視覺(jué)領(lǐng)域的prompt,最近在視覺(jué)語(yǔ)言預(yù)訓(xùn)練方面的進(jìn)展,如CLIP和ALIGN,prompt為開(kāi)發(fā)視覺(jué)任務(wù)的基礎(chǔ)模型提供了一個(gè)有前途的方向。這些基礎(chǔ)模型在數(shù)百萬(wàn)個(gè)有噪聲的圖像-文本對(duì)上進(jìn)行訓(xùn)練后編碼了廣泛的視覺(jué)概念,可以在不需要任務(wù)特定的訓(xùn)練數(shù)據(jù)的情況下以零目標(biāo)的方式應(yīng)用于下游任務(wù)。這可以通過(guò)適當(dāng)設(shè)計(jì)的prompt提示實(shí)現(xiàn)。

以CLIP為例,如下圖紅色方框強(qiáng)調(diào)所示,可以完成對(duì)“class label”的拓展,使得模型具有較為豐富的視覺(jué)信息。然后,可以使用CLIP對(duì)圖像進(jìn)行分類,以度量它們與各種類描述的對(duì)齊程度。因此,設(shè)計(jì)這樣的提示在以zero-shot方式將基礎(chǔ)模型應(yīng)用到下游任務(wù)中起著至關(guān)重要的作用。

3811eb96-4f00-11ed-a3b6-dac502259ad0.png

然而,這種手工制作的prompt需要特定于領(lǐng)域的靈感,因此可能較難設(shè)計(jì),所以如何設(shè)計(jì)一種模式,可以讓讓模型自適應(yīng)地學(xué)習(xí)到有關(guān)prompt的一些參數(shù)和設(shè)定是非常有必要的。與手工制作的prompt相比,這種方法可以找到更好的prompt,但學(xué)習(xí)到的prompt僅限于與訓(xùn)練數(shù)據(jù)對(duì)應(yīng)的分布和任務(wù),除此之外的泛化可能有限。

此外,這種方法需要帶注釋的訓(xùn)練數(shù)據(jù),這可能非常昂貴,而且不能很好地應(yīng)用于zero-shot的相關(guān)任務(wù)中。為了解決上述的挑戰(zhàn), 論文提出在測(cè)試階段使用test-time prompt tuning(TPT),只使用給定的測(cè)試樣本對(duì)prompt進(jìn)行調(diào)整。由于避免了使用額外的訓(xùn)練數(shù)據(jù)或標(biāo)注,TPT仍然遵守了zero-shot的設(shè)置。

3841c1d6-4f00-11ed-a3b6-dac502259ad0.png

. 方法

論文首先簡(jiǎn)單回顧了CLIP和基于CLIP的一些可學(xué)習(xí)參數(shù)的prompts獲取方法。對(duì)于為何要優(yōu)化prompt,論文是這樣描述的:CLIP包含了豐富的知識(shí),從前期的訓(xùn)練中獲得了海量的知識(shí)和不同的數(shù)據(jù)感知能力。然而,如何更有效地提取這些知識(shí)仍然是一個(gè)開(kāi)放的問(wèn)題。一個(gè)簡(jiǎn)單的策略是直接對(duì)模型進(jìn)行微調(diào),無(wú)論是端到端的還是針對(duì)的一個(gè)子集層,對(duì)一類的輸入。然而,先前的工作表明,這種微調(diào)策略導(dǎo)致特定于領(lǐng)域的行為失去了非分布泛化和魯棒性的基礎(chǔ)模型。

因此,這項(xiàng)工作的目標(biāo)是利用現(xiàn)有的CLIP知識(shí)來(lái)促進(jìn)其泛化到zero-shot的廠家中去。因此,調(diào)整prompt就是實(shí)現(xiàn)這一目標(biāo)的理想途徑。此外,我們將測(cè)試時(shí)提示調(diào)優(yōu)視為為模型提供上下文的一種方法為單個(gè)測(cè)試樣本量身定制,有助于精確檢索CLIP知識(shí)。

論文的目的很簡(jiǎn)單,就是在測(cè)試階段得不到測(cè)試樣本ground-truth標(biāo)注的時(shí)候,進(jìn)行一定的訓(xùn)練,具體表現(xiàn)為

因?yàn)闃?biāo)簽不能用于測(cè)試階段的優(yōu)化,所以我們?nèi)绻朐跍y(cè)試階段進(jìn)行優(yōu)化就必須選擇用于能夠提供一定hint的無(wú)監(jiān)督損失函數(shù)來(lái)指導(dǎo)優(yōu)化。因此,論文設(shè)計(jì)了TPT目標(biāo)來(lái)促進(jìn)采用不同數(shù)據(jù)增強(qiáng)下,模型的一致性。通過(guò)對(duì)給定測(cè)試相同圖像的不同增強(qiáng)類型的特征,來(lái)依照他們預(yù)測(cè)的差值來(lái)進(jìn)行訓(xùn)練。具體來(lái)說(shuō),我們使用一個(gè)隨機(jī)增廣cluster生成測(cè)試圖像的N個(gè)隨機(jī)augumention視圖,最小化平均預(yù)測(cè)概率分布的熵:

這里 是根據(jù)物體不同prompt and the -th augmented view of the test image預(yù)測(cè)出的概率。

值得一提的是,為了減少隨機(jī)增強(qiáng)的噪聲(也就是說(shuō)增強(qiáng)之后模型很難再預(yù)測(cè)出正確的分類信息,如刪去了圖像非常關(guān)鍵的content),本文還引入了一個(gè)新的機(jī)制:confidence selection,來(lái)選擇過(guò)濾增強(qiáng)產(chǎn)生的低置信度預(yù)測(cè)的view。數(shù)學(xué)表達(dá)式體現(xiàn)為:

38736830-4f00-11ed-a3b6-dac502259ad0.png

實(shí)驗(yàn)

388b7efc-4f00-11ed-a3b6-dac502259ad0.png

首先論文根據(jù)CoOp 和 CoCoOp的混淆矩陣可視化來(lái)判斷這兩種可學(xué)習(xí)的prompt參數(shù)化方式在不同數(shù)據(jù)集上的遷移性很差,有增加參數(shù)量過(guò)擬合的嫌疑。所以其實(shí)在訓(xùn)練階段,增加參數(shù)量來(lái)做相應(yīng)的操作不見(jiàn)得合理。因此才更能體現(xiàn)本文這種基于測(cè)試階段方法提出方法的優(yōu)越性。

38b42046-4f00-11ed-a3b6-dac502259ad0.png

可以發(fā)現(xiàn),本文提出的這種方法在不同數(shù)據(jù)集之間的遷移性非常之好。

結(jié)論

本文研究了如何充分挖掘預(yù)訓(xùn)練視覺(jué)-語(yǔ)言基礎(chǔ)大模型的更好零樣本學(xué)習(xí)能力。論文提出了Test-time Prompt Tuning, TPT),這種新的prompt調(diào)整方法,可以使用單個(gè)測(cè)試樣本動(dòng)態(tài)學(xué)習(xí)自適應(yīng)提示。我們證明了該方法對(duì)自然分布變化的魯棒性跨數(shù)據(jù)集泛化,使用CLIP作為基礎(chǔ)模型。不需要任何訓(xùn)練數(shù)據(jù)或標(biāo)注,TPT提高了CLIP的zero-shot的泛化能力。

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3261

    瀏覽量

    48913
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1208

    瀏覽量

    24737
  • Clip
    +關(guān)注

    關(guān)注

    0

    文章

    31

    瀏覽量

    6673
  • 自然語(yǔ)言
    +關(guān)注

    關(guān)注

    1

    文章

    288

    瀏覽量

    13360
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2482

    瀏覽量

    2849

原文標(biāo)題:面向測(cè)試階段的prompt搜索方式

文章出處:【微信號(hào):GiantPandaCV,微信公眾號(hào):GiantPandaCV】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型預(yù)訓(xùn)練

    語(yǔ)言模型的核心特點(diǎn)在于其龐大的參數(shù)量,這賦予了模型強(qiáng)大的學(xué)習(xí)容量,使其無(wú)需依賴微調(diào)即可適應(yīng)各種下游任務(wù),而更傾向于培養(yǎng)通用的處理能力。然而
    發(fā)表于 05-07 17:10

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的應(yīng)用

    設(shè)計(jì)提示詞時(shí),需要明確輸出需求,以便得到滿意的結(jié)果。 推理引導(dǎo)如前文所述,提示工程對(duì)于訓(xùn)練語(yǔ)言模型的逐步推理能力至關(guān)重要。
    發(fā)表于 05-07 17:21

    基于深度學(xué)習(xí)的自然語(yǔ)言處理對(duì)抗樣本模型

    深度學(xué)習(xí)模型被證明存在脆弱性并容易遭到對(duì)抗樣本的攻擊,但目前對(duì)于對(duì)抗樣本的研究主要集中在計(jì)算機(jī)視覺(jué)領(lǐng)域而忽略了自然
    發(fā)表于 04-20 14:36 ?39次下載
    基于深度<b class='flag-5'>學(xué)習(xí)</b>的自然<b class='flag-5'>語(yǔ)言</b>處理對(duì)抗<b class='flag-5'>樣本</b><b class='flag-5'>模型</b>

    基于預(yù)訓(xùn)練視覺(jué)-語(yǔ)言模型的跨模態(tài)Prompt-Tuning

    、新加坡國(guó)立大學(xué) 鏈接:https://arxiv.org/pdf/2109.11797.pdf 提取摘要 預(yù)訓(xùn)練視覺(jué)語(yǔ)言模型 (VL-P
    的頭像 發(fā)表于 10-09 15:10 ?3264次閱讀
    基于<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b><b class='flag-5'>視覺(jué)</b>-<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>的跨模態(tài)Prompt-Tuning

    融合樣本學(xué)習(xí)和小樣本學(xué)習(xí)的弱監(jiān)督學(xué)習(xí)方法綜述

    融合樣本學(xué)習(xí)和小樣本學(xué)習(xí)的弱監(jiān)督學(xué)習(xí)方法綜述 來(lái)源:《系統(tǒng)工程與電子技術(shù)》,作者潘崇煜等 摘
    發(fā)表于 02-09 11:22 ?2328次閱讀
    融合<b class='flag-5'>零</b><b class='flag-5'>樣本</b><b class='flag-5'>學(xué)習(xí)</b>和小<b class='flag-5'>樣本</b><b class='flag-5'>學(xué)習(xí)</b>的弱監(jiān)督<b class='flag-5'>學(xué)習(xí)</b>方法綜述

    如何更高效地使用預(yù)訓(xùn)練語(yǔ)言模型

    基本的假設(shè):預(yù)訓(xùn)練模型在不同下游任務(wù)上學(xué)習(xí)的過(guò)程,可以被重新參數(shù)化(reparameterized)為在同一個(gè)低維征子空間上的優(yōu)化過(guò)程。
    的頭像 發(fā)表于 07-08 11:28 ?1283次閱讀

    利用視覺(jué)語(yǔ)言模型對(duì)檢測(cè)器進(jìn)行預(yù)訓(xùn)練

    預(yù)訓(xùn)練通常被用于自然語(yǔ)言處理以及計(jì)算機(jī)視覺(jué)領(lǐng)域,以增強(qiáng)主干網(wǎng)絡(luò)的特征提取能力,達(dá)到加速訓(xùn)練和提高
    的頭像 發(fā)表于 08-08 15:33 ?1417次閱讀

    使用BLIP-2 樣本“圖生文”

    現(xiàn)代計(jì)算機(jī)視覺(jué)和自然語(yǔ)言模型能力越來(lái)越強(qiáng)大的同時(shí),模型尺寸也隨之顯著增大。由于當(dāng)前進(jìn)行一次單模態(tài)模型
    的頭像 發(fā)表于 03-03 11:06 ?1846次閱讀

    預(yù)訓(xùn)練數(shù)據(jù)大小對(duì)于預(yù)訓(xùn)練模型的影響

    BERT類模型的工作模式簡(jiǎn)單,但取得的效果也是極佳的,其在各項(xiàng)任務(wù)上的良好表現(xiàn)主要得益于其在大量無(wú)監(jiān)督文本上學(xué)習(xí)到的文本表征能力。那么如何從語(yǔ)言學(xué)的特征角度來(lái)衡量一個(gè)
    的頭像 發(fā)表于 03-03 11:20 ?1460次閱讀

    形狀感知樣本語(yǔ)義分割

    由于大規(guī)模視覺(jué)語(yǔ)言預(yù)訓(xùn)練取得了令人矚目的進(jìn)展,最近的識(shí)別模型可以以驚人的高準(zhǔn)確度對(duì)任意對(duì)象進(jìn)行
    的頭像 發(fā)表于 04-28 11:26 ?833次閱讀
    形狀感知<b class='flag-5'>零</b><b class='flag-5'>樣本</b>語(yǔ)義分割

    一個(gè)通用的自適應(yīng)prompt方法,突破了樣本學(xué)習(xí)的瓶頸

    為了解決這個(gè)問(wèn)題,這篇研究提出了一種Universal Self-adaptive Prompting (USP)方法,對(duì)LLMs的樣本學(xué)習(xí)進(jìn)行了優(yōu)化,同時(shí)也適用于少樣本
    的頭像 發(fā)表于 06-01 14:48 ?796次閱讀
    一個(gè)通用的自適應(yīng)prompt方法,突破了<b class='flag-5'>零</b><b class='flag-5'>樣本</b><b class='flag-5'>學(xué)習(xí)</b>的瓶頸

    基于預(yù)訓(xùn)練模型語(yǔ)言增強(qiáng)的樣本視覺(jué)學(xué)習(xí)

    在一些非自然圖像中要比傳統(tǒng)模型表現(xiàn)更好 CoOp 增加一些 prompt 會(huì)讓模型能力進(jìn)一步提升 怎么讓能力
    的頭像 發(fā)表于 06-15 16:36 ?577次閱讀
    基于<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b><b class='flag-5'>模型</b>和<b class='flag-5'>語(yǔ)言</b>增強(qiáng)的<b class='flag-5'>零</b><b class='flag-5'>樣本</b><b class='flag-5'>視覺(jué)</b><b class='flag-5'>學(xué)習(xí)</b>

    什么是樣本學(xué)習(xí)?為什么要搞樣本學(xué)習(xí)?

    樣本分類的技術(shù)目前正處于高速發(fā)展時(shí)期, 所涉及的具體應(yīng)用已經(jīng)從最初的圖像分類任務(wù)擴(kuò)展到了其他計(jì)算機(jī)視覺(jué)任務(wù)乃至自然語(yǔ)言處理等多個(gè)相關(guān)領(lǐng)域。 對(duì)此, 本文將其稱為廣義
    發(fā)表于 09-22 11:10 ?2232次閱讀
    什么是<b class='flag-5'>零</b><b class='flag-5'>樣本</b><b class='flag-5'>學(xué)習(xí)</b>?為什么要搞<b class='flag-5'>零</b><b class='flag-5'>樣本</b><b class='flag-5'>學(xué)習(xí)</b>?

    預(yù)訓(xùn)練模型的基本原理和應(yīng)用

    預(yù)訓(xùn)練模型(Pre-trained Model)是深度學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域中的一個(gè)重要概念,尤其是在自然語(yǔ)
    的頭像 發(fā)表于 07-03 18:20 ?2938次閱讀

    語(yǔ)言模型預(yù)訓(xùn)練

    能力,逐漸成為NLP領(lǐng)域的研究熱點(diǎn)。大語(yǔ)言模型預(yù)訓(xùn)練是這一技術(shù)發(fā)展的關(guān)鍵步驟,它通過(guò)在海量無(wú)標(biāo)簽數(shù)據(jù)上進(jìn)行
    的頭像 發(fā)表于 07-11 10:11 ?448次閱讀