0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

APE:對(duì)CLIP進(jìn)行特征提純能夠提升Few-shot性能

CVer ? 來(lái)源:CVer ? 2023-07-19 14:19 ? 次閱讀

本文介紹我們?cè)贗CCV 2023上接收的論文《Not All Features Matter: Enhancing Few-shot CLIP with Adaptive Prior Refinement》。這篇文章基于CLIP提出了一種特征提純的方法為下游任務(wù)選擇合適的特征,以此來(lái)提高下游任務(wù)的性能并同時(shí)提高計(jì)算效率。

cf8bc766-25f2-11ee-962d-dac502259ad0.png

論文: https://arxiv.org/pdf/2304.01195

代碼: https://github.com/yangyangyang127/APE

相比于其他方法,我們能夠在性能和計(jì)算量上實(shí)現(xiàn)較好的均衡,如下圖所示。

cfc578f8-25f2-11ee-962d-dac502259ad0.png

1. 概述

問(wèn)題:大規(guī)模預(yù)訓(xùn)練的視覺(jué)-文本模型,如CLIP,BLIP等,能夠在多種數(shù)據(jù)分布下表現(xiàn)出良好的性能,并已經(jīng)有很多的工作通過(guò)few-shot的方式將它們應(yīng)用于下游任務(wù)。但這些方法或者性能提升有限(如CoOp, CLIP-Adapter等),或者需要訓(xùn)練大量的參數(shù)(如Tip-Adapter等)。因此我們會(huì)問(wèn),能否同時(shí)實(shí)現(xiàn)高few-shot性能且少參數(shù)量呢?

出發(fā)點(diǎn)和思路:CLIP是一個(gè)通用的模型,考慮到下游數(shù)據(jù)分布的差異,對(duì)某個(gè)下游任務(wù)來(lái)說(shuō),CLIP提取的特征并不全是有用的,可能包含一部分冗余或噪聲。因此,在這篇文章中,我們首先提出一種特征提純的方法,為每個(gè)數(shù)據(jù)集提純個(gè)性化的特征通道,從而減少了參數(shù)量,且提升了計(jì)算效率;然后設(shè)計(jì)了一種參數(shù)高效的few-shot框架,提升了CLIP在不同數(shù)據(jù)集上的few-shot性能,下圖是論文的整體流程圖。

cfe26134-25f2-11ee-962d-dac502259ad0.png

2. 方法

這一部分中,我們分別介紹特征提純模塊和新提出的few-shot框架。

2.1 特征提純

CLIP是一個(gè)通用的模型,在下游任務(wù)上,考慮到數(shù)據(jù)分布,CLIP提取的特征可能并不全是有用的,因此我們?cè)噲D為每個(gè)下游數(shù)據(jù)集提純個(gè)性化的特征。我們通過(guò)最大化類(lèi)間差異,或者說(shuō)最小化類(lèi)間相似度,來(lái)選擇合適的特征。對(duì)于一個(gè)d00e323c-25f2-11ee-962d-dac502259ad0.png類(lèi)的下游任務(wù),我們計(jì)算所有類(lèi)的所有樣本表征之間平均相似度d0243ab4-25f2-11ee-962d-dac502259ad0.png,

d03631b0-25f2-11ee-962d-dac502259ad0.png

其中,d04b30c4-25f2-11ee-962d-dac502259ad0.png代表類(lèi)的序號(hào),d05efc62-25f2-11ee-962d-dac502259ad0.png代表兩個(gè)類(lèi)的先驗(yàn)概率,d073879a-25f2-11ee-962d-dac502259ad0.png代表兩個(gè)類(lèi)中的樣本數(shù)量,d0820d7e-25f2-11ee-962d-dac502259ad0.png是相似度函數(shù),d093087c-25f2-11ee-962d-dac502259ad0.png代表表征。假設(shè)d0a3bfb4-25f2-11ee-962d-dac502259ad0.png代表特征通道是否被選中,d0b3335e-25f2-11ee-962d-dac502259ad0.png代表特征維度,d0c654c0-25f2-11ee-962d-dac502259ad0.png代表預(yù)先限制d0d95db8-25f2-11ee-962d-dac502259ad0.png個(gè)特征被選中,則通過(guò)求解d0f50428-25f2-11ee-962d-dac502259ad0.png使得d0243ab4-25f2-11ee-962d-dac502259ad0.png最小我們可以得到需要的特征,即求解以下優(yōu)化問(wèn)題:

d12abc4e-25f2-11ee-962d-dac502259ad0.png

其中d140d1be-25f2-11ee-962d-dac502259ad0.png代表逐元素相乘。最后,經(jīng)過(guò)特征提純,我們?cè)贗mageNet上統(tǒng)計(jì)了圖像和文本相似度的變化,如下圖所示。相比于沒(méi)有特征提純,我們選定的特征減小了類(lèi)間相似度,同時(shí)增大了圖像和文本的匹配程度。且我們提純出的特征能夠獲得更好的similarity map。

d15bb0d8-25f2-11ee-962d-dac502259ad0.png

d172e17c-25f2-11ee-962d-dac502259ad0.png

2.2 三邊關(guān)系的few-shot框架

CLIP等視覺(jué)文本模型一般基于測(cè)試圖像和文本表征的相似度或距離來(lái)完成分類(lèi)任。但除此之外,我們還可以使用測(cè)試圖像和訓(xùn)練圖像的相似度來(lái)校正,并使用訓(xùn)練圖像和文本的相似度來(lái)為困難樣本提供額外的信息?;谶@種考慮,我們探究了測(cè)試圖像、文本描述和訓(xùn)練圖像之間的三邊嵌入關(guān)系。

假設(shè)d19a8e3e-25f2-11ee-962d-dac502259ad0.png代表測(cè)試圖像特征,d1ad4e66-25f2-11ee-962d-dac502259ad0.pngd1c034d6-25f2-11ee-962d-dac502259ad0.png分別代表訓(xùn)練圖像和文本描述的特征,d1d21688-25f2-11ee-962d-dac502259ad0.png代表訓(xùn)練圖像的label,則我們可以建立三邊關(guān)系,

d1e07b88-25f2-11ee-962d-dac502259ad0.png

其中,d1f44870-25f2-11ee-962d-dac502259ad0.png代表一般的CLIP基于視覺(jué)文本相似度的預(yù)測(cè),d20ac442-25f2-11ee-962d-dac502259ad0.png代表模態(tài)間的相似度,即測(cè)試圖像和訓(xùn)練圖像之間的相似度,d21b229c-25f2-11ee-962d-dac502259ad0.png反映了訓(xùn)練圖像對(duì)測(cè)試圖像的貢獻(xiàn)?;谝陨先N關(guān)系,可以得到最終的預(yù)測(cè)為

d230d0ba-25f2-11ee-962d-dac502259ad0.png

我們可以將特征提純與三邊關(guān)系結(jié)合起來(lái),直接在選擇出來(lái)的特征上進(jìn)行三種關(guān)系的few-shot學(xué)習(xí),這樣可以減少參數(shù)和計(jì)算效率。我們提出了training-free和training-required兩種框架,如下圖,后者相比于前者增加了少量可訓(xùn)練的殘差。

d24858d4-25f2-11ee-962d-dac502259ad0.png

3. 結(jié)果

我們?cè)?1個(gè)分類(lèi)數(shù)據(jù)集上研究了方法的性能,并提出了training-free和training-required兩個(gè)版本,下圖是11個(gè)數(shù)據(jù)集上的平均性能以及和其他方法的比較。

d271d02e-25f2-11ee-962d-dac502259ad0.png

與其他方法相比,我們的計(jì)算效率和參數(shù)量都有所優(yōu)化。

d29f8410-25f2-11ee-962d-dac502259ad0.png

提純的特征通道的數(shù)量對(duì)結(jié)果也有所影響:

d2cb1b3e-25f2-11ee-962d-dac502259ad0.png

感謝您的閱讀,更多的實(shí)現(xiàn)細(xì)節(jié)和比較請(qǐng)看我們的文章,我們的代碼已開(kāi)源。感謝您提出寶貴意見(jiàn)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3442

    瀏覽量

    49665
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1217

    瀏覽量

    25130
  • Clip
    +關(guān)注

    關(guān)注

    0

    文章

    32

    瀏覽量

    6891

原文標(biāo)題:?ICCV 2023 | APE:對(duì)CLIP進(jìn)行特征提純能夠提升Few-shot性能

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 0人收藏

    評(píng)論

    相關(guān)推薦

    基于將 CLIP 用于下游few-shot圖像分類(lèi)的方案

    對(duì)比性圖像語(yǔ)言預(yù)訓(xùn)練模型(CLIP)在近期展現(xiàn)出了強(qiáng)大的視覺(jué)領(lǐng)域遷移能力,可以在一個(gè)全新的下游數(shù)據(jù)集上進(jìn)行 zero-shot 圖像識(shí)別。
    的頭像 發(fā)表于 09-27 09:46 ?5742次閱讀

    基于特征點(diǎn)精度提純的圖像配準(zhǔn)改進(jìn)算法

    基于特征點(diǎn)精度提純的圖像配準(zhǔn)改進(jìn)算法_劉珊珊
    發(fā)表于 01-07 18:39 ?0次下載

    NLP事件抽取綜述之挑戰(zhàn)與展望

    /xiaoqian19940510/Event-Extraction Few-shot or zero-shot 2020 Meta-Learning with Dynamic-Memory-Based
    的頭像 發(fā)表于 01-18 16:33 ?3926次閱讀
    NLP事件抽取綜述之挑戰(zhàn)與展望

    樣本量極少可以訓(xùn)練機(jī)器學(xué)習(xí)模型嗎?

    本文首先介紹了用小樣本訓(xùn)練模型會(huì)導(dǎo)致的問(wèn)題,再介紹了Few-Shot Learning的基本原理即三大思路下的方法。
    的頭像 發(fā)表于 06-23 15:02 ?7175次閱讀

    介紹兩個(gè)few-shot NER中的challenge

    此部分著重介紹了兩個(gè)few-shot NER中的challenge:limited information challenge和knowledge mismatch challenge。前者主要是指
    的頭像 發(fā)表于 08-24 10:01 ?977次閱讀

    Few-shot NER的三階段

    Few-shot NER的三階段:Train、Adapt、Recognize,即在source域訓(xùn)練,在target域的support上微調(diào),在target域的query上測(cè)試。
    的頭像 發(fā)表于 08-24 16:12 ?1587次閱讀

    介紹一個(gè)基于CLIP的zero-shot實(shí)例分割方法

    CLIP是近年來(lái)在多模態(tài)方面的經(jīng)典之作,得益于大量的數(shù)據(jù)和算力對(duì)模型進(jìn)行預(yù)訓(xùn)練,模型的Zero-shot性能非??捎^,甚至可以在眾多數(shù)據(jù)集上和有監(jiān)督訓(xùn)練媲美。
    的頭像 發(fā)表于 10-13 09:13 ?5093次閱讀

    使用MobileNet Single Shot Detector進(jìn)行對(duì)象檢測(cè)

    電子發(fā)燒友網(wǎng)站提供《使用MobileNet Single Shot Detector進(jìn)行對(duì)象檢測(cè).zip》資料免費(fèi)下載
    發(fā)表于 11-09 09:30 ?1次下載
    使用MobileNet Single <b class='flag-5'>Shot</b> Detector<b class='flag-5'>進(jìn)行</b>對(duì)象檢測(cè)

    語(yǔ)言模型性能評(píng)估必備下游數(shù)據(jù)集:ZeroCLUE/FewCLUE與Chinese_WPLC數(shù)據(jù)集

    零樣本學(xué)習(xí)是AI識(shí)別方法之一。簡(jiǎn)單來(lái)說(shuō)就是識(shí)別從未見(jiàn)過(guò)的數(shù)據(jù)類(lèi)別,即訓(xùn)練的分類(lèi)器不僅僅能夠識(shí)別出訓(xùn)練集中已有的數(shù)據(jù)類(lèi)別, 還可以對(duì)于來(lái)自未見(jiàn)過(guò)的類(lèi)別的數(shù)據(jù)進(jìn)行區(qū)分。小樣本學(xué)習(xí)(Few-shot Learning)是解決在極少數(shù)據(jù)
    的頭像 發(fā)表于 03-27 11:38 ?1835次閱讀

    基于GLM-6B對(duì)話(huà)模型的實(shí)體屬性抽取項(xiàng)目實(shí)現(xiàn)解析

    Zero-shot、One-shot以及Few-shot讓人傻傻分不清,讀了很多文章,也沒(méi)搞清楚他們的差別,究竟什么叫zero-shot,其在應(yīng)用過(guò)程中的no gradient upd
    的頭像 發(fā)表于 03-28 10:11 ?7283次閱讀

    邁向多模態(tài)AGI之開(kāi)放世界目標(biāo)檢測(cè)

    OVD的基礎(chǔ)概念:OVD的使用主要涉及到 few-shot 和 zero-shot兩大類(lèi)場(chǎng)景,few-shot是指有少量人工標(biāo)注訓(xùn)練樣本的目標(biāo)類(lèi)別,zero-shot則是指不存在任何人
    的頭像 發(fā)表于 06-15 16:08 ?1064次閱讀
    邁向多模態(tài)AGI之開(kāi)放世界目標(biāo)檢測(cè)

    基于多任務(wù)預(yù)訓(xùn)練模塊化提示

    對(duì) Few-shot 場(chǎng)景時(shí),PT 的調(diào)優(yōu)方法還是存在一定的局限性。針對(duì)這個(gè)問(wèn)題, 復(fù)旦提出了多任務(wù)預(yù)訓(xùn)練模塊化 Prompt(簡(jiǎn)稱(chēng)為:),來(lái)提高模型在 Few-shot 場(chǎng)景下的 PT 效果,使模型能夠快速適應(yīng)下游
    的頭像 發(fā)表于 06-20 11:04 ?807次閱讀
    基于多任務(wù)預(yù)訓(xùn)練模塊化提示

    為什么叫shot?為什么shot比掩膜版尺寸小很多?

    其中,步進(jìn)投影式光刻機(jī)(stepper)的一個(gè)shot一個(gè)shot進(jìn)行曝光的,并不是一整張晶圓同時(shí)曝光,那么stepper的shot是什么樣的?多大尺寸?需要多大的掩膜版?
    的頭像 發(fā)表于 10-09 18:13 ?7849次閱讀
    為什么叫<b class='flag-5'>shot</b>?為什么<b class='flag-5'>shot</b>比掩膜版尺寸小很多?

    基于顯式證據(jù)推理的few-shot關(guān)系抽取CoT

    最近,上下文學(xué)習(xí)策略已被證明在沒(méi)有訓(xùn)練的情況下顯示出顯著的結(jié)果。很少有研究利用上下文學(xué)習(xí)進(jìn)行zero-shot信息提取。不幸的是,推理的證據(jù)在思維鏈提示的構(gòu)建過(guò)程中沒(méi)有被考慮或隱式建模。
    的頭像 發(fā)表于 11-20 17:44 ?1169次閱讀
    基于顯式證據(jù)推理的<b class='flag-5'>few-shot</b>關(guān)系抽取CoT

    更強(qiáng)!Alpha-CLIP:讓CLIP關(guān)注你想要的任何地方!

    然而CLIP必須以整張圖片作為輸入并進(jìn)行特征提取,無(wú)法關(guān)注到指定的任意區(qū)域。然而,自然的2D圖片中往往包含不同的物體,part和thing。如果能由用戶(hù)或檢測(cè)模型指定需要關(guān)注的區(qū)域,在圖像編碼的過(guò)程就確定需要關(guān)注的對(duì)象,將會(huì)
    的頭像 發(fā)表于 12-10 10:28 ?1258次閱讀
    更強(qiáng)!Alpha-<b class='flag-5'>CLIP</b>:讓<b class='flag-5'>CLIP</b>關(guān)注你想要的任何地方!

    電子發(fā)燒友

    中國(guó)電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會(huì)員交流學(xué)習(xí)
    • 獲取您個(gè)性化的科技前沿技術(shù)信息
    • 參加活動(dòng)獲取豐厚的禮品