0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

APE:對CLIP進行特征提純能夠提升Few-shot性能

CVer ? 來源:CVer ? 2023-07-19 14:19 ? 次閱讀

本文介紹我們在ICCV 2023上接收的論文《Not All Features Matter: Enhancing Few-shot CLIP with Adaptive Prior Refinement》。這篇文章基于CLIP提出了一種特征提純的方法為下游任務(wù)選擇合適的特征,以此來提高下游任務(wù)的性能并同時提高計算效率。

cf8bc766-25f2-11ee-962d-dac502259ad0.png

論文: https://arxiv.org/pdf/2304.01195

代碼: https://github.com/yangyangyang127/APE

相比于其他方法,我們能夠在性能和計算量上實現(xiàn)較好的均衡,如下圖所示。

cfc578f8-25f2-11ee-962d-dac502259ad0.png

1. 概述

問題:大規(guī)模預(yù)訓(xùn)練的視覺-文本模型,如CLIP,BLIP等,能夠在多種數(shù)據(jù)分布下表現(xiàn)出良好的性能,并已經(jīng)有很多的工作通過few-shot的方式將它們應(yīng)用于下游任務(wù)。但這些方法或者性能提升有限(如CoOp, CLIP-Adapter等),或者需要訓(xùn)練大量的參數(shù)(如Tip-Adapter等)。因此我們會問,能否同時實現(xiàn)高few-shot性能且少參數(shù)量呢?

出發(fā)點和思路:CLIP是一個通用的模型,考慮到下游數(shù)據(jù)分布的差異,對某個下游任務(wù)來說,CLIP提取的特征并不全是有用的,可能包含一部分冗余或噪聲。因此,在這篇文章中,我們首先提出一種特征提純的方法,為每個數(shù)據(jù)集提純個性化的特征通道,從而減少了參數(shù)量,且提升了計算效率;然后設(shè)計了一種參數(shù)高效的few-shot框架,提升了CLIP在不同數(shù)據(jù)集上的few-shot性能,下圖是論文的整體流程圖。

cfe26134-25f2-11ee-962d-dac502259ad0.png

2. 方法

這一部分中,我們分別介紹特征提純模塊和新提出的few-shot框架。

2.1 特征提純

CLIP是一個通用的模型,在下游任務(wù)上,考慮到數(shù)據(jù)分布,CLIP提取的特征可能并不全是有用的,因此我們試圖為每個下游數(shù)據(jù)集提純個性化的特征。我們通過最大化類間差異,或者說最小化類間相似度,來選擇合適的特征。對于一個d00e323c-25f2-11ee-962d-dac502259ad0.png類的下游任務(wù),我們計算所有類的所有樣本表征之間平均相似度d0243ab4-25f2-11ee-962d-dac502259ad0.png,

d03631b0-25f2-11ee-962d-dac502259ad0.png

其中,d04b30c4-25f2-11ee-962d-dac502259ad0.png代表類的序號,d05efc62-25f2-11ee-962d-dac502259ad0.png代表兩個類的先驗概率,d073879a-25f2-11ee-962d-dac502259ad0.png代表兩個類中的樣本數(shù)量,d0820d7e-25f2-11ee-962d-dac502259ad0.png是相似度函數(shù),d093087c-25f2-11ee-962d-dac502259ad0.png代表表征。假設(shè)d0a3bfb4-25f2-11ee-962d-dac502259ad0.png代表特征通道是否被選中,d0b3335e-25f2-11ee-962d-dac502259ad0.png代表特征維度,d0c654c0-25f2-11ee-962d-dac502259ad0.png代表預(yù)先限制d0d95db8-25f2-11ee-962d-dac502259ad0.png個特征被選中,則通過求解d0f50428-25f2-11ee-962d-dac502259ad0.png使得d0243ab4-25f2-11ee-962d-dac502259ad0.png最小我們可以得到需要的特征,即求解以下優(yōu)化問題:

d12abc4e-25f2-11ee-962d-dac502259ad0.png

其中d140d1be-25f2-11ee-962d-dac502259ad0.png代表逐元素相乘。最后,經(jīng)過特征提純,我們在ImageNet上統(tǒng)計了圖像和文本相似度的變化,如下圖所示。相比于沒有特征提純,我們選定的特征減小了類間相似度,同時增大了圖像和文本的匹配程度。且我們提純出的特征能夠獲得更好的similarity map。

d15bb0d8-25f2-11ee-962d-dac502259ad0.png

d172e17c-25f2-11ee-962d-dac502259ad0.png

2.2 三邊關(guān)系的few-shot框架

CLIP等視覺文本模型一般基于測試圖像和文本表征的相似度或距離來完成分類任。但除此之外,我們還可以使用測試圖像和訓(xùn)練圖像的相似度來校正,并使用訓(xùn)練圖像和文本的相似度來為困難樣本提供額外的信息?;谶@種考慮,我們探究了測試圖像、文本描述和訓(xùn)練圖像之間的三邊嵌入關(guān)系。

假設(shè)d19a8e3e-25f2-11ee-962d-dac502259ad0.png代表測試圖像特征,d1ad4e66-25f2-11ee-962d-dac502259ad0.pngd1c034d6-25f2-11ee-962d-dac502259ad0.png分別代表訓(xùn)練圖像和文本描述的特征,d1d21688-25f2-11ee-962d-dac502259ad0.png代表訓(xùn)練圖像的label,則我們可以建立三邊關(guān)系,

d1e07b88-25f2-11ee-962d-dac502259ad0.png

其中,d1f44870-25f2-11ee-962d-dac502259ad0.png代表一般的CLIP基于視覺文本相似度的預(yù)測,d20ac442-25f2-11ee-962d-dac502259ad0.png代表模態(tài)間的相似度,即測試圖像和訓(xùn)練圖像之間的相似度,d21b229c-25f2-11ee-962d-dac502259ad0.png反映了訓(xùn)練圖像對測試圖像的貢獻?;谝陨先N關(guān)系,可以得到最終的預(yù)測為

d230d0ba-25f2-11ee-962d-dac502259ad0.png

我們可以將特征提純與三邊關(guān)系結(jié)合起來,直接在選擇出來的特征上進行三種關(guān)系的few-shot學(xué)習(xí),這樣可以減少參數(shù)和計算效率。我們提出了training-free和training-required兩種框架,如下圖,后者相比于前者增加了少量可訓(xùn)練的殘差。

d24858d4-25f2-11ee-962d-dac502259ad0.png

3. 結(jié)果

我們在11個分類數(shù)據(jù)集上研究了方法的性能,并提出了training-free和training-required兩個版本,下圖是11個數(shù)據(jù)集上的平均性能以及和其他方法的比較。

d271d02e-25f2-11ee-962d-dac502259ad0.png

與其他方法相比,我們的計算效率和參數(shù)量都有所優(yōu)化。

d29f8410-25f2-11ee-962d-dac502259ad0.png

提純的特征通道的數(shù)量對結(jié)果也有所影響:

d2cb1b3e-25f2-11ee-962d-dac502259ad0.png

感謝您的閱讀,更多的實現(xiàn)細節(jié)和比較請看我們的文章,我們的代碼已開源。感謝您提出寶貴意見。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3279

    瀏覽量

    48976
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1208

    瀏覽量

    24753
  • Clip
    +關(guān)注

    關(guān)注

    0

    文章

    31

    瀏覽量

    6679

原文標(biāo)題:?ICCV 2023 | APE:對CLIP進行特征提純能夠提升Few-shot性能

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    基于將 CLIP 用于下游few-shot圖像分類的方案

    對比性圖像語言預(yù)訓(xùn)練模型(CLIP)在近期展現(xiàn)出了強大的視覺領(lǐng)域遷移能力,可以在一個全新的下游數(shù)據(jù)集上進行 zero-shot 圖像識別。
    的頭像 發(fā)表于 09-27 09:46 ?5412次閱讀

    基于特征點精度提純的圖像配準(zhǔn)改進算法

    基于特征點精度提純的圖像配準(zhǔn)改進算法_劉珊珊
    發(fā)表于 01-07 18:39 ?0次下載

    NLP事件抽取綜述之挑戰(zhàn)與展望

    /xiaoqian19940510/Event-Extraction Few-shot or zero-shot 2020 Meta-Learning with Dynamic-Memory-Based
    的頭像 發(fā)表于 01-18 16:33 ?3843次閱讀
    NLP事件抽取綜述之挑戰(zhàn)與展望

    樣本量極少可以訓(xùn)練機器學(xué)習(xí)模型嗎?

    本文首先介紹了用小樣本訓(xùn)練模型會導(dǎo)致的問題,再介紹了Few-Shot Learning的基本原理即三大思路下的方法。
    的頭像 發(fā)表于 06-23 15:02 ?7017次閱讀

    介紹兩個few-shot NER中的challenge

    此部分著重介紹了兩個few-shot NER中的challenge:limited information challenge和knowledge mismatch challenge。前者主要是指
    的頭像 發(fā)表于 08-24 10:01 ?883次閱讀

    Few-shot NER的三階段

    Few-shot NER的三階段:Train、Adapt、Recognize,即在source域訓(xùn)練,在target域的support上微調(diào),在target域的query上測試。
    的頭像 發(fā)表于 08-24 16:12 ?1472次閱讀

    介紹一個基于CLIP的zero-shot實例分割方法

    CLIP是近年來在多模態(tài)方面的經(jīng)典之作,得益于大量的數(shù)據(jù)和算力對模型進行預(yù)訓(xùn)練,模型的Zero-shot性能非??捎^,甚至可以在眾多數(shù)據(jù)集上和有監(jiān)督訓(xùn)練媲美。
    的頭像 發(fā)表于 10-13 09:13 ?4812次閱讀

    使用MobileNet Single Shot Detector進行對象檢測

    電子發(fā)燒友網(wǎng)站提供《使用MobileNet Single Shot Detector進行對象檢測.zip》資料免費下載
    發(fā)表于 11-09 09:30 ?1次下載
    使用MobileNet Single <b class='flag-5'>Shot</b> Detector<b class='flag-5'>進行</b>對象檢測

    語言模型性能評估必備下游數(shù)據(jù)集:ZeroCLUE/FewCLUE與Chinese_WPLC數(shù)據(jù)集

    零樣本學(xué)習(xí)是AI識別方法之一。簡單來說就是識別從未見過的數(shù)據(jù)類別,即訓(xùn)練的分類器不僅僅能夠識別出訓(xùn)練集中已有的數(shù)據(jù)類別, 還可以對于來自未見過的類別的數(shù)據(jù)進行區(qū)分。小樣本學(xué)習(xí)(Few-shot Learning)是解決在極少數(shù)據(jù)
    的頭像 發(fā)表于 03-27 11:38 ?1508次閱讀

    基于GLM-6B對話模型的實體屬性抽取項目實現(xiàn)解析

    Zero-shot、One-shot以及Few-shot讓人傻傻分不清,讀了很多文章,也沒搞清楚他們的差別,究竟什么叫zero-shot,其在應(yīng)用過程中的no gradient upd
    的頭像 發(fā)表于 03-28 10:11 ?7059次閱讀

    邁向多模態(tài)AGI之開放世界目標(biāo)檢測

    OVD的基礎(chǔ)概念:OVD的使用主要涉及到 few-shot 和 zero-shot兩大類場景,few-shot是指有少量人工標(biāo)注訓(xùn)練樣本的目標(biāo)類別,zero-shot則是指不存在任何人
    的頭像 發(fā)表于 06-15 16:08 ?865次閱讀
    邁向多模態(tài)AGI之開放世界目標(biāo)檢測

    基于多任務(wù)預(yù)訓(xùn)練模塊化提示

    Few-shot 場景時,PT 的調(diào)優(yōu)方法還是存在一定的局限性。針對這個問題, 復(fù)旦提出了多任務(wù)預(yù)訓(xùn)練模塊化 Prompt(簡稱為:),來提高模型在 Few-shot 場景下的 PT 效果,使模型能夠快速適應(yīng)下游
    的頭像 發(fā)表于 06-20 11:04 ?710次閱讀
    基于多任務(wù)預(yù)訓(xùn)練模塊化提示

    為什么叫shot?為什么shot比掩膜版尺寸小很多?

    其中,步進投影式光刻機(stepper)的一個shot一個shot進行曝光的,并不是一整張晶圓同時曝光,那么stepper的shot是什么樣的?多大尺寸?需要多大的掩膜版?
    的頭像 發(fā)表于 10-09 18:13 ?6810次閱讀
    為什么叫<b class='flag-5'>shot</b>?為什么<b class='flag-5'>shot</b>比掩膜版尺寸小很多?

    基于顯式證據(jù)推理的few-shot關(guān)系抽取CoT

    最近,上下文學(xué)習(xí)策略已被證明在沒有訓(xùn)練的情況下顯示出顯著的結(jié)果。很少有研究利用上下文學(xué)習(xí)進行zero-shot信息提取。不幸的是,推理的證據(jù)在思維鏈提示的構(gòu)建過程中沒有被考慮或隱式建模。
    的頭像 發(fā)表于 11-20 17:44 ?933次閱讀
    基于顯式證據(jù)推理的<b class='flag-5'>few-shot</b>關(guān)系抽取CoT

    更強!Alpha-CLIP:讓CLIP關(guān)注你想要的任何地方!

    然而CLIP必須以整張圖片作為輸入并進行特征提取,無法關(guān)注到指定的任意區(qū)域。然而,自然的2D圖片中往往包含不同的物體,part和thing。如果能由用戶或檢測模型指定需要關(guān)注的區(qū)域,在圖像編碼的過程就確定需要關(guān)注的對象,將會
    的頭像 發(fā)表于 12-10 10:28 ?1086次閱讀
    更強!Alpha-<b class='flag-5'>CLIP</b>:讓<b class='flag-5'>CLIP</b>關(guān)注你想要的任何地方!