簡介
本文介紹了一個名為Alpha-CLIP的框架,它在原始的接受RGB三通道輸入的CLIP模型的上額外增加了一個alpha通道。在千萬量級的RGBA-region的圖像文本對上進行訓(xùn)練后,Alpha-CLIP可以在保證CLIP原始感知能力的前提下,關(guān)注到任意指定區(qū)域。通過替換原始CLIP的應(yīng)用場景,Alpha-CLIP在圖像識別、視覺-語言大模型、2D乃至3D生成領(lǐng)域都展現(xiàn)出強大作用。
圖1 Alpha-CLIP使用場景總覽
CLIP作為目前最流行的視覺基座模型被廣泛使用。它的應(yīng)用場景包括但不限于1.與LLM大語言模型結(jié)合成為視覺多模態(tài)大模型。2.作為圖像生成(Stable Diffusion)、點云生成(Point-E)的condition model, 實現(xiàn)image-to-3D。3.用于指導(dǎo)NeRF的優(yōu)化方向從而實現(xiàn)text-to-3D。4.本身用于開放類別的識別和檢測。
然而CLIP必須以整張圖片作為輸入并進行特征提取,無法關(guān)注到指定的任意區(qū)域。然而,自然的2D圖片中往往包含不同的物體,part和thing。如果能由用戶或檢測模型指定需要關(guān)注的區(qū)域,在圖像編碼的過程就確定需要關(guān)注的對象,將會提升CLIP模型的可控制性和區(qū)域檢測能力。
為此,上海人工智能實驗室聯(lián)合上海交通大學(xué)、復(fù)旦大學(xué)、香港中文大學(xué)、澳門大學(xué)的學(xué)者們提出了Alpha-CLIP模型,在原始CLIP模型的RGB三個通道的基礎(chǔ)上額外引入了第四個alpha通道來決定需要關(guān)注的區(qū)域。通過構(gòu)造千萬量級的【RGBA四通道圖片-文本對】對Alpha-CLIP進行訓(xùn)練,Alpha-CLIP不僅在ImageNet上保持了原始的全圖檢測能力,還能對用戶指定的任意區(qū)域進行highlight關(guān)注。下面分別介紹Alpha-CLIP的應(yīng)用場景。
* 論文鏈接:https://arxiv.org/abs/2312.03818 * 項目主頁:https://aleafy.github.io/alpha-clip * 代碼鏈接:https://github.com/SunzeY/AlphaCLIP1. 圖像分類
如圖所示,對于ImagNet的一張圖片,我們可以通過alpha-map控制CLIP去關(guān)注魚或漁夫。
以ImageNet的Zero-Shot Classification作為評價指標(biāo),我們驗證了在對全圖進行識別時,Alpha-CLIP可以保持原本CLIP的分類準(zhǔn)確率。進一步地,在給出了需要關(guān)注區(qū)域的長方形box或者mask時,Alpha-CLIP可以進一步提升分類準(zhǔn)確率。
2. 與LLM大語言模型的結(jié)合
將主流的LLaVA-1.5中的CLIP基座模型替換為Alpha-CLIP,用戶可以通過簡單地用畫筆標(biāo)記處需要關(guān)注的區(qū)域,從而進行指定區(qū)域的對話交互。
在定量實驗方面,我們通過LLaVA測試了MLLM的region caption能力。通過在RefCOCO和VG上分別進行finetune,取得了SOTA的region caption分數(shù)。
3. 與Stable Diffusion的結(jié)合
Stable-Diffusion是目前主流的2D圖片生成模型,其Image Variation版本可以實現(xiàn)“圖生圖”,其中圖片的編碼器也是CLIP模型。通過將該模型替換為Alpha-CLIP,可以實現(xiàn)更復(fù)雜圖片中指定物體的生成(同時較好地保留背景)。如上圖所示,使用原始的CLIP會生成同時具有獅子和老虎特征的“獅虎獸”,而Alpha-CLIP能夠很好地區(qū)分兩個物體,從而指導(dǎo)Stable Diffusion模型生成更專一的圖片。更多結(jié)果見下圖
4. 與Point-E的結(jié)合
Point-E是Open-AI開源的一個支持Image-to-3D和text-to-3D的點云diffusion模型,通過將它的Image編碼器從原始的CLIP替換為Alpha-CLIP??梢灾С钟脩魧θ我鈪^(qū)域進行關(guān)注,從而恢復(fù)丟失的“表針”和“盾牌的十字架”。更多結(jié)果見下圖
5. Attention Map可視化
本工作對Alpha-CLIP的注意力進行可視化,以檢查Alpha-CLIP是否更加關(guān)注用戶定義alpha-map。通過檢查視覺編碼器中最后一個Transformer塊中[CLS] token的注意力圖??梢暬捎昧司哂?6個注意頭的ViT-L/14模型。為了進行公正比較,使用第5和第16個注意頭的注意力圖進行可視化,因為我們發(fā)現(xiàn)在這16個頭中,這兩個特征圖最為明顯。結(jié)果如下圖所示。這種可視化驗證了Alpha-CLIP更加關(guān)注要聚焦的區(qū)域,更重要的是,它在保留原始CLIP特征位置的二維位置信息時沒有造成損害。
結(jié)論
本文介紹的這項工作提出了Alpha-CLIP模型,該模型引入了一個額外的alpha通道,用于指定感興趣的區(qū)域。通過對數(shù)百萬個RGBA區(qū)域-文本對進行訓(xùn)練,Alpha-CLIP不僅表現(xiàn)出卓越的區(qū)域關(guān)注能力,而且確保其輸出空間與原始的CLIP模型保持一致。這種一致性使得Alpha-CLIP在CLIP的各種下游應(yīng)用中能夠輕松替代,無縫銜接。我們證明了當(dāng)提供特定關(guān)注的區(qū)域時,Alpha-CLIP展現(xiàn)出了更強大的Zero-Shot識別能力,并驗證了它在許多下游任務(wù)中的有用性。CLIP的應(yīng)用遠遠超出了本文的范圍。我們希望在前景區(qū)域或mask較容易獲得時,Alpha-CLIP將能夠在更多場景中得到應(yīng)用。
雖然Alpha-CLIP在需要關(guān)注區(qū)域的各種場景中表現(xiàn)出有效的性能,但目前的結(jié)構(gòu)和訓(xùn)練過程限制了其專注于多個對象或建模不同對象之間關(guān)系的能力。此外,當(dāng)前的訓(xùn)練方法限制了alpha通道在中間值之外的泛化(只能接受0,1兩個值)。因此,用戶無法指定注意力的幅度。另一個限制同時存在于我們的Alpha-CLIP和原始CLIP中,即純Transformer結(jié)構(gòu)的編碼器分辨率較低,這阻礙了Alpha-CLIP識別小物體并進行關(guān)注。我們計劃在未來的工作中解決這些限制并擴展CLIP的輸入分辨率。我們相信這些未來的方向是增強Alpha-CLIP能力并在各種下游任務(wù)中擴展其實用性的途徑。
-
人工智能
+關(guān)注
關(guān)注
1792文章
47372瀏覽量
238859 -
Clip
+關(guān)注
關(guān)注
0文章
31瀏覽量
6672 -
大模型
+關(guān)注
關(guān)注
2文章
2477瀏覽量
2829
原文標(biāo)題:更強!Alpha-CLIP:讓CLIP關(guān)注你想要的任何地方!
文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論