亚洲精品福利第一区第二区第三区,久久久久久久999精品毛

目前CV領域中包括兩種典型的訓練模式，第一種是傳統(tǒng)的圖像分類訓練，以離散的label為目標，人工標注、收集干凈、大量的訓練數(shù)據(jù)，訓練圖像識別模型。第二種方法是最近比較火的基于對比學習的圖文匹配訓練方法，利用圖像和其對應的文本描述，采用對比學習的方法訓練模型。這兩種方法各有優(yōu)劣，前者可以達到非常高的圖像識別精度、比較強的遷移能力，但是依賴人工標注數(shù)據(jù)；后者可以利用海量噪聲可能較大的圖像文本對作為訓練數(shù)據(jù)，在few-shot learning、zero-shot learning上取得很好的效果，但是判別能力相比用干凈label訓練的方法較弱。今天給大家介紹一篇CVPR 2022微軟發(fā)表的工作，融合兩種數(shù)據(jù)的一個大一統(tǒng)對比學習框架。

論文題目：Unified Contrastive Learning in Image-Text-Label Space

下載地址：https://arxiv.org/pdf/2204.03610.pdf

CVPR 2022微軟發(fā)表的這篇工作，希望同時利用圖像、文本、label三者的信息，構建一個統(tǒng)一的對比學習框架，同時利用兩種訓練模式的優(yōu)勢。下圖反映了兩種訓練模式的差異，Image-Label以離散label為目標，將相同概念的圖像視為一組，完全忽視文本信息；而Image-Text以圖文對匹配為目標，每一對圖文可以視作一個單獨的label，文本側引入豐富的語義信息。

兩種數(shù)據(jù)的融合

上面所說的Image-Label和Image-Text兩種數(shù)據(jù)，可以表示成一個統(tǒng)一的形式：（圖像，文本，label）三元組。其中，對于Image-Lable數(shù)據(jù)，文本是每個label對應的類別名稱，label對應的每個類別的離散標簽；對于Image-Text數(shù)據(jù)，文本是每個圖像的文本描述，label對于每對匹配的圖文對都是不同的。將兩種數(shù)據(jù)融合到一起，如下圖右側所示，可以形成一個矩陣，填充部分為正樣本，其他為負樣本。Image-Label數(shù)據(jù)中，對應類別的圖文為正樣本；Image-Text中對角線為正樣本。

損失函數(shù)

在上述矩陣的基礎上，可以利用對比學習的思路構建融合Image-Label和Image-Text兩種數(shù)據(jù)優(yōu)化函數(shù)。對于一個batch內的所有樣本，分別使用圖像Encoder和文本Encoder得到圖像和文本的表示，并進行歸一化，然后計算圖像文本之間的相似度，和CLIP類似。其中Image-to-Text損失函數(shù)可以表示為：

以樣本i（文本）為中心，k表示當前batch內，和樣本i的label相同的圖像，j表示batch內所有其他樣本。也就是說，對于每個文本，損失函數(shù)的分子是和該文本匹配的圖像，分母是batch內所有圖像。Text-to-Image損失函數(shù)也類似。最終BiC loss是二者之和：

與其他損失函數(shù)的對比

BiC loss和交叉熵、Supervised Contrast以及CLIP三種方法的損失函數(shù)差別如下圖所示，這幾種損失函數(shù)之間存在著一定的聯(lián)系。

與交叉熵損失的關系：如果text encoder只是一個普通的全連接，并且batch size相比類別數(shù)量足夠大，以至于一個batch內所有類別的樣本都出現(xiàn)過，那么BiC和交叉熵等價。因此BiC相比交叉熵更具一般性，BiC讓具有相似文本描述的圖像表示形成類簇，不具有相似文本描述的圖像被拉遠。文本側也更加靈活，能夠使用任意種類的文本輸入，結合更豐富的文本Encoder聯(lián)合學習。

與SupCon的關系：SupCon是圖像對比學習，訓練數(shù)據(jù)每對pair都是圖像，共用一個Encoder；而BiC針對的是跨模態(tài)對比學習，圖片和文本跨模態(tài)對齊。但是兩者的核心思路都是根據(jù)有l(wèi)abel數(shù)據(jù)，將batch內出現(xiàn)樣本更多置為正樣本。

與CLIP的關系：和CLIP的主要差別在于，利用label信息將一部分非對角線上的元素視為正樣本。如果這里不使用Image-Label數(shù)據(jù)，那么就和CLIP相同。

實驗效果

圖像分類效果對比：相比使用交叉熵損失和有監(jiān)督對比學習，文中提出的UniCL在多個模型和數(shù)據(jù)集上取得較好的效果。尤其是在小數(shù)據(jù)集上訓練時，UniCL比交叉熵訓練效果提升更明顯，因為引入的圖文匹配方式讓具有相似語義圖像聚集在一起，緩解了過擬合問題。

文本Encoder和損失函數(shù)對比：文中也對比了文本Encoder是否引入的效果，如果將Transformer替換成線性層，效果有所下降，表明文本Encoder的引入能夠幫助模型學習到1000多個類別之間的關系文本語義關系，有助于提升圖像分類效果。同時，如果去掉i2t的loss只保留t2i的loss，會導致效果大幅下降。

Image-Text引入對Image-Label效果提升：對于上面3行和下面3行，下面3行引入額外Image-Text數(shù)據(jù)的圖像分類效果要顯著優(yōu)于只使用圖像分類數(shù)據(jù)的效果。

Image-Label引入對Image-Text效果提升：通過下面實驗對比，引入Image-Label對Image-Text效果有一定提升作用。

下圖繪制了使用CLIP（左）和UniCL（右）兩種方法訓練的圖像embedding的t-sne圖?？梢钥吹?，使用CLIP訓練的模型，不同類別的圖像表示混在一起；而使用UniCL訓練的模型，不同類別的圖像表示能夠比較好的區(qū)分。

總結

本文介紹了融合Image-Text和Image-Label兩種數(shù)據(jù)的的多模態(tài)訓練新方式，充分利用了不同的圖像-文本數(shù)據(jù)，信息相互補充，相比單獨使用一個數(shù)據(jù)取得非常好的效果。Label的引入也讓對比學習的正負樣本構造更加科學。

原文標題：圖文匹配 + 圖像分類 = 統(tǒng)一多模態(tài)對比學習框架

文章出處：【微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

審核編輯：彭靜

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

數(shù)據(jù)

數(shù)據(jù)

+關注

關注
8

文章
7122

瀏覽量
89351
圖像識別

圖像識別

+關注

關注
9

文章
521

瀏覽量
38320
函數(shù)

函數(shù)

+關注

關注
3

文章
4344

瀏覽量
62851

原文標題：圖文匹配 + 圖像分類 = 統(tǒng)一多模態(tài)對比學習框架

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

2025年Next Token Prediction范式會統(tǒng)一多模態(tài)嗎

訓練方法與推理策略性能評測體系現(xiàn)存挑戰(zhàn)與未來方向綜述的完整目錄如下：多模態(tài)的 Tokenization 我們認為多模態(tài)的 Token

發(fā)表于 01-21 10:11 ?14次閱讀

2025年Next Token Prediction范式會統(tǒng)一<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>嗎

體驗MiniCPM-V 2.6 多模態(tài)能力

多模態(tài)組網

jf_23871869

發(fā)布于 :2025年01月20日 13:40:48

基于Label CIFAR10 image on FRDM-MCXN947例程實現(xiàn)鞋和帽子的識別

NXP FRDM-MCXN947：物體識別 ? ? 感謝這次評測活動，收到FRDM-MCXN947的板子。NXP官方提供了很多視覺識別的例程，今天我們就基于Label CIFAR10 image

發(fā)表于 01-13 09:18 ?89次閱讀

基于<b class='flag-5'>Label</b> CIFAR10 <b class='flag-5'>image</b> on FRDM-MCXN947例程實現(xiàn)鞋和帽子的識別

SN74AVC8T245能同時支持推挽輸出和開漏輸出兩種數(shù)據(jù)進行轉換嗎？

你好，請問SN74AVC8T245這款芯片能同時支持推挽輸出和開漏輸出兩種數(shù)據(jù)進行轉換嗎？

發(fā)表于 12-20 06:46

一文理解多模態(tài)大語言模型——下

/understanding-multimodal-llms ? 《一文理解多模態(tài)大語言模型 - 上》介紹了什么是多模態(tài)大語言模型，以及構建多

發(fā)表于 12-03 15:18 ?183次閱讀

超聲界“內卷終結者”！ZRT智銳通提供全新引擎打造多模態(tài)影像融合系統(tǒng)

多模態(tài)影像融合超聲系統(tǒng)的市場規(guī)模也在不斷擴大，國內眾多超聲系統(tǒng)廠家也在不斷尋找合適的硬件平臺，用以承載旗下的多模態(tài)影像

發(fā)表于 11-11 10:52 ?688次閱讀

《DNK210使用指南 -CanMV版 V1.0》第三十七章 image圖像對比實驗

提供了difference()方法，用于計算兩個圖像的差值絕對值，difference()方法如下所示：image.difference(image, mask)difference()方法計算

發(fā)表于 11-07 09:33

《DNK210使用指南 -CanMV版 V1.0》第三十三章 image元素繪制實驗

()方法，用于在圖像上繪制字符串，draw_string()方法如下所示：image.draw_string(x, y, text, color=0xFFFF, scale=1.0

發(fā)表于 11-04 14:22

利用OpenVINO部署Qwen2多模態(tài)模型

多模態(tài)大模型的核心思想是將不同媒體數(shù)據(jù)（如文本、圖像、音頻和視頻等）進行融合，通過學習不同模態(tài)之間的關聯(lián)，實現(xiàn)更加智能化的信息處理。簡單來說

發(fā)表于 10-18 09:39 ?512次閱讀

圖片動畫控件和Video image控件的使用方法

在UI開發(fā)過程中，序列幀基本是繞不開的，AWTK 支持多種方法實現(xiàn)序列幀顯示，本文介紹圖片動畫控件和Video image控件的使用方法。

發(fā)表于 08-06 16:44 ?1041次閱讀

Labview與Halcon圖片Image互相轉換

Labview 與Halcon 聯(lián)合開發(fā) 分享一下Labview 與Halcon Image格式相互轉換的程序，整理了一個VI，LV_to _Halconxl.vi，可以直接調用，相互轉換兩種格式

發(fā)表于 06-27 23:00

鴻蒙ArkTS聲明式組件：Image

Image為圖片組件，常用于在應用中顯示圖片。Image支持加載[PixelMap]、[ResourceStr]和[DrawableDescriptor]類型的數(shù)據(jù)源，支持png、jpg、bmp、svg和gif類型的圖片格式。

發(fā)表于 06-23 20:32 ?1042次閱讀

OpenHarmony實戰(zhàn)開發(fā)-如何實現(xiàn)模態(tài)轉場

模態(tài)轉場是新的界面覆蓋在舊的界面上，舊的界面不消失的一種轉場方式。表1 模態(tài)轉場接口接口說明使用場景 bindContentCover 彈出全屏的模態(tài)組件。用于自定義全屏的

發(fā)表于 04-28 14:47

未來已來，多傳感器融合感知是自動駕駛破局的關鍵

數(shù)據(jù)，與現(xiàn)有主流AI計算平臺完全兼容，它可以復用已有的圖像數(shù)據(jù)樣本，免除了產品的神經網絡訓練數(shù)據(jù)需要完全重新采集的困擾。 “多維像素”數(shù)據(jù)組

發(fā)表于 04-11 10:26

測量系統(tǒng)新秀：全自動影像測量儀（閃測儀）IMAGE 3 Pro-H

全自動影像測量儀（閃測儀）IMAGE 3系列的多樣型號提供了不同的測量優(yōu)勢，可以根據(jù)具體的測量需求和產品特點選擇合適的測量儀型號。

發(fā)表于 02-20 14:42 ?799次閱讀