大規(guī)模帶標(biāo)注的數(shù)據(jù)集的出現(xiàn)是深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域取得巨大成功的關(guān)鍵因素之一。然而,監(jiān)督式學(xué)習(xí)存在一個(gè)主要問(wèn)題:過(guò)于依賴大規(guī)模數(shù)據(jù)集,而數(shù)據(jù)集的收集和手動(dòng)數(shù)據(jù)標(biāo)注需要耗費(fèi)大量的人力成本。
作為替代方案,自監(jiān)督學(xué)習(xí)旨在通過(guò)設(shè)計(jì)輔助任務(wù)來(lái)學(xué)習(xí)可區(qū)別性的視覺(jué)特征,如此,目標(biāo)標(biāo)簽就能夠自由獲取。這些標(biāo)簽?zāi)軌蛑苯訌挠?xùn)練數(shù)據(jù)或圖像中獲得,并為計(jì)算機(jī)視覺(jué)模型的訓(xùn)練提供監(jiān)督信息,這與監(jiān)督式學(xué)習(xí)的原理是相同的。但是不同于監(jiān)督式學(xué)習(xí)的是,自監(jiān)督學(xué)習(xí)方法通過(guò)挖掘數(shù)據(jù)的性質(zhì),從中學(xué)習(xí)并生成視覺(jué)特征的語(yǔ)義標(biāo)簽信息。還有一類方法是弱監(jiān)督學(xué)習(xí),這種學(xué)習(xí)方式能夠利用低水平的注釋信息來(lái)解決更復(fù)雜的計(jì)算機(jī)視覺(jué)任務(wù),如利用自然場(chǎng)景下每張圖像的類別標(biāo)簽進(jìn)行目標(biāo)檢測(cè)任務(wù)。
我們的目標(biāo)是探索一種自監(jiān)督的解決方案,利用圖像和圖像之間的相關(guān)性來(lái)替代完全監(jiān)督式的 CNN訓(xùn)練。此外,我們還將探索非結(jié)構(gòu)化語(yǔ)言語(yǔ)義信息的強(qiáng)弱,并將其作為文本監(jiān)督信號(hào)來(lái)學(xué)習(xí)視覺(jué)特征。
我們擴(kuò)展了之前提出的方法并展示了以自監(jiān)督的方式進(jìn)行插圖文章的學(xué)習(xí),這能夠進(jìn)一步擴(kuò)展到更大的訓(xùn)練數(shù)據(jù)集(如整個(gè)英語(yǔ)維基百科)。
通過(guò)實(shí)驗(yàn),我們驗(yàn)證了 TextTopicNet的表現(xiàn)優(yōu)于其他基準(zhǔn)評(píng)估中的自監(jiān)督或自然監(jiān)督的方法。此外,我們還在更具挑戰(zhàn)性的 SUN397數(shù)據(jù)集上測(cè)試了我們的方法,結(jié)果表明 TextTopicNet能夠減少自監(jiān)督學(xué)習(xí)和監(jiān)督學(xué)習(xí)之間的性能差距。
我們展示了將上下文的文本表征用于模型的訓(xùn)練,這能夠有助于網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)多模態(tài)的語(yǔ)義檢索。在圖像——文本的檢索任務(wù)中,TextTopicNet的表現(xiàn)超過(guò)了無(wú)監(jiān)督學(xué)習(xí)的方法,而與監(jiān)督學(xué)習(xí)的方法相比,我們的方法能夠在無(wú)需任何特定類別信息的情況下還能表現(xiàn)出有競(jìng)爭(zhēng)力的性能。
在自監(jiān)督學(xué)習(xí)設(shè)置下,我們對(duì)不同的文本嵌入方法進(jìn)行了對(duì)比分析,如word2vec,GloVe,F(xiàn)astText,doc2vec等。
此外,我們還公開(kāi)發(fā)布了我們所收集的數(shù)據(jù)集,該數(shù)據(jù)集采自整個(gè)英語(yǔ)維基百科,由 420 萬(wàn)個(gè)圖像組成,每張圖像都有對(duì)應(yīng)的文字描述信息。
維基圖像——文本數(shù)據(jù)集
我們以維基百科作為數(shù)據(jù)的來(lái)源,這是一個(gè)基于網(wǎng)絡(luò)的多語(yǔ)言的百科全書項(xiàng)目,目前有 4000 多萬(wàn)篇文章,含 299 種不同語(yǔ)言。維基百科文章通常由文字及其他多媒體類型的對(duì)象(如圖像,音頻或視頻文件)組成,因此可以將其視為多模態(tài)的文檔數(shù)據(jù)。對(duì)于我們的實(shí)驗(yàn),我們使用兩個(gè)不同的維基百科文章集合:(a) ImageCLEF 2010維基百科數(shù)據(jù)集;(b)我們所收集的英語(yǔ)維基百科圖像——文本數(shù)據(jù)集,包含 420 萬(wàn)圖像文本對(duì)組成的數(shù)據(jù),下圖1展示了 11 種類別的文章分布情況。
圖1英語(yǔ)維基百科種11種類別的文章分布情況
TextTopicNet
我們提出了一種 TextTopicNet的方法,通過(guò)挖掘大規(guī)模多模態(tài)網(wǎng)絡(luò)文檔的大規(guī)模語(yǔ)料庫(kù)(如維基百科文章),以自監(jiān)督的方式來(lái)學(xué)習(xí)視覺(jué)特征。在自監(jiān)督學(xué)習(xí)設(shè)置下,TextTopicNet能夠使用免費(fèi)可用的非結(jié)構(gòu)化、多模態(tài)的內(nèi)容來(lái)學(xué)習(xí)可區(qū)別的視覺(jué)特征,并在給定圖像的下,通過(guò)訓(xùn)練 CNN來(lái)預(yù)測(cè)可能插圖的語(yǔ)義環(huán)境。我們的方法示意圖如下圖 2 所示,該方法采用一個(gè)文本嵌入算法來(lái)獲取文本部分的向量表征,然后將該表征作為 CNN視覺(jué)特征學(xué)習(xí)的一種監(jiān)督信號(hào)。我們進(jìn)一步使用多種類別的文檔以及詞級(jí)(word-level)的文本嵌入方法,發(fā)現(xiàn)通過(guò) LDA主題模型框架發(fā)現(xiàn)的隱藏語(yǔ)義結(jié)構(gòu),能夠在主題層面最佳地展現(xiàn)文本信息。
圖2 方法概覽。維基百科文章包含一個(gè)主題的文本描述,這些文章同時(shí)也附有支持文本的插圖。文本嵌入框架能夠與文本信息相關(guān)的全局上下文表征。而整篇文章的這種文本表征向量被用于為 CNN的訓(xùn)練提供自監(jiān)督信號(hào)
如圖 3 所示,作為主題層面的語(yǔ)義描述器,需要大量可用的關(guān)于特定類別或細(xì)粒度類別的視覺(jué)數(shù)據(jù)。雖然在我們收集的數(shù)據(jù)中,這類數(shù)據(jù)非常有限,但是這很容易在更廣泛的目標(biāo)類別(如哺乳動(dòng)物)中找到足夠多的、有代表性的圖像。因此,在給定的目標(biāo)主題情況下,我們的方法能夠?qū)W習(xí)到期望的視覺(jué)特征,這種特征是通用的,即同樣適用于其他特定的計(jì)算機(jī)視覺(jué)任務(wù)。
圖 3 描述特定實(shí)體的維基百科文章。如 (a) 中“羚羊”或 (b) 中的“馬”,每個(gè)實(shí)體通常包含五張圖像。對(duì)于一些特定實(shí)體,如 (c)中的“食草哺乳動(dòng)物”,相關(guān)的圖像很容易就達(dá)到數(shù)百或成千上萬(wàn)張。
我們還訓(xùn)練一個(gè) CNN模型,它能夠直接將圖像投影到文本的語(yǔ)義空間,而 TextTopicNet不僅能夠在無(wú)需任何標(biāo)注信息的情況下從頭開(kāi)始學(xué)習(xí)數(shù)據(jù)的視覺(jué)特征,還可以以自然的方式進(jìn)行多模態(tài)的檢索,而無(wú)需額外的注釋或?qū)W習(xí)成本。
實(shí)驗(yàn)
我們通過(guò)大量的實(shí)驗(yàn)來(lái)展示 TextTopicNet模型所學(xué)習(xí)到的視覺(jué)特征質(zhì)量。衡量的標(biāo)準(zhǔn)是所習(xí)得的視覺(jué)特征具有足夠好的可區(qū)別性和魯棒性,并能進(jìn)一步適用于那些未見(jiàn)過(guò)的類別數(shù)據(jù)。
首先,為了驗(yàn)證圖像—文本對(duì)的自監(jiān)督學(xué)習(xí),我們比較了各種文本嵌入方法。其次,我們?cè)?PASCAL VOC 2007 數(shù)據(jù)集的圖像分類任務(wù)中對(duì) TextTopicNet模型每層的特征進(jìn)行基準(zhǔn)分析,以找到了 LDA模型的最佳主題數(shù)量。然后,我們分別在 PASCAL、SUN397和 STL-10數(shù)據(jù)集的圖像分類和檢測(cè)任務(wù)中進(jìn)一步與當(dāng)前最佳的自監(jiān)督方法和無(wú)監(jiān)督方法進(jìn)行了比較。最后,我們利用維基百科檢索數(shù)據(jù)集對(duì)我們的方法進(jìn)行了圖像檢索和文本查詢實(shí)驗(yàn)。
自監(jiān)督視覺(jué)特征學(xué)習(xí)的文本嵌入算法比較
在自監(jiān)督視覺(jué)特征學(xué)習(xí)的設(shè)置下,我們對(duì) word2vec,GloVe,F(xiàn)astText,doc2vec及 LDA算法進(jìn)行了比較分析。對(duì)于每種文本嵌入方法,我們都將訓(xùn)練一個(gè) CNN模型并利用網(wǎng)絡(luò)不同層獲得的特征信息去學(xué)習(xí)一個(gè)一對(duì)多的SVM (one-vs-all SVM)。下表1顯示了在 PASCAL VOC2007數(shù)據(jù)集中,使用不同文本嵌入方法,模型所展現(xiàn)的分類性能。我們觀察到在自監(jiān)督的視覺(jué)特征學(xué)習(xí)任務(wù)中,基于嵌入的 LDA方法展現(xiàn)了最佳全局表現(xiàn)。
表1:使用不同文本嵌入方法的 TextTopicNet模型在 PASCAL VOC2007數(shù)據(jù)集圖像分類任務(wù)上的性能表現(xiàn)(%mAP)
LDA模型的超參數(shù)設(shè)置
我們用 ImageCLEF Wikipedia數(shù)據(jù)集上 35582 篇文章訓(xùn)練了一個(gè) LDA 模型,以確定 LDA模型的主題數(shù)量。下圖4展示了實(shí)驗(yàn)結(jié)果,我們可以看到擁有 40 個(gè)主題數(shù)的 LDA模型能夠獲得最佳的 SVM驗(yàn)證準(zhǔn)確性。
圖4隨著 LDA主題數(shù)量的變化,PASCAL VOC2007數(shù)據(jù)集上 One vs. Rest線性 SVM所取得的驗(yàn)證準(zhǔn)確性(%mAP)
圖像分類和圖像檢測(cè)
我們分別在 PASCAL、SUN397和 STL-10數(shù)據(jù)集進(jìn)行圖像分類和檢測(cè)任務(wù),比較并分析 TextTopicNet以及當(dāng)前最佳的自監(jiān)督和無(wú)監(jiān)督模型的表現(xiàn)。下表 2、3和4 分別展示各模型在 PASCAL VOC 2007、SUN397和 STL-10數(shù)據(jù)集上的分類表現(xiàn),表 5 展示了在 PASCAL VOC 2007數(shù)據(jù)集上模型的檢測(cè)性能。
表 2 PASCAL VOC2007數(shù)據(jù)集上各模型的分類表現(xiàn)(%mAP)
表 3 SUN397數(shù)據(jù)集上各模型的分類表現(xiàn)(%mAP)
表 4 STL-10數(shù)據(jù)集上各模型的分類表現(xiàn)(%mAP)
表 5 PASCAL VOC 2007數(shù)據(jù)集上各模型的檢測(cè)表現(xiàn)(%mAP)
圖像檢索和文本查詢
我們還在多模態(tài)檢索任務(wù)中評(píng)估所習(xí)得的自監(jiān)督視覺(jué)特征:(1)圖像查詢與文本數(shù)據(jù)庫(kù); (2)文本查詢與圖像數(shù)據(jù)庫(kù)。我們使用維基百科檢索數(shù)據(jù)集,由2,866 個(gè)圖像文檔對(duì)組成,包含 2173 和 693 對(duì)訓(xùn)練和測(cè)試數(shù)據(jù)。每個(gè)圖像--文本對(duì)數(shù)據(jù)都帶有其語(yǔ)義標(biāo)簽。下表 6 展示了監(jiān)督和無(wú)監(jiān)督學(xué)習(xí)方法在多模態(tài)檢索任務(wù)中的表現(xiàn),其中監(jiān)督學(xué)習(xí)的方法能夠利用與類別相關(guān)的每個(gè)圖像--文本對(duì)信息,而無(wú)監(jiān)督學(xué)習(xí)方法則不能。
表 8維基數(shù)據(jù)集上各監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)方法的表現(xiàn)(%mAP)
圖 4 顯示了與給定查詢圖像(最左側(cè))最接近的 4 張圖像,其中每行使用的是 TextTopicNet模型不同層次獲得的特征,從上到下:prob,fc7,fc6,pool5層。這些查詢圖像是從 PASCAL VOC 2007中隨機(jī)選擇的,且從未在訓(xùn)練時(shí)出現(xiàn)過(guò)。
圖4與查詢圖像(最左側(cè))最相近的4張圖像
圖 5顯示了在 TextTopicNet主題空間中,與給定查詢文本最接近的 12 個(gè)查詢內(nèi)容??梢钥吹剑瑢?duì)于第一條查詢文本(“飛機(jī)”),所檢索到的圖像列表幾乎是其相同的同義詞,如“flight”,“airway”或“aircraft”。利用文本的語(yǔ)義信息,我們的方法能夠?qū)W習(xí)多義詞的圖像表示。此外,TextTopicNet模型還能夠處理語(yǔ)義文本查詢,如檢索(“飛機(jī)”+ “戰(zhàn)斗機(jī)”或“飛行”+“天空”)等。
圖 5與不同文本查詢最接近的12個(gè)查詢內(nèi)容
結(jié)論
在本文中,我們提出了一種自監(jiān)督學(xué)習(xí)方法,用于學(xué)習(xí) LDA模型的文本主題空間。該方法 TextTopicNet能夠在無(wú)監(jiān)督設(shè)置下,利用多模態(tài)數(shù)據(jù)的優(yōu)勢(shì),學(xué)習(xí)并訓(xùn)練計(jì)算機(jī)視覺(jué)算法。將文章插圖中的文字視為噪聲圖像標(biāo)注信息,我們的方法能夠通過(guò)視覺(jué)特征的學(xué)習(xí),訓(xùn)練 CNN模型并預(yù)測(cè)在特定的上下文語(yǔ)義中最可能出現(xiàn)的插圖。
我們通過(guò)實(shí)驗(yàn)證明我們方法的有效性,并可以擴(kuò)展到更大、更多樣化的訓(xùn)練數(shù)據(jù)集。此外,TextTopicNet模型學(xué)到了視覺(jué)特征不僅適用于廣泛的主題,而且還能將其應(yīng)用到更具體、復(fù)雜的計(jì)算機(jī)視覺(jué)任務(wù),如圖像分類,物體檢測(cè)和多模態(tài)檢索。與現(xiàn)有的自監(jiān)督或無(wú)監(jiān)督方法相比,我們方法的表現(xiàn)更優(yōu)。
-
計(jì)算機(jī)
+關(guān)注
關(guān)注
19文章
7513瀏覽量
88173 -
視覺(jué)特征
+關(guān)注
關(guān)注
0文章
3瀏覽量
5380
原文標(biāo)題:CMU最新視覺(jué)特征自監(jiān)督學(xué)習(xí)模型——TextTopicNet
文章出處:【微信號(hào):AI_Thinker,微信公眾號(hào):人工智能頭條】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論