研究動(dòng)機(jī)
對(duì)齊不同模態(tài)的語義是多模態(tài)預(yù)訓(xùn)練(VLP)模型的一個(gè)重要能力。然而,VLP模型的內(nèi)部對(duì)齊機(jī)制是不可知的。許多研究已經(jīng)關(guān)注到這個(gè)問題,其中一個(gè)主流方法是通過精心設(shè)計(jì)的分類探針實(shí)驗(yàn)來探究模型的對(duì)齊能力[1, 2]。但是我們認(rèn)為簡(jiǎn)單的分類任務(wù)不能準(zhǔn)確地探究的這個(gè)問題:第一,這些分類任務(wù)仍然將VLP模型當(dāng)作黑盒子,只能從分類任務(wù)的指標(biāo)上分析模型在某一個(gè)方面的對(duì)齊效果;第二,很多分類任務(wù)只需要使用圖片-文本對(duì)中的部分信息就可以完成(例如一個(gè)區(qū)域,一個(gè)詞組或者兩者都使用)。
圖1:給出1張圖片與6個(gè)句子,測(cè)試不同的VLP模型會(huì)選擇哪個(gè)句子與圖片最匹配
為了進(jìn)一步說明這一點(diǎn),圖1展示了1張圖片和6個(gè)句子,其中句子(a)是對(duì)圖片的合理描述,(b)-(f)是不可讀的5個(gè)句子。令人驚訝的是,我們測(cè)試的5個(gè)預(yù)訓(xùn)練模型都沒有選擇合理的描述(a),這促使我們?nèi)ド钊胙芯縑LP模型會(huì)認(rèn)為哪一種句子是更符合圖片的,即從文本視角探究多模態(tài)預(yù)訓(xùn)練模型的語義對(duì)齊機(jī)制。
如果人工去生成圖1所示的不可讀的句子,然后再去測(cè)試VLP模型是否對(duì)其有偏好是非常困難的,本文則考慮利用自動(dòng)化的方式生成VLP模型偏好的句子。具體而言,我們可以把VLP模型認(rèn)為哪個(gè)句子更好(匹配分?jǐn)?shù)越大)作為一種反饋,來訓(xùn)練一個(gè)多模態(tài)生成模型,通過最大化匹配分?jǐn)?shù)來生成為圖片生成描述。通過這種方式,生成模型會(huì)放大VLP模型對(duì)句子的偏好并反映到生成的句子中。所以我們提出一個(gè)新的探針實(shí)驗(yàn):使用圖像描述(captioning)模型,通過分析生成的句子來探究VLP模型的多模態(tài)的語義對(duì)齊機(jī)制。
02
貢獻(xiàn)
1.我們提出了一個(gè)新的探針實(shí)驗(yàn):使用圖像描述模型,通過分析生成描述來探究VLP模型的多模態(tài)的語義對(duì)齊機(jī)制。
2.我們?cè)?個(gè)主流VLP模型上進(jìn)行了探針實(shí)驗(yàn),通過captioning模型生成的句子,分析了每一個(gè)VLP模型的語義對(duì)齊能力。
3.通過5個(gè)VLP模型反映出的對(duì)齊問題,總結(jié)了目前VLP模型存在的3個(gè)缺陷并進(jìn)行了驗(yàn)證。
03
探針實(shí)驗(yàn)與分析
我們選擇了5個(gè)主流的VLP模型,包括UNITER[3],ROSITA[4],ViLBERT[5],CLIP[6]以及LXMERT[7]。
我們使用COCO數(shù)據(jù)集作為我們探針實(shí)驗(yàn)數(shù)據(jù)集,使用FC model[8]作為實(shí)驗(yàn)的captioning模型。由于VLP的匹配分?jǐn)?shù)不能直接反饋到圖像描述模型,所以我們使用SCST[8]的方法來優(yōu)化。
經(jīng)過VLP模型匹配分?jǐn)?shù)的優(yōu)化后,captioning模型生成的句子可以獲得很高的匹配分?jǐn)?shù)(表1左邊所示),這說明VLP模型認(rèn)為這些句子與圖片更匹配了。直覺上,這些句子應(yīng)該更好地描述了圖像中的內(nèi)容,但是我們使用圖像描述指標(biāo)測(cè)試這些句子卻發(fā)現(xiàn),它們的指標(biāo)下降了非常多(表1右邊所示),這促使我們?nèi)z查一下生成的句子發(fā)生了哪些變化。
表1:生成句子在圖像描述指標(biāo)和VLP模型匹配分?jǐn)?shù)上的測(cè)試結(jié)果。CE表示使用cross-entropy作為loss訓(xùn)練的基礎(chǔ)模型。
圖2經(jīng)過不同VLP模型的匹配分?jǐn)?shù)優(yōu)化后生成的句子
圖2展示了經(jīng)過匹配分?jǐn)?shù)優(yōu)化后生成的的句子,我們可以發(fā)現(xiàn)幾乎所有的句子都已經(jīng)變得不可讀。我們從困惑度(perplexity),句子長(zhǎng)度,視覺詞的數(shù)量等角度對(duì)這些句子進(jìn)行定量分析,發(fā)現(xiàn)這些句子已經(jīng)與CE模型生成的句子有了非常大的變化(如表2所示)。不僅如此,我們還發(fā)現(xiàn)每一個(gè)VLP模型似乎都對(duì)某些固定的句式有偏好,如圖2中,被CLIP優(yōu)化的captioning模型,生成的句子的前綴帶(prefix)經(jīng)常含有與“a image of”相關(guān)的詞組。我們利用正則表達(dá)式,對(duì)這些句子的句式(pattern)進(jìn)行進(jìn)行總結(jié)(表3),可以發(fā)現(xiàn)每一個(gè)VLP模型都有自己偏好的句式。
表2生成句子的困惑度,長(zhǎng)度,視覺詞數(shù)量的統(tǒng)計(jì)信息
表3生成句子的句式統(tǒng)計(jì)
04
VLP模型的缺陷
通過上述對(duì)生成句子的定量分析,我們發(fā)現(xiàn)現(xiàn)在的預(yù)訓(xùn)練模型主要存在3個(gè)缺陷。為了驗(yàn)證這3個(gè)發(fā)現(xiàn),我們使用了COCO測(cè)試集中的5000張圖片。
(a)VLP模型在判斷一個(gè)圖片-句子對(duì)是否匹配的時(shí)候過于依賴圖片中的區(qū)域特征和句子中的視覺詞,而忽視了全局的語義信息是否對(duì)齊。
我們對(duì)CE生成的句子進(jìn)行兩種處理:替換視覺詞(Replacing visual words)和替換非視覺詞(Replacing other words)。從圖3中我們可以發(fā)現(xiàn)替換視覺詞會(huì)使得VLP模型的匹配分?jǐn)?shù)大幅下降,但是替換非視覺詞只會(huì)讓匹配分?jǐn)?shù)下降一點(diǎn)。需要注意的是,替換了非視覺詞后的句子是不可讀的,但是模型還是會(huì)認(rèn)為這些不可讀句子與圖片是匹配的。
圖3替換視覺詞與替換非視覺詞的匹配分?jǐn)?shù)與原始分?jǐn)?shù)的對(duì)比
(b)VLP模型會(huì)對(duì)偏好某些固定的句式,因此忽視了更重要的文本信息,如流暢度,語法等。
我們利用表3發(fā)現(xiàn)的句式,提取出CE句子的視覺詞,把視覺詞填補(bǔ)到這些句式中。我們僅僅是改變了句子的結(jié)構(gòu),就可以使得這些句子的匹配分?jǐn)?shù)大幅提高(表4所示)。
表4重構(gòu)后句子的匹配分?jǐn)?shù)
(c)VLP模型認(rèn)為包含更多視覺詞的句子更匹配圖片,這會(huì)弱化圖片中關(guān)鍵物體的作用。
我們把每張圖片的ground-truth中的視覺詞先提取出來,然后每次填充k (k=3,4,5,6,7)個(gè)到句式模版中。從圖4中可以看出,隨著視覺詞的增加,重構(gòu)句子的匹配分?jǐn)?shù)越來越高。
圖4含有k個(gè)視覺詞句子的匹配分?jǐn)?shù)
05
總結(jié)
在本文中,我們利用圖像描述模型提出一個(gè)新穎的探針方法。通過這個(gè)方法,我們從文本角度分析了VLP模型的語義對(duì)齊機(jī)制。我們發(fā)現(xiàn)現(xiàn)有的VLP模型在對(duì)齊方面有明顯的缺陷。我們希望這些發(fā)現(xiàn)可以促進(jìn)研究者設(shè)計(jì)更合理的模型結(jié)構(gòu)或預(yù)訓(xùn)練任務(wù)。同時(shí),研究者也可以使用我們的探針方法,分析其設(shè)計(jì)的VLP模型是否存在缺陷。
-
模型
+關(guān)注
關(guān)注
1文章
3243瀏覽量
48840 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1208瀏覽量
24701
原文標(biāo)題:EMNLP'22 Findings | 南大提出:從文本視角探究多模態(tài)預(yù)訓(xùn)練模型的語義對(duì)齊能力
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論