1.介紹
讓機(jī)器能以人類智能相似的方式作出反應(yīng)一直是人工智能研究人員的目標(biāo)。為了讓機(jī)器能聽會說、能看會認(rèn)、能理解會思考, 研究者提出一系列相關(guān)任務(wù),如人臉識別、語音合成、閱讀理解等來訓(xùn)練及評價機(jī)器在某一方面的智能程度。具體來說是,領(lǐng)域?qū)<胰斯?gòu)造標(biāo)準(zhǔn)數(shù)據(jù)集,然后在其上訓(xùn)練及評價相關(guān)模型及方法。但由于相關(guān)技術(shù)的限制,要想獲得效果更好、能力更強(qiáng)的模型,往往需要在大量的有標(biāo)注的數(shù)據(jù)上進(jìn)行訓(xùn)練。
近期預(yù)訓(xùn)練模型的出現(xiàn)在一定程度上緩解了這個問題。預(yù)訓(xùn)練模型的解決思路是,既然昂貴的人工標(biāo)注難以獲得,那么就去尋找廉價或者說幾乎無代價的標(biāo)注信息。先利用廉價的標(biāo)注信息預(yù)訓(xùn)練模型再使用少量的昂貴的人工標(biāo)注對模型進(jìn)行微調(diào)。但是由于廉價的標(biāo)注信息帶來的信息比較少又含有噪音,往往需要超大規(guī)模的數(shù)據(jù)以及超長的訓(xùn)練時間對模型進(jìn)行預(yù)訓(xùn)練。
目前來看這種代價是值得的,文本預(yù)訓(xùn)練模型BERT一出世就在多項(xiàng)NLP任務(wù)上取得最好的結(jié)果。受此影響,語音領(lǐng)域預(yù)訓(xùn)練模型也如雨后春筍般出現(xiàn),如 MOCKINGJAY等。預(yù)訓(xùn)練模型通過在大規(guī)模無標(biāo)注數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,一方面可以將從無標(biāo)注數(shù)據(jù)上更加通用的知識遷移到目標(biāo)任務(wù)上,進(jìn)而提升任務(wù)性能;另一方面,通過預(yù)訓(xùn)練過程學(xué)習(xí)到更好的參數(shù)初始點(diǎn)使得模型在目標(biāo)任務(wù)上只需少量數(shù)據(jù)就能達(dá)到不錯的效果。
那么能否將預(yù)訓(xùn)練方法應(yīng)用到多模態(tài)任務(wù)上呢?能否通過挖掘不同模態(tài)數(shù)據(jù)之間關(guān)系設(shè)計(jì)預(yù)訓(xùn)練任務(wù)訓(xùn)練模型呢?能否通過大規(guī)模的無標(biāo)注樣本讓模型理解懂得不同模態(tài)數(shù)據(jù)之間的關(guān)聯(lián)呢(如:文字的“馬”與圖片中的“馬”)?研究人員也抱著同樣的問題展開了探索,并取得了一定成果。本文梳理了目前多模態(tài)預(yù)訓(xùn)練領(lǐng)域相關(guān)方法,并總結(jié)了各個方法所設(shè)計(jì)的預(yù)訓(xùn)練任務(wù)及驗(yàn)證實(shí)驗(yàn)所使用的下游任務(wù),希望對讀者能有所幫助。
2.多模態(tài)預(yù)訓(xùn)練模型概覽
我們期望多模態(tài)預(yù)訓(xùn)練模型能夠通過大規(guī)模數(shù)據(jù)上的預(yù)訓(xùn)練學(xué)到不同模態(tài)之間的語義對應(yīng)關(guān)系。在圖像-文本中,我們期望模型能夠?qū)W會將文本中的“狗”和圖片中“狗”的樣子聯(lián)系起來。在視頻-文本中,我們期望模型能夠?qū)⑽谋局械奈矬w/動作與視頻中的物體/動作對應(yīng)起來。為實(shí)現(xiàn)這個目標(biāo),需要巧妙地設(shè)計(jì)預(yù)訓(xùn)練模型來讓模型挖掘不同模態(tài)之間的關(guān)聯(lián)。本文將側(cè)重介紹“如何設(shè)計(jì)預(yù)訓(xùn)練任務(wù)”并通過表格來統(tǒng)計(jì)各個模型設(shè)計(jì)任務(wù)的異同。需要說明的是,為了方便對比我們統(tǒng)一了不同論文對相似任務(wù)的稱呼。
本文將目前多模態(tài)預(yù)訓(xùn)練模型分為兩大類,圖像-文本預(yù)訓(xùn)練模型(第3章)及視頻-文本預(yù)訓(xùn)練模型(第4章)。對于兩大類預(yù)訓(xùn)練模型,我們進(jìn)一步將其分為Single-Stream 和Cross-Stream兩類,Single-Stream將圖片、文本等不同模態(tài)的輸入一視同仁,輸入同一個模型進(jìn)行融合,而Cross-Stream將不同模態(tài)的輸入分別處理之后進(jìn)行交叉融合。在第3章和第4章的最后,會用表格列出各個模型所使用的預(yù)訓(xùn)練任務(wù)。在第5章會對目前的預(yù)訓(xùn)練模型的方法進(jìn)行總結(jié)。
3. 圖像-文本多模態(tài)預(yù)訓(xùn)練模型
3.1 Cross-Stream
3.1.1 ViLBERT[1]
模型細(xì)節(jié)
輸入的文本經(jīng)過文本Embedding層后被輸入到文本的單模態(tài)Transformer編碼器中提取上下文信息。使用預(yù)訓(xùn)練Faster R-CNN對于圖片生成候選區(qū)域提取特征并送入圖像Embedding層生成Embedding。然后將獲取好的文本和圖像的Embedding通過Co-attention-transformer模塊進(jìn)行相互交互融合,得到最后的表征。
ViLBERT模型圖如圖1所示,Co-attention-transformer模塊如圖2所示。
預(yù)訓(xùn)練任務(wù)
掩蔽文本預(yù)測(masked multi-modal modelling) 與BERT的設(shè)計(jì)思路一樣,根據(jù)概率隨機(jī)替換掉文本中部分詞,使用[MASK]占位符替代,需要模型通過文本中上下文,以及對應(yīng)圖片中給出的信息,預(yù)測出被替換的詞。
掩蔽圖像預(yù)測(masked multi-modal modelling) 通過掩蔽經(jīng)過Faster R-CNN提取到的預(yù)候選區(qū)域,使模型通過對應(yīng)文本以及其他區(qū)域的圖像預(yù)測出被遮掩區(qū)域的類別。
圖片-文本對齊(multi-modal alignment) 給定構(gòu)造好的圖文關(guān)系對,讓模型來判斷文本是否是對應(yīng)圖片的描述,具體是使用《IMG》以及《CLS》表示來判斷文本是否是對于圖像的描述。
下游任務(wù)
作者將該模型應(yīng)用到視覺問答(Visual Question Answering)、視覺常識推理(Visual Commonsense Reasoning)、指示表達(dá)定位(Grounding Referring Expressions)、圖像檢索(Caption-Based Image Retrieval)等下游任務(wù)上,并且取得了較好的結(jié)果。
3.1.2 LXMERT[2]
模型細(xì)節(jié)
類似于ViLBERT,對于文本和圖像經(jīng)過Embedding層之后被送入各自的單模態(tài)編碼器,然后通過跨模態(tài)編碼器進(jìn)行融合。
預(yù)訓(xùn)練任務(wù)
掩蔽文本預(yù)測(Masked Cross-Modality LM) 該任務(wù)的設(shè)置與BERT的MLM任務(wù)設(shè)置一致。作者認(rèn)為除了從語言模態(tài)中的非模態(tài)詞中預(yù)測被掩蔽詞外,LXMERT還可利用其跨模態(tài)模型架構(gòu),從視覺模態(tài)中預(yù)測被掩蔽詞,從而解決歧義問題,所以將任務(wù)命名為Masked Cross-Modality LM以強(qiáng)調(diào)這種差異。
掩蔽圖像類別預(yù)測(Detected-Label Classification)該任務(wù)要求模型根據(jù)圖像線索以及對應(yīng)文本線索預(yù)測出直接預(yù)測被遮蔽ROI的目標(biāo)類別。
掩碼圖像特征回歸(RoI-Feature Regression)不同于類別預(yù)測,該任務(wù)以L2損失回歸預(yù)測目標(biāo)ROI特征向量。
圖片-文本對齊(Cross-Modality Matching) 通過50%的概率替換圖片對應(yīng)的文本描述,使模型判斷圖片和文本描述是否是一致的。
圖像問答(Image Question Answering) 作者使用了有關(guān)圖像問答的任務(wù),訓(xùn)練數(shù)據(jù)是關(guān)于圖像的文本問題。當(dāng)圖像和文本問題匹配時,要求模型預(yù)測這些圖像有關(guān)的文本問題的答案。
作者將該模型在多個下游任務(wù)上進(jìn)行了測試,分別在視覺問答任務(wù)(Visual Question Answering)、面向現(xiàn)實(shí)世界視覺推理(Visual Reasoning in the Real World)等取得了很好的效果。
3.1.3 ERNIE-ViL[3]
模型細(xì)節(jié)
模型結(jié)構(gòu)采用雙流架構(gòu),對于圖像和文本分別使用單模編碼器進(jìn)行編碼然后使用跨模態(tài)Transformer實(shí)現(xiàn)兩個模態(tài)的信息交融。值得一提的是該模型引入了場景圖信息,通過將場景圖知識融入多模態(tài)預(yù)訓(xùn)練中,使得模型更能精準(zhǔn)把握圖像和文本之間細(xì)粒度的對齊信息。模型圖如圖5所示。
模型在預(yù)訓(xùn)練任務(wù)中融入了場景圖(如圖6所示)的信息。場景圖中有目標(biāo)(objects)、屬性(attributes)、關(guān)系(relationships)三種類別。
預(yù)訓(xùn)練任務(wù)
場景圖預(yù)測(Scene Graph Prediction)根據(jù)給定的一段文本解析出場景圖結(jié)構(gòu),然后根據(jù)解析出的場景圖設(shè)計(jì)了三個子任務(wù),分別是目標(biāo)預(yù)測(object prediction)、屬性預(yù)測(attribute prediction)、關(guān)系預(yù)測(relationship prediction),通過掩蔽圖像和文本中場景圖解析出來的目標(biāo)、屬性以及關(guān)系,使用模型進(jìn)行預(yù)測,以讓模型學(xué)習(xí)到跨模態(tài)之間的細(xì)粒度語義對齊信息。
同時模型還使用了傳統(tǒng)的預(yù)訓(xùn)練任務(wù),分別是掩蔽文本預(yù)測(Masked Cross-Modality LM)、掩蔽圖像類別預(yù)測(Detected-Label Classification),以及圖片-文本對齊(Cross-Modality Matching)。
下游任務(wù)
作者在下游多個任務(wù)上進(jìn)行檢測都取得了比較大的提升,具體有視覺常識推理(Visual Commonsense Reasoning)、視覺問答(Visual Question Answering)、圖像檢索(Image Retrieval)、文本檢索(Text Retrieval)、指示表達(dá)定位(Grounding Referring Expressions)。
3.2 Single-Stream
3.2.1 VL-BERT[4]
模型細(xì)節(jié)
模型架構(gòu)與BERT相似,如圖7所示。整個模型的輸入有四部分embedding。
Token embedding層:對于文本內(nèi)容使用原始BERT的設(shè)定,但是添加了一個特殊符[IMG]作為圖像的token。
Visual feature embedding層:這層是為了嵌入視覺信息新添加的層。該層由視覺外部特征以及視覺幾何特征拼接而成,具體而言,對于非視覺部分的輸入是整個圖像的提取到的特征,對應(yīng)于視覺部分的輸入即為圖像經(jīng)過預(yù)訓(xùn)練之后的Faster R-CNN提取到的ROI區(qū)域圖像的相應(yīng)視覺特征。
Segment embedding層:模型定義了A、B、C三種類型的標(biāo)記,為了指示輸入來自于不同的來源,A、B指示來自于文本,分別指示輸入的第一個句子和第二個句子,更進(jìn)一步的,可以用于指示QA任務(wù)中的問題和答案;C指示來自于圖像。
Position embedding層:與BERT類似,對于文本添加一個可學(xué)習(xí)的序列位置特征來表示輸入文本的順序和相對位置。對于圖像,由于圖像沒有相對的位置概念,所以圖像的ROI特征的位置特征都是相同的。
作者在視覺-語言數(shù)據(jù)集以及純語言數(shù)據(jù)集上都進(jìn)行了大規(guī)模的預(yù)訓(xùn)練,使用概念標(biāo)題數(shù)據(jù)庫(Conceptual Captions)數(shù)據(jù)集作為視覺-語言語料庫,該數(shù)據(jù)集包含了大約330萬張帶有標(biāo)題注釋的圖片,圖片來自于互聯(lián)網(wǎng)。但是這個數(shù)據(jù)集存在一個問題就是圖像對應(yīng)的標(biāo)題是簡短的句子,這些句子很短并且很簡單,為了避免模型只關(guān)注于簡單子句,作者還使用了BooksCorpus和英語維基百科數(shù)據(jù)集進(jìn)行純文本的訓(xùn)練。
預(yù)訓(xùn)練任務(wù)
掩蔽文本預(yù)測(Masked Language Model with visual Clues) 此任務(wù)與BERT中使用的Masked Language Modeling(MLM)任務(wù)非常相似。關(guān)鍵區(qū)別在于,在VL-BERT中包含了視覺線索,以捕獲視覺和語言內(nèi)容之間的依存關(guān)系。
掩蔽圖像類別預(yù)測(Masked RoI Classification with Linguistic Clues) 類似于掩蔽文本預(yù)測,每個RoI圖像以15%的概率被隨機(jī)掩蔽,訓(xùn)練的任務(wù)是根據(jù)其他線索預(yù)測被掩藏的RoI的類別標(biāo)簽。值得一提的是為了避免由于其他元素的視覺特征的嵌入導(dǎo)致視覺線索的泄漏,在使用Faster R-CNN之前,需要先將被Mask的目標(biāo)區(qū)域的像素置零。
下游任務(wù)
作者將模型應(yīng)用于視覺常識推理(Visual Commonsense Reasoning)、視覺問答(Visual Question Answering)、引用表達(dá)式理解(Referring Expression Comprehension)任務(wù),并且都取得了顯著的效果。
3.2.2 Image-BERT[5]
模型細(xì)節(jié)
圖8 Image-BERT模型圖
ImageBERT在圖像Embedding層添加了圖像位置編碼,即將通過Faster R-CNN得到的物體對應(yīng)的ROI區(qū)域相對于全局圖的位置信息,編碼為五維向量,作為位置編碼添加進(jìn)圖像的特征表示中。
預(yù)訓(xùn)練任務(wù)
掩蔽文本預(yù)測(Masked Language Modeling) 此任務(wù)與BERT中使用的Masked Language Modeling(MLM)任務(wù)設(shè)定基本一致。
掩蔽圖像類別預(yù)測(Masked Object Classification) 此任務(wù)是MLM任務(wù)的擴(kuò)展。與語言建模類似,通過對視覺對象進(jìn)行掩蔽建模,期望模型預(yù)測出被掩蔽的圖像token的類別。
掩蔽圖像特征回歸(Masked Region Feature Regression) 該任務(wù)旨在預(yù)測被掩蔽的視覺對象的嵌入特征。通過在相應(yīng)位置的輸出特征向量后添加一個全連接層,以將其投影到與原始RoI對象特征相同的維度上,然后應(yīng)用L2損失來進(jìn)行回歸。
圖片-文本對齊(Image-Text Matching) 除了語言建模任務(wù)和視覺內(nèi)容建模任務(wù)之外,作者還添加了圖片-文本對齊任務(wù)以學(xué)習(xí)圖像-文本對齊。對于每個訓(xùn)練樣本,對每個圖像隨機(jī)抽取負(fù)例句子,對每個句子隨機(jī)抽取負(fù)例圖像以生成負(fù)例訓(xùn)練數(shù)據(jù),讓模型判斷給定的圖像文本對是否對應(yīng)。
下游任務(wù)
作者在MSCOCO以及Filcker30k數(shù)據(jù)上分別測試模型在圖像檢索(Image Retrieval)以及文本檢索(Sentence Retrieval)任務(wù)上的性能,取得了一定的提升。
表1 圖像-文本預(yù)訓(xùn)練模型概覽表
4. 視頻文本多模態(tài)預(yù)訓(xùn)練
4.1 Cross-Stream
4.1.1 UniVL[6]
模型細(xì)節(jié)
該模型先使用單模態(tài)編碼器對文本與視頻數(shù)據(jù)進(jìn)行單獨(dú)建模,再使用跨模態(tài)編碼器對兩個模態(tài)的表示進(jìn)行聯(lián)合編碼。
預(yù)訓(xùn)練任務(wù)
視頻-文本單模態(tài)表示空間對齊(video-text joint) 為了利用BERT來幫助模型獲得更好的視頻表示,作者設(shè)計(jì)了視頻-文本單模態(tài)表示空間對齊任務(wù)。該任務(wù)具體是,構(gòu)造正例對(視頻與對應(yīng)/相近的文本)和負(fù)例對(視頻與不相關(guān)的文本),希望正例對中的視頻表示與文本表示更接近而負(fù)例對中的更遠(yuǎn)。其中,視頻表示由視頻單模態(tài)編碼器得出,文本表示由文本單模態(tài)編碼器得出。
條件掩蔽文本預(yù)測(conditioned masked language model) 與BERT的設(shè)計(jì)思路類似,作者設(shè)計(jì)條件掩蔽文本預(yù)測任務(wù)來訓(xùn)練模型。文本中的詞被隨機(jī)替換成占位符[MASK],然后替換后的文本與視頻進(jìn)行聯(lián)合表示后,預(yù)測替換前的詞。
掩蔽幀預(yù)測(conditioned masked frame model) 輸入的視頻幀被隨機(jī)替換成占位符號,然后使用模型來預(yù)測被替換的視頻幀。由于直接預(yù)測原始的RGB視頻幀非常困難,因此作者使用對比學(xué)習(xí)的方法,希望原始視頻幀與模型相應(yīng)位置得到的表示相關(guān)性更高。
視頻-文本對齊(video-text alignment) 視頻與相應(yīng)的文本之間對齊標(biāo)簽為1,而與其他文本對應(yīng)的標(biāo)簽為0。使用這個對齊信息作為監(jiān)督信號訓(xùn)練模型。
文本重構(gòu)(language reconstruction) 為了使得模型能夠應(yīng)用到下游任務(wù)-視頻描述生成上,作者設(shè)計(jì)了文本重構(gòu)任務(wù)。具體采用了一個自回歸解碼器,其輸入為處理后的文本和視頻幀,輸出是原始的文本。
下游任務(wù)
作者在視頻檢索(Text-based Video Retrieval)、視頻描述生成(Multimodal Video Captioning)、行為分割(Action Segmentation)、動作定位(Action step localization),以及多模態(tài)情感分類(Multimodal Sentiment Analysis)等下游任務(wù)上進(jìn)行了實(shí)驗(yàn),驗(yàn)證了模型的有效性。
4.1.2 ActBERT[7]
模型細(xì)節(jié)
與之前不同的是本工作考慮了視頻中更細(xì)粒度的信息——物體信息,引入掩蔽物體預(yù)測任務(wù),使得模型更細(xì)粒度地捕捉圖像信息。工作框圖如下。
圖10 ActBERT 模型圖
為了使得模型能夠充分利用文本信息、視頻中時序信息,以及視頻中物體信息,該工作提出了Tangled Transformer模型,模型圖如下。a-transformer模塊對動作特征進(jìn)行建模,r-transformer模塊對物體對象特征進(jìn)行建模,w-transformer模塊對文本特征進(jìn)行建模。三者之間的信息通過跨模態(tài)的多頭注意力機(jī)制進(jìn)行交互。
圖11 Tangled Transformer模型
預(yù)訓(xùn)練任務(wù)
掩蔽文本預(yù)測(Masked Language Modeling with Global and Local Visual Cues)該任務(wù)設(shè)計(jì)與BERT一致,掩蔽部分詞,然后將文本與動作特征以及物體特征送入模型中進(jìn)行聯(lián)合建模,最后使用相應(yīng)位置的輸出向量預(yù)測被掩蔽的詞。
掩蔽動作預(yù)測(Masked Action Classification) 隨機(jī)將輸入的動作表示向量進(jìn)行掩蔽,然后強(qiáng)迫模型通過其他信息如文本信息和物體信息來預(yù)測出動作的標(biāo)簽如add等。
掩蔽物體預(yù)測(Masked Object Classification) 隨機(jī)將物體特征向量進(jìn)行掩蔽,然后讓模型預(yù)測出該位置上物體的分布概率。希望預(yù)測出來的概率與Faster R-CNN對該區(qū)域的預(yù)測概率相近。
視頻-文本對齊(Cross-modal matching) 使用[CLS]的表示去預(yù)測文本與視頻是否匹配,負(fù)例是通過隨機(jī)從其他數(shù)據(jù)中進(jìn)行采樣得到。
下游任務(wù)
作者將該模型應(yīng)用到視頻檢索(Text-video clip retrieval)、視頻描述生成(Video Captioning)、行為分割(Action Segmentation)、視頻問答(Video question answering)、動作定位(Action step localization)等下游任務(wù)上。
4.2 Single-Stream
4.2.1 VideoBERT[8]
模型細(xì)節(jié)
該工作使用Transformer對文本和視頻統(tǒng)一進(jìn)行建模。
圖12 VideoBERT 模型圖
預(yù)訓(xùn)練任務(wù)
掩蔽文本預(yù)測(text-only mask-completion) 與BERT的設(shè)計(jì)思路一樣,文本中的詞被隨機(jī)替換成占位符[MASK],然后替換后的文本與視頻進(jìn)行聯(lián)合表示后,預(yù)測替換前的詞。
掩蔽視頻預(yù)測(video-only mask-completion) 為了使得模型適配于BERT架構(gòu),作者建立“視覺詞表”將輸入視頻量化。具體是,將所有視頻切成片段,使用S3D模型對片段進(jìn)行表示。然后使用聚類算法對表示進(jìn)行聚類,共得到20736個聚類中心,這樣每個視頻片段就可以由聚類中心來表示,即可將視頻片段用離散的聚類中心編號進(jìn)行表示。輸入的“視覺詞”被隨機(jī)替換成占位符號,然后使用模型來預(yù)測被替換的“視覺詞”。
視頻-文本對齊(linguistic-visual alignment) 使用[CLS]表示預(yù)測視頻和文本是否在時序上對齊。
下游任務(wù)
作者在動作識別、視頻描述生成等下游任務(wù)上進(jìn)行了實(shí)驗(yàn)。此外,該模型還可以用于給定文本生成視頻以及給定視頻上文生成視頻下文等任務(wù)。
4.2.2 HERO[9]
模型細(xì)節(jié)
該篇工作為了捕捉視頻的時序信息以及文本與視頻的對應(yīng)信息設(shè)計(jì)了兩個新的預(yù)訓(xùn)練任務(wù), 視頻字幕對齊(Video Subtitle Matching)以及視頻幀順序建模(Frame Order Modeling)。整體工作框架如下。(注:每個句子的文本以及對應(yīng)的視頻幀通過Cross-Modal Transformer得到經(jīng)過交互后的表示(棕色為文本表示),然后將獲得的視頻幀的表示送入到后續(xù)模塊中。)
圖13 HERO 模型圖
預(yù)訓(xùn)練任務(wù)
掩蔽文本預(yù)測(Masked Language Modeling) 該任務(wù)設(shè)計(jì)與BERT一致,掩蔽部分詞,然后將文本與視頻幀特征送入模型中進(jìn)行聯(lián)合建模,最后使用相應(yīng)位置的輸入向量預(yù)測被掩蔽的詞。
掩蔽幀預(yù)測(Masked Frame Modeling) 該任務(wù)設(shè)計(jì)與BERT類似,掩蔽部分幀向量,然后將文本與視頻幀特征送入模型中進(jìn)行聯(lián)合建模,最后使用相應(yīng)位置的輸出向量預(yù)測被掩蔽的幀。實(shí)現(xiàn)幀的預(yù)測可使用兩種方式,一種是預(yù)測出幀向量,然后與標(biāo)準(zhǔn)幀向量計(jì)算損失。第二種是使用對比學(xué)習(xí)的方法,被掩蔽位置對應(yīng)的輸出向量應(yīng)與被掩蔽的幀向量更為相關(guān)。
視頻字幕對齊(Video Subtitle Matching) 作者為了更好的建模視頻與文本,提出了視頻字幕對齊(Video Subtitle Matching)任務(wù)。該任務(wù)包含兩個任務(wù)目標(biāo),第一個是從一個完整視頻對應(yīng)的字幕中隨機(jī)采樣出一個句子,希望模型能夠找出該句子在視頻中對應(yīng)的起始位置。第二個是從一個完整視頻對應(yīng)的字幕中隨機(jī)采樣出一個句子,希望該句子與該視頻之間相關(guān)性更強(qiáng)而與其他視頻相關(guān)性更弱。
視頻幀順序建模(Frame Order Modeling) 為了更好的建模視頻的時序性,隨機(jī)打亂部分輸入幀的順序,然后利用模型預(yù)測出來每一幀對應(yīng)的實(shí)際位置。具體實(shí)踐時將其建模成一個分類任務(wù),類別數(shù)為輸入長度為N。
下游任務(wù)
作者在視頻檢索(video-subtitle moment retrieval)、視頻問答(Video question answering),以及視頻文本推理(video-and-language inference)等下游任務(wù)上驗(yàn)證了模型的有效性。
表2 視頻-文本預(yù)訓(xùn)練模型概覽表
5. 總結(jié)
本文簡單梳理了多模態(tài)圖像-文本預(yù)訓(xùn)練模型以及多模態(tài)視頻-文本預(yù)訓(xùn)練模型,簡單介紹了相關(guān)預(yù)訓(xùn)練模型架構(gòu),設(shè)計(jì)的預(yù)訓(xùn)練任務(wù),以及衡量模型性能的下游任務(wù)。
通過對多模態(tài)預(yù)訓(xùn)練任務(wù)的梳理,我們可以發(fā)現(xiàn),現(xiàn)有預(yù)訓(xùn)練任務(wù)主要有兩大類,一類是主要針對單個模態(tài)數(shù)據(jù)設(shè)計(jì)的,如掩蔽文本預(yù)測、掩蔽圖像預(yù)測、掩蔽幀預(yù)測。其中掩蔽文本預(yù)測仍然沿用BERT的設(shè)計(jì),掩蔽圖像預(yù)測和掩蔽幀預(yù)測一般都不會直接預(yù)測原始的物體對象/幀圖像,而是預(yù)測特征。由于視頻具有時序性,有些模型還設(shè)計(jì)了視頻幀順序建模任務(wù)。
該類任務(wù)可以使用多模態(tài)數(shù)據(jù),也可只使用單模態(tài)數(shù)據(jù)進(jìn)行訓(xùn)練。使用多模態(tài)數(shù)據(jù)時,模型預(yù)測時不僅可以使用該模態(tài)內(nèi)部的信息,還可以使用其他模態(tài)的信息。第二類主要是針對多模態(tài)數(shù)據(jù)而設(shè)計(jì)的。該類任務(wù)通過挖掘不同模態(tài)數(shù)據(jù)中的對應(yīng)關(guān)系,設(shè)計(jì)預(yù)訓(xùn)練目標(biāo),如視頻-文本對齊、圖片-文本對齊等。對于視頻,還有研究者提出視頻字幕對齊任務(wù),來讓模型捕捉兩模態(tài)信息之間的關(guān)聯(lián)。
目前的多模態(tài)預(yù)訓(xùn)練模型相關(guān)工作已經(jīng)取得了一定的進(jìn)展,在多個下游任務(wù)上有了不俗的表現(xiàn)。未來的工作可能從以下幾個方向取得進(jìn)一步的進(jìn)展,第一是單模態(tài)下游任務(wù)上能否取得提升?,F(xiàn)在大部分多模態(tài)預(yù)訓(xùn)練模型都是在多模態(tài)的下游任務(wù)上進(jìn)行測試,少有工作在單模態(tài)任務(wù)如自然語言處理任務(wù)與單模態(tài)預(yù)訓(xùn)練模型如RoBERTa進(jìn)行全面的比較。
如果認(rèn)為模型在多模態(tài)數(shù)據(jù)上通過預(yù)訓(xùn)練能夠更加充分的理解語義,那么直覺上看多模態(tài)預(yù)訓(xùn)練模型與單模態(tài)模型在相近的實(shí)驗(yàn)設(shè)置下(如語料規(guī)模相似)應(yīng)當(dāng)取得更好的成績。第二是更精細(xì)的挖掘不同模態(tài)數(shù)據(jù)間的相關(guān)信息并設(shè)計(jì)更巧妙的預(yù)訓(xùn)練任務(wù)。比如挖掘圖像-文本之間,名詞與物體對象之間的相關(guān)性,使得模型建立詞語與物體對象之間的相關(guān)性。第三是設(shè)計(jì)更高效的模型架構(gòu)以及挖掘更大規(guī)模的高質(zhì)量多模態(tài)數(shù)據(jù)。
責(zé)任編輯:haq
-
圖像
+關(guān)注
關(guān)注
2文章
1085瀏覽量
40490 -
模型
+關(guān)注
關(guān)注
1文章
3254瀏覽量
48881 -
文本
+關(guān)注
關(guān)注
0文章
118瀏覽量
17090
原文標(biāo)題:多模態(tài)預(yù)訓(xùn)練模型簡述
文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論