0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于實體和動作時空建模的視頻文本預(yù)訓(xùn)練

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 2023-05-25 11:29 ? 次閱讀

摘要

盡管常見的大規(guī)模視頻-文本預(yù)訓(xùn)練模型已經(jīng)在很多下游任務(wù)取得不錯的效果,現(xiàn)有的模型通常將視頻或者文本視為一個整體建??缒B(tài)的表示,顯示結(jié)合并建模細粒度信息的探索并不多,本文提出了STOA-VLP,一種時間和空間維度上同時建模動態(tài)的實體和動作信息的video-language預(yù)訓(xùn)練框架,以進一步增強跨模態(tài)的細粒度關(guān)聯(lián)性。

簡介

細粒度的信息對于理解視頻場景并建模跨模態(tài)關(guān)聯(lián)具有很重要的作用。如圖1-a中:基于視頻生成對應(yīng)的視頻描述,需要關(guān)注其中的人、狗兩個實體,隨著時間的推移,兩個實體之間的相對狀態(tài)和空間位置發(fā)生了變化,模型需要對動態(tài)的實體信息和實體之間的交互進行建模,才能正確地生成對應(yīng)的視頻描述。更進一步地,如圖1-b中:在同一個視頻片段當(dāng)中,視頻中的實體,如猴子和貓之間的不同交互產(chǎn)生了多個不同的動作狀態(tài),而問題就是針對相關(guān)聯(lián)的動作提出的,模型不但需要建模視頻片段中的多個動作,感知動作狀態(tài)的變化,還需要推理出動作狀態(tài)之間的關(guān)聯(lián)才能得到正確的答案。

0b1b197a-fa2a-11ed-90ce-dac502259ad0.png圖1:例子

在本文中,我們提出了一個視頻-文本預(yù)訓(xùn)練方法——STOA-VLP,通過顯式地建模時序相關(guān)的實體軌跡和多個時空動作特征來更好地應(yīng)對視頻中實體的動態(tài)變化和實體交互。此外,我們設(shè)計了兩個輔助預(yù)訓(xùn)練任務(wù):實體-文本對齊(object text alignment, OTA)任務(wù)和動作集合預(yù)測(Action Set Prediction, ASP)任務(wù)以在與訓(xùn)練階段利用文本特征輔助建模前述的實體軌跡和動作特征。

方法

0b284302-fa2a-11ed-90ce-dac502259ad0.png圖2:模型整體架構(gòu)

模型架構(gòu)

模型的整體架構(gòu)如圖2左側(cè)所示,模型整體結(jié)構(gòu)包括模態(tài)相關(guān)編碼器:視頻編碼器(Video Encoder)、文本編碼器(Text Encoder)、和一個模態(tài)無關(guān)編碼器(Modality-agnostic Fusion Encoder),文本和視頻分別經(jīng)過視頻和文本編碼器進行特征抽取。為了顯式地建模動態(tài)的實體軌跡和時空動作特征,我們引入了兩個新的特征編碼器:實體軌跡編碼器(Object Trajectory Encoder)和時空動作編碼器(Spatial-Temporal Action Encoder),我們從視頻幀中抽取實體的邊界框(bounding box)信息,其中的實體bounding box、分類信息用于與視頻特征結(jié)合生成對應(yīng)的實體有噪標(biāo)注,作為實體軌跡編碼器和時空動作編碼器的輸入。最終,四個模態(tài)相關(guān)的編碼器抽取的特征會同時進入模態(tài)無關(guān)編碼器進行信息融合交互。所有的編碼器都采用Transformer[1]結(jié)構(gòu)。我們利用視頻編碼器和文本編碼器分別得到對應(yīng)的視頻、文本特征和,其余各模塊的具體介紹如下:

實體軌跡編碼追蹤器:正如前文例子所示,如果模型不能很好地建模視頻幀之間實體的動態(tài)變化,在下游任務(wù)上可能無法獲得最好的效果。因此,我們通過建??缫曨l幀的有噪實體軌跡來解決這個問題:a. 使用離線的實體檢測模型(VinVL[2])分別對每一幀進行實體檢測。b. 每幀保留Top-K個不同的實體,并且留下其候選框和類別,通過RoIAlign方法[3] 得到top-K個實體的表征:,為視頻編碼器編碼的視頻特征的塊(patch)級別的表征。c. 通過求和不同幀的候選實體檢測分類置信分數(shù),選取top-N個實體類別用作視頻級需要建模軌跡的候選實體類別d. 我們將不同視頻幀抽取得到的實體特征拼接,并合并時間和實體維度,得到對應(yīng)的實體特征,針對步驟d中得到的Top-N實體類別,我們?yōu)槊總€類別構(gòu)造一個mask ,mask位置為1,代表中對應(yīng)位置的實體特征類別為。通過實體類別的mask和實體特征矩陣,我們能夠掩碼得到對應(yīng)實體在不同幀的特征合成的特征軌跡,稱之為實體軌跡序列。e. 對于每個視頻,我們最終能夠構(gòu)造得到N個實體軌跡序列,我們將其輸入實體軌跡編碼器,最終取位置的特征,得到實體軌跡特征。

時空動作編碼器:識別視頻片段中動作的關(guān)鍵是,識別場景中的實體,并建模實體在視頻場景中的移動和不同的交互。在此,我們顯式建模多個動作特征,以捕捉視頻片段中不同的動作信息。a. 我們假設(shè)視頻片段中包含有M個不同的動作,為了獲得每個動作的特征,我們構(gòu)造M個動作特征請求(query),。b. 我們使用前述通過視頻編碼器和實體檢測模型得到的視頻特征和對應(yīng)的實體表征,拼接得到包含場景和實體信息的視頻特征。c. 我們利用動作特征query,通過注意力機制獲得幀級別的動作特征線索:。d. 我們將每個動作特征序列輸入到時空動作編碼器當(dāng)中,來建模不同幀之間包含的時序線索,最后,我們得到的動作特征編碼。

模態(tài)無關(guān)交互編碼器:通過拼接上游四個步驟的特征:視頻表征、文本表征、實體軌跡特征、時空動作特征輸入對應(yīng)的編碼器進行進一步的交互,最后,我們?nèi)『臀恢玫妮敵鲎鳛橐曨l和文本的整體表征。

訓(xùn)練目標(biāo)

如圖2所示,STOA-VLP的預(yù)訓(xùn)練過程包含四類訓(xùn)練目標(biāo):視頻-文本對齊任務(wù)、條件語言建模任務(wù),以及我們提出的兩個輔助任務(wù)——動態(tài)實體-文本對齊(Dynamic Object-Text Alignment, OTA)和時空動作集合預(yù)測(Spatial-Temporal Action Set Prediction, ASP)。我們利用視覺-文本對比學(xué)習(xí)任務(wù)(Visual-Text Contrastive, VTC)和視覺-文本對齊任務(wù)(Visual-Text Maching)建模視頻-文本的粗粒度對齊。利用掩碼語言建模(MLM)和前綴語言建模(PLM)來增強模態(tài)無關(guān)編碼器的語言理解和生成能力。為了進一步提升實體軌跡追蹤編碼器的效果,建立細粒度的跨模態(tài)對齊表示,我們通過OTA任務(wù)對齊候選實體軌跡和文本中相關(guān)文本,以進一步提高通過視頻特征得到的實體軌跡和文本特征的相關(guān)性:

通過詞性標(biāo)注工具,抽取文本中的名詞用作對齊候選,并使用對應(yīng)的文本編碼器輸出對應(yīng)的名詞特征

使用軌跡追蹤編碼器輸出的軌跡特征和名詞特征的相似度為他們之間的關(guān)聯(lián)權(quán)重

最終使用匈牙利算法[4]得到二分圖的最大匹配,模型的目標(biāo)是盡力提高最大匹配的相似度0b6ff1f2-fa2a-11ed-90ce-dac502259ad0.png相比于利用抽取得到的特征直接預(yù)測有限的動作類別,我們在這里選擇了一種更彈性的方法——從匹配文本中的動詞集合中預(yù)測對應(yīng)于當(dāng)前動作特征的類別,以指導(dǎo)時空動作編碼器的學(xué)習(xí):

我們利用詞性標(biāo)注工具和文本編碼器得到對應(yīng)的動詞特征集合。

我們并不能直接標(biāo)注視頻中包含的動作類別,也無法知道編碼得到的動作特征和文本中包含動作的對應(yīng)關(guān)系,因此我們同樣在這里通過動作特征和文本動詞特征之間的相似度作為關(guān)聯(lián)權(quán)重,并將最大匹配視為當(dāng)前的ground truth匹配關(guān)系,并最大化最大匹配的相似度:0b75c8f2-fa2a-11ed-90ce-dac502259ad0.png通過優(yōu)化該目標(biāo),比我們編碼的動作特征和文本中的動詞特征距離將被拉近,動作編碼器能夠生成和文本特征更相關(guān)的特征。

實驗

實驗細節(jié)

我們在WebVid-2M[5]數(shù)據(jù)集上進行模型的預(yù)訓(xùn)練,WebVid-2M包含了250萬個從網(wǎng)絡(luò)中收集的視頻-文本對。我們利用CLIP-ViT-B/16[6]初始化我們的視頻編碼器,并用其頂層參數(shù)初始化實體軌跡編碼器和時空動作編碼器。文本編碼器和模態(tài)編碼器由CLIP文本編碼器的前6層初始化。實體軌跡編碼的數(shù)量為20,動作特征的個數(shù)為4。

下游任務(wù)

我們在三類常用的視頻-文本理解和生成任務(wù)上進行了實驗:視頻描述生成,文本-視頻檢索和視頻問答。

0b96da2e-fa2a-11ed-90ce-dac502259ad0.png表1:視頻描述生成的實驗結(jié)果

在使用更少的視頻-文本預(yù)訓(xùn)練數(shù)據(jù)的情況下,我們的模型在視頻描述生成上得到了更好的結(jié)果,在多數(shù)指標(biāo)上都超過了其他的模型。通過顯式地建?;谖谋拘畔R的實體軌跡和動作信息,模型能夠更好地利用其進行視頻描述生成。

0ba77776-fa2a-11ed-90ce-dac502259ad0.png表2:文本-視頻檢索的實驗結(jié)果

如表2所示,我們的模型在檢索任務(wù)上的所有指標(biāo)都超過了未基于CLIP初始化的模型,并且在大多數(shù)指標(biāo)上均超過了基于CLIP初始化的模型。

0be6b29c-fa2a-11ed-90ce-dac502259ad0.png表3:視頻問答的實驗結(jié)果

如表3所示,在視頻問答任務(wù)上,我們的模型僅使用了2.5M的預(yù)訓(xùn)練數(shù)據(jù),超越了MSVD-QA上的所有其他方法。與之前的SOTA,MSVD-QA的性能提高2.9%,MSR-VTT-MC的性能提高1.4%。我們推測,通過顯式地建模實體軌跡和動作,在問題和視覺特征之間建立了更好的對齊,并觀察和利用視頻中的細粒度信息來更好地回答文本問題。

消融實驗

0befbb4e-fa2a-11ed-90ce-dac502259ad0.png表4:不同模塊的消融實驗

我們進一步分析了我們引入的時空特征和輔助任務(wù)的影響,并在視頻描述生成和視頻問答兩個任務(wù)上驗證,這兩個任務(wù)在本質(zhì)上需要更細粒度的信息和對視頻場景時空信息的理解。Base模型刪除了所有時空建模模塊和輔助建模任務(wù)。與Base模型相比,僅僅引入基于時序的實體軌跡信息就可以為所有任務(wù)帶來改進。我們的OTA任務(wù)進一步構(gòu)建了實體軌跡和名詞之間的細粒度對齊,文本模態(tài)的指導(dǎo)進一步提升了模型在下游任務(wù)當(dāng)中的表現(xiàn)。我們還發(fā)現(xiàn),不引入輔助任務(wù)ASP的情況下,添加一個時空動作建模模塊引入時空動作token會使得下游任務(wù)的部分指標(biāo)更差。我們認為,這可能是因為視頻描述生成和視頻問答任務(wù)需要對視覺部分進行細粒度的語義理解,如果沒有ASP任務(wù)的指導(dǎo),我們抽取的動作特征的含義是模糊的,其導(dǎo)致了性能下降。最后,連同我們提出的時空模塊和兩個輔助任務(wù),我們在下游任務(wù)上取得了最好的結(jié)果,表明我們引入的細粒度時空信息和輔助任務(wù)能夠提升預(yù)訓(xùn)練模型在下游任務(wù)的能力,一定程度上緩解了前述的問題。

結(jié)論

在本文中,我們通過在視頻-文本預(yù)訓(xùn)練的過程中顯式建模細粒度的時空特征來更好地構(gòu)建跨模態(tài)的對齊。我們提出的STOA-VLP引入了兩個新的模塊,在時空維度上建模實體軌跡和動作特征。我們設(shè)計了兩個輔助任務(wù)來建立由粗到細的跨模態(tài)對齊。僅僅使用中等規(guī)模的與訓(xùn)練數(shù)據(jù),我們在下游任務(wù)上就觀察到了較好的表現(xiàn),該方法進一步增強了視覺特征和文本特征之間的關(guān)聯(lián)性。

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3783

    瀏覽量

    137434
  • 建模
    +關(guān)注

    關(guān)注

    1

    文章

    316

    瀏覽量

    61479
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3500

    瀏覽量

    50128

原文標(biāo)題:AAAI 2023 | 基于實體和動作時空建模的視頻文本預(yù)訓(xùn)練

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 0人收藏

    評論

    相關(guān)推薦
    熱點推薦

    【大語言模型:原理與工程實踐】大語言模型的預(yù)訓(xùn)練

    數(shù)據(jù)格式的轉(zhuǎn)換、數(shù)據(jù)字段的匹配和整合等。通過數(shù)據(jù)級凈化,可以進一步提高數(shù)據(jù)的質(zhì)量和可用性,為后續(xù)的數(shù)據(jù)分析和建模提供更有價值的數(shù)據(jù)支持。 在得到了大語言模型的數(shù)據(jù)之后,就是對其進行預(yù)訓(xùn)練。大圓模型擁有
    發(fā)表于 05-07 17:10

    為什么要使用預(yù)訓(xùn)練模型?8種優(yōu)秀預(yù)訓(xùn)練模型大盤點

    正如我們在本文中所述,ULMFiT使用新穎的NLP技術(shù)取得了令人矚目的成果。該方法對預(yù)訓(xùn)練語言模型進行微調(diào),將其在WikiText-103數(shù)據(jù)集(維基百科的長期依賴語言建模數(shù)據(jù)集Wikitext之一)上
    的頭像 發(fā)表于 04-04 11:26 ?2.4w次閱讀
    為什么要使用<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>模型?8種優(yōu)秀<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>模型大盤點

    一種側(cè)重于學(xué)習(xí)情感特征的預(yù)訓(xùn)練方法

    在大規(guī)模無監(jiān)督語料上預(yù)訓(xùn)練的語言模型正逐漸受到自然語言處理領(lǐng)琙硏究者的關(guān)注。現(xiàn)有模型在預(yù)訓(xùn)練階段主要提取文本的語義和結(jié)構(gòu)特征,針對情感類任務(wù)
    發(fā)表于 04-13 11:40 ?4次下載
    一種側(cè)重于學(xué)習(xí)情感特征的<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>方法

    基于BERT的中文科技NLP預(yù)訓(xùn)練模型

    深度學(xué)習(xí)模型應(yīng)用于自然語言處理任務(wù)時依賴大型、高質(zhì)量的人工標(biāo)注數(shù)據(jù)集。為降低深度學(xué)習(xí)模型對大型數(shù)據(jù)集的依賴,提出一種基于BERT的中文科技自然語言處理預(yù)訓(xùn)練模型 ALICE。通過對遮罩語言模型進行
    發(fā)表于 05-07 10:08 ?14次下載

    怎樣去增強PLM對于實體實體間關(guān)系的理解?

    傳統(tǒng)的預(yù)訓(xùn)練目標(biāo)沒有對文本中的關(guān)系事實進行顯式建模,而這些關(guān)系事實對于理解文本至關(guān)重要。
    的頭像 發(fā)表于 06-23 15:32 ?1373次閱讀
    怎樣去增強PLM對于<b class='flag-5'>實體</b>和<b class='flag-5'>實體</b>間關(guān)系的理解?

    多模態(tài)圖像-文本預(yù)訓(xùn)練模型

    某一方面的智能程度。具體來說是,領(lǐng)域?qū)<胰斯?gòu)造標(biāo)準(zhǔn)數(shù)據(jù)集,然后在其上訓(xùn)練及評價相關(guān)模型及方法。但由于相關(guān)技術(shù)的限制,要想獲得效果更好、能力更強的模型,往往需要在大量的有標(biāo)注的數(shù)據(jù)上進行訓(xùn)練。 近期預(yù)
    的頭像 發(fā)表于 09-06 10:06 ?4446次閱讀
    多模態(tài)圖像-<b class='flag-5'>文本</b><b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>模型

    如何實現(xiàn)更綠色、經(jīng)濟的NLP預(yù)訓(xùn)練模型遷移

    NLP中,預(yù)訓(xùn)練大模型Finetune是一種非常常見的解決問題的范式。利用在海量文本預(yù)訓(xùn)練得到的Bert、GPT等模型,在下游不同任務(wù)上分
    的頭像 發(fā)表于 03-21 15:33 ?2465次閱讀

    文本預(yù)訓(xùn)練的模型架構(gòu)及相關(guān)數(shù)據(jù)集

    多模態(tài)預(yù)訓(xùn)練的數(shù)據(jù)通常來源于大規(guī)模的模態(tài)間對齊樣本對。由于時序維度的存在,視頻當(dāng)中包含了比圖片更加豐富而冗余的信息。因此,收集大規(guī)模的視頻-文本
    的頭像 發(fā)表于 07-01 11:08 ?2355次閱讀

    利用視覺語言模型對檢測器進行預(yù)訓(xùn)練

    預(yù)訓(xùn)練通常被用于自然語言處理以及計算機視覺領(lǐng)域,以增強主干網(wǎng)絡(luò)的特征提取能力,達到加速訓(xùn)練和提高模型泛化性能的目的。該方法亦可以用于場景文本檢測當(dāng)中,如最早的使用ImageNet
    的頭像 發(fā)表于 08-08 15:33 ?1686次閱讀

    基于VQVAE的長文本生成 利用離散code來建模文本篇章結(jié)構(gòu)的方法

    輸入信息有限,而要求輸出內(nèi)容豐富,經(jīng)常需要生成多個句子或段落,在這些任務(wù)上預(yù)訓(xùn)練語言模型依然存在連貫性較差、缺乏常識等問題。本次與大家分享一篇建模文本篇章結(jié)構(gòu)的工作,用以提升生成
    的頭像 發(fā)表于 12-01 17:07 ?2092次閱讀

    復(fù)旦&amp;微軟提出?OmniVL:首個統(tǒng)一圖像、視頻、文本的基礎(chǔ)預(yù)訓(xùn)練模型

    根據(jù)輸入數(shù)據(jù)和目標(biāo)下游任務(wù)的不同,現(xiàn)有的VLP方法可以大致分為兩類:圖像-文本預(yù)訓(xùn)練視頻-文本預(yù)
    的頭像 發(fā)表于 12-14 15:26 ?1168次閱讀

    預(yù)訓(xùn)練數(shù)據(jù)大小對于預(yù)訓(xùn)練模型的影響

    BERT類模型的工作模式簡單,但取得的效果也是極佳的,其在各項任務(wù)上的良好表現(xiàn)主要得益于其在大量無監(jiān)督文本上學(xué)習(xí)到的文本表征能力。那么如何從語言學(xué)的特征角度來衡量一個預(yù)訓(xùn)練模型的究竟學(xué)
    的頭像 發(fā)表于 03-03 11:20 ?1845次閱讀

    ELMER: 高效強大的非自回歸預(yù)訓(xùn)練文本生成模型

    每個單詞都依賴于輸入文本與之前生成的單詞。自回歸生成模型只建模了前向的單詞依賴關(guān)系,依次生成的結(jié)構(gòu)也使得自回歸模型難以并行化。目前大部分預(yù)訓(xùn)練生成模型均采用自回歸方式,包括GPT-2,
    的頭像 發(fā)表于 03-13 10:39 ?1749次閱讀

    NLP中的遷移學(xué)習(xí):利用預(yù)訓(xùn)練模型進行文本分類

    遷移學(xué)習(xí)徹底改變了自然語言處理(NLP)領(lǐng)域,允許從業(yè)者利用預(yù)先訓(xùn)練的模型來完成自己的任務(wù),從而大大減少了訓(xùn)練時間和計算資源。在本文中,我們將討論遷移學(xué)習(xí)的概念,探索一些流行的預(yù)訓(xùn)練
    發(fā)表于 06-14 09:30 ?559次閱讀

    基于文本到圖像模型的可控文本視頻生成

    1. 論文信息 2. 引言 ? 大規(guī)模擴散模型在文本到圖像合成方面取得了巨大的突破,并在創(chuàng)意應(yīng)用方面取得了成功。一些工作試圖在視頻領(lǐng)域復(fù)制這個成功,即在野外世界建模高維復(fù)雜視頻分布。然
    的頭像 發(fā)表于 06-14 10:39 ?1258次閱讀
    基于<b class='flag-5'>文本</b>到圖像模型的可控<b class='flag-5'>文本</b>到<b class='flag-5'>視頻</b>生成

    電子發(fā)燒友

    中國電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會員交流學(xué)習(xí)
    • 獲取您個性化的科技前沿技術(shù)信息
    • 參加活動獲取豐厚的禮品