概覽
本文介紹一篇ACM MM 2022 Oral的工作?;趥鹘y(tǒng)的跨模態(tài)文本-視頻檢索(Video-to-Text Retrieval, T2VR)任務(wù),該工作提出了一個全新的文本到視頻跨模態(tài)檢索子任務(wù),即部分相關(guān)的視頻檢索(Partially Relevant Video Retrieval, PRVR)。
PRVR任務(wù)旨在從大量未剪輯的長視頻中檢索出與查詢文本部分相關(guān)的對應(yīng)視頻。若一個未經(jīng)剪輯的長視頻中存在某一片段與給出的查詢文本相關(guān),則認(rèn)為該長視頻與給出的查詢文本呈部分相關(guān)的關(guān)系。
而在傳統(tǒng)的T2VR任務(wù)中,視頻都是預(yù)剪輯后的短視頻,且通常希望檢索得到整個視頻與文本查詢完全相關(guān)。相比之下,PRVR任務(wù)更加符合實(shí)際應(yīng)用場景,且更具有挑戰(zhàn)性。
作者將PRVR任務(wù)視為一個多示例學(xué)習(xí)的問題,將視頻同時(shí)視為由多個片段以及視頻幀所組成的包。若文本與長視頻的某幀或者某個片段相關(guān),則視為文本與該長視頻相關(guān)?;诖?,作者設(shè)計(jì)了多尺度多示例模型,該模型分別對視頻進(jìn)行片段尺度和幀尺度的特征表示,并引入了以關(guān)鍵片段為向?qū)У淖⒁饬?a href="http://wenjunhu.com/article/zt/" target="_blank">聚合方法,模型整體以從粗到細(xì)的方式學(xué)習(xí)文本-視頻間的相似度關(guān)系。該模型除了在PRVR任務(wù)上表現(xiàn)較好之外,也可用于提高視頻庫片段檢索(Video Corpus Moment Retrieval,VCMR)模型的性能。
論文:Partially Relevant Video Retrieval
收錄:ACM MM 2022 (Oral Paper)
主頁:http://danieljf24.github.io/prvr/
代碼:https://github.com/HuiGuanLab/ms-sl
1. 背景與挑戰(zhàn)
當(dāng)前的文本到視頻檢索(T2VR)方法通常是在面向視頻描述生成任務(wù)的數(shù)據(jù)集(如MSVD、MSR-VTT和VATEX)上訓(xùn)練和測試的。這些數(shù)據(jù)集存在共同的特性,即其包含的視頻通常是以較短的持續(xù)時(shí)間進(jìn)行預(yù)剪輯得到,同時(shí)提供的對應(yīng)文本能充分描述視頻內(nèi)容的要點(diǎn)。因此,在此類數(shù)據(jù)集中所給出的文本-視頻對呈完全相關(guān)的關(guān)系。
然而在現(xiàn)實(shí)的視頻檢索場景中,由于查詢文本是未知的,預(yù)先剪輯好的視頻可能不包含足夠的內(nèi)容來完全滿足查詢文本。這表明現(xiàn)階段在學(xué)術(shù)研究的T2VR與實(shí)際應(yīng)用存在一定的鴻溝。
如圖1所示,上半部分的圖取自傳統(tǒng)T2VR數(shù)據(jù)集MSR-VTT,由于視頻長度較短,場景單一,所以對應(yīng)的文本"兩個男人在開車的同時(shí)進(jìn)行交談"能夠很好地概括視頻的所有內(nèi)容。而在下半部分取自TV show Retrieval數(shù)據(jù)集的長視頻場景多變,持續(xù)時(shí)間較長。文本"豪斯使用記號筆在玻璃表面寫字"僅能表述視頻中的某一片段。在現(xiàn)實(shí)世界中的檢索場景大多符合后者。
為了彌補(bǔ)這一鴻溝,作者提出了一種新的T2VR子任務(wù)——部分相關(guān)的視頻檢索(Partially Relevant Video Retrieval, PRVR)。PRVR任務(wù)旨在從大量未剪輯的長視頻中檢索出與查詢文本部分相關(guān)的對應(yīng)視頻。若一個未經(jīng)剪輯的長視頻中存在某一片段與給出的查詢文本相關(guān),則認(rèn)為該長視頻與給出的查詢文本呈部分相關(guān)的關(guān)系。
圖1 傳統(tǒng)T2VR任務(wù)中文本-視頻對的相關(guān)關(guān)系與現(xiàn)實(shí)世界的差別
雖然PRVR任務(wù)和傳統(tǒng)的T2VR任務(wù)的目標(biāo)均為從視頻庫中檢索出查詢文本的對應(yīng)視頻,但在PRVR任務(wù)中視頻通常比較長,同時(shí)文本查詢對應(yīng)的片段在原視頻中的時(shí)長占比分布較廣。如圖3所示,在TVR和Charades-STA數(shù)據(jù)集中,時(shí)長占比大多分布在50%以下;Activitynet數(shù)據(jù)集的占比則在1%-100%之間均有分布。
這就代表若簡單地將視頻表示為單一向量,會大量丟失與查詢文本相關(guān)的關(guān)鍵信息。同時(shí)查詢文本在對應(yīng)長視頻的相關(guān)時(shí)刻起始位置和持續(xù)時(shí)間都是未知的,需要模型具備在沒有時(shí)刻標(biāo)簽指導(dǎo)下建模出文本和對應(yīng)長視頻間部分相關(guān)關(guān)系的能力,所以PRVR任務(wù)相較于傳統(tǒng)的T2VR任務(wù)更具挑戰(zhàn)性。
圖3 不同數(shù)據(jù)集中片段時(shí)長占比分布
2. 方法
作者將PRVR定義為多示例學(xué)習(xí)(Multiple Instance Learning, MIL)問題。
多示例學(xué)習(xí)是弱標(biāo)注數(shù)據(jù)學(xué)習(xí)的經(jīng)典框架,并被廣泛用于分類任務(wù)。在多示例學(xué)習(xí)中,一個樣本被視為由大量示例所組成的包,若包中的某一個或多個示例為正樣本時(shí),則該包為正樣本;反之則該包為負(fù)樣本。作者將長視頻整體視為一個包,視頻中的各幀或由不同大小幀組成的片段則被視為不同示例。若文本與長視頻的某幀或者某個片段相關(guān),則視為文本與該長視頻相關(guān)。
此外,由于不同查詢文本與長視頻的相關(guān)時(shí)刻持續(xù)時(shí)長區(qū)別較大,所以作者在多個時(shí)間尺度進(jìn)行視頻表示,進(jìn)一步提出了多尺度相似性學(xué)習(xí)來度量查詢文本和長視頻間的部分相關(guān)性。
圖4 模型框架圖
2.1 文本特征表示
由于當(dāng)前模型的重點(diǎn)并不在于文本編碼,所以作者使用了一個較為簡單且有效的文本編碼框架,它也可以被任意當(dāng)下熱門的文本編碼框架替代。
具體地,給定一句由個單詞所組成的查詢文本,使用預(yù)訓(xùn)練的RoBERTa模型來提取每個單詞的特征向量作為文本的初始特征。之后通過全連接層進(jìn)行特征降維后,使用一層的標(biāo)準(zhǔn)Transformer模塊對其進(jìn)行進(jìn)一步編碼得到。最終通過注意力模塊得到句子級別的特征表示,既:
2.2 視頻特征表示
對于輸入的長視頻,首先使用預(yù)訓(xùn)練的CNN對其進(jìn)行特征預(yù)提取,作為視頻的初始特征向量。進(jìn)一步地,作者分別從片段尺度和幀尺度分別對視頻初始特征向量進(jìn)行編碼。
2.2.1 視頻的片段尺度編碼
在對視頻初始特征向量進(jìn)行片段尺度編碼前,作者將其降采樣為長度為的特征,以減少初始特征序列的長度,并有助于降低編碼模塊的計(jì)算復(fù)雜度。
之后,將降采樣后的特征使用全連接層進(jìn)行特征降維后,輸入到一層的標(biāo)準(zhǔn)Transformer中捕捉其上下文信息:
由于上文提到PRVR任務(wù)中查詢文本在對應(yīng)長視頻的起止時(shí)刻是未知的,作者采用滑動窗口的方法生成不同長度的候選視頻片段。具體地,作者使用不同尺寸的滑動窗口以步長為1的幅度遍歷,在遍歷過程中通過對落在滑動窗口內(nèi)的特征進(jìn)行平均池化來獲得對應(yīng)大小的視頻段特征序列。其形象化過程如上圖中片段構(gòu)造模塊所示。通過同時(shí)使用大小從的滑動窗口,得到視頻段特征序列集合,將其展開后得到最終的視頻片段尺度特征序列,。
2.2.2 視頻的幀尺度編碼
由于視頻初始特征向量是獨(dú)立提取的,因此它們?nèi)狈ι舷挛牡臅r(shí)序信息。作者使用Transformer模塊捕捉丟失的時(shí)序依賴關(guān)系。首先簡單地對初始特征使用全連接層進(jìn)行特征降維,并輸入到一層標(biāo)準(zhǔn)Transformer,來得到視頻的幀尺度特征表示:
2.4 多尺度相似性學(xué)習(xí)
由于在PRVR中視頻比較長,直接在計(jì)算視頻文本相似性難度較大。
作者認(rèn)為如果模型簡單地知道與查詢文本相關(guān)的大致內(nèi)容,它將有助于模型在更細(xì)粒度的范圍內(nèi)準(zhǔn)確地找到更相關(guān)的內(nèi)容。
因此作者提出了多尺度相似性學(xué)習(xí),以從粗到細(xì)的方式計(jì)算文本與視頻間的相似度。它首先檢測視頻中最可能與查詢文本相關(guān)的關(guān)鍵片段,然后在關(guān)鍵片段的指導(dǎo)下衡量每幀的重要性。通過聯(lián)合考慮查詢文本與關(guān)鍵片段和各幀的相似度來計(jì)算最終的文本-視頻相似度。
2.4.1 片段尺度相似度
在部分相關(guān)的檢索任務(wù)中,若文本與視頻中的某一片段相關(guān),則認(rèn)為文本與該視頻相關(guān)。
因此作者首先計(jì)算視頻段特征序列中每個片段與文本特征表示之間的相似度,并將文本與片段最大的相似度作為文本與整個視頻的相似度。對于相似度取值,作者認(rèn)為取平均值會使得相關(guān)片段信息被大部分的低相似度片段模糊,所以取最大值作為視頻片段尺度相似度。
此外,作者將相似度最高的視頻段特征作為關(guān)鍵視頻段特征。
2.4.2 幀尺度相似度
檢測到長視頻中與文本最相關(guān)的關(guān)鍵片段后,作者以關(guān)鍵片段為進(jìn)一步指導(dǎo),在細(xì)粒度的時(shí)間尺度上衡量長視頻每幀的重要性。
具體地,作者借鑒了Multi-head Attention的編碼方式,將關(guān)鍵片段特征作為query,視頻的幀尺度特征序列作為key和value。分別計(jì)算出中各特征的權(quán)重并對其進(jìn)行聚合,并計(jì)算與文本特征表示的余弦相似度作為視頻幀尺度相似度:
2.5 訓(xùn)練和測試
在模型訓(xùn)練階段,作者同時(shí)使用了三元組損失和對比學(xué)習(xí)損失進(jìn)行模型優(yōu)化。在測試階段,作者同時(shí)使用片段尺度相似度和幀尺度相似度以不同權(quán)重共同度量文本和視頻間的最終相似度:
3. 實(shí)驗(yàn)結(jié)果
3.1整體性能對比實(shí)驗(yàn)
由于在上文提到,T2VR任務(wù)的傳統(tǒng)數(shù)據(jù)集并不適用與PRVR任務(wù),所以作者使用了被用于單視頻定位任務(wù)(Single Video Moment Retrieval, SVMR)和視頻庫定位任務(wù)(Video Corpus Moment Retrieval, VCMR)的數(shù)據(jù)集,分別是TV show Retrieval、Activitynet Captions以及Charades-STA。
在以上三個數(shù)據(jù)集中,文本僅與視頻中的某一片段相關(guān),且視頻的相對持續(xù)時(shí)間更長,符合PRVR任務(wù)的檢索要求。
此外,作者采用R@1、R@5、R@10、R@100以及Recall Sum等性能指標(biāo)來衡量模型。同時(shí),由于當(dāng)前并沒有模型是面向PRVR任務(wù)的,作者選取了在傳統(tǒng)T2VR任務(wù)上表現(xiàn)較好的模型作為baseline并在以上三個數(shù)據(jù)集上進(jìn)行重新訓(xùn)練,以此進(jìn)行性能對比。
在所有數(shù)據(jù)集上,論文提出的模型性能遠(yuǎn)超各baseline。這表明論文提出的模型相較于傳統(tǒng)視頻檢索模型能夠更好地解決PRVR任務(wù)。
3.2 分組性能對比實(shí)驗(yàn)
由于在上述的性能對比實(shí)驗(yàn)中僅反映了模型檢索數(shù)據(jù)集中所有文本-視頻對的整體性能,為了在更加細(xì)粒度的方面探索各模型對不同相關(guān)性的文本-視頻對的檢索性能,作者定義了片段時(shí)長/視頻時(shí)長比(M/V)這一概念,它以通過查詢文本所對應(yīng)的正確片段持續(xù)時(shí)間除以整個視頻的持續(xù)時(shí)間來衡量。
M/V越小,表示對應(yīng)視頻與查詢文本相關(guān)的內(nèi)容越少,反之則越多。此外, M/V越小,查詢文本與其對應(yīng)視頻的相關(guān)性越低,而M/V越大,相關(guān)性越高。根據(jù)M/V的大小,作者將TVR數(shù)據(jù)集上的10895個測試查詢文本分為六組,并報(bào)告了在不同分組上的性能。
作者所提出的模型在所有分組中始終表現(xiàn)最好。從左到右觀察下圖,12個比較模型的平均性能隨著M/V的增加而增加。最低M/V組的表現(xiàn)最差,而最高M(jìn)/V組的表現(xiàn)最好。
這表明,傳統(tǒng)的視頻檢索模型能夠更好地應(yīng)對與相應(yīng)視頻具有更大相關(guān)性的查詢文本。相比之下,作者所提出的模型在所有M/V組中取得的成績更為平衡。這一結(jié)果表明,作者提出的模型對視頻中的無關(guān)內(nèi)容不太敏感。
3.3 消融實(shí)驗(yàn)
對于提出的多尺度多示例模型的不同組成部分,作者進(jìn)行了消融分析。
模型單獨(dú)使用幀尺度或片段尺度特征表示分支時(shí),性能都不如兩分支相結(jié)合。同時(shí)基于關(guān)鍵片段的注意力機(jī)制也能為模型帶來較大的性能提升。由于在模型訓(xùn)練階段同時(shí)使用了三元組損失和對比學(xué)習(xí)損失,作者也對兩損失結(jié)合使用的有效性進(jìn)行了論證。
3.4 對VCMR模型的性能提升
VCMR任務(wù)旨在給定查詢文本后,在視頻庫中檢索出對應(yīng)視頻,并且確定查詢文本在對應(yīng)視頻中的起止時(shí)刻。當(dāng)前用于VCMR任務(wù)的主流模型通常擁有兩個階段的工作流程。第一階段為從視頻庫中檢索出k個候選視頻,第二階段為從候選視頻中檢索出準(zhǔn)確的起止時(shí)刻。
作者選取了當(dāng)前性能較高的模型,XML和ReLoCLNet,將以上兩個模型在TVR數(shù)據(jù)集上的第一階段檢索結(jié)果替換為作者所提出模型的檢索結(jié)果,從下圖可以看出在進(jìn)行替換后能給上述兩模型帶來VCMR任務(wù)上的性能提升。
3.5 可視化展示
下圖作者給出了一些模型檢索過程中的可視化實(shí)例,分別給出了查詢文本在其對應(yīng)視頻中由模型檢測出的關(guān)鍵片段范圍與關(guān)鍵片段和所有視頻幀之間的相似度曲線。
在前兩個查詢實(shí)例中,模型檢測出的關(guān)鍵片段與正確相關(guān)片段完全重合。在后兩個查詢實(shí)例中,檢測出的關(guān)鍵片段較為不準(zhǔn)確,但是正確片段所包含的幀均具有較高的注意力權(quán)重。
這表明幀尺度相似度學(xué)習(xí)分支可以幫助片段尺度相似度學(xué)習(xí)分支在一定程度上補(bǔ)齊缺失信息,進(jìn)一步反映了模型設(shè)計(jì)雙分支相似度學(xué)習(xí)模塊的合理性。
4. 結(jié)論
在本文中,針對傳統(tǒng)T2VR任務(wù)在現(xiàn)實(shí)中的局限性,作者提出了一個全新的文本到視頻跨模態(tài)檢索子任務(wù)PRVR。在PRVR中,查詢文本與對應(yīng)視頻均呈部分相關(guān)關(guān)系而非傳統(tǒng)T2VR任務(wù)中的完全相關(guān)關(guān)系。對于PRVR,作者將其定義為多示例學(xué)習(xí)問題,并提出多尺度多示例網(wǎng)絡(luò),它以從粗到細(xì)的方式計(jì)算查詢文本和長視頻在片段尺度和幀尺度上的相似性。在三個數(shù)據(jù)集上的實(shí)驗(yàn)驗(yàn)證了作者所提出的模型對于PRVR任務(wù)的有效性,并表明它也可以用于提升VCMR任務(wù)模型的性能。
審核編輯:劉清
-
ACM
+關(guān)注
關(guān)注
0文章
32瀏覽量
10331 -
cnn
+關(guān)注
關(guān)注
3文章
352瀏覽量
22215
原文標(biāo)題:ACM MM 2022 Oral | PRVR: 新的文本到視頻跨模態(tài)檢索子任務(wù)
文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論