0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一個全新的文本到視頻跨模態(tài)檢索子任務(wù)

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 作者:陳先客 ? 2022-10-21 09:32 ? 次閱讀

概覽

本文介紹一篇ACM MM 2022 Oral的工作?;趥鹘y(tǒng)的跨模態(tài)文本-視頻檢索(Video-to-Text Retrieval, T2VR)任務(wù),該工作提出了一個全新的文本到視頻跨模態(tài)檢索子任務(wù),即部分相關(guān)的視頻檢索(Partially Relevant Video Retrieval, PRVR)。

PRVR任務(wù)旨在從大量未剪輯的長視頻中檢索出與查詢文本部分相關(guān)的對應(yīng)視頻。若一個未經(jīng)剪輯的長視頻中存在某一片段與給出的查詢文本相關(guān),則認(rèn)為該長視頻與給出的查詢文本呈部分相關(guān)的關(guān)系。

而在傳統(tǒng)的T2VR任務(wù)中,視頻都是預(yù)剪輯后的短視頻,且通常希望檢索得到整個視頻與文本查詢完全相關(guān)。相比之下,PRVR任務(wù)更加符合實(shí)際應(yīng)用場景,且更具有挑戰(zhàn)性。

作者將PRVR任務(wù)視為一個多示例學(xué)習(xí)的問題,將視頻同時(shí)視為由多個片段以及視頻幀所組成的包。若文本與長視頻的某幀或者某個片段相關(guān),則視為文本與該長視頻相關(guān)?;诖?,作者設(shè)計(jì)了多尺度多示例模型,該模型分別對視頻進(jìn)行片段尺度和幀尺度的特征表示,并引入了以關(guān)鍵片段為向?qū)У淖⒁饬?a href="http://wenjunhu.com/article/zt/" target="_blank">聚合方法,模型整體以從粗到細(xì)的方式學(xué)習(xí)文本-視頻間的相似度關(guān)系。該模型除了在PRVR任務(wù)上表現(xiàn)較好之外,也可用于提高視頻庫片段檢索(Video Corpus Moment Retrieval,VCMR)模型的性能。

f022be5a-5067-11ed-a3b6-dac502259ad0.png

論文:Partially Relevant Video Retrieval

收錄:ACM MM 2022 (Oral Paper)

主頁:http://danieljf24.github.io/prvr/

代碼:https://github.com/HuiGuanLab/ms-sl

1. 背景與挑戰(zhàn)

當(dāng)前的文本到視頻檢索(T2VR)方法通常是在面向視頻描述生成任務(wù)的數(shù)據(jù)集(如MSVD、MSR-VTT和VATEX)上訓(xùn)練和測試的。這些數(shù)據(jù)集存在共同的特性,即其包含的視頻通常是以較短的持續(xù)時(shí)間進(jìn)行預(yù)剪輯得到,同時(shí)提供的對應(yīng)文本能充分描述視頻內(nèi)容的要點(diǎn)。因此,在此類數(shù)據(jù)集中所給出的文本-視頻對呈完全相關(guān)的關(guān)系。

然而在現(xiàn)實(shí)的視頻檢索場景中,由于查詢文本是未知的,預(yù)先剪輯好的視頻可能不包含足夠的內(nèi)容來完全滿足查詢文本。這表明現(xiàn)階段在學(xué)術(shù)研究的T2VR與實(shí)際應(yīng)用存在一定的鴻溝。

如圖1所示,上半部分的圖取自傳統(tǒng)T2VR數(shù)據(jù)集MSR-VTT,由于視頻長度較短,場景單一,所以對應(yīng)的文本"兩個男人在開車的同時(shí)進(jìn)行交談"能夠很好地概括視頻的所有內(nèi)容。而在下半部分取自TV show Retrieval數(shù)據(jù)集的長視頻場景多變,持續(xù)時(shí)間較長。文本"豪斯使用記號筆在玻璃表面寫字"僅能表述視頻中的某一片段。在現(xiàn)實(shí)世界中的檢索場景大多符合后者。

為了彌補(bǔ)這一鴻溝,作者提出了一種新的T2VR子任務(wù)——部分相關(guān)的視頻檢索(Partially Relevant Video Retrieval, PRVR)。PRVR任務(wù)旨在從大量未剪輯的長視頻中檢索出與查詢文本部分相關(guān)的對應(yīng)視頻。若一個未經(jīng)剪輯的長視頻中存在某一片段與給出的查詢文本相關(guān),則認(rèn)為該長視頻與給出的查詢文本呈部分相關(guān)的關(guān)系。

f04e7c70-5067-11ed-a3b6-dac502259ad0.png

圖1 傳統(tǒng)T2VR任務(wù)中文本-視頻對的相關(guān)關(guān)系與現(xiàn)實(shí)世界的差別

雖然PRVR任務(wù)和傳統(tǒng)的T2VR任務(wù)的目標(biāo)均為從視頻庫中檢索出查詢文本的對應(yīng)視頻,但在PRVR任務(wù)中視頻通常比較長,同時(shí)文本查詢對應(yīng)的片段在原視頻中的時(shí)長占比分布較廣。如圖3所示,在TVR和Charades-STA數(shù)據(jù)集中,時(shí)長占比大多分布在50%以下;Activitynet數(shù)據(jù)集的占比則在1%-100%之間均有分布。

這就代表若簡單地將視頻表示為單一向量,會大量丟失與查詢文本相關(guān)的關(guān)鍵信息。同時(shí)查詢文本在對應(yīng)長視頻的相關(guān)時(shí)刻起始位置和持續(xù)時(shí)間都是未知的,需要模型具備在沒有時(shí)刻標(biāo)簽指導(dǎo)下建模出文本和對應(yīng)長視頻間部分相關(guān)關(guān)系的能力,所以PRVR任務(wù)相較于傳統(tǒng)的T2VR任務(wù)更具挑戰(zhàn)性。

f150f21a-5067-11ed-a3b6-dac502259ad0.png


圖3 不同數(shù)據(jù)集中片段時(shí)長占比分布

2. 方法

作者將PRVR定義為多示例學(xué)習(xí)(Multiple Instance Learning, MIL)問題。

多示例學(xué)習(xí)是弱標(biāo)注數(shù)據(jù)學(xué)習(xí)的經(jīng)典框架,并被廣泛用于分類任務(wù)。在多示例學(xué)習(xí)中,一個樣本被視為由大量示例所組成的包,若包中的某一個或多個示例為正樣本時(shí),則該包為正樣本;反之則該包為負(fù)樣本。作者將長視頻整體視為一個包,視頻中的各幀或由不同大小幀組成的片段則被視為不同示例。若文本與長視頻的某幀或者某個片段相關(guān),則視為文本與該長視頻相關(guān)。

此外,由于不同查詢文本與長視頻的相關(guān)時(shí)刻持續(xù)時(shí)長區(qū)別較大,所以作者在多個時(shí)間尺度進(jìn)行視頻表示,進(jìn)一步提出了多尺度相似性學(xué)習(xí)來度量查詢文本和長視頻間的部分相關(guān)性。

f174ef3a-5067-11ed-a3b6-dac502259ad0.png

圖4 模型框架圖

2.1 文本特征表示

由于當(dāng)前模型的重點(diǎn)并不在于文本編碼,所以作者使用了一個較為簡單且有效的文本編碼框架,它也可以被任意當(dāng)下熱門的文本編碼框架替代。

具體地,給定一句由個單詞所組成的查詢文本,使用預(yù)訓(xùn)練的RoBERTa模型來提取每個單詞的特征向量作為文本的初始特征。之后通過全連接層進(jìn)行特征降維后,使用一層的標(biāo)準(zhǔn)Transformer模塊對其進(jìn)行進(jìn)一步編碼得到。最終通過注意力模塊得到句子級別的特征表示,既:

f1c782b8-5067-11ed-a3b6-dac502259ad0.png


2.2 視頻特征表示

對于輸入的長視頻,首先使用預(yù)訓(xùn)練的CNN對其進(jìn)行特征預(yù)提取,作為視頻的初始特征向量。進(jìn)一步地,作者分別從片段尺度和幀尺度分別對視頻初始特征向量進(jìn)行編碼。

2.2.1 視頻的片段尺度編碼

在對視頻初始特征向量進(jìn)行片段尺度編碼前,作者將其降采樣為長度為的特征,以減少初始特征序列的長度,并有助于降低編碼模塊的計(jì)算復(fù)雜度。

之后,將降采樣后的特征使用全連接層進(jìn)行特征降維后,輸入到一層的標(biāo)準(zhǔn)Transformer中捕捉其上下文信息:

f1db25c0-5067-11ed-a3b6-dac502259ad0.png


由于上文提到PRVR任務(wù)中查詢文本在對應(yīng)長視頻的起止時(shí)刻是未知的,作者采用滑動窗口的方法生成不同長度的候選視頻片段。具體地,作者使用不同尺寸的滑動窗口以步長為1的幅度遍歷,在遍歷過程中通過對落在滑動窗口內(nèi)的特征進(jìn)行平均池化來獲得對應(yīng)大小的視頻段特征序列。其形象化過程如上圖中片段構(gòu)造模塊所示。通過同時(shí)使用大小從的滑動窗口,得到視頻段特征序列集合,將其展開后得到最終的視頻片段尺度特征序列,。

2.2.2 視頻的幀尺度編碼

由于視頻初始特征向量是獨(dú)立提取的,因此它們?nèi)狈ι舷挛牡臅r(shí)序信息。作者使用Transformer模塊捕捉丟失的時(shí)序依賴關(guān)系。首先簡單地對初始特征使用全連接層進(jìn)行特征降維,并輸入到一層標(biāo)準(zhǔn)Transformer,來得到視頻的幀尺度特征表示:

f205fee4-5067-11ed-a3b6-dac502259ad0.png


2.4 多尺度相似性學(xué)習(xí)

由于在PRVR中視頻比較長,直接在計(jì)算視頻文本相似性難度較大。

作者認(rèn)為如果模型簡單地知道與查詢文本相關(guān)的大致內(nèi)容,它將有助于模型在更細(xì)粒度的范圍內(nèi)準(zhǔn)確地找到更相關(guān)的內(nèi)容。

因此作者提出了多尺度相似性學(xué)習(xí),以從粗到細(xì)的方式計(jì)算文本與視頻間的相似度。它首先檢測視頻中最可能與查詢文本相關(guān)的關(guān)鍵片段,然后在關(guān)鍵片段的指導(dǎo)下衡量每幀的重要性。通過聯(lián)合考慮查詢文本與關(guān)鍵片段和各幀的相似度來計(jì)算最終的文本-視頻相似度。

2.4.1 片段尺度相似度

在部分相關(guān)的檢索任務(wù)中,若文本與視頻中的某一片段相關(guān),則認(rèn)為文本與該視頻相關(guān)。

因此作者首先計(jì)算視頻段特征序列中每個片段與文本特征表示之間的相似度,并將文本與片段最大的相似度作為文本與整個視頻的相似度。對于相似度取值,作者認(rèn)為取平均值會使得相關(guān)片段信息被大部分的低相似度片段模糊,所以取最大值作為視頻片段尺度相似度。

此外,作者將相似度最高的視頻段特征作為關(guān)鍵視頻段特征。

f22d6812-5067-11ed-a3b6-dac502259ad0.png


2.4.2 幀尺度相似度

檢測到長視頻中與文本最相關(guān)的關(guān)鍵片段后,作者以關(guān)鍵片段為進(jìn)一步指導(dǎo),在細(xì)粒度的時(shí)間尺度上衡量長視頻每幀的重要性。

具體地,作者借鑒了Multi-head Attention的編碼方式,將關(guān)鍵片段特征作為query,視頻的幀尺度特征序列作為key和value。分別計(jì)算出中各特征的權(quán)重并對其進(jìn)行聚合,并計(jì)算與文本特征表示的余弦相似度作為視頻幀尺度相似度:

f254c3bc-5067-11ed-a3b6-dac502259ad0.pngf2753cfa-5067-11ed-a3b6-dac502259ad0.png


2.5 訓(xùn)練和測試

在模型訓(xùn)練階段,作者同時(shí)使用了三元組損失和對比學(xué)習(xí)損失進(jìn)行模型優(yōu)化。在測試階段,作者同時(shí)使用片段尺度相似度和幀尺度相似度以不同權(quán)重共同度量文本和視頻間的最終相似度:

f29007ce-5067-11ed-a3b6-dac502259ad0.png


3. 實(shí)驗(yàn)結(jié)果

3.1整體性能對比實(shí)驗(yàn)

由于在上文提到,T2VR任務(wù)的傳統(tǒng)數(shù)據(jù)集并不適用與PRVR任務(wù),所以作者使用了被用于單視頻定位任務(wù)(Single Video Moment Retrieval, SVMR)和視頻庫定位任務(wù)(Video Corpus Moment Retrieval, VCMR)的數(shù)據(jù)集,分別是TV show Retrieval、Activitynet Captions以及Charades-STA。

在以上三個數(shù)據(jù)集中,文本僅與視頻中的某一片段相關(guān),且視頻的相對持續(xù)時(shí)間更長,符合PRVR任務(wù)的檢索要求。

此外,作者采用R@1、R@5、R@10、R@100以及Recall Sum等性能指標(biāo)來衡量模型。同時(shí),由于當(dāng)前并沒有模型是面向PRVR任務(wù)的,作者選取了在傳統(tǒng)T2VR任務(wù)上表現(xiàn)較好的模型作為baseline并在以上三個數(shù)據(jù)集上進(jìn)行重新訓(xùn)練,以此進(jìn)行性能對比。

在所有數(shù)據(jù)集上,論文提出的模型性能遠(yuǎn)超各baseline。這表明論文提出的模型相較于傳統(tǒng)視頻檢索模型能夠更好地解決PRVR任務(wù)。

f2acaa78-5067-11ed-a3b6-dac502259ad0.pngf2e3463c-5067-11ed-a3b6-dac502259ad0.pngf3363e5a-5067-11ed-a3b6-dac502259ad0.png


3.2 分組性能對比實(shí)驗(yàn)

由于在上述的性能對比實(shí)驗(yàn)中僅反映了模型檢索數(shù)據(jù)集中所有文本-視頻對的整體性能,為了在更加細(xì)粒度的方面探索各模型對不同相關(guān)性的文本-視頻對的檢索性能,作者定義了片段時(shí)長/視頻時(shí)長比(M/V)這一概念,它以通過查詢文本所對應(yīng)的正確片段持續(xù)時(shí)間除以整個視頻的持續(xù)時(shí)間來衡量。

M/V越小,表示對應(yīng)視頻與查詢文本相關(guān)的內(nèi)容越少,反之則越多。此外, M/V越小,查詢文本與其對應(yīng)視頻的相關(guān)性越低,而M/V越大,相關(guān)性越高。根據(jù)M/V的大小,作者將TVR數(shù)據(jù)集上的10895個測試查詢文本分為六組,并報(bào)告了在不同分組上的性能。

作者所提出的模型在所有分組中始終表現(xiàn)最好。從左到右觀察下圖,12個比較模型的平均性能隨著M/V的增加而增加。最低M/V組的表現(xiàn)最差,而最高M(jìn)/V組的表現(xiàn)最好。

這表明,傳統(tǒng)的視頻檢索模型能夠更好地應(yīng)對與相應(yīng)視頻具有更大相關(guān)性的查詢文本。相比之下,作者所提出的模型在所有M/V組中取得的成績更為平衡。這一結(jié)果表明,作者提出的模型對視頻中的無關(guān)內(nèi)容不太敏感。

f3616094-5067-11ed-a3b6-dac502259ad0.png


3.3 消融實(shí)驗(yàn)

對于提出的多尺度多示例模型的不同組成部分,作者進(jìn)行了消融分析。

模型單獨(dú)使用幀尺度或片段尺度特征表示分支時(shí),性能都不如兩分支相結(jié)合。同時(shí)基于關(guān)鍵片段的注意力機(jī)制也能為模型帶來較大的性能提升。由于在模型訓(xùn)練階段同時(shí)使用了三元組損失和對比學(xué)習(xí)損失,作者也對兩損失結(jié)合使用的有效性進(jìn)行了論證。

f388ff3c-5067-11ed-a3b6-dac502259ad0.png


3.4 對VCMR模型的性能提升

VCMR任務(wù)旨在給定查詢文本后,在視頻庫中檢索出對應(yīng)視頻,并且確定查詢文本在對應(yīng)視頻中的起止時(shí)刻。當(dāng)前用于VCMR任務(wù)的主流模型通常擁有兩個階段的工作流程。第一階段為從視頻庫中檢索出k個候選視頻,第二階段為從候選視頻中檢索出準(zhǔn)確的起止時(shí)刻。

作者選取了當(dāng)前性能較高的模型,XML和ReLoCLNet,將以上兩個模型在TVR數(shù)據(jù)集上的第一階段檢索結(jié)果替換為作者所提出模型的檢索結(jié)果,從下圖可以看出在進(jìn)行替換后能給上述兩模型帶來VCMR任務(wù)上的性能提升。

f3c18226-5067-11ed-a3b6-dac502259ad0.png


3.5 可視化展示

下圖作者給出了一些模型檢索過程中的可視化實(shí)例,分別給出了查詢文本在其對應(yīng)視頻中由模型檢測出的關(guān)鍵片段范圍與關(guān)鍵片段和所有視頻幀之間的相似度曲線。

在前兩個查詢實(shí)例中,模型檢測出的關(guān)鍵片段與正確相關(guān)片段完全重合。在后兩個查詢實(shí)例中,檢測出的關(guān)鍵片段較為不準(zhǔn)確,但是正確片段所包含的幀均具有較高的注意力權(quán)重。

這表明幀尺度相似度學(xué)習(xí)分支可以幫助片段尺度相似度學(xué)習(xí)分支在一定程度上補(bǔ)齊缺失信息,進(jìn)一步反映了模型設(shè)計(jì)雙分支相似度學(xué)習(xí)模塊的合理性。

f3dbcdb6-5067-11ed-a3b6-dac502259ad0.png


4. 結(jié)論

在本文中,針對傳統(tǒng)T2VR任務(wù)在現(xiàn)實(shí)中的局限性,作者提出了一個全新的文本到視頻跨模態(tài)檢索子任務(wù)PRVR。在PRVR中,查詢文本與對應(yīng)視頻均呈部分相關(guān)關(guān)系而非傳統(tǒng)T2VR任務(wù)中的完全相關(guān)關(guān)系。對于PRVR,作者將其定義為多示例學(xué)習(xí)問題,并提出多尺度多示例網(wǎng)絡(luò),它以從粗到細(xì)的方式計(jì)算查詢文本和長視頻在片段尺度和幀尺度上的相似性。在三個數(shù)據(jù)集上的實(shí)驗(yàn)驗(yàn)證了作者所提出的模型對于PRVR任務(wù)的有效性,并表明它也可以用于提升VCMR任務(wù)模型的性能。





審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • ACM
    ACM
    +關(guān)注

    關(guān)注

    0

    文章

    32

    瀏覽量

    10331
  • cnn
    cnn
    +關(guān)注

    關(guān)注

    3

    文章

    352

    瀏覽量

    22215

原文標(biāo)題:ACM MM 2022 Oral | PRVR: 新的文本到視頻跨模態(tài)檢索子任務(wù)

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    在TouchGFX中使用Modal時(shí)如何更改模態(tài)文本?

    TouchGFX 使用模態(tài)窗口。在Model Window中聲明了TextArear,TextArear的內(nèi)容要根據(jù)情況改變。有沒有辦法只在
    發(fā)表于 01-09 06:37

    種針對該文本檢索任務(wù)的BERT算法方案DR-BERT

    基于MS MARCO數(shù)據(jù)集,微軟提出了兩種不同的任務(wù)種是給定問題,檢索所有數(shù)據(jù)集中的文檔并進(jìn)行排序,屬于文檔檢索和排序任務(wù);另
    的頭像 發(fā)表于 08-27 18:05 ?4090次閱讀

    可解決數(shù)據(jù)異構(gòu)性問題的模態(tài)檢索方法

    隨著越來越多多模態(tài)數(shù)據(jù)的岀現(xiàn),模態(tài)檢索引起了廣泛的關(guān)注。模態(tài)
    發(fā)表于 03-26 14:29 ?10次下載
    可解決數(shù)據(jù)異構(gòu)性問題的<b class='flag-5'>跨</b><b class='flag-5'>模態(tài)</b><b class='flag-5'>檢索</b>方法

    基于異構(gòu)哈希網(wǎng)絡(luò)的模態(tài)人臉檢索方法探究分析

    該文提出種基于異構(gòu)哈希網(wǎng)絡(luò)的模態(tài)人臉檢索方法。異構(gòu)哈希網(wǎng)絡(luò)能夠?qū)⑽挥诓煌臻g的人臉圖像和人臉視頻映射到
    發(fā)表于 03-31 09:29 ?18次下載
    基于異構(gòu)哈希網(wǎng)絡(luò)的<b class='flag-5'>跨</b><b class='flag-5'>模態(tài)</b>人臉<b class='flag-5'>檢索</b>方法探究分析

    基于食物圖片的食譜檢索技術(shù)

    飲食記錄是飲食管理的關(guān)鍵環(huán)節(jié)。為了簡化記錄過程,研究者提出了基于食物圖片的食譜檢索技術(shù)通過拍攝的圖片檢索對應(yīng)食譜,并據(jù)此生成營養(yǎng)信息,從而提高了記錄的便捷性。食譜檢索是典型的
    發(fā)表于 04-12 10:30 ?5次下載
    基于食物圖片的食譜<b class='flag-5'>檢索</b>技術(shù)

    基于深度學(xué)習(xí)的特種車輛模態(tài)檢索和識別方法

    駕駛混合交通的環(huán)境中,實(shí)現(xiàn)無人車對正在執(zhí)行任務(wù)的特種車輛進(jìn)行合理避讓顯得尤為重要。針對無人駕駛對特種車輛識別的需求,文中構(gòu)建了模態(tài)檢索與識別網(wǎng)絡(luò)( Cross-modal retri
    發(fā)表于 04-23 14:56 ?15次下載
    基于深度學(xué)習(xí)的特種車輛<b class='flag-5'>跨</b><b class='flag-5'>模態(tài)</b><b class='flag-5'>檢索</b>和識別方法

    種基于異構(gòu)哈希網(wǎng)絡(luò)的模態(tài)人臉檢索方法

    該文提出種基于異構(gòu)哈希網(wǎng)絡(luò)的模態(tài)人臉檢索方法。異枃哈希網(wǎng)絡(luò)能夠?qū)⑽挥诓煌臻g的人臉圖像和人臉視頻映射到
    發(fā)表于 04-28 16:24 ?5次下載
    <b class='flag-5'>一</b>種基于異構(gòu)哈希網(wǎng)絡(luò)的<b class='flag-5'>跨</b><b class='flag-5'>模態(tài)</b>人臉<b class='flag-5'>檢索</b>方法

    如何去解決文本圖像生成的模態(tài)對比損失問題?

    文本圖像的自動生成,如何訓(xùn)練模型僅通過文本描述輸入就能生成具體的圖像,是項(xiàng)非常具有挑戰(zhàn)性的任務(wù)
    的頭像 發(fā)表于 06-15 10:07 ?2737次閱讀
    如何去解決<b class='flag-5'>文本</b><b class='flag-5'>到</b>圖像生成的<b class='flag-5'>跨</b><b class='flag-5'>模態(tài)</b>對比損失問題?

    基于耦合字典學(xué)習(xí)與圖像正則化的模態(tài)檢索

    基于耦合字典學(xué)習(xí)與圖像正則化的模態(tài)檢索
    發(fā)表于 06-27 11:23 ?39次下載

    真實(shí)閑聊多模態(tài)數(shù)據(jù)集TikTalk

    隨著大量預(yù)訓(xùn)練語言模型在文本對話任務(wù)中的出色表現(xiàn),以及多模態(tài)的發(fā)展,在對話中引入多模態(tài)信息已經(jīng)引起了大量學(xué)者的關(guān)注。
    的頭像 發(fā)表于 02-09 09:31 ?1851次閱讀

    ImageBind:模態(tài)之王,將6種模態(tài)全部綁定!

    最近,很多方法學(xué)習(xí)與文本、音頻等對齊的圖像特征。這些方法使用單對模態(tài)或者最多幾種視覺模態(tài)。最終嵌入僅限于用于訓(xùn)練的模態(tài)對。因此,視頻 - 音
    的頭像 發(fā)表于 05-11 09:30 ?1044次閱讀
    ImageBind:<b class='flag-5'>跨</b><b class='flag-5'>模態(tài)</b>之王,將6種<b class='flag-5'>模態(tài)</b>全部綁定!

    基于實(shí)體和動作時(shí)空建模的視頻文本預(yù)訓(xùn)練

    摘要 盡管常見的大規(guī)模視頻-文本預(yù)訓(xùn)練模型已經(jīng)在很多下游任務(wù)取得不錯的效果,現(xiàn)有的模型通常將視頻或者文本視為
    的頭像 發(fā)表于 05-25 11:29 ?779次閱讀
    基于實(shí)體和動作時(shí)空建模的<b class='flag-5'>視頻</b><b class='flag-5'>文本</b>預(yù)訓(xùn)練

    基于文本圖像模型的可控文本視頻生成

    文本視頻模型需要大量高質(zhì)量的視頻和計(jì)算資源,這限制了相關(guān)社區(qū)進(jìn)步的研究和應(yīng)用。為了減少過度的訓(xùn)練要求,我們研究了
    的頭像 發(fā)表于 06-14 10:39 ?965次閱讀
    基于<b class='flag-5'>文本</b><b class='flag-5'>到</b>圖像模型的可控<b class='flag-5'>文本</b><b class='flag-5'>到</b><b class='flag-5'>視頻</b>生成

    更強(qiáng)更通用:智源「悟道3.0」Emu多模態(tài)大模型開源,在多模態(tài)序列中「補(bǔ)全切」

    熱度。Flamingo 具備強(qiáng)大的多模態(tài)上下文少樣本學(xué)習(xí)能力。 Flamingo 走的技術(shù)路線是將大語言模型與預(yù)訓(xùn)練視覺編碼器結(jié)合,并插入可學(xué)習(xí)的層來捕捉
    的頭像 發(fā)表于 07-16 20:45 ?724次閱讀
    更強(qiáng)更通用:智源「悟道3.0」Emu多<b class='flag-5'>模態(tài)</b>大模型開源,在多<b class='flag-5'>模態(tài)</b>序列中「補(bǔ)全<b class='flag-5'>一</b>切」

    UniVL-DR: 多模態(tài)稠密向量檢索模型

    for Multi-Modal Retrieval 背景介紹 盡管當(dāng)前主流搜索引擎主要面向文本數(shù)據(jù),然而多媒體內(nèi)容的增長直是互聯(lián)網(wǎng)上最顯著趨勢之,各種研究表明用戶更喜歡搜索結(jié)果中出現(xiàn)生動的多
    的頭像 發(fā)表于 08-06 22:00 ?878次閱讀
    UniVL-DR: 多<b class='flag-5'>模態(tài)</b>稠密向量<b class='flag-5'>檢索</b>模型