0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一個全新的文本到視頻跨模態(tài)檢索子任務

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者:陳先客 ? 2022-10-21 09:32 ? 次閱讀

概覽

本文介紹一篇ACM MM 2022 Oral的工作。基于傳統(tǒng)的跨模態(tài)文本-視頻檢索(Video-to-Text Retrieval, T2VR)任務,該工作提出了一個全新的文本到視頻跨模態(tài)檢索子任務,即部分相關(guān)的視頻檢索(Partially Relevant Video Retrieval, PRVR)。

PRVR任務旨在從大量未剪輯的長視頻中檢索出與查詢文本部分相關(guān)的對應視頻。若一個未經(jīng)剪輯的長視頻中存在某一片段與給出的查詢文本相關(guān),則認為該長視頻與給出的查詢文本呈部分相關(guān)的關(guān)系。

而在傳統(tǒng)的T2VR任務中,視頻都是預剪輯后的短視頻,且通常希望檢索得到整個視頻與文本查詢完全相關(guān)。相比之下,PRVR任務更加符合實際應用場景,且更具有挑戰(zhàn)性。

作者將PRVR任務視為一個多示例學習的問題,將視頻同時視為由多個片段以及視頻幀所組成的包。若文本與長視頻的某幀或者某個片段相關(guān),則視為文本與該長視頻相關(guān)。基于此,作者設計了多尺度多示例模型,該模型分別對視頻進行片段尺度和幀尺度的特征表示,并引入了以關(guān)鍵片段為向?qū)У淖⒁饬酆戏椒?,模型整體以從粗到細的方式學習文本-視頻間的相似度關(guān)系。該模型除了在PRVR任務上表現(xiàn)較好之外,也可用于提高視頻庫片段檢索(Video Corpus Moment Retrieval,VCMR)模型的性能。

f022be5a-5067-11ed-a3b6-dac502259ad0.png

論文:Partially Relevant Video Retrieval

收錄:ACM MM 2022 (Oral Paper)

主頁:http://danieljf24.github.io/prvr/

代碼:https://github.com/HuiGuanLab/ms-sl

1. 背景與挑戰(zhàn)

當前的文本到視頻檢索(T2VR)方法通常是在面向視頻描述生成任務的數(shù)據(jù)集(如MSVD、MSR-VTT和VATEX)上訓練和測試的。這些數(shù)據(jù)集存在共同的特性,即其包含的視頻通常是以較短的持續(xù)時間進行預剪輯得到,同時提供的對應文本能充分描述視頻內(nèi)容的要點。因此,在此類數(shù)據(jù)集中所給出的文本-視頻對呈完全相關(guān)的關(guān)系。

然而在現(xiàn)實的視頻檢索場景中,由于查詢文本是未知的,預先剪輯好的視頻可能不包含足夠的內(nèi)容來完全滿足查詢文本。這表明現(xiàn)階段在學術(shù)研究的T2VR與實際應用存在一定的鴻溝。

如圖1所示,上半部分的圖取自傳統(tǒng)T2VR數(shù)據(jù)集MSR-VTT,由于視頻長度較短,場景單一,所以對應的文本"兩個男人在開車的同時進行交談"能夠很好地概括視頻的所有內(nèi)容。而在下半部分取自TV show Retrieval數(shù)據(jù)集的長視頻場景多變,持續(xù)時間較長。文本"豪斯使用記號筆在玻璃表面寫字"僅能表述視頻中的某一片段。在現(xiàn)實世界中的檢索場景大多符合后者。

為了彌補這一鴻溝,作者提出了一種新的T2VR子任務——部分相關(guān)的視頻檢索(Partially Relevant Video Retrieval, PRVR)。PRVR任務旨在從大量未剪輯的長視頻中檢索出與查詢文本部分相關(guān)的對應視頻。若一個未經(jīng)剪輯的長視頻中存在某一片段與給出的查詢文本相關(guān),則認為該長視頻與給出的查詢文本呈部分相關(guān)的關(guān)系。

f04e7c70-5067-11ed-a3b6-dac502259ad0.png

圖1 傳統(tǒng)T2VR任務中文本-視頻對的相關(guān)關(guān)系與現(xiàn)實世界的差別

雖然PRVR任務和傳統(tǒng)的T2VR任務的目標均為從視頻庫中檢索出查詢文本的對應視頻,但在PRVR任務中視頻通常比較長,同時文本查詢對應的片段在原視頻中的時長占比分布較廣。如圖3所示,在TVR和Charades-STA數(shù)據(jù)集中,時長占比大多分布在50%以下;Activitynet數(shù)據(jù)集的占比則在1%-100%之間均有分布。

這就代表若簡單地將視頻表示為單一向量,會大量丟失與查詢文本相關(guān)的關(guān)鍵信息。同時查詢文本在對應長視頻的相關(guān)時刻起始位置和持續(xù)時間都是未知的,需要模型具備在沒有時刻標簽指導下建模出文本和對應長視頻間部分相關(guān)關(guān)系的能力,所以PRVR任務相較于傳統(tǒng)的T2VR任務更具挑戰(zhàn)性。

f150f21a-5067-11ed-a3b6-dac502259ad0.png


圖3 不同數(shù)據(jù)集中片段時長占比分布

2. 方法

作者將PRVR定義為多示例學習(Multiple Instance Learning, MIL)問題。

多示例學習是弱標注數(shù)據(jù)學習的經(jīng)典框架,并被廣泛用于分類任務。在多示例學習中,一個樣本被視為由大量示例所組成的包,若包中的某一個或多個示例為正樣本時,則該包為正樣本;反之則該包為負樣本。作者將長視頻整體視為一個包,視頻中的各幀或由不同大小幀組成的片段則被視為不同示例。若文本與長視頻的某幀或者某個片段相關(guān),則視為文本與該長視頻相關(guān)。

此外,由于不同查詢文本與長視頻的相關(guān)時刻持續(xù)時長區(qū)別較大,所以作者在多個時間尺度進行視頻表示,進一步提出了多尺度相似性學習來度量查詢文本和長視頻間的部分相關(guān)性。

f174ef3a-5067-11ed-a3b6-dac502259ad0.png

圖4 模型框架圖

2.1 文本特征表示

由于當前模型的重點并不在于文本編碼,所以作者使用了一個較為簡單且有效的文本編碼框架,它也可以被任意當下熱門的文本編碼框架替代。

具體地,給定一句由個單詞所組成的查詢文本,使用預訓練的RoBERTa模型來提取每個單詞的特征向量作為文本的初始特征。之后通過全連接層進行特征降維后,使用一層的標準Transformer模塊對其進行進一步編碼得到。最終通過注意力模塊得到句子級別的特征表示,既:

f1c782b8-5067-11ed-a3b6-dac502259ad0.png


2.2 視頻特征表示

對于輸入的長視頻,首先使用預訓練的CNN對其進行特征預提取,作為視頻的初始特征向量。進一步地,作者分別從片段尺度和幀尺度分別對視頻初始特征向量進行編碼。

2.2.1 視頻的片段尺度編碼

在對視頻初始特征向量進行片段尺度編碼前,作者將其降采樣為長度為的特征,以減少初始特征序列的長度,并有助于降低編碼模塊的計算復雜度。

之后,將降采樣后的特征使用全連接層進行特征降維后,輸入到一層的標準Transformer中捕捉其上下文信息:

f1db25c0-5067-11ed-a3b6-dac502259ad0.png


由于上文提到PRVR任務中查詢文本在對應長視頻的起止時刻是未知的,作者采用滑動窗口的方法生成不同長度的候選視頻片段。具體地,作者使用不同尺寸的滑動窗口以步長為1的幅度遍歷,在遍歷過程中通過對落在滑動窗口內(nèi)的特征進行平均池化來獲得對應大小的視頻段特征序列。其形象化過程如上圖中片段構(gòu)造模塊所示。通過同時使用大小從的滑動窗口,得到視頻段特征序列集合,將其展開后得到最終的視頻片段尺度特征序列,。

2.2.2 視頻的幀尺度編碼

由于視頻初始特征向量是獨立提取的,因此它們?nèi)狈ι舷挛牡臅r序信息。作者使用Transformer模塊捕捉丟失的時序依賴關(guān)系。首先簡單地對初始特征使用全連接層進行特征降維,并輸入到一層標準Transformer,來得到視頻的幀尺度特征表示:

f205fee4-5067-11ed-a3b6-dac502259ad0.png


2.4 多尺度相似性學習

由于在PRVR中視頻比較長,直接在計算視頻文本相似性難度較大。

作者認為如果模型簡單地知道與查詢文本相關(guān)的大致內(nèi)容,它將有助于模型在更細粒度的范圍內(nèi)準確地找到更相關(guān)的內(nèi)容。

因此作者提出了多尺度相似性學習,以從粗到細的方式計算文本與視頻間的相似度。它首先檢測視頻中最可能與查詢文本相關(guān)的關(guān)鍵片段,然后在關(guān)鍵片段的指導下衡量每幀的重要性。通過聯(lián)合考慮查詢文本與關(guān)鍵片段和各幀的相似度來計算最終的文本-視頻相似度。

2.4.1 片段尺度相似度

在部分相關(guān)的檢索任務中,若文本與視頻中的某一片段相關(guān),則認為文本與該視頻相關(guān)。

因此作者首先計算視頻段特征序列中每個片段與文本特征表示之間的相似度,并將文本與片段最大的相似度作為文本與整個視頻的相似度。對于相似度取值,作者認為取平均值會使得相關(guān)片段信息被大部分的低相似度片段模糊,所以取最大值作為視頻片段尺度相似度。

此外,作者將相似度最高的視頻段特征作為關(guān)鍵視頻段特征。

f22d6812-5067-11ed-a3b6-dac502259ad0.png


2.4.2 幀尺度相似度

檢測到長視頻中與文本最相關(guān)的關(guān)鍵片段后,作者以關(guān)鍵片段為進一步指導,在細粒度的時間尺度上衡量長視頻每幀的重要性。

具體地,作者借鑒了Multi-head Attention的編碼方式,將關(guān)鍵片段特征作為query,視頻的幀尺度特征序列作為key和value。分別計算出中各特征的權(quán)重并對其進行聚合,并計算與文本特征表示的余弦相似度作為視頻幀尺度相似度:

f254c3bc-5067-11ed-a3b6-dac502259ad0.pngf2753cfa-5067-11ed-a3b6-dac502259ad0.png


2.5 訓練和測試

在模型訓練階段,作者同時使用了三元組損失和對比學習損失進行模型優(yōu)化。在測試階段,作者同時使用片段尺度相似度和幀尺度相似度以不同權(quán)重共同度量文本和視頻間的最終相似度:

f29007ce-5067-11ed-a3b6-dac502259ad0.png


3. 實驗結(jié)果

3.1整體性能對比實驗

由于在上文提到,T2VR任務的傳統(tǒng)數(shù)據(jù)集并不適用與PRVR任務,所以作者使用了被用于單視頻定位任務(Single Video Moment Retrieval, SVMR)和視頻庫定位任務(Video Corpus Moment Retrieval, VCMR)的數(shù)據(jù)集,分別是TV show Retrieval、Activitynet Captions以及Charades-STA。

在以上三個數(shù)據(jù)集中,文本僅與視頻中的某一片段相關(guān),且視頻的相對持續(xù)時間更長,符合PRVR任務的檢索要求。

此外,作者采用R@1、R@5、R@10、R@100以及Recall Sum等性能指標來衡量模型。同時,由于當前并沒有模型是面向PRVR任務的,作者選取了在傳統(tǒng)T2VR任務上表現(xiàn)較好的模型作為baseline并在以上三個數(shù)據(jù)集上進行重新訓練,以此進行性能對比。

在所有數(shù)據(jù)集上,論文提出的模型性能遠超各baseline。這表明論文提出的模型相較于傳統(tǒng)視頻檢索模型能夠更好地解決PRVR任務。

f2acaa78-5067-11ed-a3b6-dac502259ad0.pngf2e3463c-5067-11ed-a3b6-dac502259ad0.pngf3363e5a-5067-11ed-a3b6-dac502259ad0.png


3.2 分組性能對比實驗

由于在上述的性能對比實驗中僅反映了模型檢索數(shù)據(jù)集中所有文本-視頻對的整體性能,為了在更加細粒度的方面探索各模型對不同相關(guān)性的文本-視頻對的檢索性能,作者定義了片段時長/視頻時長比(M/V)這一概念,它以通過查詢文本所對應的正確片段持續(xù)時間除以整個視頻的持續(xù)時間來衡量。

M/V越小,表示對應視頻與查詢文本相關(guān)的內(nèi)容越少,反之則越多。此外, M/V越小,查詢文本與其對應視頻的相關(guān)性越低,而M/V越大,相關(guān)性越高。根據(jù)M/V的大小,作者將TVR數(shù)據(jù)集上的10895個測試查詢文本分為六組,并報告了在不同分組上的性能。

作者所提出的模型在所有分組中始終表現(xiàn)最好。從左到右觀察下圖,12個比較模型的平均性能隨著M/V的增加而增加。最低M/V組的表現(xiàn)最差,而最高M/V組的表現(xiàn)最好。

這表明,傳統(tǒng)的視頻檢索模型能夠更好地應對與相應視頻具有更大相關(guān)性的查詢文本。相比之下,作者所提出的模型在所有M/V組中取得的成績更為平衡。這一結(jié)果表明,作者提出的模型對視頻中的無關(guān)內(nèi)容不太敏感。

f3616094-5067-11ed-a3b6-dac502259ad0.png


3.3 消融實驗

對于提出的多尺度多示例模型的不同組成部分,作者進行了消融分析。

模型單獨使用幀尺度或片段尺度特征表示分支時,性能都不如兩分支相結(jié)合。同時基于關(guān)鍵片段的注意力機制也能為模型帶來較大的性能提升。由于在模型訓練階段同時使用了三元組損失和對比學習損失,作者也對兩損失結(jié)合使用的有效性進行了論證。

f388ff3c-5067-11ed-a3b6-dac502259ad0.png


3.4 對VCMR模型的性能提升

VCMR任務旨在給定查詢文本后,在視頻庫中檢索出對應視頻,并且確定查詢文本在對應視頻中的起止時刻。當前用于VCMR任務的主流模型通常擁有兩個階段的工作流程。第一階段為從視頻庫中檢索出k個候選視頻,第二階段為從候選視頻中檢索出準確的起止時刻。

作者選取了當前性能較高的模型,XML和ReLoCLNet,將以上兩個模型在TVR數(shù)據(jù)集上的第一階段檢索結(jié)果替換為作者所提出模型的檢索結(jié)果,從下圖可以看出在進行替換后能給上述兩模型帶來VCMR任務上的性能提升。

f3c18226-5067-11ed-a3b6-dac502259ad0.png


3.5 可視化展示

下圖作者給出了一些模型檢索過程中的可視化實例,分別給出了查詢文本在其對應視頻中由模型檢測出的關(guān)鍵片段范圍與關(guān)鍵片段和所有視頻幀之間的相似度曲線。

在前兩個查詢實例中,模型檢測出的關(guān)鍵片段與正確相關(guān)片段完全重合。在后兩個查詢實例中,檢測出的關(guān)鍵片段較為不準確,但是正確片段所包含的幀均具有較高的注意力權(quán)重。

這表明幀尺度相似度學習分支可以幫助片段尺度相似度學習分支在一定程度上補齊缺失信息,進一步反映了模型設計雙分支相似度學習模塊的合理性。

f3dbcdb6-5067-11ed-a3b6-dac502259ad0.png


4. 結(jié)論

在本文中,針對傳統(tǒng)T2VR任務在現(xiàn)實中的局限性,作者提出了一個全新的文本到視頻跨模態(tài)檢索子任務PRVR。在PRVR中,查詢文本與對應視頻均呈部分相關(guān)關(guān)系而非傳統(tǒng)T2VR任務中的完全相關(guān)關(guān)系。對于PRVR,作者將其定義為多示例學習問題,并提出多尺度多示例網(wǎng)絡,它以從粗到細的方式計算查詢文本和長視頻在片段尺度和幀尺度上的相似性。在三個數(shù)據(jù)集上的實驗驗證了作者所提出的模型對于PRVR任務的有效性,并表明它也可以用于提升VCMR任務模型的性能。





審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • ACM
    ACM
    +關(guān)注

    關(guān)注

    0

    文章

    34

    瀏覽量

    10467
  • cnn
    cnn
    +關(guān)注

    關(guān)注

    3

    文章

    353

    瀏覽量

    22527

原文標題:ACM MM 2022 Oral | PRVR: 新的文本到視頻跨模態(tài)檢索子任務

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 0人收藏

    評論

    相關(guān)推薦

    在TouchGFX中使用Modal時如何更改模態(tài)文本?

    TouchGFX 使用模態(tài)窗口。在Model Window中聲明了TextArear,TextArear的內(nèi)容要根據(jù)情況改變。有沒有辦法只在
    發(fā)表于 01-09 06:37

    種針對該文本檢索任務的BERT算法方案DR-BERT

    基于MS MARCO數(shù)據(jù)集,微軟提出了兩種不同的任務種是給定問題,檢索所有數(shù)據(jù)集中的文檔并進行排序,屬于文檔檢索和排序任務;另
    的頭像 發(fā)表于 08-27 18:05 ?4228次閱讀

    可解決數(shù)據(jù)異構(gòu)性問題的模態(tài)檢索方法

    隨著越來越多多模態(tài)數(shù)據(jù)的岀現(xiàn),模態(tài)檢索引起了廣泛的關(guān)注。模態(tài)
    發(fā)表于 03-26 14:29 ?10次下載
    可解決數(shù)據(jù)異構(gòu)性問題的<b class='flag-5'>跨</b><b class='flag-5'>模態(tài)</b><b class='flag-5'>檢索</b>方法

    基于異構(gòu)哈希網(wǎng)絡的模態(tài)人臉檢索方法探究分析

    該文提出種基于異構(gòu)哈希網(wǎng)絡的模態(tài)人臉檢索方法。異構(gòu)哈希網(wǎng)絡能夠?qū)⑽挥诓煌臻g的人臉圖像和人臉視頻映射到
    發(fā)表于 03-31 09:29 ?18次下載
    基于異構(gòu)哈希網(wǎng)絡的<b class='flag-5'>跨</b><b class='flag-5'>模態(tài)</b>人臉<b class='flag-5'>檢索</b>方法探究分析

    基于食物圖片的食譜檢索技術(shù)

    飲食記錄是飲食管理的關(guān)鍵環(huán)節(jié)。為了簡化記錄過程,研究者提出了基于食物圖片的食譜檢索技術(shù)通過拍攝的圖片檢索對應食譜,并據(jù)此生成營養(yǎng)信息,從而提高了記錄的便捷性。食譜檢索是典型的
    發(fā)表于 04-12 10:30 ?5次下載
    基于食物圖片的食譜<b class='flag-5'>檢索</b>技術(shù)

    基于深度學習的特種車輛模態(tài)檢索和識別方法

    駕駛混合交通的環(huán)境中,實現(xiàn)無人車對正在執(zhí)行任務的特種車輛進行合理避讓顯得尤為重要。針對無人駕駛對特種車輛識別的需求,文中構(gòu)建了模態(tài)檢索與識別網(wǎng)絡( Cross-modal retri
    發(fā)表于 04-23 14:56 ?15次下載
    基于深度學習的特種車輛<b class='flag-5'>跨</b><b class='flag-5'>模態(tài)</b><b class='flag-5'>檢索</b>和識別方法

    種基于異構(gòu)哈希網(wǎng)絡的模態(tài)人臉檢索方法

    該文提出種基于異構(gòu)哈希網(wǎng)絡的模態(tài)人臉檢索方法。異枃哈希網(wǎng)絡能夠?qū)⑽挥诓煌臻g的人臉圖像和人臉視頻映射到
    發(fā)表于 04-28 16:24 ?5次下載
    <b class='flag-5'>一</b>種基于異構(gòu)哈希網(wǎng)絡的<b class='flag-5'>跨</b><b class='flag-5'>模態(tài)</b>人臉<b class='flag-5'>檢索</b>方法

    如何去解決文本圖像生成的模態(tài)對比損失問題?

    文本圖像的自動生成,如何訓練模型僅通過文本描述輸入就能生成具體的圖像,是項非常具有挑戰(zhàn)性的任務
    的頭像 發(fā)表于 06-15 10:07 ?2866次閱讀
    如何去解決<b class='flag-5'>文本</b><b class='flag-5'>到</b>圖像生成的<b class='flag-5'>跨</b><b class='flag-5'>模態(tài)</b>對比損失問題?

    基于耦合字典學習與圖像正則化的模態(tài)檢索

    基于耦合字典學習與圖像正則化的模態(tài)檢索
    發(fā)表于 06-27 11:23 ?39次下載

    ImageBind:模態(tài)之王,將6種模態(tài)全部綁定!

    最近,很多方法學習與文本、音頻等對齊的圖像特征。這些方法使用單對模態(tài)或者最多幾種視覺模態(tài)。最終嵌入僅限于用于訓練的模態(tài)對。因此,視頻 - 音
    的頭像 發(fā)表于 05-11 09:30 ?1257次閱讀
    ImageBind:<b class='flag-5'>跨</b><b class='flag-5'>模態(tài)</b>之王,將6種<b class='flag-5'>模態(tài)</b>全部綁定!

    基于實體和動作時空建模的視頻文本預訓練

    摘要 盡管常見的大規(guī)模視頻-文本預訓練模型已經(jīng)在很多下游任務取得不錯的效果,現(xiàn)有的模型通常將視頻或者文本視為
    的頭像 發(fā)表于 05-25 11:29 ?885次閱讀
    基于實體和動作時空建模的<b class='flag-5'>視頻</b><b class='flag-5'>文本</b>預訓練

    基于文本圖像模型的可控文本視頻生成

    文本視頻模型需要大量高質(zhì)量的視頻和計算資源,這限制了相關(guān)社區(qū)進步的研究和應用。為了減少過度的訓練要求,我們研究了
    的頭像 發(fā)表于 06-14 10:39 ?1112次閱讀
    基于<b class='flag-5'>文本</b><b class='flag-5'>到</b>圖像模型的可控<b class='flag-5'>文本</b><b class='flag-5'>到</b><b class='flag-5'>視頻</b>生成

    更強更通用:智源「悟道3.0」Emu多模態(tài)大模型開源,在多模態(tài)序列中「補全切」

    熱度。Flamingo 具備強大的多模態(tài)上下文少樣本學習能力。 Flamingo 走的技術(shù)路線是將大語言模型與預訓練視覺編碼器結(jié)合,并插入可學習的層來捕捉
    的頭像 發(fā)表于 07-16 20:45 ?835次閱讀
    更強更通用:智源「悟道3.0」Emu多<b class='flag-5'>模態(tài)</b>大模型開源,在多<b class='flag-5'>模態(tài)</b>序列中「補全<b class='flag-5'>一</b>切」

    UniVL-DR: 多模態(tài)稠密向量檢索模型

    for Multi-Modal Retrieval 背景介紹 盡管當前主流搜索引擎主要面向文本數(shù)據(jù),然而多媒體內(nèi)容的增長直是互聯(lián)網(wǎng)上最顯著趨勢之,各種研究表明用戶更喜歡搜索結(jié)果中出現(xiàn)生動的多
    的頭像 發(fā)表于 08-06 22:00 ?1067次閱讀
    UniVL-DR: 多<b class='flag-5'>模態(tài)</b>稠密向量<b class='flag-5'>檢索</b>模型

    海康威視文搜存儲系列:模態(tài)檢索,安防新境界

    海康威視推出的文搜存儲系列產(chǎn)品,引領(lǐng)了安防領(lǐng)域的信息檢索新革命。該產(chǎn)品憑借多模態(tài)大模型技術(shù),實現(xiàn)了自然語言與視頻圖像的模態(tài)信息
    的頭像 發(fā)表于 02-18 14:08 ?365次閱讀

    電子發(fā)燒友

    中國電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會員交流學習
    • 獲取您個性化的科技前沿技術(shù)信息
    • 參加活動獲取豐厚的禮品