0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

復(fù)旦&微軟提出?OmniVL:首個(gè)統(tǒng)一圖像、視頻、文本的基礎(chǔ)預(yù)訓(xùn)練模型

CVer ? 來(lái)源:CVer ? 作者:CVer ? 2022-12-14 15:26 ? 次閱讀

引言

基礎(chǔ)模型 (Foundation model) 指的是在大量數(shù)據(jù)上訓(xùn)練出來(lái)的、可以適應(yīng)一系列下游任務(wù)的模型[1],它被看作是邁向通用人工智能的重要一步。近些年來(lái),隨著CLIP的橫空出世,視覺(jué)-文本預(yù)訓(xùn)練 (Vision-Language Pretraining) 及其在各類(lèi)任務(wù)的遷移學(xué)習(xí)成為了備受關(guān)注的研究方向,并被認(rèn)為是建立視覺(jué)基礎(chǔ)模型的一個(gè)頗具前景的方向。

根據(jù)輸入數(shù)據(jù)和目標(biāo)下游任務(wù)的不同,現(xiàn)有的VLP方法可以大致分為兩類(lèi):圖像-文本預(yù)訓(xùn)練和視頻-文本預(yù)訓(xùn)練。前者從圖像-文本對(duì)中學(xué)習(xí)視覺(jué)和語(yǔ)言表征的聯(lián)合分布,后者則從視頻-文本對(duì)中建立視頻幀和文本之間的語(yǔ)義關(guān)聯(lián)。然而,當(dāng)前尚無(wú)工作探索將二者統(tǒng)一起來(lái),這篇文章認(rèn)為這主要因?yàn)楝F(xiàn)有的訓(xùn)練方式無(wú)法發(fā)揮圖像-文本預(yù)訓(xùn)練和視頻-文本預(yù)訓(xùn)練之間的互補(bǔ)性,但單純地實(shí)現(xiàn)統(tǒng)一而在兩類(lèi)下游任務(wù)上折損性能將是沒(méi)有意義的。盡管困難重重,對(duì)于基礎(chǔ)模型的追求使得這一問(wèn)題依舊難以回避。

這促使這篇工作思考并最終提出了一個(gè)真正統(tǒng)一的視覺(jué)-語(yǔ)言基礎(chǔ)模型OmniVL以同時(shí)支持圖像-文本和視頻-文本的預(yù)訓(xùn)練以及相應(yīng)的下游任務(wù),包括視覺(jué)任務(wù)(如圖像分類(lèi)、視頻動(dòng)作識(shí)別)、跨模態(tài)對(duì)齊任務(wù)(如圖像/視頻-文本檢索)以及多模態(tài)理解和生成任務(wù)(如圖像/視頻問(wèn)答、字幕自動(dòng)生成等)。OmniVL第一次探索出了圖像和視頻任務(wù)雙向互助的訓(xùn)練范式,而不是以往的單一方向,即用圖像(圖像-語(yǔ)言)來(lái)幫助視頻(視頻-語(yǔ)言)。

方法

OmniVL實(shí)現(xiàn)了模態(tài)、功能和訓(xùn)練數(shù)據(jù)三個(gè)維度的統(tǒng)一,本篇對(duì)方法的介紹也將圍繞著三個(gè)統(tǒng)一進(jìn)行展開(kāi)。

7fa457fa-7b7e-11ed-8abf-dac502259ad0.png

統(tǒng)一的模態(tài).OmniVL采用了一個(gè)統(tǒng)一的基于Transformer的視覺(jué)編碼器來(lái)提取視覺(jué)表征,其中視頻與圖像輸入共享大部分網(wǎng)絡(luò)結(jié)構(gòu),對(duì)于視頻而言,OmniVL采用了3D patching embedding和時(shí)間注意力塊[4]。此外,OmniVL額外利用一個(gè)文本編碼器來(lái)提取語(yǔ)言表征。

統(tǒng)一的功能.OmniVL采用了編碼器-解碼器的結(jié)構(gòu),并具有兩個(gè)視覺(jué)引導(dǎo)的解碼器:跨模態(tài)對(duì)齊解碼器和文本生成解碼器,前者通過(guò)視覺(jué)-文本匹配(的二分類(lèi))損失進(jìn)行監(jiān)督以學(xué)習(xí)視覺(jué)和文本模態(tài)之間的對(duì)齊,后者則通過(guò)語(yǔ)言建模(的生成式回歸)損失進(jìn)行監(jiān)督以學(xué)習(xí)從視覺(jué)特征中生成文本的能力。這兩個(gè)解碼器與上述的兩個(gè)編碼器相互配合,賦予了OmniVL“理解“和“生成”的能力。

統(tǒng)一的數(shù)據(jù).受到Florence[5]中使用的統(tǒng)一對(duì)比學(xué)習(xí)[6]的啟發(fā),OmniVL統(tǒng)一了圖像-文本和圖像-標(biāo)簽數(shù)據(jù)作為預(yù)訓(xùn)練語(yǔ)料庫(kù)、并將其進(jìn)一步擴(kuò)展到視頻-文本和視頻-標(biāo)簽數(shù)據(jù)上。這基于兩個(gè)方面的考慮:1)利用盡可能多的有監(jiān)督(或無(wú)監(jiān)督)的數(shù)據(jù)來(lái)豐富語(yǔ)料庫(kù);2)人工標(biāo)注的視覺(jué)-標(biāo)簽數(shù)據(jù)(如ImageNet和Kinetics-400)可以幫助模型學(xué)習(xí)出更具辨別性的表征,這有助于分類(lèi)相關(guān)的遷移學(xué)習(xí)任務(wù),而從網(wǎng)絡(luò)爬取的視覺(jué)-語(yǔ)言數(shù)據(jù) (如CC12M和WebVid) 涵蓋更廣泛的視覺(jué)概念,這有助于跨模態(tài)任務(wù)。這種簡(jiǎn)單的擴(kuò)展可以幫助OmniVL同時(shí)享有兩種優(yōu)勢(shì)。

最后回到了上面提到的最重要的問(wèn)題:如何實(shí)現(xiàn)圖像-文本和視頻-文本學(xué)習(xí)的相互促進(jìn)。前文提到,現(xiàn)有工作往往只是單獨(dú)利用圖像-文本或者視頻-文本進(jìn)行預(yù)訓(xùn)練(如下圖2-3行),因此在另一類(lèi)任務(wù)上的表現(xiàn)往往差強(qiáng)人意(多數(shù)情況被直接忽略)。尤其是如果只在視頻-文本上預(yù)訓(xùn)練的話(huà),受限于有限的數(shù)據(jù)規(guī)模、以及視頻數(shù)據(jù)本身的復(fù)雜性,在對(duì)應(yīng)的視頻任務(wù)上表現(xiàn)也很糟糕。為了解決這一問(wèn)題,一些工作如FiT[7]提出了將圖像看作單幀視頻、從而利用其和視頻數(shù)據(jù)進(jìn)行聯(lián)合訓(xùn)練(如下圖第4行),這一做法相較單純地利用視頻數(shù)據(jù)有顯著提升,但是直接從零學(xué)習(xí)圖像和視頻的表征以及跨模態(tài)的對(duì)齊顯然頗具挑戰(zhàn)性,這為網(wǎng)絡(luò)的學(xué)習(xí)和收斂增加了困難。Pretrain-then-finetuning是視覺(jué)領(lǐng)域一個(gè)常用的做法,它指的是首先在標(biāo)準(zhǔn)的圖像數(shù)據(jù)集上訓(xùn)練骨干網(wǎng)絡(luò)如ResNet,然后將其在下游任務(wù)包括視頻動(dòng)作識(shí)別上進(jìn)行微調(diào),這一方法在各類(lèi)任務(wù)上都取得了顯著的成功。借鑒于此,一種簡(jiǎn)單的做法是首先在圖像-文本上進(jìn)行第一階段的預(yù)訓(xùn)練、然后在視頻-文本上進(jìn)行第二階段的預(yù)訓(xùn)練(如下圖第5行)。這一做法是很有競(jìng)爭(zhēng)力的一個(gè)baseline,但是在一方面在圖像任務(wù)上的性能有所下降、另一方面在視頻任務(wù)上的表現(xiàn)還不夠驚艷。

7fe9706a-7b7e-11ed-8abf-dac502259ad0.png

為了更加充分地利用圖像-文本和視頻-文本數(shù)據(jù)的互補(bǔ)性、進(jìn)一步提升在不同下游任務(wù)上的表現(xiàn),OmniVL提出了一個(gè)解藕的聯(lián)合訓(xùn)練方式,即首先在圖像-文本上進(jìn)行預(yù)訓(xùn)練、然后結(jié)合視頻-文本進(jìn)行聯(lián)合預(yù)訓(xùn)練(如上圖第6行),這不僅可以防止對(duì)圖像表征的遺忘、甚至可以在二者對(duì)應(yīng)的任務(wù)上繼續(xù)提高性能。這篇工作認(rèn)為這是由于第一階段網(wǎng)絡(luò)可以專(zhuān)注在學(xué)習(xí)空間表征和其與文本模態(tài)的對(duì)齊上、第二階段則可以增益性地學(xué)習(xí)運(yùn)動(dòng)表征和跨模態(tài)的關(guān)系建模,這不僅使學(xué)習(xí)從空間維度到時(shí)間維度更加高效,而且還能使不同源的數(shù)據(jù)之間形成互補(bǔ)。

實(shí)驗(yàn)

視覺(jué)任務(wù)

文章首先采用經(jīng)典的圖像分類(lèi) (linear probing) 和視頻動(dòng)作識(shí)別任務(wù) (finetuning) 作為基準(zhǔn)評(píng)估了視覺(jué)編碼器在視覺(jué)任務(wù)上的表現(xiàn)。

80165b84-7b7e-11ed-8abf-dac502259ad0.png

80549cbe-7b7e-11ed-8abf-dac502259ad0.png

遵從CLIP的實(shí)現(xiàn),OmniVL凍結(jié)了視覺(jué)編碼器的參數(shù)并對(duì)新附加的線(xiàn)性層進(jìn)行微調(diào)。在6個(gè)圖像分類(lèi)數(shù)據(jù)集上,OmniVL相比于大多數(shù)baseline取得了一致更好的結(jié)果。與CLIP和FLAVA (70M) 相比,雖然使用明顯更少預(yù)訓(xùn)練數(shù)據(jù),OmniVL仍然取得了總體上有競(jìng)爭(zhēng)力的結(jié)果。

對(duì)于視頻動(dòng)作識(shí)別,文章在兩個(gè)規(guī)模較小的數(shù)據(jù)集UCF101和HMDB51上評(píng)估了linear probing的結(jié)果,并在兩個(gè)規(guī)模較大的數(shù)據(jù)集Kinetics-400和Something-something V2上評(píng)估了微調(diào)的結(jié)果,實(shí)驗(yàn)表明OmniVL都顯著地超越了baseline。

跨模態(tài)對(duì)齊任務(wù)

接下來(lái)文章探究了OmniVL在圖像-文本檢索和文本到視頻檢索任務(wù)上的表現(xiàn)。值得一提的是,為了平衡推理效率和多模態(tài)信息的深度融合,OmniVL首先根據(jù)單模態(tài)編碼器得到視覺(jué)和文本embedding的相似度得分選擇Top-K(默認(rèn)為K=128)候選者,然后利用跨模態(tài)對(duì)齊解碼器計(jì)算其成對(duì)的匹配得分對(duì)候選者重新排序,這種雙階段匹配的方式進(jìn)一步體現(xiàn)了該架構(gòu)的優(yōu)越性。

807604e4-7b7e-11ed-8abf-dac502259ad0.png

80d0a3b8-7b7e-11ed-8abf-dac502259ad0.png

從上圖可以看出,無(wú)論是在圖像-文本檢索還是文本到視頻檢索上,OmniVL都在不同數(shù)據(jù)集上取得了目前最佳的性能。尤其是在文本到視頻檢索任務(wù)上,得益于所提出的解藕聯(lián)合預(yù)訓(xùn)練方法,OmniVL顯著地超越了現(xiàn)有方法。

多模態(tài)理解和生成任務(wù)

以視覺(jué)為基礎(chǔ)的跨模態(tài)對(duì)齊解碼器和文本生成解碼器使OmniVL具備了多模態(tài)理解和生成的能力,在這一部分中,文章評(píng)估了它在字幕生成和圖像/視頻問(wèn)題回答上的表現(xiàn)。

8107acf0-7b7e-11ed-8abf-dac502259ad0.png

8124b32c-7b7e-11ed-8abf-dac502259ad0.png

在這類(lèi)任務(wù)上,OmniVL同樣取得了最好的結(jié)果。

總結(jié)和未來(lái)工作

這篇工作提出了OmniVL,一個(gè)全新的視覺(jué)-語(yǔ)言基礎(chǔ)模型,它將圖像-語(yǔ)言和視頻-語(yǔ)言統(tǒng)一起來(lái),并同時(shí)支持視覺(jué)任務(wù)、跨模態(tài)對(duì)齊任務(wù)以及多模態(tài)的理解和生成任務(wù)。OmniVL采用了統(tǒng)一的視覺(jué)-語(yǔ)言對(duì)比損失,這讓其能夠同時(shí)利用圖像-文本、圖像-標(biāo)簽、視頻-文本和視頻-標(biāo)簽數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練。另外,文章中提出了一個(gè)解耦地聯(lián)合訓(xùn)練范式,將視覺(jué)-語(yǔ)言建模解耦為空間和時(shí)間兩個(gè)維度,從而同時(shí)提高了在圖像和視頻任務(wù)的性能。

在這篇工作僅僅在CC12M和WebVid-2.5M這類(lèi)相對(duì)小規(guī)模的數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,隨著LAION、WebVid-10M的問(wèn)世,可以在更大規(guī)模的數(shù)據(jù)上訓(xùn)練更大的模型,以探索具有更強(qiáng)零樣本、小樣本能力的模型。另外一個(gè)值得探索的方向是結(jié)合更豐富的有標(biāo)簽數(shù)據(jù)和更優(yōu)的監(jiān)督目標(biāo),使得模型可以支持細(xì)粒度的任務(wù)如物體檢測(cè)、追蹤等,從而朝著通用的統(tǒng)一模型更上一層臺(tái)階。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1089

    瀏覽量

    40543
  • 圖像分類(lèi)
    +關(guān)注

    關(guān)注

    0

    文章

    93

    瀏覽量

    11945

原文標(biāo)題:NeurIPS 2022 | 復(fù)旦&微軟提出?OmniVL:首個(gè)統(tǒng)一圖像、視頻、文本的基礎(chǔ)預(yù)訓(xùn)練模型

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    【「基于大模型的RAG應(yīng)用開(kāi)發(fā)與優(yōu)化」閱讀體驗(yàn)】+大模型微調(diào)技術(shù)解讀

    今天學(xué)習(xí)<基于大模型的RAG應(yīng)用開(kāi)發(fā)與優(yōu)化>這本書(shū)。大模型微調(diào)是深度學(xué)習(xí)領(lǐng)域中的項(xiàng)關(guān)鍵技術(shù),它指的是在已經(jīng)
    發(fā)表于 01-14 16:51

    KerasHub統(tǒng)一、全面的預(yù)訓(xùn)練模型庫(kù)

    深度學(xué)習(xí)領(lǐng)域正在迅速發(fā)展,在處理各種類(lèi)型的任務(wù)中,預(yù)訓(xùn)練模型變得越來(lái)越重要。Keras 以其用戶(hù)友好型 API 和對(duì)易用性的重視而聞名,始終處于這動(dòng)向的前沿。Keras 擁有專(zhuān)用的內(nèi)
    的頭像 發(fā)表于 12-20 10:32 ?154次閱讀

    北美運(yùn)營(yíng)商AT&T認(rèn)證中的VoLTE測(cè)試項(xiàng)

    。以下是對(duì)AT&T認(rèn)證中VoLTE測(cè)試項(xiàng)的詳細(xì)歸納:、基本測(cè)試要求AT&T10776測(cè)試:這是項(xiàng)重要的測(cè)試要求,旨在確保終端單元(TU)和附件技術(shù)驗(yàn)收(TA)過(guò)程的
    的頭像 發(fā)表于 12-06 16:52 ?197次閱讀
    北美運(yùn)營(yíng)商AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T認(rèn)證中的VoLTE測(cè)試項(xiàng)

    什么是大模型、大模型是怎么訓(xùn)練出來(lái)的及大模型作用

    ,基礎(chǔ)模型。 ? 大模型個(gè)簡(jiǎn)稱(chēng),完整的叫法,應(yīng)該是“人工智能預(yù)訓(xùn)練模型”。
    的頭像 發(fā)表于 11-25 09:29 ?2484次閱讀
    什么是大<b class='flag-5'>模型</b>、大<b class='flag-5'>模型</b>是怎么<b class='flag-5'>訓(xùn)練</b>出來(lái)的及大<b class='flag-5'>模型</b>作用

    如何訓(xùn)練自己的LLM模型

    訓(xùn)練自己的大型語(yǔ)言模型(LLM)是個(gè)復(fù)雜且資源密集的過(guò)程,涉及到大量的數(shù)據(jù)、計(jì)算資源和專(zhuān)業(yè)知識(shí)。以下是訓(xùn)練LLM模型
    的頭像 發(fā)表于 11-08 09:30 ?741次閱讀

    AI大模型訓(xùn)練數(shù)據(jù)來(lái)源分析

    學(xué)術(shù)機(jī)構(gòu)、政府組織或企業(yè)公開(kāi)發(fā)布,涵蓋了各種類(lèi)型的數(shù)據(jù),如圖像、文本、音頻、視頻等。例如: ImageNet :個(gè)廣泛用于圖像識(shí)別任務(wù)的大
    的頭像 發(fā)表于 10-23 15:32 ?1017次閱讀

    直播預(yù)約 |數(shù)據(jù)智能系列講座第4期:預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)

    鷺島論壇數(shù)據(jù)智能系列講座第4期「預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)」10月30日(周三)20:00精彩開(kāi)播期待與您云相聚,共襄學(xué)術(shù)盛宴!|直播信息報(bào)告題目預(yù)
    的頭像 發(fā)表于 10-18 08:09 ?264次閱讀
    直播預(yù)約 |數(shù)據(jù)智能系列講座第4期:<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>的基礎(chǔ)<b class='flag-5'>模型</b>下的持續(xù)學(xué)習(xí)

    FS201資料(pcb &amp;amp; DEMO &amp;amp; 原理圖)

    電子發(fā)燒友網(wǎng)站提供《FS201資料(pcb &amp; DEMO &amp; 原理圖).zip》資料免費(fèi)下載
    發(fā)表于 07-16 11:24 ?0次下載

    大語(yǔ)言模型預(yù)訓(xùn)練

    能力,逐漸成為NLP領(lǐng)域的研究熱點(diǎn)。大語(yǔ)言模型預(yù)訓(xùn)練是這技術(shù)發(fā)展的關(guān)鍵步驟,它通過(guò)在海量無(wú)標(biāo)簽數(shù)據(jù)上進(jìn)行訓(xùn)練,使
    的頭像 發(fā)表于 07-11 10:11 ?517次閱讀

    LLM預(yù)訓(xùn)練的基本概念、基本原理和主要優(yōu)勢(shì)

    在人工智能和自然語(yǔ)言處理(NLP)領(lǐng)域,大型語(yǔ)言模型(Large Language Model,簡(jiǎn)稱(chēng)LLM)的興起極大地推動(dòng)了技術(shù)的進(jìn)步和應(yīng)用的發(fā)展。LLM通過(guò)在大規(guī)模文本數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練
    的頭像 發(fā)表于 07-10 11:03 ?1245次閱讀

    預(yù)訓(xùn)練模型的基本原理和應(yīng)用

    預(yù)訓(xùn)練模型(Pre-trained Model)是深度學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域中的個(gè)重要概念,尤其是在自然語(yǔ)言處理(NLP)和計(jì)算機(jī)視覺(jué)(CV)等領(lǐng)域中得到了廣泛應(yīng)用。
    的頭像 發(fā)表于 07-03 18:20 ?3075次閱讀

    大語(yǔ)言模型:原理與工程時(shí)間+小白初識(shí)大語(yǔ)言模型

    的分布式表示,基于預(yù)訓(xùn)練的詞嵌入表示。 獨(dú)熱表示就是在個(gè)大的向量空間中,其中個(gè)位1,其余都為0,這樣就會(huì)變成單獨(dú)的。 詞的分布式表示:根據(jù)上下文進(jìn)行推斷語(yǔ)義。 基于
    發(fā)表于 05-12 23:57

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型預(yù)訓(xùn)練

    進(jìn)行損失計(jì)算,得到下個(gè)目標(biāo)的預(yù)測(cè)。也會(huì)設(shè)計(jì)些其他輔助訓(xùn)練任務(wù),與主任務(wù)共同訓(xùn)練。選擇合適的預(yù)訓(xùn)練
    發(fā)表于 05-07 17:10

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的基礎(chǔ)技術(shù)

    模型架構(gòu)奠定基礎(chǔ)。然后,引介些經(jīng)典的預(yù)訓(xùn)練模型,如BERT、GPT等。最后,解讀ChatGPT和LLaMA系列
    發(fā)表于 05-05 12:17

    奧特曼發(fā)布王炸模型Sora OpenAI首個(gè)文生視頻模型Sora正式亮相

    奧特曼發(fā)布王炸模型Sora OpenAI首個(gè)文生視頻模型Sora正式亮相 2月16日凌晨OpenAI的首個(gè)文生
    的頭像 發(fā)表于 02-18 17:41 ?1026次閱讀