近年來,由于深度學(xué)習(xí)、計(jì)算機(jī)視覺和自然語言處理等多學(xué)科領(lǐng)域的興趣激增,視覺和語言任務(wù)的橋接得到了顯著的發(fā)展。在本綜述中,我們重點(diǎn)研究了10種不同的視覺和語言橋接任務(wù),包括它們的問題定義、方法、現(xiàn)有數(shù)據(jù)集、評(píng)估指標(biāo),以及與相應(yīng)的最先進(jìn)方法的結(jié)果的比較。這超越了早期的一些綜述,這些綜述要么是特定于任務(wù)的,要么只專注于一種類型的視覺內(nèi)容,即圖像或視頻。最后,我們討論了視覺與語言研究未來可能的整合方向。
引言
近年來,深度學(xué)習(xí)的發(fā)展使得計(jì)算機(jī)視覺(CV)和自然語言處理(NLP)領(lǐng)域在多項(xiàng)任務(wù)中取得重大進(jìn)展。
最近很多研究都熱衷于解決這些傳統(tǒng)獨(dú)立領(lǐng)域的語言和視覺信息相結(jié)合的挑戰(zhàn)。應(yīng)對(duì)語言和視覺結(jié)合挑戰(zhàn)的方法應(yīng)提供對(duì)視覺或文本內(nèi)容的完全理解,并期望(1)生成關(guān)于視覺內(nèi)容的可理解但簡潔且語法良好的描述,反之亦然,其中給定文本描述生成視覺內(nèi)容返回(2)識(shí)別視覺內(nèi)容中的對(duì)象并推斷它們與原因的關(guān)系或回答關(guān)于它們的任意問題(3)通過利用視覺和自然語言指令的輸入來進(jìn)行瀏覽(4)翻譯文本從一種語言到另一種語言的內(nèi)容,其視覺內(nèi)容用于消除歧義(5)生成有關(guān)視覺內(nèi)容的故事等。這些方法的設(shè)計(jì)可以處理和關(guān)聯(lián)來自多種形式的信息(即語言和視覺信息),通常被稱為多模態(tài)學(xué)習(xí)模型的一部分(Mogadala,2015)。
然而,在這篇文章中,作者不僅提供了十個(gè)不同任務(wù)的全面概述,還提供了驅(qū)動(dòng)當(dāng)前視覺和語言研究集成的方法、數(shù)據(jù)集和評(píng)估指標(biāo)。在第2節(jié)中,首先介紹了視覺和語言集成的10個(gè)重要任務(wù)及其方法,并在第3節(jié)中概述了用于每個(gè)任務(wù)的數(shù)據(jù)集。然后,在第4節(jié)中,我們分別描述了視覺和語言的表示,并進(jìn)一步討論了將視覺和語言結(jié)合起來實(shí)現(xiàn)任務(wù)的主要方法。在第5節(jié)中,我們給出了用于所有10個(gè)任務(wù)的評(píng)估指標(biāo)。此外,在第6節(jié)中,還比較和討論了通過相應(yīng)方法實(shí)現(xiàn)的每個(gè)任務(wù)的基準(zhǔn)結(jié)果。在第7節(jié)中,我們討論了可能的未來方向,最后第8節(jié)結(jié)束了我們的綜述,并討論了對(duì)結(jié)果的一些見解。
然而,在綜述中,我們超越了單詞并提出了那些將可變長度大于單詞的文本作為語言輸入的任務(wù)。這些任務(wù)中的大多數(shù)被視為對(duì)CV、NLP或這兩個(gè)問題的擴(kuò)展。圖1總結(jié)了不同的任務(wù)。然而,為了了解這些任務(wù)如何被視為CV,NLP或兩者中問題的自然延伸,我們簡要地發(fā)現(xiàn)它們與其各自研究中解決的類似任務(wù)之間的相關(guān)性。
圖1:十種不同的語言和視覺集成任務(wù)。
圖2:給定一張圖像,標(biāo)準(zhǔn)圖像描述生成模型生成一個(gè)全局文本描述。
表1:生成圖像全局描述的方法摘要。
圖3:給定一個(gè)視頻(表示為幀序列),視頻描述生成模型生成單個(gè)全局標(biāo)題。
圖4:給定圖像序列,圖像敘事模型按順序生成文本故事。
圖5:給定視頻幀(摘自(Li et al., 2018)),視頻敘事模型按順序生成文本故事。
圖6:給定一張圖像和問題,圖像問答模型產(chǎn)生答案。
圖7:給定一個(gè)視頻(由TV Q&A數(shù)據(jù)集中的幀序列表示)和問題,視頻問答模型從多個(gè)選項(xiàng)中找到正確的答案。
圖8:給定一張圖像,問題和對(duì)話歷史記錄,圖像對(duì)話模型基于它生成答案。
-
計(jì)算機(jī)視覺
+關(guān)注
關(guān)注
8文章
1699瀏覽量
46052 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5510瀏覽量
121349
原文標(biāo)題:NLP+CV《橋接視覺與語言的研究綜述》,帶你全面了解視覺+語言最新應(yīng)用和方法
文章出處:【微信號(hào):CAAI-1981,微信公眾號(hào):中國人工智能學(xué)會(huì)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論