久久久久久精品毛片aaaa级,久久久久久精品免费免费sss,国内揄拍国内精品少妇国语

近年來(lái)，由于深度學(xué)習(xí)、計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理等多學(xué)科領(lǐng)域的興趣激增，視覺(jué)和語(yǔ)言任務(wù)的橋接得到了顯著的發(fā)展。在本綜述中，我們重點(diǎn)研究了10種不同的視覺(jué)和語(yǔ)言橋接任務(wù)，包括它們的問(wèn)題定義、方法、現(xiàn)有數(shù)據(jù)集、評(píng)估指標(biāo)，以及與相應(yīng)的最先進(jìn)方法的結(jié)果的比較。這超越了早期的一些綜述，這些綜述要么是特定于任務(wù)的，要么只專注于一種類型的視覺(jué)內(nèi)容，即圖像或視頻。最后，我們討論了視覺(jué)與語(yǔ)言研究未來(lái)可能的整合方向。

引言

近年來(lái)，深度學(xué)習(xí)的發(fā)展使得計(jì)算機(jī)視覺(jué)（CV）和自然語(yǔ)言處理（NLP）領(lǐng)域在多項(xiàng)任務(wù)中取得重大進(jìn)展。

最近很多研究都熱衷于解決這些傳統(tǒng)獨(dú)立領(lǐng)域的語(yǔ)言和視覺(jué)信息相結(jié)合的挑戰(zhàn)。應(yīng)對(duì)語(yǔ)言和視覺(jué)結(jié)合挑戰(zhàn)的方法應(yīng)提供對(duì)視覺(jué)或文本內(nèi)容的完全理解，并期望（1）生成關(guān)于視覺(jué)內(nèi)容的可理解但簡(jiǎn)潔且語(yǔ)法良好的描述，反之亦然，其中給定文本描述生成視覺(jué)內(nèi)容返回（2）識(shí)別視覺(jué)內(nèi)容中的對(duì)象并推斷它們與原因的關(guān)系或回答關(guān)于它們的任意問(wèn)題（3）通過(guò)利用視覺(jué)和自然語(yǔ)言指令的輸入來(lái)進(jìn)行瀏覽（4）翻譯文本從一種語(yǔ)言到另一種語(yǔ)言的內(nèi)容，其視覺(jué)內(nèi)容用于消除歧義（5）生成有關(guān)視覺(jué)內(nèi)容的故事等。這些方法的設(shè)計(jì)可以處理和關(guān)聯(lián)來(lái)自多種形式的信息（即語(yǔ)言和視覺(jué)信息），通常被稱為多模態(tài)學(xué)習(xí)模型的一部分（Mogadala，2015）。

然而，在這篇文章中，作者不僅提供了十個(gè)不同任務(wù)的全面概述，還提供了驅(qū)動(dòng)當(dāng)前視覺(jué)和語(yǔ)言研究集成的方法、數(shù)據(jù)集和評(píng)估指標(biāo)。在第2節(jié)中，首先介紹了視覺(jué)和語(yǔ)言集成的10個(gè)重要任務(wù)及其方法，并在第3節(jié)中概述了用于每個(gè)任務(wù)的數(shù)據(jù)集。然后，在第4節(jié)中，我們分別描述了視覺(jué)和語(yǔ)言的表示，并進(jìn)一步討論了將視覺(jué)和語(yǔ)言結(jié)合起來(lái)實(shí)現(xiàn)任務(wù)的主要方法。在第5節(jié)中，我們給出了用于所有10個(gè)任務(wù)的評(píng)估指標(biāo)。此外，在第6節(jié)中，還比較和討論了通過(guò)相應(yīng)方法實(shí)現(xiàn)的每個(gè)任務(wù)的基準(zhǔn)結(jié)果。在第7節(jié)中，我們討論了可能的未來(lái)方向，最后第8節(jié)結(jié)束了我們的綜述，并討論了對(duì)結(jié)果的一些見(jiàn)解。

然而，在綜述中，我們超越了單詞并提出了那些將可變長(zhǎng)度大于單詞的文本作為語(yǔ)言輸入的任務(wù)。這些任務(wù)中的大多數(shù)被視為對(duì)CV、NLP或這兩個(gè)問(wèn)題的擴(kuò)展。圖1總結(jié)了不同的任務(wù)。然而，為了了解這些任務(wù)如何被視為CV，NLP或兩者中問(wèn)題的自然延伸，我們簡(jiǎn)要地發(fā)現(xiàn)它們與其各自研究中解決的類似任務(wù)之間的相關(guān)性。

圖1：十種不同的語(yǔ)言和視覺(jué)集成任務(wù)。

圖2：給定一張圖像，標(biāo)準(zhǔn)圖像描述生成模型生成一個(gè)全局文本描述。

表1：生成圖像全局描述的方法摘要。

圖3：給定一個(gè)視頻（表示為幀序列），視頻描述生成模型生成單個(gè)全局標(biāo)題。

圖4：給定圖像序列，圖像敘事模型按順序生成文本故事。

圖5：給定視頻幀（摘自（Li et al., 2018）），視頻敘事模型按順序生成文本故事。

圖6：給定一張圖像和問(wèn)題，圖像問(wèn)答模型產(chǎn)生答案。

圖7：給定一個(gè)視頻（由TV Q＆A數(shù)據(jù)集中的幀序列表示）和問(wèn)題，視頻問(wèn)答模型從多個(gè)選項(xiàng)中找到正確的答案。

圖8：給定一張圖像，問(wèn)題和對(duì)話歷史記錄，圖像對(duì)話模型基于它生成答案。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

計(jì)算機(jī)視覺(jué)

計(jì)算機(jī)視覺(jué)

+關(guān)注

關(guān)注
9

文章
1706

瀏覽量
46634
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5557

瀏覽量
122602

原文標(biāo)題：NLP+CV《橋接視覺(jué)與語(yǔ)言的研究綜述》，帶你全面了解視覺(jué)+語(yǔ)言最新應(yīng)用和方法

文章出處：【微信號(hào)：CAAI-1981，微信公眾號(hào)：中國(guó)人工智能學(xué)會(huì)】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

搜索歷史

橋接視覺(jué)與語(yǔ)言的研究綜述

評(píng)論

電子發(fā)燒友