與大多數(shù)AI系統(tǒng)不同,人類在上下文中一起理解文本,視頻,音頻和圖像的含義。例如,給定文本和圖像,當(dāng)它們分開看時(shí)似乎是無害的(例如,“看有多少人愛你”和一張荒蕪的沙漠圖片),人們就會(huì)認(rèn)識(shí)到,這些元素在配對(duì)或配對(duì)時(shí)具有潛在的有害含義。并列。
盡管能夠進(jìn)行這些多模式推斷的系統(tǒng)仍然遙不可及,但是已經(jīng)取得了進(jìn)步。過去一年中的新研究推動(dòng)了多模式學(xué)習(xí)的最新發(fā)展,特別是在視覺問題解答(VQA)子領(lǐng)域,這是一種計(jì)算機(jī)視覺任務(wù),其中向系統(tǒng)提供有關(guān)圖像和圖像的基于文本的問題。必須推斷答案。事實(shí)證明,多模式學(xué)習(xí)可以承載互補(bǔ)的信息或趨勢(shì),只有當(dāng)它們?nèi)堪趯W(xué)習(xí)過程中時(shí),這些信息或趨勢(shì)才會(huì)變得明顯。這為從字幕到將漫畫書翻譯成不同語(yǔ)言的應(yīng)用程序帶來了希望。
在多模式系統(tǒng)中,計(jì)算機(jī)視覺和自然語(yǔ)言處理模型在數(shù)據(jù)集上一起訓(xùn)練,以學(xué)習(xí)組合的嵌入空間,或由代表圖像,文本和其他媒體的特定特征的變量占據(jù)的空間。如果將不同的單詞與相似的圖像配對(duì),則這些單詞很可能用來描述相同的事物或?qū)ο?,而如果某些單詞出現(xiàn)在不同的圖像旁邊,則表示這些圖像表示相同的對(duì)象。那么,多模式系統(tǒng)應(yīng)該有可能從文本描述中預(yù)測(cè)諸如圖像對(duì)象之類的東西,并且大量的學(xué)術(shù)文獻(xiàn)已經(jīng)證明是這種情況。
僅存在一個(gè)問題:眾所周知,多峰系統(tǒng)會(huì)吸收數(shù)據(jù)集中的偏差。VQA等任務(wù)中涉及的問題和概念的多樣性,以及缺乏高質(zhì)量的數(shù)據(jù),通常會(huì)使模型無法學(xué)習(xí)到“推理”,從而導(dǎo)致他們依靠數(shù)據(jù)集統(tǒng)計(jì)信息做出有根據(jù)的猜測(cè)。
關(guān)鍵見解可能在于Orange實(shí)驗(yàn)室和里昂國(guó)家應(yīng)用科學(xué)研究院的科學(xué)家開發(fā)的基準(zhǔn)測(cè)試。他們聲稱測(cè)量VQA模型準(zhǔn)確性的標(biāo)準(zhǔn)度量標(biāo)準(zhǔn)具有誤導(dǎo)性,因此提供了替代方法GQA-OOD,它可以評(píng)估無法推理得出的問題的表現(xiàn)。在一項(xiàng)涉及7個(gè)VQA模型和3種減少偏見的技術(shù)的研究中,研究人員發(fā)現(xiàn)這些模型未能解決涉及頻率不高的概念的問題,這表明該領(lǐng)域需要開展工作。
該解決方案可能涉及更大,更全面的培訓(xùn)數(shù)據(jù)集。巴黎écoleNormaleSupérieure的工程師,巴黎Inria巴黎以及捷克的信息學(xué),機(jī)器人技術(shù)和控制論研究所的工程師發(fā)表的一篇論文提出了一個(gè)VQA數(shù)據(jù)集,該數(shù)據(jù)集是由數(shù)百萬個(gè)旁白的視頻創(chuàng)建的。研究人員稱,該數(shù)據(jù)集由轉(zhuǎn)錄視頻中自動(dòng)生成的問題和答案對(duì)組成,消除了手動(dòng)注釋的需要,同時(shí)可以在流行的基準(zhǔn)上實(shí)現(xiàn)出色的性能。(大多數(shù)機(jī)器學(xué)習(xí)模型學(xué)會(huì)根據(jù)自動(dòng)或手工標(biāo)記的數(shù)據(jù)做出預(yù)測(cè)。)
責(zé)任編輯:lq
-
應(yīng)用程序
+關(guān)注
關(guān)注
37文章
3285瀏覽量
57786 -
計(jì)算機(jī)視覺
+關(guān)注
關(guān)注
8文章
1699瀏覽量
46052 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1208瀏覽量
24752
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論