現(xiàn)在的計(jì)算機(jī)視覺系統(tǒng)大多基于深度神經(jīng)網(wǎng)絡(luò),它們可以通過學(xué)習(xí)大量數(shù)據(jù)集從而得到將圖像投影到普通的場(chǎng)景描述的功能,簡(jiǎn)單說就是見得多了習(xí)慣了。
然而和這種神經(jīng)網(wǎng)絡(luò)相比,我們的大腦顯然更加智能,可以利用先前的知識(shí)來(lái)推理,并做出遠(yuǎn)遠(yuǎn)超出看到的物品的推論。例如,如果看到桌子的三條腿,那么可以推斷出第四條腿的存在和其位置,基本與實(shí)際情況相同;即使看不到房間里的所有東西,你也可以畫出它的布局、想象它的外觀。嬰兒在八九個(gè)月時(shí)就可以理解“形狀恒常性”的存在,即使用布蓋住他面前的玩具,他也可以腦補(bǔ)出布下面玩具的樣子,而這,恰是深度神經(jīng)網(wǎng)絡(luò)不能識(shí)別的。
最近,通過模仿人大腦對(duì)環(huán)境的處理方法,DeepMind提出了一種新型計(jì)算機(jī)視覺框架:GQN (the Generative Query Network),這個(gè)框架實(shí)現(xiàn)了前面提到的功能,可以腦補(bǔ)出環(huán)境的另外部分,還可以將2D圖片渲染至3D。
GQN模型由兩部分組成:表示網(wǎng)絡(luò)和世代網(wǎng)絡(luò)。表示網(wǎng)絡(luò)將察結(jié)果輸入并對(duì)基礎(chǔ)場(chǎng)景產(chǎn)生描述性質(zhì)的的矢量表示,然后世代網(wǎng)絡(luò)從以前未觀察過的角度預(yù)測(cè)場(chǎng)景的表現(xiàn)。
表示網(wǎng)絡(luò)通過以分布式表示捕獲對(duì)象位置,顏色和房間布局等元素來(lái)實(shí)現(xiàn)準(zhǔn)確描述場(chǎng)景的真實(shí)布局。該網(wǎng)絡(luò)能夠以高度壓縮和抽象的方式描述場(chǎng)景,并將其留給世代網(wǎng)絡(luò),從而可以在必要時(shí)加入詳細(xì)信息。
世代網(wǎng)絡(luò)就像是一個(gè)近似的3D渲染器,它可以以非常精確的方式從新視角預(yù)測(cè)以前未觀測(cè)到的場(chǎng)景。當(dāng)給出場(chǎng)景和新的攝像機(jī)視點(diǎn)時(shí),無(wú)需事先規(guī)定透視法,遮擋法或照明法,它就可以生成清晰的圖像。
那么,GQN的可行性如何?
為了評(píng)估該框架的可行性,研究人員在模擬的3D環(huán)境中進(jìn)行了一系列嘗試。在第一組實(shí)驗(yàn)中,研究人員采用了包含各種對(duì)象的方形房間中的場(chǎng)景,墻面紋理、物體和燈的形狀、位置和顏色都是隨機(jī)的,以此有效地實(shí)現(xiàn)無(wú)限數(shù)量的總場(chǎng)景配置;隨后,研究人員使用有限數(shù)據(jù)集來(lái)訓(xùn)練和測(cè)試模型。訓(xùn)練結(jié)束后,GQN通過觀察一個(gè)先前未學(xué)習(xí)的測(cè)試場(chǎng)景的圖像來(lái)計(jì)算其場(chǎng)景表示,隨后的結(jié)果顯示,發(fā)生器在視點(diǎn)處的預(yù)測(cè)是高度準(zhǔn)確的,大部分與地面事實(shí)并沒有區(qū)別。
在這個(gè)實(shí)驗(yàn)中,GQN不可能通過隨機(jī)的方式準(zhǔn)確預(yù)測(cè)結(jié)果,它只能通過在場(chǎng)景感知和編碼物體的數(shù)量、位置、顏色,還有墻壁的顏色以及光源的間接觀察位置的方式來(lái)學(xué)習(xí)。與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)不同,GQN學(xué)習(xí)如何從圖像中進(jìn)行推理,而不需要對(duì)場(chǎng)景內(nèi)容進(jìn)行任何明確的人為標(biāo)注。實(shí)驗(yàn)過程中,當(dāng)場(chǎng)景的內(nèi)容重度遮擋的情況時(shí),預(yù)測(cè)模型就會(huì)出現(xiàn)不確定的情況,這種情況反映在最終結(jié)果的的變化性上。
隨后研究人員還采用了更復(fù)雜,程序化的迷宮環(huán)境來(lái)測(cè)試GQN的縮放屬性。迷宮由通過走廊連接的多個(gè)房間組成,不同場(chǎng)景中迷宮的布局和墻壁的顏色都是隨機(jī)的。在這個(gè)實(shí)驗(yàn)中,任何一次觀察都會(huì)提供有關(guān)當(dāng)前迷宮的少量信息。在進(jìn)行多次識(shí)別觀測(cè)后, GQN已經(jīng)可以在新的攝像機(jī)視點(diǎn)做出對(duì)迷宮環(huán)境正確的預(yù)測(cè);在進(jìn)一步的訓(xùn)練中,模型甚至還可以高度準(zhǔn)確地預(yù)測(cè)迷宮自上而下的視圖。
在這個(gè)實(shí)驗(yàn)中,預(yù)測(cè)模型的不確定性隨著觀測(cè)數(shù)量的增大而降低,經(jīng)過大約五次觀察后,GQN的不確定性幾乎完全消失。
現(xiàn)在的GQN還只能在實(shí)驗(yàn)室實(shí)現(xiàn),主要是因?yàn)樾枰芸胤治觥⒄鎸?shí)數(shù)據(jù)集的可用性有限、不足以生成復(fù)雜的模型等原因,但它的確可以處理視覺的遮擋、場(chǎng)景的組合等問題。隨著新的數(shù)據(jù)集可用化和建模能力的增強(qiáng),GQN也會(huì)逐漸實(shí)現(xiàn)應(yīng)用。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4793瀏覽量
102034 -
計(jì)算機(jī)視覺
+關(guān)注
關(guān)注
8文章
1704瀏覽量
46409
原文標(biāo)題:計(jì)算機(jī)視覺也可以腦補(bǔ)了?
文章出處:【微信號(hào):ARchan_TT,微信公眾號(hào):AR醬】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論