0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

新型計算機視覺框架:GQN可以腦補出環(huán)境的另外部分

0wvm_ARchan_TT ? 來源:未知 ? 作者:胡薇 ? 2018-06-21 14:29 ? 次閱讀

現(xiàn)在的計算機視覺系統(tǒng)大多基于深度神經(jīng)網(wǎng)絡(luò),它們可以通過學(xué)習(xí)大量數(shù)據(jù)集從而得到將圖像投影到普通的場景描述的功能,簡單說就是見得多了習(xí)慣了。

然而和這種神經(jīng)網(wǎng)絡(luò)相比,我們的大腦顯然更加智能,可以利用先前的知識來推理,并做出遠遠超出看到的物品的推論。例如,如果看到桌子的三條腿,那么可以推斷出第四條腿的存在和其位置,基本與實際情況相同;即使看不到房間里的所有東西,你也可以畫出它的布局、想象它的外觀。嬰兒在八九個月時就可以理解“形狀恒常性”的存在,即使用布蓋住他面前的玩具,他也可以腦補出布下面玩具的樣子,而這,恰是深度神經(jīng)網(wǎng)絡(luò)不能識別的。

最近,通過模仿人大腦對環(huán)境的處理方法,DeepMind提出了一種新型計算機視覺框架:GQN (the Generative Query Network),這個框架實現(xiàn)了前面提到的功能,可以腦補出環(huán)境的另外部分,還可以將2D圖片渲染至3D。

GQN模型由兩部分組成:表示網(wǎng)絡(luò)和世代網(wǎng)絡(luò)。表示網(wǎng)絡(luò)將察結(jié)果輸入并對基礎(chǔ)場景產(chǎn)生描述性質(zhì)的的矢量表示,然后世代網(wǎng)絡(luò)從以前未觀察過的角度預(yù)測場景的表現(xiàn)。

表示網(wǎng)絡(luò)通過以分布式表示捕獲對象位置,顏色和房間布局等元素來實現(xiàn)準(zhǔn)確描述場景的真實布局。該網(wǎng)絡(luò)能夠以高度壓縮和抽象的方式描述場景,并將其留給世代網(wǎng)絡(luò),從而可以在必要時加入詳細信息

世代網(wǎng)絡(luò)就像是一個近似的3D渲染器,它可以以非常精確的方式從新視角預(yù)測以前未觀測到的場景。當(dāng)給出場景和新的攝像機視點時,無需事先規(guī)定透視法,遮擋法或照明法,它就可以生成清晰的圖像。

那么,GQN的可行性如何?

為了評估該框架的可行性,研究人員在模擬的3D環(huán)境中進行了一系列嘗試。在第一組實驗中,研究人員采用了包含各種對象的方形房間中的場景,墻面紋理、物體和燈的形狀、位置和顏色都是隨機的,以此有效地實現(xiàn)無限數(shù)量的總場景配置;隨后,研究人員使用有限數(shù)據(jù)集來訓(xùn)練和測試模型。訓(xùn)練結(jié)束后,GQN通過觀察一個先前未學(xué)習(xí)的測試場景的圖像來計算其場景表示,隨后的結(jié)果顯示,發(fā)生器在視點處的預(yù)測是高度準(zhǔn)確的,大部分與地面事實并沒有區(qū)別。

在這個實驗中,GQN不可能通過隨機的方式準(zhǔn)確預(yù)測結(jié)果,它只能通過在場景感知和編碼物體的數(shù)量、位置、顏色,還有墻壁的顏色以及光源的間接觀察位置的方式來學(xué)習(xí)。與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)不同,GQN學(xué)習(xí)如何從圖像中進行推理,而不需要對場景內(nèi)容進行任何明確的人為標(biāo)注。實驗過程中,當(dāng)場景的內(nèi)容重度遮擋的情況時,預(yù)測模型就會出現(xiàn)不確定的情況,這種情況反映在最終結(jié)果的的變化性上。

隨后研究人員還采用了更復(fù)雜,程序化的迷宮環(huán)境來測試GQN的縮放屬性。迷宮由通過走廊連接的多個房間組成,不同場景中迷宮的布局和墻壁的顏色都是隨機的。在這個實驗中,任何一次觀察都會提供有關(guān)當(dāng)前迷宮的少量信息。在進行多次識別觀測后, GQN已經(jīng)可以在新的攝像機視點做出對迷宮環(huán)境正確的預(yù)測;在進一步的訓(xùn)練中,模型甚至還可以高度準(zhǔn)確地預(yù)測迷宮自上而下的視圖。

在這個實驗中,預(yù)測模型的不確定性隨著觀測數(shù)量的增大而降低,經(jīng)過大約五次觀察后,GQN的不確定性幾乎完全消失。

現(xiàn)在的GQN還只能在實驗室實現(xiàn),主要是因為需要受控分析、真實數(shù)據(jù)集的可用性有限、不足以生成復(fù)雜的模型等原因,但它的確可以處理視覺的遮擋、場景的組合等問題。隨著新的數(shù)據(jù)集可用化和建模能力的增強,GQN也會逐漸實現(xiàn)應(yīng)用。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標(biāo)題:計算機視覺也可以腦補了?

文章出處:【微信號:ARchan_TT,微信公眾號:AR醬】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    計算機視覺有哪些優(yōu)缺點

    計算機視覺作為人工智能領(lǐng)域的一個重要分支,旨在使計算機能夠像人類一樣理解和解釋圖像和視頻中的信息。這一技術(shù)的發(fā)展不僅推動了多個行業(yè)的變革,也帶來了諸多優(yōu)勢,但同時也伴隨著一些挑戰(zhàn)和局限性。以下是對
    的頭像 發(fā)表于 08-14 09:49 ?1053次閱讀

    機器視覺計算機視覺有什么區(qū)別

    機器視覺計算機視覺是兩個密切相關(guān)但又有所區(qū)別的概念。 一、定義 機器視覺 機器視覺,又稱為計算機
    的頭像 發(fā)表于 07-16 10:23 ?573次閱讀

    計算機視覺的五大技術(shù)

    計算機視覺作為深度學(xué)習(xí)領(lǐng)域最熱門的研究方向之一,其技術(shù)涵蓋了多個方面,為人工智能的發(fā)展開拓了廣闊的道路。以下是對計算機視覺五大技術(shù)的詳細解析,包括圖像分類、對象檢測、目標(biāo)跟蹤、語義分割
    的頭像 發(fā)表于 07-10 18:26 ?1462次閱讀

    計算機視覺的工作原理和應(yīng)用

    計算機視覺(Computer Vision,簡稱CV)是一門跨學(xué)科的研究領(lǐng)域,它利用計算機和數(shù)學(xué)算法來模擬人類視覺系統(tǒng)對圖像和視頻進行識別、理解、分析和處理。其核心目標(biāo)在于使
    的頭像 發(fā)表于 07-10 18:24 ?2161次閱讀

    機器人視覺計算機視覺的區(qū)別與聯(lián)系

    機器人視覺計算機視覺是兩個密切相關(guān)但又有所區(qū)別的領(lǐng)域。 1. 引言 在當(dāng)今科技迅猛發(fā)展的時代,機器人和計算機視覺技術(shù)在各個領(lǐng)域發(fā)揮著越來越
    的頭像 發(fā)表于 07-09 09:27 ?705次閱讀

    計算機視覺與人工智能的關(guān)系是什么

    引言 計算機視覺是一門研究如何使計算機能夠理解和解釋視覺信息的學(xué)科。它涉及到圖像處理、模式識別、機器學(xué)習(xí)等多個領(lǐng)域的知識。人工智能則是研究如何使計算
    的頭像 發(fā)表于 07-09 09:25 ?705次閱讀

    計算機視覺與智能感知是干嘛的

    引言 計算機視覺(Computer Vision)是一門研究如何使計算機能夠理解和解釋視覺信息的學(xué)科。它涉及到圖像處理、模式識別、機器學(xué)習(xí)等多個領(lǐng)域,是人工智能的重要組成
    的頭像 發(fā)表于 07-09 09:23 ?996次閱讀

    計算機視覺和機器視覺區(qū)別在哪

    計算機視覺和機器視覺是兩個密切相關(guān)但又有明顯區(qū)別的領(lǐng)域。 一、定義 計算機視覺 計算機
    的頭像 發(fā)表于 07-09 09:22 ?486次閱讀

    計算機視覺和圖像處理的區(qū)別和聯(lián)系

    計算機視覺和圖像處理是兩個密切相關(guān)但又有明顯區(qū)別的領(lǐng)域。 1. 基本概念 1.1 計算機視覺 計算機視覺
    的頭像 發(fā)表于 07-09 09:16 ?1392次閱讀

    計算機視覺屬于人工智能嗎

    屬于,計算機視覺是人工智能領(lǐng)域的一個重要分支。 引言 計算機視覺是一門研究如何使計算機具有視覺
    的頭像 發(fā)表于 07-09 09:11 ?1360次閱讀

    機器視覺計算機視覺的區(qū)別

    很多方面有著相似之處,如基礎(chǔ)理論、技術(shù)框架等,但它們在學(xué)科分類、應(yīng)用領(lǐng)域、側(cè)重點等方面存在明顯的區(qū)別。本文將對機器視覺計算機視覺進行詳細的對比分析,以便讀者更好地理解兩者的差異。
    的頭像 發(fā)表于 06-06 17:24 ?1378次閱讀

    計算機視覺的主要研究方向

    計算機視覺(Computer Vision, CV)作為人工智能領(lǐng)域的一個重要分支,致力于使計算機能夠像人眼一樣理解和解釋圖像和視頻中的信息。隨著深度學(xué)習(xí)、大數(shù)據(jù)等技術(shù)的快速發(fā)展,計算機
    的頭像 發(fā)表于 06-06 17:17 ?1032次閱讀

    【量子計算機重構(gòu)未來 | 閱讀體驗】+量子計算機的原理究竟是什么以及有哪些應(yīng)用

    本書內(nèi)容從目錄可以看出本書主要是兩部分內(nèi)容,一部分介紹量子計算機原理,一部分介紹其應(yīng)用。 其實個人也是抱著對這兩個問題的興趣來看的
    發(fā)表于 03-11 12:50

    計算機視覺的十大算法

    隨著科技的不斷發(fā)展,計算機視覺領(lǐng)域也取得了長足的進步。本文將介紹計算機視覺領(lǐng)域的十大算法,包括它們的基本原理、應(yīng)用場景和優(yōu)缺點。這些算法在圖像處理、目標(biāo)檢測、人臉識別等領(lǐng)域有著廣泛的應(yīng)
    的頭像 發(fā)表于 02-19 13:26 ?1285次閱讀
    <b class='flag-5'>計算機</b><b class='flag-5'>視覺</b>的十大算法

    計算機系統(tǒng)由什么兩部分組成 計算機系統(tǒng)的層次結(jié)構(gòu)

    的各項工作。內(nèi)存是計算機的主存儲器,用于暫時存放數(shù)據(jù)和指令。存儲設(shè)備包括硬盤、固態(tài)硬盤、光盤等,用于長期存儲大量的數(shù)據(jù)和程序。輸入輸出設(shè)備用于與外部環(huán)境交互,如鍵盤、鼠標(biāo)、打印機等。顯示器用于展示計算機處理的結(jié)果。 軟
    的頭像 發(fā)表于 02-01 14:13 ?3801次閱讀