人們在陌生的建筑物中走動時(shí),會利用大量的視覺、空間和語義線索來有效地鎖定目標(biāo)位置。例如,即使在陌生的房子中,如果你看到餐飲區(qū),就可以大致推測廚房和休息區(qū)域的位置,進(jìn)而推斷出常見家用物品的位置。對于機(jī)器人智能體來說,在陌生建筑中利用語義線索和統(tǒng)計(jì)規(guī)律的難度較大。典型的解決方法是隱式學(xué)習(xí)這些線索,通過端到端的無模型強(qiáng)化學(xué)習(xí),了解這些線索的細(xì)節(jié)以及如何用于導(dǎo)航任務(wù)。不過,通過這種方式學(xué)習(xí)導(dǎo)航線索的學(xué)習(xí)成本太高,不便于檢測,而且必須從頭開始學(xué)習(xí)才能在其他智能體中重復(fù)使用。
無模型強(qiáng)化學(xué)習(xí)
https://ai.facebook.com/blog/near-perfect-point-goal-navigation-from-25-billion-frames-of-experience/
對于機(jī)器人導(dǎo)航和規(guī)劃智能體來說,一種有吸引力的替代方法是使用世界模型封裝周圍環(huán)境中豐富且有意義的信息,讓智能體可針對其所處環(huán)境中的具體情況預(yù)測出可靠結(jié)果。此類模型在機(jī)器人科學(xué)、模擬和強(qiáng)化學(xué)習(xí)中獲得廣泛關(guān)注,并已取得不錯的結(jié)果,包括發(fā)現(xiàn)已知首個(gè)針對模擬 2D 賽車任務(wù)的解決方案,以及在 Atari 游戲中實(shí)現(xiàn)接近人類水平的表現(xiàn)。不過,與復(fù)雜而多元的真實(shí)環(huán)境相比,游戲環(huán)境仍然相對簡單。
已知首個(gè)針對模擬 2D 賽車任務(wù)的解決方案
https://worldmodels.github.io/
在發(fā)表于 ICCV 2021 上的“Pathdreamer:室內(nèi)導(dǎo)航的世界模型 (Pathdreamer: A World Model for Indoor Navigation)”一文中,我們推出了一個(gè)世界模型,該模型使用非常有限的觀察結(jié)果和擬定的導(dǎo)航軌跡,為建筑內(nèi)智能體看不到的區(qū)域生成高分辨率 360o 視覺觀察結(jié)果。如下方視頻中所示,Pathdreamer 模型可以合成單個(gè)視角的沉浸式場景,預(yù)測智能體移動至新視野或完全陌生的區(qū)域(例如轉(zhuǎn)角)的觀察結(jié)果。除了可用于視頻編輯和生成動態(tài)照片,解決此任務(wù)可以整理關(guān)于人類環(huán)境的信息,以便幫助機(jī)器智能體在現(xiàn)實(shí)環(huán)境中完成導(dǎo)航任務(wù)。例如,要查找特定房間或陌生環(huán)境中物體的機(jī)器人,可以使用此世界模型執(zhí)行模擬,以便在實(shí)際執(zhí)行搜索任務(wù)前識別物體可能出現(xiàn)的位置。Pathdreamer 這一類的世界模型還可通過在模型中訓(xùn)練智能體,提升訓(xùn)練數(shù)據(jù)量以供智能體使用。
Pathdreamer:室內(nèi)導(dǎo)航的世界模型
https://arxiv.org/abs/2105.08756
只需借助單個(gè)觀察結(jié)果(RGB、深度圖像和語義分割),并輸入擬定導(dǎo)航軌跡,Pathdreamer 就能合成距離原始地點(diǎn)遠(yuǎn)至 6-7 米的位置(包括轉(zhuǎn)角)的高分辨率 360o 觀察結(jié)果。如需獲得更多結(jié)果,請參考完整視頻
完整視頻
https://www.youtube.com/watch?v=StklIENGqs0
Pathdreamer 的工作原理
Pathdreamer 會將一個(gè)或多個(gè)先前觀察結(jié)果作為輸入,生成對未來地點(diǎn)的軌跡預(yù)測。這些預(yù)測可能提供到前臺,或由智能體將其與返回的觀察結(jié)果交互迭代后提供。輸入和預(yù)測均由 RGB、語義分割 (Semantic segmentation) 和深度圖像 (Depth map) 組成。具體來說,Pathdreamer 會使用 3D 點(diǎn)云代表環(huán)境中的表面。云中的點(diǎn)均添加了其 RGB 色彩值以及語義分割類,例如 wall、chair 或 table。
為預(yù)測新地點(diǎn)中的視覺觀察結(jié)果,點(diǎn)云會首先在新地點(diǎn)以 2D 方式呈現(xiàn),以便提供“指導(dǎo)”圖像,Pathdreamer 可利用這些圖像生成逼真的高分辨率 RGB、語義分割和深度圖像。隨著模型不斷“移動”,新的觀察結(jié)果(無論是真實(shí)或預(yù)測結(jié)果)均在點(diǎn)云中積累。使用點(diǎn)云作為記憶的一個(gè)優(yōu)勢在于時(shí)間一致性,再次訪問的區(qū)域?qū)⒁酝环绞礁鶕?jù)先前觀察結(jié)果進(jìn)行渲染。
時(shí)間一致性
https://nvlabs.github.io/wc-vid2vid/
為了將指導(dǎo)圖像轉(zhuǎn)換為逼真可信的輸出,Pathdreamer 工作方式分為兩個(gè)階段:第一階段是結(jié)構(gòu)生成器創(chuàng)建語義分割和深度圖像;第二階段是圖像生成器將這些圖像渲染到 RGB 輸出中。概念上來說,第一階段可提供場景的高水平可信語義表示,第二階段將把這些表示渲染為逼真的彩色圖像。兩個(gè)階段均基于卷積神經(jīng)網(wǎng)絡(luò)。
多種生成結(jié)果
在很難確定的區(qū)域(例如預(yù)測可能為轉(zhuǎn)角的區(qū)域或未探測過的房間),生成的場景可能性差異很大。結(jié)合隨機(jī)視頻生成中的概念,Pathdreamer 中的結(jié)構(gòu)生成器根據(jù)噪聲變量進(jìn)行調(diào)節(jié),該變量表示指導(dǎo)圖像中未捕獲的下個(gè)地點(diǎn)的隨機(jī)信息。通過對多個(gè)噪音變量進(jìn)行采樣,Pathdreamer 可以合成多種場景,讓智能體能對給定軌跡的多個(gè)可信結(jié)果進(jìn)行采樣。這些不同結(jié)果不僅反映在第一階段輸出(語義分割和深度圖像)中,也反映在生成的 RGB 圖像中。
隨機(jī)視頻生成
https://arxiv.org/abs/1802.07687
Pathdreamer 能夠?yàn)楹茈y確定的區(qū)域生成多種可信圖像。最左列的指導(dǎo)圖像表示智能體先前檢測到的像素。黑色像素表示先前未檢測到的區(qū)域,Pathdreamer 會通過對多個(gè)隨機(jī)噪音向量進(jìn)行采樣為此類區(qū)域渲染出多種輸出。在實(shí)踐中,生成的輸出可利用智能體探索環(huán)境時(shí)新觀察到的結(jié)果
將圖像和來自 Matterport3D 的 3D 環(huán)境重構(gòu)數(shù)據(jù)進(jìn)行訓(xùn)練,Pathdreamer 能夠合成逼真圖像以及連續(xù)的視頻序列。因?yàn)檩敵鰣D像為高分辨率 360o 格式,可以立即由現(xiàn)有導(dǎo)航智能體轉(zhuǎn)換,用于任意相機(jī)視野范圍。如需獲取更多詳情并親自試用 Pathdreamer,歡迎查看我們的開放源代碼。
Matterport3D
https://niessner.github.io/Matterport/
連續(xù)的視頻序列
https://www.youtube.com/watch?v=HNAmsdk7lJ4
開放源代碼
https://github.com/google-research/pathdreamer
應(yīng)用于視覺導(dǎo)航任務(wù)
作為視覺世界模型,Pathdreamer 顯示了改善下游任務(wù)的巨大潛能。為了證明這一點(diǎn),我們將 Pathdreamer 應(yīng)用于 Vision-and-Language Navigation (VLN) 任務(wù),在執(zhí)行任務(wù)時(shí),具身智能體必須遵循自然語言的指示,在逼真 3D 環(huán)境中導(dǎo)航到新地點(diǎn)。借助 Room-to-Room (R2R) 數(shù)據(jù)庫,我們開展了一項(xiàng)實(shí)驗(yàn),實(shí)驗(yàn)中智能體跟隨指令提前規(guī)劃路線:模擬穿過環(huán)境的多種導(dǎo)航軌跡可能,并根據(jù)導(dǎo)航指示對每種軌跡進(jìn)行排名,選擇最佳軌跡作為行進(jìn)路線。此過程中需要考慮三個(gè)場景:Ground-Truth 場景中,智能體會通過與真實(shí)環(huán)境的互動(例如移動)進(jìn)行路線規(guī)劃;Baseline 場景中,智能體會通過與導(dǎo)航圖(其中編碼了建筑物中的可導(dǎo)航路線,但不提供任何視覺觀察結(jié)果)的互動提前規(guī)劃路線,不會移動;在 Pathdreamer 場景中,智能體通過與導(dǎo)航圖的互動提前規(guī)劃路線(不會移動),并且會接收 Pathdreamer 生成的相應(yīng)視覺觀察結(jié)果。
Room-to-Room
https://bringmeaspoon.org/
在 Pathdreamer 場景中,以三步的距離(約 6 米)進(jìn)行提前規(guī)劃時(shí),VLN 智能體可實(shí)現(xiàn) 50.4% 的導(dǎo)航成功率,遠(yuǎn)高于基線場景中不借助 Pathdreamer 時(shí)40.6% 的導(dǎo)航成功率 。這表明, Pathdreamer 會對關(guān)于室內(nèi)真實(shí)環(huán)境有用且可訪問的視覺、空間和語義線索進(jìn)行編碼。作為完美世界模型的能力上限,在 Ground-Truth 場景中(通過移動進(jìn)行路線規(guī)劃),智能體的成功率為 59%,盡管我們注意到此場景需要智能體花大量時(shí)間和資源用于真實(shí)探索多種軌跡,而這在真實(shí)場景中由于代價(jià)太高而幾乎不可行。
我們使用 Room-to-Room (R2R) 數(shù)據(jù)庫評估了跟隨指示的智能體的若干規(guī)劃場景。使用導(dǎo)航圖,并借助 Pathdreamer 合成的相應(yīng)視覺觀察結(jié)果提前規(guī)劃路線,比單獨(dú)使用導(dǎo)航圖(Baseline 場景)提前規(guī)劃路線更有效,可以達(dá)到使用完美符合現(xiàn)實(shí)的世界模型(Ground-Truth 場景)提前規(guī)劃路線時(shí)約一半的效果
結(jié)論和未來展望
這些結(jié)果顯示了將 Pathdreamer 等世界模型用于復(fù)雜具身導(dǎo)航任務(wù)的潛力。我們希望 Pathdreamer 能夠提供一些基于模型的方法,幫助您應(yīng)對具身導(dǎo)航任務(wù)(例如導(dǎo)航至指定物體和 VLN)難題。
將 Pathdreamer 應(yīng)用于其他具身導(dǎo)航任務(wù)(例如 Object-Nav、連續(xù) VLN 和街道導(dǎo)航)是未來的發(fā)展方向。
Object-Nav
https://arxiv.org/abs/2006.13171
連續(xù) VLN
https://arxiv.org/abs/2004.02857
街道導(dǎo)航
https://ai.googleblog.com/2020/02/enhancing-research-communitys-access-to.html
我們還設(shè)想未來進(jìn)一步優(yōu)化 Pathdreamer 模型的架構(gòu)和建模方向,并使用更多數(shù)據(jù)庫進(jìn)行測試,包括但不限于戶外環(huán)境。如希望深入探索 Pathdreamer,請?jiān)L問我們的 GitHub 代碼庫。
GitHub 代碼庫
https://github.com/google-research/pathdreame
致謝
此項(xiàng)目是 Jason Baldridge、Honglak Lee 和 Yinfei Yang 的協(xié)作成果。我們感謝 Austin Waters、Noah Snavely、Suhani Vora、Harsh Agrawal、David Ha 和在項(xiàng)目過程中提供反饋的其他人。我們還感謝 Google Research 團(tuán)隊(duì)的全面支持。最后,我們感謝 Tom Small 創(chuàng)建了第三張圖片中的動畫。
責(zé)任編輯:haq
-
封裝
+關(guān)注
關(guān)注
127文章
7990瀏覽量
143315 -
模型
+關(guān)注
關(guān)注
1文章
3298瀏覽量
49112
原文標(biāo)題:Pathdreamer:室內(nèi)導(dǎo)航的世界模型
文章出處:【微信號:tensorflowers,微信公眾號:Tensorflowers】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論