作者:Hao Ai,Zidong Cao,Jinjing Zhu,Haotian Bai,Yucheng Chen,Lin Wang
本綜述來自于香港科技大學(xué)(廣州)王林團(tuán)隊,對現(xiàn)有的深度學(xué)習(xí)在全景視覺上的應(yīng)用進(jìn)行了全面的回顧,并提供了一些新的觀點以及對全景視覺未來的應(yīng)用展望。
本文首先對全景圖像的成像進(jìn)行了分析,緊接著對現(xiàn)有的在全景圖像上的卷積方式進(jìn)行了分類介紹,并對現(xiàn)有的全景圖像數(shù)據(jù)集進(jìn)行了收集并介紹。作為第一篇全面回顧和分析深度學(xué)習(xí)方法在全景圖像應(yīng)用上的綜述,我們匯總并分析對比了在眾多視覺任務(wù)上現(xiàn)有深度學(xué)習(xí)方法的相同與差異。最后,我們提供了一些全景圖像的新的應(yīng)用方向的研究思路,以供研究者參考討論。
1、Abstract
全向圖像(ODI)數(shù)據(jù)是用360x180
的視場捕獲的,該視場比針孔相機(jī)寬得多,并且包含比傳統(tǒng)平面圖像更豐富的空間信息。因此,全景視覺因其在自動駕駛和虛擬現(xiàn)實等眾多應(yīng)用中更具優(yōu)勢的性能而引起了人們的廣泛關(guān)注。近年來,客戶級360
相機(jī)的出現(xiàn)使得全景視覺更加流行,深度學(xué)習(xí)(DL)的進(jìn)步顯著激發(fā)了其研究和應(yīng)用。本文對深度學(xué)習(xí)方法在全景視覺方面的最新進(jìn)展進(jìn)行了系統(tǒng)、全面的綜述和分析。作者的工作包括四個主要內(nèi)容:(一)介紹全向成像原理,ODI上的卷積方法,以及數(shù)據(jù)集,以突出與2D平面圖像數(shù)據(jù)相比的差異和困難;(二) 用于全景視覺的遠(yuǎn)程學(xué)習(xí)方法的結(jié)構(gòu)和層次分類;(三) 總結(jié)最新的新學(xué)習(xí)戰(zhàn)略和應(yīng)用;(四) 通過強(qiáng)調(diào)潛在的研究方向,對挑戰(zhàn)和懸而未決的問題進(jìn)行有見地的討論,以促進(jìn)社區(qū)中的更多研究。
2、Introduction
隨著3D技術(shù)的飛速發(fā)展和對逼真視覺體驗的追求,對計算機(jī)視覺的研究興趣逐漸從傳統(tǒng)的2D平面圖像數(shù)據(jù)轉(zhuǎn)向全向圖像(ODI)數(shù)據(jù),也稱為360圖像、全景圖像或球形圖像數(shù)據(jù)。由360
攝像機(jī)捕獲的ODI數(shù)據(jù)產(chǎn)生360
x180
視場(FoV),這比針孔相機(jī)寬得多;因此,它可以通過反射比傳統(tǒng)平面圖像更豐富的空間信息來捕獲整個周圍環(huán)境。由于沉浸式體驗和完整視圖,ODI數(shù)據(jù)已廣泛應(yīng)用于眾多應(yīng)用,例如增強(qiáng)現(xiàn)實(AR)/虛擬現(xiàn)實(VR),自動駕駛和機(jī)器人導(dǎo)航。通常,原始ODI數(shù)據(jù)表示為等距柱狀投影(ERP)或立方體圖投影(CP)以與成像管道一致。作為一個新穎的數(shù)據(jù)領(lǐng)域,ODI數(shù)據(jù)既具有領(lǐng)域獨特的優(yōu)勢(球面成像的寬FoV,豐富的幾何信息,多種投影類型)也具有挑戰(zhàn)性(ERP類型中的嚴(yán)重失真,CP格式的內(nèi)容不連續(xù)性)。這使得對全景視覺的研究變得有價值,但具有挑戰(zhàn)性。
最近,客戶級360相機(jī)的出現(xiàn)使全景視覺更加普及,深度學(xué)習(xí)(DL)的進(jìn)步極大地促進(jìn)了其研究和應(yīng)用。特別是作為一項數(shù)據(jù)驅(qū)動的技術(shù),公共數(shù)據(jù)集的持續(xù)發(fā)布,包括:SUN360、Salient 360、Stanford2D3D、Pano-AVQA和PanoContext數(shù)據(jù)集等等,已經(jīng)迅速使深度學(xué)習(xí)方法取得了顯著的突破,并經(jīng)常在各種全景視覺任務(wù)上實現(xiàn)最先進(jìn)的(SoTA)性能。此外,還開發(fā)了各種基于不同架構(gòu)的深度神經(jīng)網(wǎng)絡(luò)(DNN)模型,從卷積神經(jīng)網(wǎng)絡(luò)(CNN),遞歸神經(jīng)網(wǎng)絡(luò)(RNN),生成對抗網(wǎng)絡(luò)(GAN),圖神經(jīng)網(wǎng)絡(luò)(GNN),到vision Trasnformer(ViTs)。一般來說,SoTA-DL方法側(cè)重于四個主要方面:(I)用于從ODI數(shù)據(jù)中提取特征的卷積濾波器(全向視頻(ODV)可以被認(rèn)為是ODI的一個時間集),(II)通過考慮輸入數(shù)字和投影類型進(jìn)行網(wǎng)絡(luò)設(shè)計,(III)新穎的學(xué)習(xí)策略,以及(IV)實際應(yīng)用。本文對深度學(xué)習(xí)方法在全景視覺方面的最新進(jìn)展進(jìn)行了系統(tǒng)、全面的綜述和分析。與已有的關(guān)于全景視覺的綜述不同,我們強(qiáng)調(diào)了深度學(xué)習(xí)的重要性,并按照邏輯地和全面地探索了全景視覺的最新進(jìn)展。本研究中提出的結(jié)構(gòu)和層次分類法如圖所示。
綜上所述,本研究的主要貢獻(xiàn)可歸納為:(1)據(jù)我們所知,這是第一份調(diào)查,全面回顧和分析了全景視覺的DL方法,包括全向成像原理,表征學(xué)習(xí),數(shù)據(jù)集,分類學(xué)和應(yīng)用,以突出與2D規(guī)劃師圖像數(shù)據(jù)的差異和困難。(2)我們總結(jié)了過去五年中發(fā)表的大多數(shù)(可能不是全部)頂級會議/期刊作品(超過200篇論文),并對DL的最新趨勢進(jìn)行了分析研究,以實現(xiàn)分層和結(jié)構(gòu)上的全景視覺。此外,我們還提供對每個類別的討論和挑戰(zhàn)的見解。(3)我們總結(jié)了最新的新型學(xué)習(xí)策略和全方位視覺的潛在應(yīng)用。(4)由于深度學(xué)習(xí)用于全景視覺是一個活躍而復(fù)雜的研究領(lǐng)域,我們對挑戰(zhàn)和尚未解決的問題進(jìn)行了深入的討論,并提出了潛在的未來方向,以刺激社區(qū)進(jìn)行更深入的研究。同時,我們在多個表格中總結(jié)了一些流行的全景視覺任務(wù)的代表性方法及其關(guān)鍵策略。為了提供更好的任務(wù)內(nèi)比較,我們在基準(zhǔn)數(shù)據(jù)集上提出了一些代表性方法的定量和定性結(jié)果,所有統(tǒng)計數(shù)據(jù)均來自原始論文。由于空間不足,我們在補(bǔ)充材料的Sec.2中展示了實驗結(jié)果。(5)我們創(chuàng)建了一個開源存儲庫,該存儲庫提供了所有上述作品和代碼鏈接的分類。我們將繼續(xù)用這一領(lǐng)域的新作品更新我們的開源存儲庫,并希望它能為未來的研究提供啟示。存儲庫鏈接為https://github.com/VLISLAB/360-DL-Survey。
3、Background
3.1、全景成像原理
3.1.1 Acquisition
普通相機(jī)的FoV低于180,因此最多只能捕獲一個半球的視圖。然而,一個理想的360
相機(jī)可以捕捉從各個方向落在焦點上的光線,使投影平面成為一個完整的球面。在實踐中,大多數(shù)360
相機(jī)無法實現(xiàn)它,由于死角,這排除了頂部和底部區(qū)域。根據(jù)鏡頭數(shù)量,360
相機(jī)可分為三種類型:(i)帶有一個魚眼鏡頭的相機(jī),不可能覆蓋整個球面。但是,如果已知內(nèi)在和外在參數(shù),則可以通過將多個圖像投影到一個球體中并將它們拼接在一起來實現(xiàn)ODI;(ii)帶有雙魚眼鏡頭的攝像機(jī)位于相反的位置,每個鏡頭的額定值都超過 180 美元,例如 Insta360 ONE 和 LG 360 CAM。這種類型的360
相機(jī)對鏡頭有最低需求,這些鏡頭便宜又方便,受到行業(yè)和客戶的青睞。然后將來自兩個相機(jī)的圖像拼接在一起以獲得全向圖像,但拼接過程可能會導(dǎo)致邊緣模糊;(iii) 具有兩個以上鏡頭的相機(jī),如泰坦(八個鏡頭)。此外,GoPro Omni是第一款將六個常規(guī)相機(jī)放置在立方體的六個面上的相機(jī)裝備,其合成結(jié)果具有更高的精度和更少的邊緣模糊。這種類型的360
相機(jī)是專業(yè)級的。
3.1.2 Spherical Stereo
全景圖像擁有多個投影方式,如等距柱狀投影(ERP), 立方體貼圖投影(CP), 切線投影(TP), 二十面體投影(IP)以及一些其他復(fù)雜投影方式等等,具體轉(zhuǎn)換公式請查看全文。
3.1.3 Spherical Stereo
3.2 針對全景圖像的卷積方法
由于全景圖像(ODI)的自然投影表面是一個球體,因此當(dāng)球面圖像投影回平面時,標(biāo)準(zhǔn) CNN 處理固有失真的能力較差。已經(jīng)提出了許多基于CNN的方法,以增強(qiáng)從球形圖像中提取“無偏”信息的能力。這些方法可以分為兩類:(i)在平面投影上應(yīng)用2D卷積濾波器;(ii) 直接利用球面域中的球面卷積濾波器。在本小節(jié)中,我們將詳細(xì)分析這些方法。
3.2.1 基于平面投影的卷積
作為最常見的球面投影,ERP引入了嚴(yán)重的變形,特別是在兩極??紤]到它提供了全局信息并且占用了更少的計算成本,Su 等人提出了一種具有代表性的方法,該方法基于球面坐標(biāo)利用具有自適應(yīng)核大小的常規(guī)卷積濾波器。受球面卷積的啟發(fā),SphereNet提出了另一種典型的方法,通過直接調(diào)整卷積濾波器的采樣網(wǎng)格位置來實現(xiàn)失真不變性,并可以端到端地訓(xùn)練,如圖所示。Distortion-aware的卷積核,如圖所示。特別是,在ODI得到廣泛應(yīng)用之前,Cohen等人研究了ERP引入的空間變化失真,并提出了一種旋轉(zhuǎn)不變球面CNN方法來學(xué)習(xí)SO3表示,等等。
3.2.2 球面卷積
一些方法已經(jīng)探索了球面域中的特殊卷積濾波器。Esteves等人提出了第一個球面CNN架構(gòu),該架構(gòu)考慮了球面諧波域中的卷積濾波器,以解決標(biāo)準(zhǔn)CNN中的3D旋轉(zhuǎn)等價差問題。
楊等人提出了一個代表性框架,將球面圖像映射到基于球面幾何形狀的旋轉(zhuǎn)等變表示中。(a),SGCN將輸入球面圖像表示為基于GICOPix的圖形。此外,它通過GCN層探索了圖的等距變換等方差。在cohen等人的文章中,提出了規(guī)范等變CNN來學(xué)習(xí)二十面體的球面表示。相比之下,shakerinava等人將二十面體擴(kuò)展到柏拉圖固體的所有像素化,并在像素化的球體上推廣了規(guī)范等變CNN。由于在效率和旋轉(zhuǎn)等價差之間進(jìn)行權(quán)衡,DeepSphere將采樣球體建模為連接像素的圖形,并設(shè)計了一種新穎的圖形卷積網(wǎng)絡(luò) (GCN),通過調(diào)整圖上像素的相鄰像素數(shù)來平衡計算效率和采樣靈活性。與上述方法相比,在SpherePHD中提出了另一種具有代表性的ODI表示。如圖所示,球面PHD將球面圖像表示為球面多面體,并提供特定的卷積和池化方法。
3.3數(shù)據(jù)集
基于深度學(xué)習(xí)的方法的性能與數(shù)據(jù)集的質(zhì)量和數(shù)量密切相關(guān)。隨著球面成像設(shè)備的發(fā)展,大量的ODI和OPV數(shù)據(jù)集被公開用于各種視覺任務(wù)。特別是,大多數(shù)ODV數(shù)據(jù)都是從維梅奧和優(yōu)酷等公共視頻共享平臺收集的。在表格Table1中,我們列出了一些用于不同目的的代表性 ODI 和 ODV 數(shù)據(jù)集,我們還顯示了它們的屬性,例如大小、分辨率、數(shù)據(jù)源。更多的數(shù)據(jù)集可以在全文以及補(bǔ)充材料中找到。
4、Omnidirectional Vision Tasks
4.1、圖像/視頻處理
4.1.1 圖像生成
圖像生成旨在從部分或噪聲數(shù)據(jù)中恢復(fù)或合成完整且干凈的ODI數(shù)據(jù). 對于ODI上的圖像生成,存在四個流行的研究方向:(i)全景深度圖補(bǔ)全;(二) 全景深度圖補(bǔ)全;(三)全景語義圖的補(bǔ)全;(四)在全景圖像上的視角合成。在本小節(jié)中,我們對一些代表性作品進(jìn)行了全面的分析。
4.1.2 跨視圖合成和地理定位
跨視圖合成旨在從衛(wèi)星視圖圖像中合成地面視圖ODI,而地理定位旨在匹配地面視圖ODI和衛(wèi)星視圖圖像以確定它們之間的關(guān)系。
討論:大多數(shù)跨視圖合成和地理定位方法都假定參考圖像精確地位于任何查詢圖像的位置。盡管如此,在實踐中,這兩種觀點在方向和空間位置方面通常并不完全一致。因此,如何在具有挑戰(zhàn)性的條件下應(yīng)用跨視圖合成和地理定位方法是一個有價值的研究方向。
4.1.3 圖像壓縮
與傳統(tǒng)的透視圖像相比,全景數(shù)據(jù)以更高的分辨率和更寬的FoV記錄更豐富的幾何信息,這使得實現(xiàn)有效壓縮更具挑戰(zhàn)性。早期的ODI壓縮方法直接利用現(xiàn)有的透視方法來壓縮ODI的透視投影。例如,Simone等人提出了一種自適應(yīng)量化方法,以解決將ODI投影到ERP時視口圖像塊的頻率偏移。相比之下,OmniJPEG首先估計 ODI 中感興趣的區(qū)域,然后根據(jù)區(qū)域內(nèi)容的幾何變換,使用一種名為 OmniJPEG 的新穎格式對 ODI 進(jìn)行編碼,該格式是 JPEG 格式的擴(kuò)展,可以在舊版 JPEG 解碼器上查看,等等。
4.1.4 照明估計
它旨在從低動態(tài)范圍(LDR)ODI預(yù)測高動態(tài)范圍(HDR)照明。照明恢復(fù)被廣泛用于許多現(xiàn)實世界的任務(wù),從場景理解、重建到編輯。Hold-Geoffroy等人提出了一個具有代表性的戶外照度估計框架。他們首先訓(xùn)練了一個CNN模型,以預(yù)測室外ODI的視口的天空參數(shù),例如太陽位置和大氣條件。然后,他們根據(jù)預(yù)測的照明參數(shù)為給定的測試圖像重建照明環(huán)境圖。同樣,在Gardner等人的工作中,利用CNN模型來預(yù)測視口中燈光的位置,并對CNN進(jìn)行微調(diào)以從ODI中預(yù)測燈光強(qiáng)度即環(huán)境圖。在Gardner等人2019年的一個工作中中,室內(nèi)照明的幾何和光度參數(shù)從ODI的視口回歸,并利用中間潛向量重構(gòu)環(huán)境貼圖。另一種代表性的方法,稱為EMLight,由回歸網(wǎng)絡(luò)和神經(jīng)投影儀組成?;貧w網(wǎng)絡(luò)輸出光參數(shù),神經(jīng)投影儀將光參數(shù)轉(zhuǎn)換為照度圖。特別是,光參數(shù)的地面實況由通過球面高斯函數(shù)從照明生成的高斯圖分解。
討論和潛力:從上述分析中,先前用于ODI照明估計的工作將單個視口作為輸入。原因可能是視口無失真,低成本,分辨率低。然而,它們遭受了空間信息的嚴(yán)重下降。因此,應(yīng)用對比學(xué)習(xí)從切線圖像的多個視口或組件中學(xué)習(xí)穩(wěn)健的表示可能是有益的。
4.1.5 圖像超分
現(xiàn)有的頭戴式顯示器(HMD)設(shè)備至少需要21600乘以10800像素的ODI才能獲得沉浸式體驗,這是當(dāng)前相機(jī)系統(tǒng)無法直接捕獲的。另一種方法是捕獲低分辨率 (LR) ODI,并高效地將它們超級解析為高分辨率 (HR) ODI。LAU-Net作為第一個考慮ODI SR緯度差異的著作,引入了多級緯度自適應(yīng)網(wǎng)絡(luò)。它將ODI劃分為不同的緯度波段,并分層地擴(kuò)展這些波段,這些波段具有不同的自適應(yīng)因子,這些因子是通過強(qiáng)化學(xué)習(xí)方案學(xué)習(xí)的。除了考慮ERP上的SR之外,Yoon等人提出了一個代表性的工作SphereSR,以學(xué)習(xí)統(tǒng)一的連續(xù)球面局部隱式圖像函數(shù),并根據(jù)球面坐標(biāo)查詢生成任意分辨率的任意投影。對于全景視頻(ODV) SR,SMFN是第一個基于DNN的框架,包括單幀和多幀聯(lián)合網(wǎng)絡(luò)和雙網(wǎng)絡(luò)。單幀和多幀聯(lián)合網(wǎng)絡(luò)融合了相鄰幀的特征,雙網(wǎng)限制了求解空間,以找到更好的答案。
4.1.6 Upright Adjustment
Upright Adjustment旨在糾正攝像機(jī)和場景之間方向的錯位,以提高ODI和ODV的視覺質(zhì)量,同時將它們與窄視場(NFoV)顯示器(如VR應(yīng)用程序)一起使用。
4.1.7 視覺質(zhì)量評估
由于全向數(shù)據(jù)的超高分辨率和球體表示,視覺質(zhì)量評估(V-QA)對于優(yōu)化現(xiàn)有的圖像/視頻處理算法很有價值。接下來,我們將分別介紹一些關(guān)于ODI-QA和ODV-QA的代表性作品。
對于 ODI-QA,根據(jù)參考圖像的可用性,可以進(jìn)一步將其分為兩類:full-reference (FR) ODI-QA 和no-reference (NR) ODI-QA。對于 ODV-QA,Li等人提出了一種基于具有代表性的基于視口的 CNN 方法,包括視口提案網(wǎng)絡(luò)和視口質(zhì)量網(wǎng)絡(luò),如圖所示。視口方案網(wǎng)絡(luò)生成多個潛在視口及其錯誤映射,視口質(zhì)量網(wǎng)絡(luò)對每個建議視口的 V-QA 分?jǐn)?shù)進(jìn)行評級。最終的V-QA分?jǐn)?shù)是通過所有視口V-QA分?jǐn)?shù)的加權(quán)平均值計算的。Gao等人對ODV的時空扭曲進(jìn)行了建模,并通過整合現(xiàn)有的3個ODI-QA目標(biāo)指標(biāo),提出了一種新的FR目標(biāo)指標(biāo)。
4.2、場景理解
4.2.1 物體識別
與普通透視圖像相比,基于深度學(xué)習(xí)的ODI對象檢測仍然存在兩大難點:(i)傳統(tǒng)的卷積核在ODI投影中處理不規(guī)則平面網(wǎng)格結(jié)構(gòu)的能力較弱;(ii)傳統(tǒng)2D物體檢測中采用的標(biāo)準(zhǔn)不適合球形圖像。
4.2.2 語義分割
基于DL的全向語義分割已被廣泛研究,因為ODI可以包含有關(guān)周圍空間的詳盡信息。實際上還存在許多挑戰(zhàn),例如,平面投影中的變形,物體變形,計算復(fù)雜性和稀缺的標(biāo)記數(shù)據(jù)。在文章中,我們介紹了一些通過監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)進(jìn)行ODI語義分割的代表性方法。
4.2.3 單目深度估計
由于大規(guī)模全景深度數(shù)據(jù)集的出現(xiàn),單目深度估計發(fā)展迅速。如圖所示有幾種趨勢:(i)定制網(wǎng)絡(luò),例如,失真感知卷積濾波器和魯棒表示;(ii) 基于不同的投影類型。(iii) 固有的幾何先驗。(iv) 多個視圖或姿態(tài)估計。
4.2.4 光流估計
基于現(xiàn)有的實驗結(jié)果表明,直接應(yīng)用基于DL的二維光流估計方法對ODI進(jìn)行估計,會得到不盡如人意的結(jié)果。為此,Xie等人介紹了一個小型診斷數(shù)據(jù)集FlowCLEVR,并評估了三種定制卷積濾波器的性能,即相關(guān)卷積、坐標(biāo)和可變形卷積,用于估計全向光流。域適配框架受益于透視域光流估計的發(fā)展。與Cubes3DNN類似,OmniFlowNet建立在FlowNet2上。特別是作為LiteFlowNet的延伸,LiteFlowNet360采用核變換技術(shù),解決了球面投影帶來的固有失真問題,等等。
4.2.5 視頻總結(jié)
視頻摘要旨在通過選擇包含 ODV 最關(guān)鍵信息的部分來生成具有代表性和完整的概要。與2D視頻總結(jié)方法相比,ODV的視頻總結(jié)只有少數(shù)作品被提出。Pano2Vid是代表性框架,包含兩個子步驟:檢測整個 ODV 幀中感興趣的候選事件,并應(yīng)用動態(tài)編程來鏈接檢測到的事件。但是,Pano2Vid需要觀察整個視頻,并且對于視頻流應(yīng)用程序的能力較差。Deep360Pilot是第一個設(shè)計用于觀眾自動ODV導(dǎo)航的類人在線代理的框架。Deep360pilot包括三個步驟:對象檢測以獲得感興趣的候選對象,訓(xùn)練RNN選擇重要對象,以及在ODV中捕捉激動人心的時刻。AutoCam在人類行為理解之后從 ODV 生成正常的 NFoV 視頻。
討論:基于上述分析,該研究領(lǐng)域只有少數(shù)幾種方法存在。作為一項與時間相關(guān)的任務(wù),將轉(zhuǎn)換器機(jī)制應(yīng)用于ODV匯總可能是有益的。此外,以前的作品只考慮了ERP格式,這遭受了最嚴(yán)重的失真問題。因此,最好考慮 CP、切線投影或球體格式作為 ODV 匯總的輸入。
4.3、3D視覺
4.3.1 房間布局估計和重建
房間布局估計和重建包括多個子任務(wù),例如布局估計、3D 對象檢測 和 3D 對象重建。這項綜合任務(wù)旨在促進(jìn)基于單個 ODI 的整體場景理解。
4.3.2 立體匹配
人類雙眼視差取決于視網(wǎng)膜上投影之間的差異,即球體投影而不是平面投影。因此,ODI上的立體匹配更類似于人類視覺系統(tǒng)。在Seuffert等人的工作中,他們討論了全向失真對基于CNN的方法的影響,并比較了從透視和全向立體圖像預(yù)測的視差圖的質(zhì)量。實驗結(jié)果表明,基于ODI的立體匹配對于機(jī)器人、AR/VR等多種應(yīng)用更具優(yōu)勢。一般立體匹配算法遵循四個步驟:(i)匹配成本計算,(ii)成本聚合,(iii)優(yōu)化差異計算,以及(iv)差異細(xì)化。作為首個基于DNN的全向立體框架,SweepNet提出了一種寬基線立體系統(tǒng),用于從采用超廣角FoV鏡頭的相機(jī)拍攝的一對圖像中計算匹配的成本圖,并在鉆機(jī)坐標(biāo)系上使用全局球體掃描直接生成全向深度圖。
4.3.3 SLAM
SLAM是一個復(fù)雜的系統(tǒng),采用多個攝像頭,例如單目,立體聲或RGB-D,結(jié)合移動代理上的傳感器來重建環(huán)境并實時估計代理姿勢。SLAM通常用于實時導(dǎo)航和現(xiàn)實增強(qiáng),例如谷歌地球。立體信息,如關(guān)鍵點和dense或semi-dense深度圖引用,對于構(gòu)建精確的現(xiàn)代SLAM系統(tǒng)是必不可少的。具體而言,與傳統(tǒng)的單目SLAM或多視角SLAM相比,全向數(shù)據(jù)由于FoV較大,可以提供更豐富的紋理和結(jié)構(gòu)信息,基于全景相機(jī)的SLAM避免了不連續(xù)幀對周圍環(huán)境的影響,并享有完整定位和映射的技術(shù)優(yōu)勢。Caruso等人提出了一種具有代表性的單目SLAM方法,直接闡述了圖像直接對準(zhǔn)和像素距離濾波的全向相機(jī)。
4.4、人類行為理解
4.4.1 顯著性預(yù)測
最近,在深度學(xué)習(xí)進(jìn)展的基礎(chǔ)上,ODI顯著性預(yù)測出現(xiàn)了幾個研究趨勢:(i)從2D傳統(tǒng)卷積到3D特定卷積;(ii) 從單一特征到多個特征;(iii) 從單一的企業(yè)資源規(guī)劃投入到多類型投入;(iv)從基于CNN的正常學(xué)習(xí)到新穎的學(xué)習(xí)策略。
4.4.2 注視行為
注視跟隨,也稱為注視估計,與檢測場景中的人們所看和吸收的內(nèi)容有關(guān)。由于正常的透視圖像是NFoV捕獲的,因此注視目標(biāo)總是在場景之外。ODI注視跟蹤是為了解決這個問題,因為ODI具有捕獲整個觀看環(huán)境的強(qiáng)大能力。以前的3D注視跟蹤方法可以直接檢測球體空間中人類受試者的注視目標(biāo),但忽略了ODI的場景信息,其執(zhí)行的凝視跟隨效果不佳。Gaze360使用魚眼晶狀體校正來預(yù)處理圖像,收集了一個大型的凝視數(shù)據(jù)集。然而,由于球面投影引起的失真,遠(yuǎn)距離凝視中的凝視目標(biāo)可能不在人體主體的2D視線中,這在2D圖像中已不再相同。李等人提出了第一個ODI注視跟蹤框架,并收集了第一個ODI注視跟蹤數(shù)據(jù)集,稱為GazeFollow360。
挑戰(zhàn)和潛力:ODI 包含更豐富的上下文信息,可以促進(jìn)對注視行為的理解。然而,仍然存在一些挑戰(zhàn)。首先,很少有特定于ODI的特定凝視跟蹤和凝視預(yù)測數(shù)據(jù)集。數(shù)據(jù)是基于深度學(xué)習(xí)的方法的“引擎”,因此收集定量和定性數(shù)據(jù)集是必要的。其次,由于球面投影類型中存在失真問題,未來的研究應(yīng)考慮如何通過幾何變換來校正這種失真。最后,與普通2D圖像相比,ODI中的注視跟隨和注視預(yù)測都需要了解更廣泛的場景信息。應(yīng)進(jìn)一步探討空間背景關(guān)系。
4.4.3 視聽場景理解
由于ODV可以為觀察者提供對整個周圍環(huán)境的沉浸式理解,因此最近的研究重點是對ODV的視聽場景理解。由于它使觀眾能夠在各個方向上體驗聲音,因此ODV的空間無線電是全場景感知的重要提示。作為全向空間化問題的第一部作品,Morgado 等人設(shè)計了一個四塊架構(gòu),應(yīng)用自監(jiān)督學(xué)習(xí)來生成空間無線電,給定單聲道音頻和ODV作為聯(lián)合輸入。他們還提出了一個具有代表性的自我監(jiān)督框架,用于從ODV的視聽空間內(nèi)容中學(xué)習(xí)表示。
討論:基于上述分析,該研究領(lǐng)域的大多數(shù)工作將ERP圖像處理為普通2D圖像,而忽略了固有的失真。未來的研究可能會探索如何將ODI的球面成像特性和幾何信息與空間音頻線索更好地結(jié)合起來,以提供更逼真的視聽體驗。
4.4.4 視覺問答
視覺問答(VQA)是一項全面而有趣的任務(wù),結(jié)合了計算機(jī)視覺(CV),自然語言處理(NLP)和知識表示$ &$推理(KR)。更寬的FoV ODI和ODV對于VQA研究更有價值和更具挑戰(zhàn)性,因為它們可以提供類似于人類視覺系統(tǒng)的立體空間信息。VQA 360,在~引用{chou2020可視化}中提出,是第一個關(guān)于ODI的VQA框架。它引入了一種基于CP的模型,具有多級融合和注意力擴(kuò)散,以減少空間失真。同時,收集的VQA 360
數(shù)據(jù)集為未來的發(fā)展提供了基準(zhǔn)。此外,Yun等人提出了第一個基于ODV的VQA作品,全景AVQA,它結(jié)合了來自三種形式的信息:語言,音頻和ODV幀。變壓器網(wǎng)絡(luò)提取的融合多模態(tài)表示提供了對全向環(huán)境的整體語義理解。他們還在 ODV 上提供了第一個空間和音頻 VQA 數(shù)據(jù)集。
討論與挑戰(zhàn):基于上述分析,基于ODI/ODV VQA的工作很少。與2D域中的方法相比,最大的困難是如何利用球面投影類型,例如二十面體和切線圖像。隨著2D領(lǐng)域中二十多個數(shù)據(jù)集和眾多有效網(wǎng)絡(luò)的發(fā)表,未來的研究可能會考慮如何有效地轉(zhuǎn)移知識,以學(xué)習(xí)更強(qiáng)大的DNN模型以實現(xiàn)全向視覺。
5、Novel Learning Strategies
5.1、無監(jiān)督/半監(jiān)督學(xué)習(xí)
由于全景注釋不足但成本高昂,因此會發(fā)生ODI數(shù)據(jù)稀缺問題。這個問題通常通過半監(jiān)督學(xué)習(xí)或無監(jiān)督學(xué)習(xí)來解決,它們可以利用豐富的未標(biāo)記數(shù)據(jù)來增強(qiáng)泛化能力。對于半監(jiān)督學(xué)習(xí),Tran等人利用“平均教師”模型通過在同一場景中從標(biāo)記和未標(biāo)記的數(shù)據(jù)中學(xué)習(xí)來進(jìn)行3D房間布局重建。對于無監(jiān)督學(xué)習(xí),Djilali等人提出了ODI顯著性預(yù)測的第一個框架。它計算來自多個場景的不同視圖之間的相互信息,并將對比學(xué)習(xí)與無監(jiān)督學(xué)習(xí)相結(jié)合,以學(xué)習(xí)潛在表示。此外,無監(jiān)督學(xué)習(xí)可以與監(jiān)督學(xué)習(xí)相結(jié)合,以增強(qiáng)泛化能力。Yun等人提出將自監(jiān)督學(xué)習(xí)與監(jiān)督學(xué)習(xí)相結(jié)合,進(jìn)行深度估計,緩解數(shù)據(jù)稀缺,增強(qiáng)穩(wěn)定性。
5.2 GAN
為了減少透視圖像與ODI之間的域分歧,P2PDA和密集通道利用GAN框架并設(shè)計對抗性損失來促進(jìn)語義分割。在圖像生成方面,BIPS提出了一個GAN框架,用于基于攝像頭和深度傳感器的任意配置來合成RGB-D室內(nèi)全景圖。
5.3 注意機(jī)制
對于跨視圖地理定位,在Zhu等人中,ViT等人用于刪除無信息的圖像補(bǔ)丁,并將信息性圖像補(bǔ)丁增強(qiáng)到更高分辨率。這種注意力引導(dǎo)的非均勻裁剪策略可以節(jié)省計算成本,將其重新分配給信息補(bǔ)丁以提高性能。在無監(jiān)督顯著性預(yù)測中采用了類似的策略。在Abdelaziz等人提出的工作中,采用自我注意模型在兩個輸入之間建立空間關(guān)系并選擇充分不變的特征。
5.4 遷移學(xué)習(xí)
有很多工作可以轉(zhuǎn)移從源2D域?qū)W到的知識,以促進(jìn)ODI域中學(xué)習(xí)許多視覺任務(wù),例如,語義分割和深度估計。從透視圖像在預(yù)訓(xùn)練的模型上設(shè)計可變形的CNN或MLP可以增強(qiáng)ODI在眾多任務(wù)中的模型能力,例如,語義分割,視頻超分辨率,深度估計和光流估計。但是,這些方法嚴(yán)重依賴于手工制作的模塊,這些模塊缺乏針對不同場景的泛化能力。無監(jiān)督域適配旨在通過減少透視圖像和ODI之間的域間隙,將知識從透視域轉(zhuǎn)移到ODI域。P2PDA和BendingRD減小透視圖像與ODI之間的域間隙,有效獲得ODI的偽密集標(biāo)簽。知識提煉(KD)是另一種有效的技術(shù),它將知識從繁瑣的教師模型中轉(zhuǎn)移出來,學(xué)習(xí)緊湊的學(xué)生模型,同時保持學(xué)生的表現(xiàn)。然而,我們發(fā)現(xiàn)很少有作品將KD應(yīng)用于全向視覺任務(wù)。在語義分割中,ECANets通過來自世界各地的各種全景圖執(zhí)行數(shù)據(jù)提煉。
5.5 強(qiáng)化學(xué)習(xí)
在顯著性預(yù)測中,MaiXu等人通過將頭部運(yùn)動的軌跡解釋為離散動作來預(yù)測頭部注視,并得到正確策略的獎勵。此外,在對象檢測中,Pais等人通過考慮3D邊界框及其在圖像中的相應(yīng)失真投影來提供行人在現(xiàn)實世界中的位置。DRL的另一個應(yīng)用是在LAUNet中基于像素密度自適應(yīng)地選擇放大因子,解決了ERP中像素密度分布不均勻的問題。
5.6 多任務(wù)學(xué)習(xí)
在相關(guān)任務(wù)之間共享表示可以增加模型的泛化能力,并提高所有涉及任務(wù)的性能。MT-DNN將顯著性檢測任務(wù)與視口檢測任務(wù)相結(jié)合,預(yù)測每幀的視口顯著性圖,提高ODV的顯著性預(yù)測性能。DeepPanoContext通過共同預(yù)測物體形狀、3D姿勢、語義類別和房間布局,實現(xiàn)全景場景理解。同樣,HoHoNet提出了一個潛在的水平特征(LHFeat)和一種新穎的視界到密集模塊來完成各種任務(wù),包括房間布局重建和每像素密集預(yù)測任務(wù),例如深度估計,語義分割。
6、Applications
6.1、AR 和VR
隨著技術(shù)的進(jìn)步和交互場景需求的不斷增長,AR和VR近年來發(fā)展迅速。VR旨在模擬真實或虛構(gòu)的環(huán)境,參與者可以通過感知和與環(huán)境互動來獲得身臨其境的體驗和個性化的內(nèi)容。憑借在ODI中捕獲整個周圍環(huán)境的優(yōu)勢,360 VR / AR有助于開發(fā)沉浸式體驗。
6.2、機(jī)器人導(dǎo)航
除了上文中提到的SLAM之外,我們還進(jìn)一步討論了ODI/ODV在機(jī)器人導(dǎo)航領(lǐng)域的相關(guān)應(yīng)用,包括遠(yuǎn)程呈現(xiàn)系統(tǒng)、監(jiān)控和基于DL的優(yōu)化方法。
遠(yuǎn)程呈現(xiàn)系統(tǒng)旨在克服空間限制,使人們能夠遠(yuǎn)程訪問并相互交流。ODI/ODV通過提供更逼真、更自然的場景而越來越受歡迎,特別是在開放環(huán)境的戶外活動中. Zhang等人提出了一種基于ODV的遠(yuǎn)程呈現(xiàn)系統(tǒng)的原型,以支持更自然的交互和遠(yuǎn)程環(huán)境探索,在遠(yuǎn)程環(huán)境中的真實行走可以同時控制機(jī)器人平臺的相關(guān)運(yùn)動。出于安全目的,監(jiān)控旨在取代人類,其中校準(zhǔn)對于敏感數(shù)據(jù)至關(guān)重要。因此,普迪克斯提出了一種針對障礙物檢測和避障的安全導(dǎo)航系統(tǒng),并采用校準(zhǔn)設(shè)計來獲得適當(dāng)?shù)木嚯x和方向。與NFoV圖像相比,全景圖像可以通過在單次拍攝中提供完整的FoV來顯著降低計算成本。此外,Ran等人提出了一個基于未校準(zhǔn)的360相機(jī)的輕量級框架。該框架可以通過將其制定為一系列分類任務(wù)來準(zhǔn)確估計航向,并通過保存校準(zhǔn)和校正過程來避免冗余計算。
6.3、自動駕駛
自動駕駛需要對周圍環(huán)境有充分的了解,這是全景視覺所擅長的。一些作品專注于為自動駕駛建立360平臺。具體而言,依托Sun等人的工作,利用立體相機(jī)、偏振相機(jī)和全景相機(jī),形成多模態(tài)視覺系統(tǒng),捕捉全向景觀。除了該平臺之外,用于自動駕駛的公共全向數(shù)據(jù)集的出現(xiàn)對于深度學(xué)習(xí)方法的應(yīng)用至關(guān)重要。Caeser等人是第一個引入相關(guān)數(shù)據(jù)集,該數(shù)據(jù)集攜帶了六個攝像頭,五個雷達(dá)和一個激光雷達(dá)。所有設(shè)備都帶有360 FoV。最近,OpenMP 數(shù)據(jù)集被六臺攝像機(jī)和四臺激光雷達(dá)捕獲,其中包含復(fù)雜環(huán)境中的場景,例如,過度曝光或黑暗的城市地區(qū)。Kumar等人提出了一個多任務(wù)視覺感知網(wǎng)絡(luò),該網(wǎng)絡(luò)由自動駕駛中的六項重要任務(wù)組成:深度估計,視覺里程測量,感性分割,運(yùn)動分割,物體檢測和鏡頭污染檢測。重要的是,由于實時性能對于自動駕駛至關(guān)重要,并且車輛中的嵌入系統(tǒng)通常具有有限的內(nèi)存和計算資源,因此輕量級DNN模型在實踐中更受青睞。
7、Discussion and New Perspectives
7.1、投影格式的缺點
ERP是最流行的投影格式,因為它的平面格式的FoV很寬。ERP面臨的主要挑戰(zhàn)是向兩極的拉伸變形日益嚴(yán)重。因此,提出了許多針對失真的特定卷積濾波器的設(shè)計方法。相比之下,CP 和切線(TP)圖像通過將球面投影到多個平面上是無失真的投影格式。它們與透視圖像相似,因此可以充分利用平面域中的許多預(yù)訓(xùn)練模型和數(shù)據(jù)集。然而,CP和切線圖像受到更高的計算成本,差異和不連續(xù)性的挑戰(zhàn)。我們總結(jié)了利用CP和切線圖像的兩個潛在方向:(i)冗余計算成本是由投影平面之間的大重疊區(qū)域引起的。但是,像素密度因不同的采樣位置而異。通過強(qiáng)化學(xué)習(xí)為密集區(qū)域(例如赤道)分配更多資源,為稀疏區(qū)域(例如極點)分配更少的資源,計算效率更高。(二) 目前,不同的投影平面往往是并行處理的,缺乏全球一致性。為了克服不同局部平面之間的差異,探索一個以ERP為輸入或基于注意力的變壓器來構(gòu)建非局部依賴關(guān)系的分支是有效的。
7.2、數(shù)據(jù)高效學(xué)習(xí)
深度學(xué)習(xí)方法面臨的一個挑戰(zhàn)是需要具有高質(zhì)量注釋的大規(guī)模數(shù)據(jù)集。然而,對于全向視覺,構(gòu)建大規(guī)模數(shù)據(jù)集既昂貴又乏味。因此,有必要探索更高效的數(shù)據(jù)方法。一個有希望的方向是將從在標(biāo)記的2D數(shù)據(jù)集上訓(xùn)練的模型中學(xué)到的知識轉(zhuǎn)移到在未標(biāo)記的全景數(shù)據(jù)集上訓(xùn)練的模型。具體而言,可以應(yīng)用域適應(yīng)方法來縮小透視圖像與ODI之間的差距。KD也是一種有效的解決方案,它將學(xué)習(xí)到的特征信息從繁瑣的視角DNN模型轉(zhuǎn)移到學(xué)習(xí)ODI數(shù)據(jù)的緊湊DNN模型。最后,最近的自我監(jiān)督方法,eg,Yan等人證明了預(yù)訓(xùn)練的有效性,而不需要額外的訓(xùn)練注釋。
7.3、物理約束
透視圖像的現(xiàn)有方法在推斷全球場景和看不見的區(qū)域的光照方面受到限制。由于ODI的FoV很寬,可以捕獲完整的周圍環(huán)境場景。此外,反射率可以根據(jù)照明與場景結(jié)構(gòu)之間的物理約束,基于照明來揭示反射率。因此,未來的方向可以聯(lián)合利用計算機(jī)圖形學(xué)(如光線追蹤)和渲染模型來幫助計算反射率,這反過來又有助于更高精度的全局照明估計。此外,基于照明運(yùn)輸理論處理和渲染ODI是有希望的。
7.4、多模態(tài)全景視覺
它指的是使用相同的DNN模型從不同類型的模態(tài)(例如,用于視覺問答的文本圖像,視聽場景理解)學(xué)習(xí)表示的過程。對于世界性愿景來說,這是一個有希望但又切實可行的方向。例如,Beltran等人引入了一個基于視覺和 LiDAR 信息的多模態(tài)感知框架,用于 3D 對象檢測和跟蹤。但是,這方面的現(xiàn)有工作將ODI視為透視圖像,而忽略了ODI中固有的失真。未來的工作可能會探索如何利用ODI的優(yōu)勢,例如,完整的FoV,以協(xié)助其他模式的表示。重要的是,不同方式的獲取有明顯的差異。例如,捕獲 RGB 圖像比深度圖容易得多。因此,一個有希望的方向是從一種模式中提取可用信息,然后通過多任務(wù)學(xué)習(xí),KD等轉(zhuǎn)移到另一種模式。然而,應(yīng)考慮不同方式之間的差異,以確保多模式的一致性。
7.5、潛在的對抗性攻擊
很少有研究關(guān)注對全向視覺模型的對抗性攻擊。Zhang等人提出了第一種具有代表性的攻擊方法,通過僅擾動從ODI渲染的一個切線圖像來欺騙DNN模型。建議的攻擊是稀疏的,因為它只干擾了輸入ODI的一小部分。因此,他們進(jìn)一步提出了一種位置搜索方法來搜索球面上的切點。該方向存在許多有前途但具有挑戰(zhàn)性的研究問題,例如,分析ODI不同DNN模型之間攻擊的泛化能力,網(wǎng)絡(luò)架構(gòu)和訓(xùn)練方法的白盒攻擊以及攻擊防御。
7.6、Metaverse的潛力
Metaverse旨在創(chuàng)建一個包含大規(guī)模高保真數(shù)字模型的虛擬世界,用戶可以在其中自由創(chuàng)建內(nèi)容并獲得身臨其境的互動體驗。元宇宙由AR和VR頭顯促進(jìn),其中ODI由于完整的FoV而受到青睞。因此,一個潛在的方向是從ODI生成高保真2D/3D模型,并詳細(xì)模擬真實世界的對象和場景。此外,為了幫助用戶獲得身臨其境的體驗,分析和理解人類行為的技術(shù)(例如,注視跟隨,顯著性預(yù)測)可以在將來進(jìn)一步探索和整合。
7.4、智慧城市的潛力
智慧城市專注于使用各種設(shè)備從城市收集數(shù)據(jù),并利用數(shù)據(jù)中的信息來提高效率,安全性和便利性等。利用街景圖像中ODI的特性,可以促進(jìn)城市形態(tài)比較的發(fā)展。如第前面所述,一個有希望的方向是將街景圖像轉(zhuǎn)換為衛(wèi)星視圖圖像以進(jìn)行城市規(guī)劃。
8、Discussion and New Perspectives
在本次調(diào)查中,我們?nèi)婊仡櫜⒎治隽松疃葘W(xué)習(xí)方法在全向視覺方面的最新進(jìn)展。我們首先介紹了全向成像的原理,卷積方法和數(shù)據(jù)集。然后,我們提供了DL方法的分層和結(jié)構(gòu)分類。針對分類學(xué)中的每項任務(wù),我們總結(jié)了當(dāng)前的研究現(xiàn)狀,并指出了其中的機(jī)遇和挑戰(zhàn)。我們進(jìn)一步回顧了新的學(xué)習(xí)策略和應(yīng)用。在構(gòu)建了當(dāng)前方法之間的聯(lián)系之后,我們討論了需要解決的關(guān)鍵問題,并指出了有希望的未來研究方向。我們希望這項工作能為研究人員提供一些見解,并促進(jìn)社區(qū)的進(jìn)步。
審核編輯:郭婷
-
機(jī)器人
+關(guān)注
關(guān)注
212文章
28888瀏覽量
209515 -
自動駕駛
+關(guān)注
關(guān)注
787文章
13992瀏覽量
167632 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5527瀏覽量
121833
原文標(biāo)題:港科大最新綜述:深度學(xué)習(xí)在全景視覺上的應(yīng)用
文章出處:【微信號:vision263com,微信公眾號:新機(jī)器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
深度自然匿名化:隱私保護(hù)與視覺完整性并存的未來!

VR全景拍攝的實用價值和未來發(fā)展
【詳解】FPGA:深度學(xué)習(xí)的未來?
深度學(xué)習(xí)在汽車中的應(yīng)用
未來語音接口的展望
深度學(xué)習(xí)與傳統(tǒng)計算機(jī)視覺簡介
深度學(xué)習(xí)介紹
全景視覺SNS社交新媒體
人工智能深度學(xué)習(xí)的未來展望
探究深度學(xué)習(xí)在目標(biāo)視覺檢測中的應(yīng)用與展望
計算機(jī)視覺中的九種深度學(xué)習(xí)技術(shù)

評論