亚洲精品一区国产欧美,99精品国产免费久久国语

作者：Hao Ai,Zidong Cao,Jinjing Zhu,Haotian Bai,Yucheng Chen,Lin Wang

本綜述來自于香港科技大學（廣州）王林團隊，對現(xiàn)有的深度學習在全景視覺上的應用進行了全面的回顧，并提供了一些新的觀點以及對全景視覺未來的應用展望。

本文首先對全景圖像的成像進行了分析，緊接著對現(xiàn)有的在全景圖像上的卷積方式進行了分類介紹，并對現(xiàn)有的全景圖像數(shù)據(jù)集進行了收集并介紹。作為第一篇全面回顧和分析深度學習方法在全景圖像應用上的綜述，我們匯總并分析對比了在眾多視覺任務上現(xiàn)有深度學習方法的相同與差異。最后，我們提供了一些全景圖像的新的應用方向的研究思路，以供研究者參考討論。

1、Abstract

全向圖像（ODI）數(shù)據(jù)是用360x180的視場捕獲的，該視場比針孔相機寬得多，并且包含比傳統(tǒng)平面圖像更豐富的空間信息。因此，全景視覺因其在自動駕駛和虛擬現(xiàn)實等眾多應用中更具優(yōu)勢的性能而引起了人們的廣泛關注。近年來，客戶級360相機的出現(xiàn)使得全景視覺更加流行，深度學習（DL）的進步顯著激發(fā)了其研究和應用。本文對深度學習方法在全景視覺方面的最新進展進行了系統(tǒng)、全面的綜述和分析。作者的工作包括四個主要內(nèi)容：（一）介紹全向成像原理，ODI上的卷積方法，以及數(shù)據(jù)集，以突出與2D平面圖像數(shù)據(jù)相比的差異和困難;（二）用于全景視覺的遠程學習方法的結(jié)構(gòu)和層次分類;（三）總結(jié)最新的新學習戰(zhàn)略和應用;（四）通過強調(diào)潛在的研究方向，對挑戰(zhàn)和懸而未決的問題進行有見地的討論，以促進社區(qū)中的更多研究。

2、Introduction

隨著3D技術的飛速發(fā)展和對逼真視覺體驗的追求，對計算機視覺的研究興趣逐漸從傳統(tǒng)的2D平面圖像數(shù)據(jù)轉(zhuǎn)向全向圖像（ODI）數(shù)據(jù)，也稱為360圖像、全景圖像或球形圖像數(shù)據(jù)。由360攝像機捕獲的ODI數(shù)據(jù)產(chǎn)生360x180視場（FoV），這比針孔相機寬得多;因此，它可以通過反射比傳統(tǒng)平面圖像更豐富的空間信息來捕獲整個周圍環(huán)境。由于沉浸式體驗和完整視圖，ODI數(shù)據(jù)已廣泛應用于眾多應用，例如增強現(xiàn)實（AR）/虛擬現(xiàn)實（VR），自動駕駛和機器人導航。通常，原始ODI數(shù)據(jù)表示為等距柱狀投影（ERP）或立方體圖投影（CP）以與成像管道一致。作為一個新穎的數(shù)據(jù)領域，ODI數(shù)據(jù)既具有領域獨特的優(yōu)勢（球面成像的寬FoV，豐富的幾何信息，多種投影類型）也具有挑戰(zhàn)性（ERP類型中的嚴重失真，CP格式的內(nèi)容不連續(xù)性）。這使得對全景視覺的研究變得有價值，但具有挑戰(zhàn)性。

最近，客戶級360相機的出現(xiàn)使全景視覺更加普及，深度學習（DL）的進步極大地促進了其研究和應用。特別是作為一項數(shù)據(jù)驅(qū)動的技術，公共數(shù)據(jù)集的持續(xù)發(fā)布，包括：SUN360、Salient 360、Stanford2D3D、Pano-AVQA和PanoContext數(shù)據(jù)集等等，已經(jīng)迅速使深度學習方法取得了顯著的突破，并經(jīng)常在各種全景視覺任務上實現(xiàn)最先進的（SoTA）性能。此外，還開發(fā)了各種基于不同架構(gòu)的深度神經(jīng)網(wǎng)絡（DNN）模型，從卷積神經(jīng)網(wǎng)絡（CNN），遞歸神經(jīng)網(wǎng)絡（RNN），生成對抗網(wǎng)絡（GAN），圖神經(jīng)網(wǎng)絡（GNN），到vision Trasnformer（ViTs）。一般來說，SoTA-DL方法側(cè)重于四個主要方面：（I）用于從ODI數(shù)據(jù)中提取特征的卷積濾波器（全向視頻（ODV）可以被認為是ODI的一個時間集），（II）通過考慮輸入數(shù)字和投影類型進行網(wǎng)絡設計，（III）新穎的學習策略，以及（IV）實際應用。本文對深度學習方法在全景視覺方面的最新進展進行了系統(tǒng)、全面的綜述和分析。與已有的關于全景視覺的綜述不同，我們強調(diào)了深度學習的重要性，并按照邏輯地和全面地探索了全景視覺的最新進展。本研究中提出的結(jié)構(gòu)和層次分類法如圖所示。

綜上所述，本研究的主要貢獻可歸納為：（1）據(jù)我們所知，這是第一份調(diào)查，全面回顧和分析了全景視覺的DL方法，包括全向成像原理，表征學習，數(shù)據(jù)集，分類學和應用，以突出與2D規(guī)劃師圖像數(shù)據(jù)的差異和困難。（2）我們總結(jié)了過去五年中發(fā)表的大多數(shù)（可能不是全部）頂級會議/期刊作品（超過200篇論文），并對DL的最新趨勢進行了分析研究，以實現(xiàn)分層和結(jié)構(gòu)上的全景視覺。此外，我們還提供對每個類別的討論和挑戰(zhàn)的見解。（3）我們總結(jié)了最新的新型學習策略和全方位視覺的潛在應用。（4）由于深度學習用于全景視覺是一個活躍而復雜的研究領域，我們對挑戰(zhàn)和尚未解決的問題進行了深入的討論，并提出了潛在的未來方向，以刺激社區(qū)進行更深入的研究。同時，我們在多個表格中總結(jié)了一些流行的全景視覺任務的代表性方法及其關鍵策略。為了提供更好的任務內(nèi)比較，我們在基準數(shù)據(jù)集上提出了一些代表性方法的定量和定性結(jié)果，所有統(tǒng)計數(shù)據(jù)均來自原始論文。由于空間不足，我們在補充材料的Sec.2中展示了實驗結(jié)果。（5）我們創(chuàng)建了一個開源存儲庫，該存儲庫提供了所有上述作品和代碼鏈接的分類。我們將繼續(xù)用這一領域的新作品更新我們的開源存儲庫，并希望它能為未來的研究提供啟示。存儲庫鏈接為https://github.com/VLISLAB/360-DL-Survey。

3、Background

3.1、全景成像原理

3.1.1 Acquisition

普通相機的FoV低于180，因此最多只能捕獲一個半球的視圖。然而，一個理想的360相機可以捕捉從各個方向落在焦點上的光線，使投影平面成為一個完整的球面。在實踐中，大多數(shù)360相機無法實現(xiàn)它，由于死角，這排除了頂部和底部區(qū)域。根據(jù)鏡頭數(shù)量，360相機可分為三種類型：（i）帶有一個魚眼鏡頭的相機，不可能覆蓋整個球面。但是，如果已知內(nèi)在和外在參數(shù)，則可以通過將多個圖像投影到一個球體中并將它們拼接在一起來實現(xiàn)ODI;（ii）帶有雙魚眼鏡頭的攝像機位于相反的位置，每個鏡頭的額定值都超過 180 美元，例如 Insta360 ONE 和 LG 360 CAM。這種類型的360相機對鏡頭有最低需求，這些鏡頭便宜又方便，受到行業(yè)和客戶的青睞。然后將來自兩個相機的圖像拼接在一起以獲得全向圖像，但拼接過程可能會導致邊緣模糊;（iii）具有兩個以上鏡頭的相機，如泰坦（八個鏡頭）。此外，GoPro Omni是第一款將六個常規(guī)相機放置在立方體的六個面上的相機裝備，其合成結(jié)果具有更高的精度和更少的邊緣模糊。這種類型的360相機是專業(yè)級的。

3.1.2 Spherical Stereo

全景圖像擁有多個投影方式，如等距柱狀投影（ERP）, 立方體貼圖投影（CP）, 切線投影(TP), 二十面體投影（IP）以及一些其他復雜投影方式等等，具體轉(zhuǎn)換公式請查看全文。

3.1.3 Spherical Stereo

3.2 針對全景圖像的卷積方法

由于全景圖像（ODI）的自然投影表面是一個球體，因此當球面圖像投影回平面時，標準 CNN 處理固有失真的能力較差。已經(jīng)提出了許多基于CNN的方法，以增強從球形圖像中提取“無偏”信息的能力。這些方法可以分為兩類：（i）在平面投影上應用2D卷積濾波器;（ii）直接利用球面域中的球面卷積濾波器。在本小節(jié)中，我們將詳細分析這些方法。

3.2.1 基于平面投影的卷積

作為最常見的球面投影，ERP引入了嚴重的變形，特別是在兩極。考慮到它提供了全局信息并且占用了更少的計算成本，Su 等人提出了一種具有代表性的方法，該方法基于球面坐標利用具有自適應核大小的常規(guī)卷積濾波器。受球面卷積的啟發(fā)，SphereNet提出了另一種典型的方法，通過直接調(diào)整卷積濾波器的采樣網(wǎng)格位置來實現(xiàn)失真不變性，并可以端到端地訓練，如圖所示。Distortion-aware的卷積核，如圖所示。特別是，在ODI得到廣泛應用之前，Cohen等人研究了ERP引入的空間變化失真，并提出了一種旋轉(zhuǎn)不變球面CNN方法來學習SO3表示，等等。

3.2.2 球面卷積

一些方法已經(jīng)探索了球面域中的特殊卷積濾波器。Esteves等人提出了第一個球面CNN架構(gòu)，該架構(gòu)考慮了球面諧波域中的卷積濾波器，以解決標準CNN中的3D旋轉(zhuǎn)等價差問題。

楊等人提出了一個代表性框架，將球面圖像映射到基于球面幾何形狀的旋轉(zhuǎn)等變表示中。（a），SGCN將輸入球面圖像表示為基于GICOPix的圖形。此外，它通過GCN層探索了圖的等距變換等方差。在cohen等人的文章中，提出了規(guī)范等變CNN來學習二十面體的球面表示。相比之下，shakerinava等人將二十面體擴展到柏拉圖固體的所有像素化，并在像素化的球體上推廣了規(guī)范等變CNN。由于在效率和旋轉(zhuǎn)等價差之間進行權(quán)衡，DeepSphere將采樣球體建模為連接像素的圖形，并設計了一種新穎的圖形卷積網(wǎng)絡（GCN），通過調(diào)整圖上像素的相鄰像素數(shù)來平衡計算效率和采樣靈活性。與上述方法相比，在SpherePHD中提出了另一種具有代表性的ODI表示。如圖所示，球面PHD將球面圖像表示為球面多面體，并提供特定的卷積和池化方法。

3.3數(shù)據(jù)集

基于深度學習的方法的性能與數(shù)據(jù)集的質(zhì)量和數(shù)量密切相關。隨著球面成像設備的發(fā)展，大量的ODI和OPV數(shù)據(jù)集被公開用于各種視覺任務。特別是，大多數(shù)ODV數(shù)據(jù)都是從維梅奧和優(yōu)酷等公共視頻共享平臺收集的。在表格Table1中，我們列出了一些用于不同目的的代表性 ODI 和 ODV 數(shù)據(jù)集，我們還顯示了它們的屬性，例如大小、分辨率、數(shù)據(jù)源。更多的數(shù)據(jù)集可以在全文以及補充材料中找到。

4、Omnidirectional Vision Tasks

4.1、圖像/視頻處理

4.1.1 圖像生成

圖像生成旨在從部分或噪聲數(shù)據(jù)中恢復或合成完整且干凈的ODI數(shù)據(jù). 對于ODI上的圖像生成，存在四個流行的研究方向：（i）全景深度圖補全;（二）全景深度圖補全;（三）全景語義圖的補全;（四）在全景圖像上的視角合成。在本小節(jié)中，我們對一些代表性作品進行了全面的分析。

4.1.2 跨視圖合成和地理定位

跨視圖合成旨在從衛(wèi)星視圖圖像中合成地面視圖ODI，而地理定位旨在匹配地面視圖ODI和衛(wèi)星視圖圖像以確定它們之間的關系。

討論：大多數(shù)跨視圖合成和地理定位方法都假定參考圖像精確地位于任何查詢圖像的位置。盡管如此，在實踐中，這兩種觀點在方向和空間位置方面通常并不完全一致。因此，如何在具有挑戰(zhàn)性的條件下應用跨視圖合成和地理定位方法是一個有價值的研究方向。

4.1.3 圖像壓縮

與傳統(tǒng)的透視圖像相比，全景數(shù)據(jù)以更高的分辨率和更寬的FoV記錄更豐富的幾何信息，這使得實現(xiàn)有效壓縮更具挑戰(zhàn)性。早期的ODI壓縮方法直接利用現(xiàn)有的透視方法來壓縮ODI的透視投影。例如，Simone等人提出了一種自適應量化方法，以解決將ODI投影到ERP時視口圖像塊的頻率偏移。相比之下，OmniJPEG首先估計 ODI 中感興趣的區(qū)域，然后根據(jù)區(qū)域內(nèi)容的幾何變換，使用一種名為 OmniJPEG 的新穎格式對 ODI 進行編碼，該格式是 JPEG 格式的擴展，可以在舊版 JPEG 解碼器上查看，等等。

4.1.4 照明估計

它旨在從低動態(tài)范圍（LDR）ODI預測高動態(tài)范圍（HDR）照明。照明恢復被廣泛用于許多現(xiàn)實世界的任務，從場景理解、重建到編輯。Hold-Geoffroy等人提出了一個具有代表性的戶外照度估計框架。他們首先訓練了一個CNN模型，以預測室外ODI的視口的天空參數(shù)，例如太陽位置和大氣條件。然后，他們根據(jù)預測的照明參數(shù)為給定的測試圖像重建照明環(huán)境圖。同樣，在Gardner等人的工作中，利用CNN模型來預測視口中燈光的位置，并對CNN進行微調(diào)以從ODI中預測燈光強度即環(huán)境圖。在Gardner等人2019年的一個工作中中，室內(nèi)照明的幾何和光度參數(shù)從ODI的視口回歸，并利用中間潛向量重構(gòu)環(huán)境貼圖。另一種代表性的方法，稱為EMLight，由回歸網(wǎng)絡和神經(jīng)投影儀組成?；貧w網(wǎng)絡輸出光參數(shù)，神經(jīng)投影儀將光參數(shù)轉(zhuǎn)換為照度圖。特別是，光參數(shù)的地面實況由通過球面高斯函數(shù)從照明生成的高斯圖分解。

討論和潛力：從上述分析中，先前用于ODI照明估計的工作將單個視口作為輸入。原因可能是視口無失真，低成本，分辨率低。然而，它們遭受了空間信息的嚴重下降。因此，應用對比學習從切線圖像的多個視口或組件中學習穩(wěn)健的表示可能是有益的。

4.1.5 圖像超分

現(xiàn)有的頭戴式顯示器（HMD）設備至少需要21600乘以10800像素的ODI才能獲得沉浸式體驗，這是當前相機系統(tǒng)無法直接捕獲的。另一種方法是捕獲低分辨率（LR） ODI，并高效地將它們超級解析為高分辨率（HR） ODI。LAU-Net作為第一個考慮ODI SR緯度差異的著作，引入了多級緯度自適應網(wǎng)絡。它將ODI劃分為不同的緯度波段，并分層地擴展這些波段，這些波段具有不同的自適應因子，這些因子是通過強化學習方案學習的。除了考慮ERP上的SR之外，Yoon等人提出了一個代表性的工作SphereSR，以學習統(tǒng)一的連續(xù)球面局部隱式圖像函數(shù)，并根據(jù)球面坐標查詢生成任意分辨率的任意投影。對于全景視頻（ODV） SR，SMFN是第一個基于DNN的框架，包括單幀和多幀聯(lián)合網(wǎng)絡和雙網(wǎng)絡。單幀和多幀聯(lián)合網(wǎng)絡融合了相鄰幀的特征，雙網(wǎng)限制了求解空間，以找到更好的答案。

4.1.6 Upright Adjustment

Upright Adjustment旨在糾正攝像機和場景之間方向的錯位，以提高ODI和ODV的視覺質(zhì)量，同時將它們與窄視場（NFoV）顯示器（如VR應用程序）一起使用。

4.1.7 視覺質(zhì)量評估

由于全向數(shù)據(jù)的超高分辨率和球體表示，視覺質(zhì)量評估（V-QA）對于優(yōu)化現(xiàn)有的圖像/視頻處理算法很有價值。接下來，我們將分別介紹一些關于ODI-QA和ODV-QA的代表性作品。

對于 ODI-QA，根據(jù)參考圖像的可用性，可以進一步將其分為兩類：full-reference (FR) ODI-QA 和no-reference (NR) ODI-QA。對于 ODV-QA，Li等人提出了一種基于具有代表性的基于視口的 CNN 方法，包括視口提案網(wǎng)絡和視口質(zhì)量網(wǎng)絡，如圖所示。視口方案網(wǎng)絡生成多個潛在視口及其錯誤映射，視口質(zhì)量網(wǎng)絡對每個建議視口的 V-QA 分數(shù)進行評級。最終的V-QA分數(shù)是通過所有視口V-QA分數(shù)的加權(quán)平均值計算的。Gao等人對ODV的時空扭曲進行了建模，并通過整合現(xiàn)有的3個ODI-QA目標指標，提出了一種新的FR目標指標。

4.2、場景理解

4.2.1 物體識別

與普通透視圖像相比，基于深度學習的ODI對象檢測仍然存在兩大難點：（i）傳統(tǒng)的卷積核在ODI投影中處理不規(guī)則平面網(wǎng)格結(jié)構(gòu)的能力較弱;（ii）傳統(tǒng)2D物體檢測中采用的標準不適合球形圖像。

4.2.2 語義分割

基于DL的全向語義分割已被廣泛研究，因為ODI可以包含有關周圍空間的詳盡信息。實際上還存在許多挑戰(zhàn)，例如，平面投影中的變形，物體變形，計算復雜性和稀缺的標記數(shù)據(jù)。在文章中，我們介紹了一些通過監(jiān)督學習和無監(jiān)督學習進行ODI語義分割的代表性方法。

4.2.3 單目深度估計

由于大規(guī)模全景深度數(shù)據(jù)集的出現(xiàn)，單目深度估計發(fā)展迅速。如圖所示有幾種趨勢：（i）定制網(wǎng)絡，例如，失真感知卷積濾波器和魯棒表示;（ii）基于不同的投影類型。（iii）固有的幾何先驗。（iv）多個視圖或姿態(tài)估計。

4.2.4 光流估計

基于現(xiàn)有的實驗結(jié)果表明，直接應用基于DL的二維光流估計方法對ODI進行估計，會得到不盡如人意的結(jié)果。為此，Xie等人介紹了一個小型診斷數(shù)據(jù)集FlowCLEVR，并評估了三種定制卷積濾波器的性能，即相關卷積、坐標和可變形卷積，用于估計全向光流。域適配框架受益于透視域光流估計的發(fā)展。與Cubes3DNN類似，OmniFlowNet建立在FlowNet2上。特別是作為LiteFlowNet的延伸，LiteFlowNet360采用核變換技術，解決了球面投影帶來的固有失真問題，等等。

4.2.5 視頻總結(jié)

視頻摘要旨在通過選擇包含 ODV 最關鍵信息的部分來生成具有代表性和完整的概要。與2D視頻總結(jié)方法相比，ODV的視頻總結(jié)只有少數(shù)作品被提出。Pano2Vid是代表性框架，包含兩個子步驟：檢測整個 ODV 幀中感興趣的候選事件，并應用動態(tài)編程來鏈接檢測到的事件。但是，Pano2Vid需要觀察整個視頻，并且對于視頻流應用程序的能力較差。Deep360Pilot是第一個設計用于觀眾自動ODV導航的類人在線代理的框架。Deep360pilot包括三個步驟：對象檢測以獲得感興趣的候選對象，訓練RNN選擇重要對象，以及在ODV中捕捉激動人心的時刻。AutoCam在人類行為理解之后從 ODV 生成正常的 NFoV 視頻。

討論：基于上述分析，該研究領域只有少數(shù)幾種方法存在。作為一項與時間相關的任務，將轉(zhuǎn)換器機制應用于ODV匯總可能是有益的。此外，以前的作品只考慮了ERP格式，這遭受了最嚴重的失真問題。因此，最好考慮 CP、切線投影或球體格式作為 ODV 匯總的輸入。

4.3、3D視覺

4.3.1 房間布局估計和重建

房間布局估計和重建包括多個子任務，例如布局估計、3D 對象檢測和 3D 對象重建。這項綜合任務旨在促進基于單個 ODI 的整體場景理解。

4.3.2 立體匹配

人類雙眼視差取決于視網(wǎng)膜上投影之間的差異，即球體投影而不是平面投影。因此，ODI上的立體匹配更類似于人類視覺系統(tǒng)。在Seuffert等人的工作中，他們討論了全向失真對基于CNN的方法的影響，并比較了從透視和全向立體圖像預測的視差圖的質(zhì)量。實驗結(jié)果表明，基于ODI的立體匹配對于機器人、AR/VR等多種應用更具優(yōu)勢。一般立體匹配算法遵循四個步驟：（i）匹配成本計算，（ii）成本聚合，（iii）優(yōu)化差異計算，以及（iv）差異細化。作為首個基于DNN的全向立體框架，SweepNet提出了一種寬基線立體系統(tǒng)，用于從采用超廣角FoV鏡頭的相機拍攝的一對圖像中計算匹配的成本圖，并在鉆機坐標系上使用全局球體掃描直接生成全向深度圖。

4.3.3 SLAM

SLAM是一個復雜的系統(tǒng)，采用多個攝像頭，例如單目，立體聲或RGB-D，結(jié)合移動代理上的傳感器來重建環(huán)境并實時估計代理姿勢。SLAM通常用于實時導航和現(xiàn)實增強，例如谷歌地球。立體信息，如關鍵點和dense或semi-dense深度圖引用，對于構(gòu)建精確的現(xiàn)代SLAM系統(tǒng)是必不可少的。具體而言，與傳統(tǒng)的單目SLAM或多視角SLAM相比，全向數(shù)據(jù)由于FoV較大，可以提供更豐富的紋理和結(jié)構(gòu)信息，基于全景相機的SLAM避免了不連續(xù)幀對周圍環(huán)境的影響，并享有完整定位和映射的技術優(yōu)勢。Caruso等人提出了一種具有代表性的單目SLAM方法，直接闡述了圖像直接對準和像素距離濾波的全向相機。

4.4、人類行為理解

4.4.1 顯著性預測

最近，在深度學習進展的基礎上，ODI顯著性預測出現(xiàn)了幾個研究趨勢：（i）從2D傳統(tǒng)卷積到3D特定卷積;（ii）從單一特征到多個特征;（iii）從單一的企業(yè)資源規(guī)劃投入到多類型投入;（iv）從基于CNN的正常學習到新穎的學習策略。

4.4.2 注視行為

注視跟隨，也稱為注視估計，與檢測場景中的人們所看和吸收的內(nèi)容有關。由于正常的透視圖像是NFoV捕獲的，因此注視目標總是在場景之外。ODI注視跟蹤是為了解決這個問題，因為ODI具有捕獲整個觀看環(huán)境的強大能力。以前的3D注視跟蹤方法可以直接檢測球體空間中人類受試者的注視目標，但忽略了ODI的場景信息，其執(zhí)行的凝視跟隨效果不佳。Gaze360使用魚眼晶狀體校正來預處理圖像，收集了一個大型的凝視數(shù)據(jù)集。然而，由于球面投影引起的失真，遠距離凝視中的凝視目標可能不在人體主體的2D視線中，這在2D圖像中已不再相同。李等人提出了第一個ODI注視跟蹤框架，并收集了第一個ODI注視跟蹤數(shù)據(jù)集，稱為GazeFollow360。

挑戰(zhàn)和潛力：ODI 包含更豐富的上下文信息，可以促進對注視行為的理解。然而，仍然存在一些挑戰(zhàn)。首先，很少有特定于ODI的特定凝視跟蹤和凝視預測數(shù)據(jù)集。數(shù)據(jù)是基于深度學習的方法的“引擎”，因此收集定量和定性數(shù)據(jù)集是必要的。其次，由于球面投影類型中存在失真問題，未來的研究應考慮如何通過幾何變換來校正這種失真。最后，與普通2D圖像相比，ODI中的注視跟隨和注視預測都需要了解更廣泛的場景信息。應進一步探討空間背景關系。

4.4.3 視聽場景理解

由于ODV可以為觀察者提供對整個周圍環(huán)境的沉浸式理解，因此最近的研究重點是對ODV的視聽場景理解。由于它使觀眾能夠在各個方向上體驗聲音，因此ODV的空間無線電是全場景感知的重要提示。作為全向空間化問題的第一部作品，Morgado 等人設計了一個四塊架構(gòu)，應用自監(jiān)督學習來生成空間無線電，給定單聲道音頻和ODV作為聯(lián)合輸入。他們還提出了一個具有代表性的自我監(jiān)督框架，用于從ODV的視聽空間內(nèi)容中學習表示。

討論：基于上述分析，該研究領域的大多數(shù)工作將ERP圖像處理為普通2D圖像，而忽略了固有的失真。未來的研究可能會探索如何將ODI的球面成像特性和幾何信息與空間音頻線索更好地結(jié)合起來，以提供更逼真的視聽體驗。

4.4.4 視覺問答

視覺問答（VQA）是一項全面而有趣的任務，結(jié)合了計算機視覺（CV），自然語言處理（NLP）和知識表示$ &$推理（KR）。更寬的FoV ODI和ODV對于VQA研究更有價值和更具挑戰(zhàn)性，因為它們可以提供類似于人類視覺系統(tǒng)的立體空間信息。VQA 360，在~引用{chou2020可視化}中提出，是第一個關于ODI的VQA框架。它引入了一種基于CP的模型，具有多級融合和注意力擴散，以減少空間失真。同時，收集的VQA 360數(shù)據(jù)集為未來的發(fā)展提供了基準。此外，Yun等人提出了第一個基于ODV的VQA作品，全景AVQA，它結(jié)合了來自三種形式的信息：語言，音頻和ODV幀。變壓器網(wǎng)絡提取的融合多模態(tài)表示提供了對全向環(huán)境的整體語義理解。他們還在 ODV 上提供了第一個空間和音頻 VQA 數(shù)據(jù)集。

討論與挑戰(zhàn)：基于上述分析，基于ODI/ODV VQA的工作很少。與2D域中的方法相比，最大的困難是如何利用球面投影類型，例如二十面體和切線圖像。隨著2D領域中二十多個數(shù)據(jù)集和眾多有效網(wǎng)絡的發(fā)表，未來的研究可能會考慮如何有效地轉(zhuǎn)移知識，以學習更強大的DNN模型以實現(xiàn)全向視覺。

5、Novel Learning Strategies

5.1、無監(jiān)督/半監(jiān)督學習

由于全景注釋不足但成本高昂，因此會發(fā)生ODI數(shù)據(jù)稀缺問題。這個問題通常通過半監(jiān)督學習或無監(jiān)督學習來解決，它們可以利用豐富的未標記數(shù)據(jù)來增強泛化能力。對于半監(jiān)督學習，Tran等人利用“平均教師”模型通過在同一場景中從標記和未標記的數(shù)據(jù)中學習來進行3D房間布局重建。對于無監(jiān)督學習，Djilali等人提出了ODI顯著性預測的第一個框架。它計算來自多個場景的不同視圖之間的相互信息，并將對比學習與無監(jiān)督學習相結(jié)合，以學習潛在表示。此外，無監(jiān)督學習可以與監(jiān)督學習相結(jié)合，以增強泛化能力。Yun等人提出將自監(jiān)督學習與監(jiān)督學習相結(jié)合，進行深度估計，緩解數(shù)據(jù)稀缺，增強穩(wěn)定性。

5.2 GAN

為了減少透視圖像與ODI之間的域分歧，P2PDA和密集通道利用GAN框架并設計對抗性損失來促進語義分割。在圖像生成方面，BIPS提出了一個GAN框架，用于基于攝像頭和深度傳感器的任意配置來合成RGB-D室內(nèi)全景圖。

5.3 注意機制

對于跨視圖地理定位，在Zhu等人中，ViT等人用于刪除無信息的圖像補丁，并將信息性圖像補丁增強到更高分辨率。這種注意力引導的非均勻裁剪策略可以節(jié)省計算成本，將其重新分配給信息補丁以提高性能。在無監(jiān)督顯著性預測中采用了類似的策略。在Abdelaziz等人提出的工作中，采用自我注意模型在兩個輸入之間建立空間關系并選擇充分不變的特征。

5.4 遷移學習

有很多工作可以轉(zhuǎn)移從源2D域?qū)W到的知識，以促進ODI域中學習許多視覺任務，例如，語義分割和深度估計。從透視圖像在預訓練的模型上設計可變形的CNN或MLP可以增強ODI在眾多任務中的模型能力，例如，語義分割，視頻超分辨率，深度估計和光流估計。但是，這些方法嚴重依賴于手工制作的模塊，這些模塊缺乏針對不同場景的泛化能力。無監(jiān)督域適配旨在通過減少透視圖像和ODI之間的域間隙，將知識從透視域轉(zhuǎn)移到ODI域。P2PDA和BendingRD減小透視圖像與ODI之間的域間隙，有效獲得ODI的偽密集標簽。知識提煉（KD）是另一種有效的技術，它將知識從繁瑣的教師模型中轉(zhuǎn)移出來，學習緊湊的學生模型，同時保持學生的表現(xiàn)。然而，我們發(fā)現(xiàn)很少有作品將KD應用于全向視覺任務。在語義分割中，ECANets通過來自世界各地的各種全景圖執(zhí)行數(shù)據(jù)提煉。

5.5 強化學習

在顯著性預測中，MaiXu等人通過將頭部運動的軌跡解釋為離散動作來預測頭部注視，并得到正確策略的獎勵。此外，在對象檢測中，Pais等人通過考慮3D邊界框及其在圖像中的相應失真投影來提供行人在現(xiàn)實世界中的位置。DRL的另一個應用是在LAUNet中基于像素密度自適應地選擇放大因子，解決了ERP中像素密度分布不均勻的問題。

5.6 多任務學習

在相關任務之間共享表示可以增加模型的泛化能力，并提高所有涉及任務的性能。MT-DNN將顯著性檢測任務與視口檢測任務相結(jié)合，預測每幀的視口顯著性圖，提高ODV的顯著性預測性能。DeepPanoContext通過共同預測物體形狀、3D姿勢、語義類別和房間布局，實現(xiàn)全景場景理解。同樣，HoHoNet提出了一個潛在的水平特征（LHFeat）和一種新穎的視界到密集模塊來完成各種任務，包括房間布局重建和每像素密集預測任務，例如深度估計，語義分割。

6、Applications

6.1、AR 和VR

隨著技術的進步和交互場景需求的不斷增長，AR和VR近年來發(fā)展迅速。VR旨在模擬真實或虛構(gòu)的環(huán)境，參與者可以通過感知和與環(huán)境互動來獲得身臨其境的體驗和個性化的內(nèi)容。憑借在ODI中捕獲整個周圍環(huán)境的優(yōu)勢，360 VR / AR有助于開發(fā)沉浸式體驗。

6.2、機器人導航

除了上文中提到的SLAM之外，我們還進一步討論了ODI/ODV在機器人導航領域的相關應用，包括遠程呈現(xiàn)系統(tǒng)、監(jiān)控和基于DL的優(yōu)化方法。

遠程呈現(xiàn)系統(tǒng)旨在克服空間限制，使人們能夠遠程訪問并相互交流。ODI/ODV通過提供更逼真、更自然的場景而越來越受歡迎，特別是在開放環(huán)境的戶外活動中. Zhang等人提出了一種基于ODV的遠程呈現(xiàn)系統(tǒng)的原型，以支持更自然的交互和遠程環(huán)境探索，在遠程環(huán)境中的真實行走可以同時控制機器人平臺的相關運動。出于安全目的，監(jiān)控旨在取代人類，其中校準對于敏感數(shù)據(jù)至關重要。因此，普迪克斯提出了一種針對障礙物檢測和避障的安全導航系統(tǒng)，并采用校準設計來獲得適當?shù)木嚯x和方向。與NFoV圖像相比，全景圖像可以通過在單次拍攝中提供完整的FoV來顯著降低計算成本。此外，Ran等人提出了一個基于未校準的360相機的輕量級框架。該框架可以通過將其制定為一系列分類任務來準確估計航向，并通過保存校準和校正過程來避免冗余計算。

6.3、自動駕駛

自動駕駛需要對周圍環(huán)境有充分的了解，這是全景視覺所擅長的。一些作品專注于為自動駕駛建立360平臺。具體而言，依托Sun等人的工作，利用立體相機、偏振相機和全景相機，形成多模態(tài)視覺系統(tǒng)，捕捉全向景觀。除了該平臺之外，用于自動駕駛的公共全向數(shù)據(jù)集的出現(xiàn)對于深度學習方法的應用至關重要。Caeser等人是第一個引入相關數(shù)據(jù)集，該數(shù)據(jù)集攜帶了六個攝像頭，五個雷達和一個激光雷達。所有設備都帶有360 FoV。最近，OpenMP 數(shù)據(jù)集被六臺攝像機和四臺激光雷達捕獲，其中包含復雜環(huán)境中的場景，例如，過度曝光或黑暗的城市地區(qū)。Kumar等人提出了一個多任務視覺感知網(wǎng)絡，該網(wǎng)絡由自動駕駛中的六項重要任務組成：深度估計，視覺里程測量，感性分割，運動分割，物體檢測和鏡頭污染檢測。重要的是，由于實時性能對于自動駕駛至關重要，并且車輛中的嵌入系統(tǒng)通常具有有限的內(nèi)存和計算資源，因此輕量級DNN模型在實踐中更受青睞。

7、Discussion and New Perspectives

7.1、投影格式的缺點

ERP是最流行的投影格式，因為它的平面格式的FoV很寬。ERP面臨的主要挑戰(zhàn)是向兩極的拉伸變形日益嚴重。因此，提出了許多針對失真的特定卷積濾波器的設計方法。相比之下，CP 和切線（TP）圖像通過將球面投影到多個平面上是無失真的投影格式。它們與透視圖像相似，因此可以充分利用平面域中的許多預訓練模型和數(shù)據(jù)集。然而，CP和切線圖像受到更高的計算成本，差異和不連續(xù)性的挑戰(zhàn)。我們總結(jié)了利用CP和切線圖像的兩個潛在方向：（i）冗余計算成本是由投影平面之間的大重疊區(qū)域引起的。但是，像素密度因不同的采樣位置而異。通過強化學習為密集區(qū)域（例如赤道）分配更多資源，為稀疏區(qū)域（例如極點）分配更少的資源，計算效率更高。（二）目前，不同的投影平面往往是并行處理的，缺乏全球一致性。為了克服不同局部平面之間的差異，探索一個以ERP為輸入或基于注意力的變壓器來構(gòu)建非局部依賴關系的分支是有效的。

7.2、數(shù)據(jù)高效學習

深度學習方法面臨的一個挑戰(zhàn)是需要具有高質(zhì)量注釋的大規(guī)模數(shù)據(jù)集。然而，對于全向視覺，構(gòu)建大規(guī)模數(shù)據(jù)集既昂貴又乏味。因此，有必要探索更高效的數(shù)據(jù)方法。一個有希望的方向是將從在標記的2D數(shù)據(jù)集上訓練的模型中學到的知識轉(zhuǎn)移到在未標記的全景數(shù)據(jù)集上訓練的模型。具體而言，可以應用域適應方法來縮小透視圖像與ODI之間的差距。KD也是一種有效的解決方案，它將學習到的特征信息從繁瑣的視角DNN模型轉(zhuǎn)移到學習ODI數(shù)據(jù)的緊湊DNN模型。最后，最近的自我監(jiān)督方法，eg，Yan等人證明了預訓練的有效性，而不需要額外的訓練注釋。

7.3、物理約束

透視圖像的現(xiàn)有方法在推斷全球場景和看不見的區(qū)域的光照方面受到限制。由于ODI的FoV很寬，可以捕獲完整的周圍環(huán)境場景。此外，反射率可以根據(jù)照明與場景結(jié)構(gòu)之間的物理約束，基于照明來揭示反射率。因此，未來的方向可以聯(lián)合利用計算機圖形學（如光線追蹤）和渲染模型來幫助計算反射率，這反過來又有助于更高精度的全局照明估計。此外，基于照明運輸理論處理和渲染ODI是有希望的。

7.4、多模態(tài)全景視覺

它指的是使用相同的DNN模型從不同類型的模態(tài)（例如，用于視覺問答的文本圖像，視聽場景理解）學習表示的過程。對于世界性愿景來說，這是一個有希望但又切實可行的方向。例如，Beltran等人引入了一個基于視覺和 LiDAR 信息的多模態(tài)感知框架，用于 3D 對象檢測和跟蹤。但是，這方面的現(xiàn)有工作將ODI視為透視圖像，而忽略了ODI中固有的失真。未來的工作可能會探索如何利用ODI的優(yōu)勢，例如，完整的FoV，以協(xié)助其他模式的表示。重要的是，不同方式的獲取有明顯的差異。例如，捕獲 RGB 圖像比深度圖容易得多。因此，一個有希望的方向是從一種模式中提取可用信息，然后通過多任務學習，KD等轉(zhuǎn)移到另一種模式。然而，應考慮不同方式之間的差異，以確保多模式的一致性。

7.5、潛在的對抗性攻擊

很少有研究關注對全向視覺模型的對抗性攻擊。Zhang等人提出了第一種具有代表性的攻擊方法，通過僅擾動從ODI渲染的一個切線圖像來欺騙DNN模型。建議的攻擊是稀疏的，因為它只干擾了輸入ODI的一小部分。因此，他們進一步提出了一種位置搜索方法來搜索球面上的切點。該方向存在許多有前途但具有挑戰(zhàn)性的研究問題，例如，分析ODI不同DNN模型之間攻擊的泛化能力，網(wǎng)絡架構(gòu)和訓練方法的白盒攻擊以及攻擊防御。

7.6、Metaverse的潛力

Metaverse旨在創(chuàng)建一個包含大規(guī)模高保真數(shù)字模型的虛擬世界，用戶可以在其中自由創(chuàng)建內(nèi)容并獲得身臨其境的互動體驗。元宇宙由AR和VR頭顯促進，其中ODI由于完整的FoV而受到青睞。因此，一個潛在的方向是從ODI生成高保真2D/3D模型，并詳細模擬真實世界的對象和場景。此外，為了幫助用戶獲得身臨其境的體驗，分析和理解人類行為的技術（例如，注視跟隨，顯著性預測）可以在將來進一步探索和整合。

7.4、智慧城市的潛力

智慧城市專注于使用各種設備從城市收集數(shù)據(jù)，并利用數(shù)據(jù)中的信息來提高效率，安全性和便利性等。利用街景圖像中ODI的特性，可以促進城市形態(tài)比較的發(fā)展。如第前面所述，一個有希望的方向是將街景圖像轉(zhuǎn)換為衛(wèi)星視圖圖像以進行城市規(guī)劃。

8、Discussion and New Perspectives

在本次調(diào)查中，我們?nèi)婊仡櫜⒎治隽松疃葘W習方法在全向視覺方面的最新進展。我們首先介紹了全向成像的原理，卷積方法和數(shù)據(jù)集。然后，我們提供了DL方法的分層和結(jié)構(gòu)分類。針對分類學中的每項任務，我們總結(jié)了當前的研究現(xiàn)狀，并指出了其中的機遇和挑戰(zhàn)。我們進一步回顧了新的學習策略和應用。在構(gòu)建了當前方法之間的聯(lián)系之后，我們討論了需要解決的關鍵問題，并指出了有希望的未來研究方向。我們希望這項工作能為研究人員提供一些見解，并促進社區(qū)的進步。

審核編輯：郭婷

阅读全文

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

機器人

機器人

+關注

關注
212

文章
29161

瀏覽量
210611
自動駕駛

自動駕駛

+關注

關注
788

文章
14089

瀏覽量
168514
深度學習

深度學習

+關注

關注
73

文章
5540

瀏覽量
122216

原文標題：港科大最新綜述：深度學習在全景視覺上的應用

文章出處：【微信號：vision263com，微信公眾號：新機器視覺】歡迎添加關注！文章轉(zhuǎn)載請注明出處。

深度自然匿名化：隱私保護與視覺完整性并存的未來！

在科技快速發(fā)展的當下，個人隱私保護的需求日益凸顯。如何能在隱私保護的基礎上，保持視覺完整性，從而推動企業(yè)開發(fā)與創(chuàng)新？深度自然匿名化（DNAT）已被證明是傳統(tǒng)模糊化方法的更優(yōu)替代方案，

發(fā)表于 01-15 15:57 ?4298次閱讀

<b class='flag-5'>深度</b>自然匿名化：隱私保護與<b class='flag-5'>視覺</b>完整性并存的<b class='flag-5'>未來</b>！

VR全景拍攝的實用價值和未來發(fā)展

拍攝的發(fā)展需求所在?？赡躒R技術目前在我們普通人眼中并沒有特別大的作用，只是提供了更好的視覺體驗效果。但隨著技術的不斷革新，以及VR全景拍攝的不斷普及，我們就可以慢慢的感受到VR技術所帶來種種便利。而我

發(fā)表于 08-03 22:22

【詳解】FPGA：深度學習的未來？

的未來方向提出關鍵建議，幫助解決今后深度學習所面臨的問題。2. FPGA傳統(tǒng)來說，在評估硬件平臺的加速時，必須考慮到靈活性和性能之間的權(quán)衡。一方面，通用處理器（GPP）可提供高度的靈活

發(fā)表于 08-13 09:33

深度學習在汽車中的應用

未來的某個時候，人們必定能夠相對自如地運用人工智能，安全地駕車出行。這個時刻何時到來我無法預見；但我相信，彼時“智能”會顯現(xiàn)出更“切實”的意義。與此同時，通過深度學習方法，人工智能的實際應用能夠

發(fā)表于 03-13 06:45

未來語音接口的展望

作者：Eran Belaish，音頻和語音產(chǎn)品線的產(chǎn)品營銷經(jīng)理，CEVA隨著虛擬助手變得更加智能，我們對它們的期望越來越高。現(xiàn)在，簡單的語音命令實際上被認為是理所當然的，深度學習可以實現(xiàn)更復雜的交互

發(fā)表于 07-16 06:10

深度學習與傳統(tǒng)計算機視覺簡介

文章目錄1 簡介1.1 深度學習與傳統(tǒng)計算機視覺1.2 性能考量1.3 社區(qū)支持2 結(jié)論3 參考在計算機視覺領域中，不同的場景不同的應用程序

發(fā)表于 12-23 06:17

深度學習介紹

在未來的某個時候，人們必定能夠相對自如地運用人工智能，安全地駕車出行。這個時刻何時到來我無法預見；但我相信，彼時“智能”會顯現(xiàn)出更“切實”的意義。與此同時，通過深度學習方法，人工智能的

發(fā)表于 11-11 07:55

FPGA是深度學習的未來

FPGA是深度學習的未來，學習資料，感興趣的可以看看。

發(fā)表于 10-26 15:29 ?0次下載

全景視覺SNS社交新媒體

全景視覺網(wǎng)絡科技有限公司CMO毛予女士參加了11日下午的產(chǎn)品血戰(zhàn)篇環(huán)節(jié)，現(xiàn)場演講并介紹了全景視覺極富想象力和潛力的SNS社交新媒體概念，為未來

發(fā)表于 10-13 11:51 ?0次下載

人工智能深度學習的未來展望

本文是推出的人工智能深度學習綜述，也是Hinton、LeCun和Bengio三位大神首次合寫同一篇文章。該綜述在深度學習領域的重要性不言而喻

發(fā)表于 07-30 16:40 ?9366次閱讀

探究深度學習在目標視覺檢測中的應用與展望

目標視覺檢測是計算機視覺領域的一個重要問題，在視頻監(jiān)控、自主駕駛、人機交互等方面具有重要的研究意義和應用價值.近年來，深度學習

發(fā)表于 01-13 10:59 ?5928次閱讀

深度學習在計算機視覺上的四大應用

計算機視覺中比較成功的深度學習的應用，包括人臉識別，圖像問答，物體檢測，物體跟蹤。

發(fā)表于 08-24 16:16 ?5037次閱讀

計算機視覺中的九種深度學習技術

計算機視覺中仍有許多具有挑戰(zhàn)性的問題需要解決。然而，深度學習方法正在針對某些特定問題取得最新成果。在最基本的問題上，最有趣的不僅僅是深度

發(fā)表于 08-21 09:56 ?783次閱讀

深度學習在計算機視覺領域的應用

隨著人工智能技術的飛速發(fā)展，深度學習作為其中的核心技術之一，已經(jīng)在計算機視覺領域取得了顯著的成果。計算機視覺，作為計算機科學的一個重要分支，

發(fā)表于 07-01 11:38 ?1312次閱讀

深度學習在工業(yè)機器視覺檢測中的應用

隨著深度學習技術的快速發(fā)展，其在工業(yè)機器視覺檢測中的應用日益廣泛，并展現(xiàn)出巨大的潛力。工業(yè)機器視覺檢測是工業(yè)自動化領域的重要組成部分，通過圖

發(fā)表于 07-08 10:40 ?1509次閱讀

搜索歷史

深度學習在全景視覺上的應用及未來展望

評論

深度自然匿名化：隱私保護與視覺完整性并存的未來！

VR全景拍攝的實用價值和未來發(fā)展

【詳解】FPGA：深度學習的未來？

深度學習在汽車中的應用

未來語音接口的展望

深度學習與傳統(tǒng)計算機視覺簡介

深度學習介紹

FPGA是深度學習的未來

全景視覺SNS社交新媒體

人工智能深度學習的未來展望

探究深度學習在目標視覺檢測中的應用與展望

深度學習在計算機視覺上的四大應用

計算機視覺中的九種深度學習技術

深度學習在計算機視覺領域的應用

深度學習在工業(yè)機器視覺檢測中的應用