本文提出了一種生產(chǎn)化的端到端立體深度感知系統(tǒng)設(shè)計(jì),可以完成預(yù)處理、在線立體校正和立體深度估計(jì),并支持糾偏失敗后的單目深度估計(jì)備選方案。同時(shí),該深度感知系統(tǒng)的輸出應(yīng)用于一種基于智能眼鏡拍攝的視角生成管道,創(chuàng)造出具有3D計(jì)算攝影效果的視覺效果。此外,該系統(tǒng)設(shè)計(jì)可以在手機(jī)的嚴(yán)格計(jì)算預(yù)算內(nèi)運(yùn)行,具有通用性,可以適用于各種品牌的智能手機(jī)。該論文的設(shè)計(jì)是為了解決智能眼鏡中的深度感知問題,可以為智能眼鏡提供更好的增強(qiáng)現(xiàn)實(shí)體驗(yàn)。
1 前言
本文介紹了一種生產(chǎn)化的端到端深度感知系統(tǒng),包括預(yù)處理、在線立體校正、立體深度估計(jì)并支持單目深度估計(jì)的備用方案。該系統(tǒng)的輸出結(jié)果應(yīng)用于視角生成的渲染管道,創(chuàng)建具有3D計(jì)算攝影效果的效果。該系統(tǒng)設(shè)計(jì)具有通用性和穩(wěn)健性,可以用于不同品牌的主流手機(jī)。
我們的技術(shù)和系統(tǒng)貢獻(xiàn)包括:
詳細(xì)描述了一個(gè)端到端的立體系統(tǒng),并提供了小心的設(shè)計(jì)選擇和備用方案,這些策略可以成為其他類似深度系統(tǒng)的基線;
引入了一種新的在線校正算法,具有快速和穩(wěn)健的特點(diǎn),有助于提高立體視覺的準(zhǔn)確性;
提出了一種新穎的策略,共同設(shè)計(jì)立體網(wǎng)絡(luò)和單目深度網(wǎng)絡(luò),使兩個(gè)網(wǎng)絡(luò)的輸出格式相似,從而更好地利用他們的結(jié)構(gòu)信息;
證明了在計(jì)算預(yù)算有限的情況下,本文的量化網(wǎng)絡(luò)實(shí)現(xiàn)了競(jìng)爭(zhēng)性的準(zhǔn)確度,可以應(yīng)用于計(jì)算資源有限的場(chǎng)景。
2 相關(guān)背景
本文關(guān)注于構(gòu)建用于靈活智能眼鏡的完整立體系統(tǒng),該系統(tǒng)具有魯棒性和輕量化處理,能夠在線校正,具有用于提顯和3D效果等功能?,F(xiàn)有工作多集中在系統(tǒng)的某些組件,很少有文章著眼于整個(gè)系統(tǒng)設(shè)計(jì)。對(duì)于在線立體校正,因?yàn)閹缀跛袑?shí)際立體系統(tǒng)都存在校正問題,研究者嘗試了一些方法,其中的一個(gè)是在匹配代價(jià)中只利用水平梯度或使用包含小的垂直視差樣本進(jìn)行匹配代價(jià)訓(xùn)練等。對(duì)于單目深度估計(jì),有監(jiān)督和無監(jiān)督方法都被用于深度學(xué)習(xí)中,輸出通常是相對(duì)深度/視差。對(duì)于立體深度估計(jì),最近的研究中,立體匹配的特征學(xué)習(xí)通過深度學(xué)習(xí)進(jìn)行替代,目前主要關(guān)注于端到端學(xué)習(xí),有2D CNNs、3D CNNs和RNNs等三種類型的架構(gòu)。其中RNN方法得到最先進(jìn)的性能,但無法在設(shè)備上運(yùn)行,近期的工作則嘗試著使立體網(wǎng)絡(luò)在設(shè)備上運(yùn)行更快。
3 系統(tǒng)概述
本文提出了一種基于智能眼鏡的深度感知計(jì)算攝影系統(tǒng)。該系統(tǒng)配備一對(duì)硬件同步的魚眼相機(jī),可拍攝場(chǎng)景圖像并將其傳輸至智能手機(jī)進(jìn)行進(jìn)一步處理。作者使用在線校準(zhǔn)和校準(zhǔn)算法估計(jì)外部和內(nèi)部參數(shù)進(jìn)行準(zhǔn)確的校準(zhǔn),使用相對(duì)視差來創(chuàng)建深度計(jì)算攝影效果,并通過共享數(shù)據(jù)集訓(xùn)練兩個(gè)網(wǎng)絡(luò)以實(shí)現(xiàn)相同的下游處理。最終,預(yù)測(cè)的視差和相應(yīng)的圖像被傳遞到渲染流水線,以創(chuàng)建最終的三維效果。
4 在線校正
根據(jù)輸入的魚眼圖像,通過計(jì)算精確的對(duì)應(yīng)特征點(diǎn),然后在原始圖像和重新校正后的圖像中保持世界坐標(biāo)系與立體系統(tǒng)相對(duì),來估計(jì)兩個(gè)攝像機(jī)的旋轉(zhuǎn)角度,從而進(jìn)行在線校正。此方法通過估計(jì)相對(duì)尺度來補(bǔ)償焦距隨溫度的變化,最終使得雙視圖立體算法更加準(zhǔn)確和魯棒。其中,相對(duì)俯仰角是相對(duì)的,而絕對(duì)俯仰角是一個(gè)自由參數(shù)。
4.1 Projection model - 投影模型
該部分內(nèi)容介紹了通過投影模型計(jì)算兩張圖片中點(diǎn)的相對(duì)位置和姿態(tài)。其中,對(duì)內(nèi)參矩陣和徑向畸變進(jìn)行了校正。通過將點(diǎn)投影到不同的相機(jī)中并估計(jì)其在兩張圖片中的深度,可以計(jì)算相機(jī)之間的相對(duì)方向和絕對(duì)的旋轉(zhuǎn)和偏航。通過引入尺度修正,可以進(jìn)一步約束相機(jī)之間的相對(duì)高度。
4.2 Rectification algorithm - 矯正算法
該算法通過使用Harris角點(diǎn)和層次亞像素ZSSD特征匹配器在圖像間匹配特征點(diǎn),并配合使用魯棒最小二乘法求解方程組來實(shí)現(xiàn)對(duì)圖像的矯正。該算法能夠可靠地提取到特征點(diǎn)并計(jì)算出矯正角度。算法采用四個(gè)參數(shù)模型,包括?ωx、?ωy、?ωz和?f ,并且通過內(nèi)點(diǎn)控制實(shí)現(xiàn)超約定系統(tǒng)的求解。對(duì)于每個(gè)匹配,它的表現(xiàn)很穩(wěn)定并產(chǎn)生了很好的結(jié)果。
5 Co-design of monocular and stereo networks - 單目和立體網(wǎng)絡(luò)的聯(lián)合設(shè)計(jì)
本文提出了一種新的方法來協(xié)同設(shè)計(jì)立體和單目深度網(wǎng)絡(luò),以使其輸出具有一致性,輕量級(jí)并且盡可能精確。該方法通過將單目深度網(wǎng)絡(luò)訓(xùn)練為預(yù)測(cè)相對(duì)深度和相機(jī)運(yùn)動(dòng),而不是絕對(duì)深度,來保持輸出格式的一致性。接著,作者設(shè)計(jì)了一個(gè)立體網(wǎng)絡(luò),使用相同的特征提取器來預(yù)測(cè)相對(duì)視差。為了保持一致性,作者還使用了可訓(xùn)練的縮放和偏移參數(shù),并使用一個(gè)損失函數(shù)來同時(shí)考慮單目和立體網(wǎng)絡(luò)的輸出。該方法在聯(lián)合訓(xùn)練中表現(xiàn)出很好的穩(wěn)定性和精度。
5.1 Stereo network - 立體網(wǎng)絡(luò)
作者設(shè)計(jì)了一個(gè)立體視網(wǎng)絡(luò),其組件靈感來源于經(jīng)典的和深度的立體視方法:
一個(gè)編碼器,從輸入的立體圖像中獨(dú)立提取多分辨率特征和特征 ,其中 l = 1 … L,用于 L 層特征金字塔。
利用余弦距離比較左右特征距離的三維代價(jià)體
使用許多中間層將代價(jià)體和參考圖像的圖像特征作為輸入,并匯總視差信息。因?yàn)橹虚g層直接從代價(jià)體和參考圖像獲取信息,所以它們可以在立體匹配線索較弱(例如在無紋理區(qū)域)或缺失時(shí)(例如在半遮擋區(qū)域)更好地利用單眼深度線索。
粗到細(xì)解碼器以預(yù)測(cè)輸出視差圖。輸出視差圖的分辨率與輸入右圖像相同。每個(gè)解碼器模塊結(jié)合低分辨率解碼器模塊的輸出和相同分辨率中間層的輸出。
5.2 Monocular network - 單目網(wǎng)絡(luò)
我們?cè)O(shè)計(jì)了一個(gè)單目深度估計(jì)網(wǎng)絡(luò),其包含三個(gè)組件:
用于提取多分辨率圖像特征f_l=1...L的編碼器;
中間層用于聚合深度信息;
粗到細(xì)的解碼器用于預(yù)測(cè)視差圖。
5.3 Shared network components - 共享網(wǎng)絡(luò)組件
作者研究了單目深度估計(jì)和立體視覺之間的聯(lián)合訓(xùn)練,從而提高了深度估計(jì)的質(zhì)量。在共享網(wǎng)絡(luò)組件方面,該文使用相同的編碼器、中間層和解碼器,同時(shí)使用立體代價(jià)體模塊,從而提高網(wǎng)絡(luò)的表現(xiàn)。為了提高效率,文章使用反向殘差模塊進(jìn)行所有層的量化,并將權(quán)重和激活量化為8位。同時(shí),輸出層保持為32位來獲得亞像素分辨率。其損失函數(shù)使用平滑L1損失和梯度損失項(xiàng)來訓(xùn)練網(wǎng)絡(luò)。
5.4 Novel training datasets - 新型訓(xùn)練數(shù)據(jù)集
本文提出了一種通過渲染內(nèi)部單目數(shù)據(jù)集來獲得立體數(shù)據(jù)集以進(jìn)行聯(lián)合訓(xùn)練的方法。為了使立體數(shù)據(jù)集具有逼真性和挑戰(zhàn)性,作者對(duì)其進(jìn)行了數(shù)據(jù)增強(qiáng)(亮度、對(duì)比度、色相、飽和度、jpeg壓縮等),并在遇到高光反射和無效區(qū)域(由深度流水線中的變形和矯正引起)時(shí)進(jìn)行了訓(xùn)練,使網(wǎng)絡(luò)能夠忽略這些干擾。文章還探討了簡(jiǎn)化立體數(shù)據(jù)集生成的方法,使得該數(shù)據(jù)集比任何現(xiàn)有的訓(xùn)練數(shù)據(jù)集都更具多樣性。
6 Novel view synthesis - 新視角合成
本文采用基于LDI的方法來實(shí)現(xiàn)新視角合成。對(duì)于立體數(shù)據(jù)集的創(chuàng)建,使用單目真實(shí)深度和彩色圖像來創(chuàng)建紋理網(wǎng)格,并渲染第二個(gè)視角。對(duì)于3D效果,使用來自立體系統(tǒng)的預(yù)測(cè)和預(yù)定義的軌跡來生成平滑的新視角視頻。其中LDI是層深度圖,可以通過LDI修復(fù)插值法推測(cè)被遮擋的幾何形狀。
7 實(shí)驗(yàn)
在本文中,作者介紹了一種新的立體視覺深度估計(jì)方法,即使用共享編碼器、中間層和解碼器的高效單目網(wǎng)絡(luò)Tiefenrausch和附加的成本體積模塊來構(gòu)建立體網(wǎng)絡(luò)Argos。對(duì)于生產(chǎn)模型,作者使用4M內(nèi)部iPhone數(shù)據(jù)集重新訓(xùn)練了Tiefenrausch,并使用FBGEMM后端進(jìn)行量化感知訓(xùn)練(QAT),從而實(shí)現(xiàn)了高精度。作者還使用Sceneflow數(shù)據(jù)集進(jìn)行了對(duì)比實(shí)驗(yàn)。
作者在三星Galaxy S8 CPU上對(duì)流水線進(jìn)行了基準(zhǔn)測(cè)試。校正流水線需要300-400ms,立體網(wǎng)絡(luò)需要大約965ms。流水線的其他部分總共需要比這兩個(gè)步驟更低的延遲。作者的模型經(jīng)過了移動(dòng)CPU優(yōu)化,但將SotA模型轉(zhuǎn)換為移動(dòng)友好的格式并不容易,也不是非常有意義,因?yàn)樗鼈儾⒉皇菫橐苿?dòng)設(shè)備設(shè)計(jì)的。為了權(quán)衡,作者在Intel(R) Xeon(R) Gold 6138 CPU @ 2.00GHz的計(jì)算機(jī)服務(wù)器上比較所有模型的運(yùn)行時(shí)間。
本文在Middlebury 2014數(shù)據(jù)集上對(duì)作者的方法與幾種SotA立體方法進(jìn)行了定量比較。作者的方法在速度上快于其他方法,并且實(shí)現(xiàn)了與SotA方法相當(dāng)?shù)男阅?。通過使用內(nèi)部渲染的立體數(shù)據(jù)集進(jìn)行訓(xùn)練,作者的性能進(jìn)一步提高,并實(shí)現(xiàn)了最佳的絕對(duì)相對(duì)誤差。作者新設(shè)計(jì)有效地從單目數(shù)據(jù)集呈現(xiàn)了立體數(shù)據(jù)集以訓(xùn)練模型。雖然作者的設(shè)計(jì)選擇可能在Middlebury等基準(zhǔn)測(cè)試上導(dǎo)致精度下降,但作者追求的是設(shè)計(jì)一個(gè)穩(wěn)健的端到端深度系統(tǒng)。作者的量化8位立體模型是首次提出的,比較模型都使用32位權(quán)重和激活。盡管存在一些不利因素,但作者還是實(shí)現(xiàn)了與SotA方法相當(dāng)?shù)男阅?,并且運(yùn)行速度更快。
本文描述了一項(xiàng)針對(duì)3D照片質(zhì)量的調(diào)查。通過渲染深度系統(tǒng)的新視角視頻進(jìn)行調(diào)查,參與者對(duì)視頻質(zhì)量進(jìn)行評(píng)分。研究結(jié)果表明,立體聲得分的平均分?jǐn)?shù)為3.44,單目深度得分的平均分?jǐn)?shù)為2.96。結(jié)果顯示,深度圖質(zhì)量有時(shí)與渲染的新視角視頻的質(zhì)量并不直接相關(guān)。作者強(qiáng)調(diào)了僅使用標(biāo)準(zhǔn)指標(biāo)來比較方法是不足以評(píng)價(jià)立體聲方法在實(shí)踐中的表現(xiàn)的
8 結(jié)論
本文介紹了一種端到端的立體深度感知系統(tǒng)的設(shè)計(jì),可以在智能手機(jī)上高效運(yùn)行。該系統(tǒng)包括了一個(gè)在線矯正算法、單目和立體視差網(wǎng)絡(luò)的協(xié)同設(shè)計(jì),以及從單目數(shù)據(jù)集中提取大型立體數(shù)據(jù)集的新方法。作者還提出了一個(gè)8位量化的立體模型,與最先進(jìn)的方法相比,在標(biāo)準(zhǔn)立體基準(zhǔn)測(cè)試中具有競(jìng)爭(zhēng)性能。
-
智能手機(jī)
+關(guān)注
關(guān)注
66文章
18508瀏覽量
180569 -
感知系統(tǒng)
+關(guān)注
關(guān)注
1文章
71瀏覽量
15966 -
智能眼鏡
+關(guān)注
關(guān)注
8文章
663瀏覽量
72876
原文標(biāo)題:CVPR2023 I 一種實(shí)用的智能眼鏡深度感知系統(tǒng)
文章出處:【微信號(hào):3D視覺工坊,微信公眾號(hào):3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論