作者:Lin Yen-Chen, Pete Florence, Jonathan T. Barron, Alberto Rodriguez, Phillip Isola, Tsung-Yi Lin
摘要
我們提出了iNeRF,一個(gè)通過 “反轉(zhuǎn) ”神經(jīng)輻射場(chǎng)(NeRF)來進(jìn)行無網(wǎng)格姿勢(shì)估計(jì)的框架。NeRFs已經(jīng)被證明對(duì)合成真實(shí)世界場(chǎng)景或物體的逼真的新視圖非常有效。在這項(xiàng)工作中,我們研究了是否可以通過NeRF來應(yīng)用無網(wǎng)格、純RGB的6DoF姿態(tài)估計(jì)的分析合成法:給定一個(gè)圖像,找到攝像機(jī)相對(duì)于三維物體或場(chǎng)景的平移和旋轉(zhuǎn)。我們的方法假定在訓(xùn)練或測(cè)試期間沒有物體網(wǎng)格模型可用。從最初的姿勢(shì)估計(jì)開始,我們使用梯度下降法來最小化從NeRF渲染的像素和觀察到的圖像中的像素之間的殘差。在我們的實(shí)驗(yàn)中,我們首先研究:1)如何在iNeRF的姿勢(shì)精化過程中對(duì)射線進(jìn)行取樣以收集信息梯度;2)不同批次的射線如何影響合成數(shù)據(jù)集上的iNeRF。然后我們表明,對(duì)于來自LLFF數(shù)據(jù)集的復(fù)雜的真實(shí)世界場(chǎng)景,iNeRF可以通過估計(jì)新的圖像的相機(jī)姿態(tài)和使用這些圖像作為NeRF的額外訓(xùn)練數(shù)據(jù)來改善NeRF。最后,我們展示了iNeRF可以通過反轉(zhuǎn)從單一視圖推斷出的NeRF模型,對(duì)RGB圖像進(jìn)行類別級(jí)別的物體姿態(tài)估計(jì),包括訓(xùn)練期間未見的物體實(shí)例。
主要貢獻(xiàn)
總而言之,我們的主要貢獻(xiàn)如下。
(i) 我們表明,iNeRF可以使用NeRF模型來估計(jì)具有復(fù)雜幾何形狀的場(chǎng)景和物體的6DoF姿態(tài),而不需要使用3D網(wǎng)格模型或深度感應(yīng)--只使用RGB圖像作為輸入。
(ii) 我們對(duì)射線采樣和梯度優(yōu)化的批量大小進(jìn)行了深入研究,以確定iNeRF的穩(wěn)健性和局限性。
(iii) 我們表明,iNeRF可以通過預(yù)測(cè)更多圖像的相機(jī)姿態(tài)來改善NeRF,這些圖像可以被添加到NeRF的訓(xùn)練集中。
(iv) 我們展示了對(duì)未見過的物體的類別級(jí)姿勢(shì)估計(jì)結(jié)果,包括一個(gè)真實(shí)世界的演示。
主要方法
我們現(xiàn)在提出了iNeRF,一個(gè)通過 “反轉(zhuǎn) ”訓(xùn)練過的NeRF來執(zhí)行6DoF姿態(tài)估計(jì)的框架。讓我們假設(shè)一個(gè)場(chǎng)景或物體的NeRF的參數(shù)化Θ已經(jīng)被恢復(fù),并且相機(jī)的本征是已知的,但是圖像觀測(cè)I的相機(jī)位姿T還沒有確定。與NeRF不同的是,NeRF使用一組給定的相機(jī)位姿和圖像觀測(cè)值來優(yōu)化Θ,而我們要解決的是在給定權(quán)重Θ和圖像I的情況下恢復(fù)相機(jī)姿勢(shì)T的逆問題。
為了解決這個(gè)優(yōu)化問題,我們利用NeRF的能力,在NeRF模型的坐標(biāo)框架中采取一些估計(jì)的相機(jī)姿勢(shì)T∈SE(3),并渲染相應(yīng)的圖像觀察。然后,我們可以使用與NeRF相同的光度損失函數(shù)L,但我們不是通過反向傳播來更新MLP的權(quán)重Θ,而是更新姿勢(shì)T以最小化L。雖然倒置NeRF來進(jìn)行姿勢(shì)估計(jì)的概念可以簡(jiǎn)明扼要地說明,但這樣的問題是否可以實(shí)際解決到一個(gè)有用的程度并不明顯。損失函數(shù)L在SE(3)的6DoF空間上是非凸的,而且全圖像的NeRF渲染在計(jì)算上很昂貴,特別是在優(yōu)化程序的循環(huán)中使用。
1.基于梯度的SE(3)優(yōu)化
將Θ定義為經(jīng)過訓(xùn)練的固定的NeRF的參數(shù),先驗(yàn)Ti是當(dāng)前優(yōu)化步驟i的估計(jì)相機(jī)姿勢(shì),I是觀察到的圖像,L(Ti | I, Θ)是用于訓(xùn)練NeRF中的精細(xì)模型的損失。我們采用基于梯度的優(yōu)化來解決上面方程中定義的先驗(yàn)T。為了確保在基于梯度的優(yōu)化過程中,估計(jì)的姿勢(shì)先驗(yàn)Ti繼續(xù)位于SE(3)流形上,我們用指數(shù)坐標(biāo)為先驗(yàn)Ti設(shè)置參數(shù)。給定一個(gè)從相機(jī)幀到模型幀的初始姿勢(shì)估計(jì)值先驗(yàn)T0∈SE(3),我們將先驗(yàn)Ti表示為:
我們通過MLP對(duì)損失函數(shù)進(jìn)行迭代,得到梯度?SθL(e [S]θT0 |I, Θ),用于更新估計(jì)的相對(duì)變換。我們使用Adam優(yōu)化器,其學(xué)習(xí)率為指數(shù)衰減。對(duì)于每個(gè)觀察到的圖像,我們將Sθ初始化到0附近,其中每個(gè)元素都是從零均值正態(tài)分布N(0,σ=10-6)中隨機(jī)抽取的。在實(shí)踐中,用e[S]θ T0進(jìn)行參數(shù)化,如果利用T0e[S]θ會(huì)導(dǎo)致旋轉(zhuǎn)中心在初始估計(jì)的中心,而不是在攝像機(jī)幀的中心。這就減輕了優(yōu)化過程中旋轉(zhuǎn)和平移之間的耦合。
2.光線采樣
這里討論了三種采樣方法
隨機(jī)采樣:一個(gè)直觀的策略是在圖像平面上隨機(jī)抽取M個(gè)像素點(diǎn){p i x , piy}M i=0,并計(jì)算其對(duì)應(yīng)的射線。事實(shí)上,NeRF本身在優(yōu)化Θ時(shí)就使用了這種策略(假設(shè)不使用圖像批處理)。我們發(fā)現(xiàn),當(dāng)射線的批處理量b較小時(shí),這種隨機(jī)采樣策略的性能是無效的。大多數(shù)隨機(jī)采樣的像素對(duì)應(yīng)于圖像中平坦的、無紋理的區(qū)域,這些區(qū)域在姿勢(shì)方面提供的信息很少(這與著名的光圈問題一致)。
興趣特征點(diǎn)采樣:我們提出了興趣點(diǎn)抽樣來指導(dǎo)iNeRF的優(yōu)化,我們首先采用興趣點(diǎn)檢測(cè)器來定位觀察圖像中的一組候選像素位置。然后,我們從檢測(cè)到的興趣點(diǎn)中抽出M個(gè)點(diǎn),如果檢測(cè)到的興趣點(diǎn)不夠多,就回落到隨機(jī)抽樣。雖然這種策略使優(yōu)化收斂得更快,因?yàn)橐肓溯^少的隨機(jī)性,但我們發(fā)現(xiàn)它很容易出現(xiàn)局部最小值,因?yàn)樗豢紤]觀察圖像上的興趣點(diǎn),而不是來自觀察圖像和渲染圖像的興趣點(diǎn)。然而,獲得渲染圖像中的興趣點(diǎn)需要O(HW n)個(gè)前向MLP通道,因此在優(yōu)化中使用的成本過高。
興趣特征區(qū)域采樣:為了防止只從興趣點(diǎn)取樣造成的局部最小值,我們建議使用 “興趣區(qū)域 ”取樣,這是一種放寬興趣點(diǎn)取樣的策略,從以興趣點(diǎn)為中心的擴(kuò)張掩模中取樣。在興趣點(diǎn)檢測(cè)器對(duì)興趣點(diǎn)進(jìn)行定位后,我們應(yīng)用5×5的形態(tài)學(xué)擴(kuò)張進(jìn)行I次迭代以擴(kuò)大采樣區(qū)域。在實(shí)踐中,我們發(fā)現(xiàn)當(dāng)射線的批量大小較小時(shí),這樣做可以加快優(yōu)化速度。請(qǐng)注意,如果I被設(shè)置為一個(gè)大數(shù)字,興趣區(qū)域采樣就會(huì)退回到隨機(jī)采樣。
3.用iNeRF自我監(jiān)督學(xué)習(xí)NeRF
除了使用iNeRF對(duì)訓(xùn)練好的NeRF進(jìn)行姿態(tài)估計(jì)外,我們還探索使用估計(jì)的姿態(tài)來反饋到訓(xùn)練NeRF表示中。具體來說,我們首先根據(jù)一組已知相機(jī)姿勢(shì)的訓(xùn)練RGB圖像來訓(xùn)練NeRF,產(chǎn)生NeRF參數(shù)Θtrain。然后,我們使用iNeRF來接收額外的未知姿勢(shì)的觀察圖像{Ii}。Ntest i=1,并求解估計(jì)姿勢(shì)先驗(yàn)Ti。Ntest i=1。鑒于這些估計(jì)的姿勢(shì),我們可以使用自我監(jiān)督的姿勢(shì)標(biāo)簽,將加入訓(xùn)練集。這個(gè)過程允許NeRF在半監(jiān)督的情況下被訓(xùn)練。
主要結(jié)果
審核編輯:郭婷
-
攝像機(jī)
+關(guān)注
關(guān)注
3文章
1601瀏覽量
60051 -
輻射
+關(guān)注
關(guān)注
1文章
598瀏覽量
36345
原文標(biāo)題:iNeRF:用于姿態(tài)估計(jì)的反向神經(jīng)輻射場(chǎng)(IROS 2021)
文章出處:【微信號(hào):3D視覺工坊,微信公眾號(hào):3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論