為了解釋周圍的世界,AI系統(tǒng)必須理解三維視覺(jué)場(chǎng)景。這種需求不僅只局限于機(jī)器人技術(shù),同時(shí)包括導(dǎo)航,甚至是增強(qiáng)現(xiàn)實(shí)應(yīng)用。即便是2D照片與視頻,所描繪的場(chǎng)景和對(duì)象本身都屬于三維。真正智能的內(nèi)容理解系統(tǒng)必須能夠視頻中識(shí)別出杯子旋轉(zhuǎn)時(shí)的把手幾何形狀,或者識(shí)別出對(duì)象是位于照片的前景還是背景。
日前,F(xiàn)acebook公布了多項(xiàng)能夠推進(jìn)3D圖像理解的AI研究項(xiàng)目。雖然不盡相同,但互為補(bǔ)充。正在國(guó)際計(jì)算機(jī)視覺(jué)大會(huì)(International Conference on Computer Vision)進(jìn)行演示的項(xiàng)目涉及一系列的用例和情形,包含不同種類的訓(xùn)練數(shù)據(jù)和輸入。
Mesh R-CNN是一種新穎的,先進(jìn)的解決方案,可以通過(guò)各種現(xiàn)實(shí)世界2D圖像預(yù)計(jì)最精確的3D形狀。這個(gè)方法利用了Facebook的Mask R-CNN框架進(jìn)行對(duì)象實(shí)例分割,其甚至可以檢測(cè)諸如凳腳或重疊家具等復(fù)雜對(duì)象。
Facebook指出,通過(guò)利用Mesh R-CNN的替代和補(bǔ)充方法C3DPO,他們是第一個(gè)通過(guò)解釋3D幾何形狀而在三個(gè)基準(zhǔn)上成功實(shí)現(xiàn)非剛性形狀的大規(guī)模3D重建,對(duì)象類別涉及14種以上。需要注意的是,團(tuán)隊(duì)僅使用2D關(guān)鍵點(diǎn)來(lái)實(shí)現(xiàn)這一目標(biāo),零3D注釋。
Facebook提出了一種新穎的方法來(lái)學(xué)習(xí)圖像與3D形狀之間的關(guān)聯(lián),同時(shí)大大減少了對(duì)含注釋訓(xùn)練示例的需求。這使得團(tuán)隊(duì)更接近于開(kāi)發(fā)出能夠?yàn)楦喾N類對(duì)象創(chuàng)建3D表示的自我監(jiān)督系統(tǒng)。
Facebook團(tuán)隊(duì)同時(shí)開(kāi)發(fā)了一種稱為VoteNet的新穎技術(shù),其可以利用LIDAR或其他傳感器的3D輸入執(zhí)行對(duì)象檢測(cè)。盡管大多數(shù)傳統(tǒng)系統(tǒng)都依靠2D圖像信號(hào),但這個(gè)系統(tǒng)完全基于3D點(diǎn)云。與以前的研究相比,它可以實(shí)現(xiàn)更高的精度。
這項(xiàng)研究的基礎(chǔ)包括:利用深度學(xué)習(xí)來(lái)預(yù)測(cè)和定位圖像中對(duì)象的最新進(jìn)步,以及用于3D形狀理解的全新工具和架構(gòu)(如體素,點(diǎn)云和網(wǎng)格)。計(jì)算機(jī)視覺(jué)領(lǐng)域已經(jīng)擴(kuò)展到各種各樣的任務(wù),但3D理解將在支持AI系統(tǒng)進(jìn)一步理解現(xiàn)實(shí)世界和執(zhí)行相關(guān)任務(wù)方面發(fā)揮核心作用。
1. 以高精度預(yù)測(cè)非約束遮擋對(duì)象的3D形狀
諸如Mask R-CNN這樣的感知系統(tǒng)是理解圖像的強(qiáng)大通用工具。但由于它們是根據(jù)2D數(shù)據(jù)進(jìn)行預(yù)測(cè),所以其忽略了世界的3D結(jié)構(gòu)。利用2D感知技術(shù)的進(jìn)步,F(xiàn)acebook設(shè)計(jì)了一種3D對(duì)象重建模型,可以根據(jù)非約束的真實(shí)世界圖像預(yù)測(cè)3D對(duì)象形狀,包含具有一系列光學(xué)挑戰(zhàn)的圖像(如具有遮擋,雜波和各種拓?fù)涞膶?duì)象)。將第三維帶到對(duì)象檢測(cè)系統(tǒng),同時(shí)實(shí)現(xiàn)對(duì)復(fù)雜情況的穩(wěn)定增加工作,這要求更為強(qiáng)大的工程能力,而當(dāng)下的工程架構(gòu)阻礙了所述領(lǐng)域的發(fā)展。
Mesh R-CNN根據(jù)輸入圖像預(yù)測(cè)里面的對(duì)象實(shí)例,并推斷其3D形狀。為了捕獲幾何形狀和拓?fù)涞亩鄻有裕紫阮A(yù)測(cè)粗略體素,將其精化并進(jìn)行精確的網(wǎng)格預(yù)測(cè)。
為了應(yīng)對(duì)挑戰(zhàn),F(xiàn)aceboook團(tuán)隊(duì)通過(guò)網(wǎng)格預(yù)測(cè)分支增強(qiáng)了Mask R-CNN的2D對(duì)象分割系統(tǒng),并構(gòu)建了Torch3d(Pytorch庫(kù),其中包含高度優(yōu)化的3D運(yùn)算符)以實(shí)現(xiàn)所述系統(tǒng)。Mesh R-CNN利用Mask R-CNN來(lái)檢測(cè)和分類圖像中的各種對(duì)象。然后,它使用新穎的網(wǎng)格預(yù)測(cè)器來(lái)推斷3D形狀(所述預(yù)測(cè)器由體素預(yù)測(cè)和網(wǎng)格細(xì)化的混合方法組成)。在預(yù)測(cè)精細(xì)3D結(jié)構(gòu)方面,這個(gè)兩步過(guò)程實(shí)現(xiàn)了比以前更高的精度。通過(guò)支持復(fù)雜操作的高效,靈活和模塊化實(shí)現(xiàn),Torch3d能夠幫助實(shí)現(xiàn)這一點(diǎn)。
他們利用Detectron2來(lái)實(shí)現(xiàn)最終的系統(tǒng),其使用RGB圖像作為輸入并同時(shí)檢測(cè)物體和預(yù)測(cè)3D形狀。與Mask R-CNN使用監(jiān)督學(xué)習(xí)來(lái)實(shí)現(xiàn)強(qiáng)大的2D感知類似,F(xiàn)acebook的新穎方法使用完全監(jiān)督學(xué)習(xí)(成對(duì)的圖像和網(wǎng)格)來(lái)學(xué)習(xí)3D預(yù)測(cè)。為了進(jìn)行訓(xùn)練,團(tuán)隊(duì)使用了由10000對(duì)圖像和網(wǎng)格組成的Pix3D數(shù)據(jù)集,而這比通常包含數(shù)十萬(wàn)個(gè)圖像與對(duì)象注釋的2D基準(zhǔn)要小得多。
Facebook用兩組數(shù)據(jù)集評(píng)估了Mesh R-CNN,而他們均取得了亮眼的結(jié)果。對(duì)于Pix3D數(shù)據(jù)集,Mesh R-CNN是第一個(gè)能夠同時(shí)檢測(cè)所有類別對(duì)象,并在各種雜亂無(wú)章的家具場(chǎng)景中預(yù)計(jì)完整3D形狀的系統(tǒng)。先前的工作重點(diǎn)是在完美裁剪的,無(wú)遮擋的圖像中評(píng)估模型。對(duì)于ShapeNet數(shù)據(jù)集,體素預(yù)測(cè)和網(wǎng)格細(xì)化的混合方法的表現(xiàn)要比先前的研究提升7%。
Mesh R-CNN的系統(tǒng)綜述,F(xiàn)acebook用3D形狀推斷強(qiáng)化了Mask R-CNN
精確預(yù)測(cè)和重建非約束場(chǎng)景形狀是邁向增強(qiáng)虛擬現(xiàn)實(shí)和其他新型體驗(yàn)的重要一步。盡管如此,與為2D圖像收集注釋數(shù)據(jù)相比,為3D圖像收集注釋數(shù)據(jù)要更加復(fù)雜和耗時(shí),所以3D形狀預(yù)測(cè)的數(shù)據(jù)集發(fā)展相對(duì)滯后。所以,F(xiàn)acebook正在探索不同的方法來(lái)利用監(jiān)督學(xué)習(xí)和自我監(jiān)督學(xué)習(xí)來(lái)重建3D對(duì)象。
相關(guān)論文:Mesh R-CNN完整論文
2. 用2D關(guān)鍵點(diǎn)重建3D對(duì)象類別
對(duì)于無(wú)法利用網(wǎng)格對(duì)象和相應(yīng)圖像進(jìn)行訓(xùn)練,而且無(wú)需完全重建靜態(tài)對(duì)象或場(chǎng)景的情況,F(xiàn)acebook開(kāi)發(fā)了一種替代方法。全新的C3DPO(Canonical 3D Pose Networks)系統(tǒng)可以對(duì)3的D關(guān)鍵點(diǎn)模型進(jìn)行重建,并通過(guò)更廣泛的2D關(guān)鍵點(diǎn)監(jiān)督來(lái)實(shí)現(xiàn)先進(jìn)的重建結(jié)果。C3DPO能夠以適合大規(guī)模部署的方式來(lái)幫助你理解對(duì)象的3D幾何形狀。
C3DPO根據(jù)檢測(cè)到的2D關(guān)鍵點(diǎn)來(lái)為一系列對(duì)象類別生成3D關(guān)鍵點(diǎn),能夠精確區(qū)分視點(diǎn)變化和形狀變形。
追蹤對(duì)象類別特定部分(如人體關(guān)節(jié)或小鳥(niǎo)翅膀)的2D關(guān)鍵點(diǎn)提供了有關(guān)對(duì)象幾何形狀及其形狀變形或視點(diǎn)變化的完整線索。生成的3D關(guān)鍵點(diǎn)十分有用,如用于3D面容和全身網(wǎng)格的建模,從而為VR構(gòu)建更逼真的虛擬化身圖形。與Mesh R-CNN相似,C3DPO使用非約束圖像來(lái)重建3D對(duì)象。
C3DPO是第一種能夠用數(shù)千個(gè)2D關(guān)鍵點(diǎn)來(lái)重建包含數(shù)十萬(wàn)個(gè)圖像的數(shù)據(jù)集的方法。Facebook針對(duì)三種不同的數(shù)據(jù)集,14種以上不同的非剛性對(duì)象類別實(shí)現(xiàn)了先進(jìn)的重建精度。相關(guān)代碼已經(jīng)托管至GitHub 。
Facebook的模型包含兩個(gè)重要的創(chuàng)新。首先,給定一組單目2D關(guān)鍵點(diǎn),這個(gè)全新的3D重建網(wǎng)絡(luò)將預(yù)測(cè)相應(yīng)camera視點(diǎn)的參數(shù)以及3D關(guān)鍵點(diǎn)位置。其次,F(xiàn)acebook提出了一種名為Canonicalization的新穎正準(zhǔn)化技術(shù)(其包括一個(gè)第二輔助深度網(wǎng)絡(luò))。所述技術(shù)解決了因分解3D視點(diǎn)和形狀而帶來(lái)的歧義。這兩項(xiàng)創(chuàng)新使得Facebook團(tuán)隊(duì)能夠?qū)崿F(xiàn)比傳統(tǒng)方法更優(yōu)秀的統(tǒng)計(jì)模型。
原來(lái)無(wú)法實(shí)現(xiàn)這種重建,這主要是因?yàn)橐郧盎诰仃嚪纸獾姆椒ǖ拇鎯?chǔ)限制。與Facebook的深度網(wǎng)絡(luò)不同,所述方法不能在“小批量”狀態(tài)下運(yùn)行。以前的方法通過(guò)利用多個(gè)同時(shí)出現(xiàn)的圖像,并建立瞬時(shí)3D重建之間的對(duì)應(yīng)關(guān)系來(lái)解決變形建模問(wèn)題,而這需要特殊實(shí)驗(yàn)室中專門研發(fā)的硬件。C3DPO帶來(lái)的高效率使得在不使用硬件進(jìn)行3D捕捉的情況下實(shí)現(xiàn)3D重建成為可能。
相關(guān)論文:C3DPO的完整論文。
3. 從圖像采集中學(xué)習(xí)像素到表面映射
Facebook的系統(tǒng)學(xué)習(xí)了一個(gè)參數(shù)化卷積神經(jīng)網(wǎng)絡(luò)(CNN),它將圖像作為輸入并預(yù)測(cè)每個(gè)像素的正準(zhǔn)表面映射,其可以說(shuō)明模板形狀的相應(yīng)位置點(diǎn)。2D圖像和3D形狀之間的正準(zhǔn)表面映射的相似著色暗示了對(duì)應(yīng)關(guān)系。
Facebook進(jìn)一步減少了開(kāi)發(fā)通用對(duì)象類別3D理解所需的監(jiān)督程度。他們介紹了一種可以通過(guò)近似自動(dòng)實(shí)例分割來(lái)利用未注釋圖像集合的方法。Facebook沒(méi)有明確預(yù)測(cè)圖像的基礎(chǔ)3D結(jié)構(gòu),而是解決了將圖像像素映射到3D形狀類別模板表面的補(bǔ)充任務(wù)。
這種映射不僅允許團(tuán)隊(duì)能夠在3D形狀類別的背景下理解圖像,而且可以歸納相同類別對(duì)象之間的對(duì)應(yīng)關(guān)系。例如,對(duì)于你在左側(cè)圖像中看到的高亮鳥(niǎo)喙,F(xiàn)acebook可以輕松地在右側(cè)圖像定位相應(yīng)的點(diǎn)。
這可以實(shí)現(xiàn)的原因是,F(xiàn)acebook能夠直觀地理解實(shí)例之間的共同3D結(jié)構(gòu)。將圖像像素映射到正準(zhǔn)3D表面的新穎方法同時(shí)為Facebook的學(xué)習(xí)系統(tǒng)帶來(lái)了這項(xiàng)功能。當(dāng)評(píng)估所述方法在各個(gè)實(shí)例之間傳輸對(duì)應(yīng)關(guān)系的準(zhǔn)確性時(shí),其結(jié)果比原來(lái)的自我監(jiān)督方法(不利用任務(wù)的底層3D結(jié)構(gòu))高出兩倍。
Facebook的關(guān)鍵見(jiàn)解是,像素到3D表面的映射可以與逆操作(從3D到像素)配對(duì),從而完成一個(gè)循環(huán)。Facebook團(tuán)隊(duì)的新穎方法可實(shí)現(xiàn)這個(gè)目的,并且可以利用檢測(cè)方法的近似分割和無(wú)注釋的,免費(fèi)的,公開(kāi)可用的圖像集進(jìn)行學(xué)習(xí)。Facebook的系統(tǒng)可以直接使用,并與其他自上而下的3D預(yù)測(cè)方法結(jié)合,從而提供對(duì)像素級(jí)3D的補(bǔ)充理解。相關(guān)代碼已經(jīng)托管至GitHub 。
如視頻中汽車顏色一致性所表明,F(xiàn)acebook的系統(tǒng)為運(yùn)動(dòng)和旋轉(zhuǎn)對(duì)象產(chǎn)生了不變的像素嵌入。這種一致性超出了特定的實(shí)例,并且在需要理解對(duì)象之間共性的情況下十分有用。
Facebook不是直接學(xué)習(xí)兩個(gè)圖像之間的2D到2D對(duì)應(yīng)關(guān)系,而是學(xué)習(xí)2D到3D對(duì)應(yīng)關(guān)系,并確保與3D到2D重投影的一致性。這種一致循環(huán)可用作學(xué)習(xí)2D到3D對(duì)應(yīng)關(guān)系的監(jiān)督信號(hào)。
例如,如果要訓(xùn)練系統(tǒng)學(xué)習(xí)椅子就座的正確位置或茶杯握持的正確位置,當(dāng)系統(tǒng)下次需要理解如何就座另一張椅子或如何握持另一個(gè)茶杯時(shí),這種表示就十分有用。這種任務(wù)不僅可以幫助你加深對(duì)傳統(tǒng)2D圖像與視頻內(nèi)容的理解,同時(shí)可以通過(guò)轉(zhuǎn)移對(duì)象表示來(lái)增強(qiáng)AR/VR體驗(yàn)。
相關(guān)論文:正準(zhǔn)表面映射論文
4. 提升當(dāng)前3D系統(tǒng)的對(duì)象檢測(cè)基礎(chǔ)
隨著自動(dòng)代理和3D空間掃描系統(tǒng)等尖端技術(shù)的不斷發(fā)展,我們需要推動(dòng)對(duì)象檢測(cè)機(jī)制的進(jìn)步。在這些情況下,3D場(chǎng)景理解系統(tǒng)需要知道場(chǎng)景中存在什么對(duì)象以及它們的位置,從而支持諸如導(dǎo)航之類的高級(jí)任務(wù)。Facebook通過(guò)VoteNet改進(jìn)了現(xiàn)有系統(tǒng)。VoteNet是為點(diǎn)云量身定制的高精確端到端3D對(duì)象檢測(cè)網(wǎng)絡(luò),而它同時(shí)獲得了ICCV 2019大會(huì)的最佳論文提名。與傳統(tǒng)系統(tǒng)不同,VoteNet依賴于2D圖像信號(hào),而這是首批完全基于3D點(diǎn)云的系統(tǒng)之一。與以前的研究相比,這種方法效率更高,識(shí)別精度更高。
Facebook的模型已經(jīng)開(kāi)源。據(jù)介紹,NoteNet實(shí)現(xiàn)了最先進(jìn)的3D檢測(cè),其性能比原來(lái)所有的3D對(duì)象檢測(cè)方法都要優(yōu)秀,比SUN RGB-D和ScanNet中至少增加了3.7和18.4 mAP(平均精度)。VoteNet僅使用幾何信息,不依賴標(biāo)準(zhǔn)的彩色圖像,其性能優(yōu)于以前的方法。
VoteNet具有簡(jiǎn)單的設(shè)計(jì),緊湊的模型尺寸,能夠?qū)崿F(xiàn)高效率,全場(chǎng)景的速度約為100毫秒,而且內(nèi)存占用空間較小。Facebook的算法從深度攝像頭獲取3D點(diǎn)云,并返回對(duì)象的3D邊界框,包含語(yǔ)義類。
VoteNet架構(gòu)的示例圖
Facebook提出了受經(jīng)典Hough投票算法啟發(fā)的投票機(jī)制。使用這種方法,F(xiàn)acebook的系統(tǒng)能夠生成位于對(duì)象中心附近的新點(diǎn),然后可以將它們進(jìn)行分組和匯總。利用投票(由深度神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí))的基本概念,可以將一組3D種子點(diǎn)投票給對(duì)象中心,從而恢復(fù)它們的位置和狀態(tài)。
從自動(dòng)駕駛汽車到生物醫(yī)學(xué),隨著3D掃描儀的使用情況正在日益增多,通過(guò)對(duì)3D場(chǎng)景的對(duì)象進(jìn)行定位和分類來(lái)實(shí)現(xiàn)對(duì)3D內(nèi)容的語(yǔ)義理解非常重要。通過(guò)為2D攝像頭補(bǔ)充更先進(jìn)的深度攝像頭傳感器以進(jìn)行3D識(shí)別,F(xiàn)acebook團(tuán)隊(duì)能夠捕獲任何給定場(chǎng)景的強(qiáng)大視圖。借助VoteNet,系統(tǒng)可以更好地識(shí)別場(chǎng)景中的主要對(duì)象,并支持諸如放置虛擬對(duì)象,導(dǎo)航或LiveMap構(gòu)建等任務(wù)。
5. 開(kāi)發(fā)對(duì)真實(shí)世界有著進(jìn)一步理解的系統(tǒng)
3D計(jì)算機(jī)視覺(jué)存在大量的開(kāi)放性研究問(wèn)題,而Facebook正在嘗試通過(guò)多種問(wèn)題假設(shè),技術(shù)和監(jiān)督方法來(lái)推動(dòng)所述領(lǐng)域的進(jìn)步。隨著數(shù)字世界的不斷發(fā)展,3D照片和AR和VR體驗(yàn)等新型產(chǎn)品的興起,我們需要不斷開(kāi)發(fā)出更為智能的系統(tǒng)來(lái)更準(zhǔn)確理解視覺(jué)場(chǎng)景中的對(duì)象,并支持與其交互。
這是Facebook AI團(tuán)隊(duì)的長(zhǎng)期愿景,亦即開(kāi)發(fā)出一個(gè)能如同人類般理解世界并與之交互的AI系統(tǒng)。他們表示:“我們一直在致力于縮小物理空間與虛擬空間之間的差距,并實(shí)現(xiàn)各個(gè)方面的科學(xué)突破。我們以3D為重點(diǎn)的最新研究同時(shí)可以幫助改善和更好地補(bǔ)充Facebook AI仿真平臺(tái)中的3D對(duì)象推動(dòng)我們應(yīng)對(duì)在現(xiàn)實(shí)世界中進(jìn)行實(shí)驗(yàn)所面臨的復(fù)雜挑戰(zhàn)一樣,3D研究對(duì)于訓(xùn)練系統(tǒng)如何理解對(duì)象的所有視點(diǎn)(即使被遮擋或其他光學(xué)挑戰(zhàn))同樣很重要?!?/p>
Facebook團(tuán)隊(duì)最后指出:“當(dāng)結(jié)合諸如觸覺(jué)感知和自然語(yǔ)言理解等技術(shù)時(shí),諸如虛擬助手這樣的AI系統(tǒng)可以以更加無(wú)縫和有用的方式運(yùn)行??偠灾?,對(duì)于我們要構(gòu)建出能夠如同人類般理解三個(gè)維度的AI系統(tǒng),這種前沿研究正在幫助我們朝目標(biāo)不斷邁進(jìn)?!?/p>
評(píng)論
查看更多