3月13日消息,谷歌宣布推出 MediaPipe Objectron,這是一種適用于日常物體的移動端實時3D目標(biāo)檢測 pipeline,它能夠檢測 2D 圖像中的目標(biāo),并通過新創(chuàng)建 3D 數(shù)據(jù)集上訓(xùn)練的機(jī)器學(xué)習(xí)模型來估計這些目標(biāo)的姿態(tài)和大小。它在安卓、IOS 網(wǎng)頁等各種平臺上都能應(yīng)用機(jī)器學(xué)習(xí)媒體模型,并加入了移動端試試 3D 檢測模型。目前 MediaPipe包含人臉檢測、手部檢測、頭發(fā)分割和視頻自動橫豎屏轉(zhuǎn)換等功能。
MediaPipe 是一個用于構(gòu)建 pipeline 進(jìn)而處理不同模態(tài)感知數(shù)據(jù)的跨平臺開源框架,Objectron 則在 MediaPipe 中實現(xiàn),其能夠在移動設(shè)備上實時計算目標(biāo)的定向 3D 邊界框。從單個圖像進(jìn)行 3D 目標(biāo)檢測。MediaPipe 可以在移動端上實時確認(rèn)目標(biāo)對象的位置、方向以及大小。整個模型非常精簡,速度也非??欤芯空邔⒄追桨付奸_源了出來。
獲取真實的3D訓(xùn)練數(shù)據(jù)
隨著依賴于 3D 傳感器(如 LIDAR)的自動駕駛行業(yè)發(fā)展普及,現(xiàn)在已有大量街道場景的 3D 數(shù)據(jù),但對于日常生活中擁有更細(xì)顆粒度的目標(biāo)來說,有標(biāo)注的 3D 數(shù)據(jù)集就非常有限了。所以,為了解決此問題,谷歌團(tuán)隊使用了 AR 會話(Session)數(shù)據(jù)開發(fā)了一種全新的數(shù)據(jù) Pipeline。
此外,隨著 ARCore 以及 ARkit 的出現(xiàn),數(shù)億體量的智能手機(jī)擁有了 AR 功能,并且能夠通過 AR 會話取獲取更多的信息,包括相機(jī)姿態(tài)、稀疏 3D 點云、光照估計以及平面區(qū)域估計。為了標(biāo)記真實數(shù)據(jù),團(tuán)隊構(gòu)建了一個全新的標(biāo)注工具,并且與 AR 會話數(shù)據(jù)一起使用,該標(biāo)注工具使標(biāo)注者得以快速標(biāo)記目標(biāo)的 3D 邊界框。
該工具使用了分屏視圖來顯示 2D 的視頻幀,同時在其左側(cè)疊加 3D 邊界框,并在右側(cè)顯示 3D 點云,攝像機(jī)方位以及所檢測到的水平面。標(biāo)注器在 3D 視圖中繪制 3D 邊界框,并通過查看 2D 視頻幀中的投影來驗證其位置。
左:帶標(biāo)注的 3D 邊界框所形成的投影展示在邊界框頂部,更易于驗證標(biāo)注;右:通過檢測到的目標(biāo)表面以及稀疏點云數(shù)據(jù),可以為不同的相機(jī)姿態(tài)標(biāo)注真實世界中的 3D 邊界框。
AR 合成數(shù)據(jù)
之前常用的方法會根據(jù)合成數(shù)據(jù)補(bǔ)充真實數(shù)據(jù),以提高預(yù)測的準(zhǔn)確性。然而這樣的做法通常會導(dǎo)致質(zhì)量低下、不真實的數(shù)據(jù),且如果要執(zhí)行圖像的真實感渲染,又需要更多的計算力。
研究者采用了另一種稱之為 AR 合成數(shù)據(jù)(AR Synthetic Data Generation)的方法,只要將對象放到 AR 系統(tǒng)的工作場景中,我們就能利用相機(jī)姿態(tài)估計、水平面檢測、光照估計生成物理上可能存在的位置及場景。這種方法能生成高質(zhì)量合成數(shù)據(jù),并無縫匹配實際背景。通過結(jié)合真實數(shù)據(jù)與 AR 合成數(shù)據(jù),研究者能將模型的準(zhǔn)確性提高約 10%。
3D 目標(biāo)檢測的流程是什么樣的
對于 3D 目標(biāo)檢測,研究者先構(gòu)建了一個單階段模型 MobilePose,以預(yù)測單張 RGB 圖像中某個目標(biāo)的姿態(tài)和物理大小。該模型的主干是一個編碼器-解碼器架構(gòu),其構(gòu)建在 MobileNet V2 的基礎(chǔ)上。研究者應(yīng)用了多任務(wù)學(xué)習(xí)方法,來從檢測與回歸的角度聯(lián)合預(yù)測目標(biāo)的形狀,且在預(yù)測形狀的過程中,其只依賴于標(biāo)注的分割圖像。
MobilePose-Shape 網(wǎng)絡(luò)在中間層會帶有形狀預(yù)測模塊。
在模型的訓(xùn)練中,如果數(shù)據(jù)沒有標(biāo)注形狀,那也是可行的。只不過借助檢測邊界框,研究者可以預(yù)測形狀中心與分布。
為了獲得邊界框的最終 3D 坐標(biāo),研究者利用了一種完善的姿態(tài)估計算法(EPnP),它可以恢復(fù)對象的 3D 邊界框,而無需知道對象維度這一先驗知識。給定 3D 邊界框,我們可以輕松計算對象的姿態(tài)和大小。
下圖顯示了網(wǎng)絡(luò)架構(gòu)和后處理過程,該模型輕巧到可以在移動設(shè)備上實時運(yùn)行(在 Adreno 650 mobile GPU 上以 26 FPS 的速度運(yùn)行)。
3D 目標(biāo)檢測的神經(jīng)網(wǎng)絡(luò)架構(gòu)與后處理過程。
模型的示例結(jié)果,其中左圖為估計邊界框的原始 2D 圖像,中間為帶高斯分布的目標(biāo)檢測,最右邊為預(yù)測的分割 Mask。
在 MediaPipe 中進(jìn)行檢測和追蹤
當(dāng)模型對移動設(shè)備獲得的每一幀圖像進(jìn)行計算的時候,它可能會遇到晃動的情況,這是因為每一幀對目標(biāo)邊界框預(yù)測本身的模糊性造成的。為了緩解這個問題,研究者采用了檢測+追蹤的框架,這一框架近期被用于 2D 檢測和追蹤中。這個框架減少了需要在每一幀上運(yùn)行網(wǎng)絡(luò)的要求,因此可以讓模型的檢測更為精確,同時保證在移動端上的實時性。它同時還能保持識別幀與幀之間的目標(biāo),確保預(yù)測的連貫性,減少晃動。
為了進(jìn)一步提升這一 pipeline 的效率,研究者設(shè)置模型在每幾幀后再進(jìn)行一次模型推理。之后,他們使用名為快速動作追蹤(instant motion tracking)和 Motion Stills 技術(shù)進(jìn)行預(yù)測和追蹤。當(dāng)模型提出一個新的預(yù)測時,他們會根據(jù)重疊區(qū)域?qū)z測結(jié)果進(jìn)行合并。
為了鼓勵研究者和開發(fā)者基于這一 pipeline 進(jìn)行試驗,谷歌目前已經(jīng)將研究成果開源到了 MediaPipe 項目中,包括端到端的移動設(shè)備應(yīng)用 demo,以及在鞋、椅子兩個分類中訓(xùn)練好的模型。研究者希望這一解決方案能夠更好地幫助到社區(qū),并產(chǎn)生新的方法、應(yīng)用和研究成果。團(tuán)隊也希望能夠擴(kuò)大模型到更多類別中,進(jìn)一步提升在移動端設(shè)備的性能表現(xiàn)。
責(zé)任編輯:gt
-
3D
+關(guān)注
關(guān)注
9文章
2891瀏覽量
107640 -
谷歌
+關(guān)注
關(guān)注
27文章
6172瀏覽量
105518
發(fā)布評論請先 登錄
相關(guān)推薦
評論