0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌開發(fā)pipeline,在移動設(shè)備上可實時計算3D目標(biāo)檢測

牽手一起夢 ? 來源:機(jī)器之心 ? 作者:佚名 ? 2020-03-13 15:41 ? 次閱讀

3月13日消息,谷歌宣布推出 MediaPipe Objectron,這是一種適用于日常物體的移動端實時3D目標(biāo)檢測 pipeline,它能夠檢測 2D 圖像中的目標(biāo),并通過新創(chuàng)建 3D 數(shù)據(jù)集上訓(xùn)練的機(jī)器學(xué)習(xí)模型來估計這些目標(biāo)的姿態(tài)和大小。它在安卓、IOS 網(wǎng)頁等各種平臺上都能應(yīng)用機(jī)器學(xué)習(xí)媒體模型,并加入了移動端試試 3D 檢測模型。目前 MediaPipe包含人臉檢測、手部檢測、頭發(fā)分割和視頻自動橫豎屏轉(zhuǎn)換等功能。

MediaPipe 是一個用于構(gòu)建 pipeline 進(jìn)而處理不同模態(tài)感知數(shù)據(jù)的跨平臺開源框架,Objectron 則在 MediaPipe 中實現(xiàn),其能夠在移動設(shè)備上實時計算目標(biāo)的定向 3D 邊界框。從單個圖像進(jìn)行 3D 目標(biāo)檢測。MediaPipe 可以在移動端上實時確認(rèn)目標(biāo)對象的位置、方向以及大小。整個模型非常精簡,速度也非??欤芯空邔⒄追桨付奸_源了出來。

獲取真實的3D訓(xùn)練數(shù)據(jù)

隨著依賴于 3D 傳感器(如 LIDAR)的自動駕駛行業(yè)發(fā)展普及,現(xiàn)在已有大量街道場景的 3D 數(shù)據(jù),但對于日常生活中擁有更細(xì)顆粒度的目標(biāo)來說,有標(biāo)注的 3D 數(shù)據(jù)集就非常有限了。所以,為了解決此問題,谷歌團(tuán)隊使用了 AR 會話(Session)數(shù)據(jù)開發(fā)了一種全新的數(shù)據(jù) Pipeline。

此外,隨著 ARCore 以及 ARkit 的出現(xiàn),數(shù)億體量的智能手機(jī)擁有了 AR 功能,并且能夠通過 AR 會話取獲取更多的信息,包括相機(jī)姿態(tài)、稀疏 3D 點云、光照估計以及平面區(qū)域估計。為了標(biāo)記真實數(shù)據(jù),團(tuán)隊構(gòu)建了一個全新的標(biāo)注工具,并且與 AR 會話數(shù)據(jù)一起使用,該標(biāo)注工具使標(biāo)注者得以快速標(biāo)記目標(biāo)的 3D 邊界框。

該工具使用了分屏視圖來顯示 2D 的視頻幀,同時在其左側(cè)疊加 3D 邊界框,并在右側(cè)顯示 3D 點云,攝像機(jī)方位以及所檢測到的水平面。標(biāo)注器在 3D 視圖中繪制 3D 邊界框,并通過查看 2D 視頻幀中的投影來驗證其位置。

左:帶標(biāo)注的 3D 邊界框所形成的投影展示在邊界框頂部,更易于驗證標(biāo)注;右:通過檢測到的目標(biāo)表面以及稀疏點云數(shù)據(jù),可以為不同的相機(jī)姿態(tài)標(biāo)注真實世界中的 3D 邊界框。

AR 合成數(shù)據(jù)

之前常用的方法會根據(jù)合成數(shù)據(jù)補(bǔ)充真實數(shù)據(jù),以提高預(yù)測的準(zhǔn)確性。然而這樣的做法通常會導(dǎo)致質(zhì)量低下、不真實的數(shù)據(jù),且如果要執(zhí)行圖像的真實感渲染,又需要更多的計算力。

研究者采用了另一種稱之為 AR 合成數(shù)據(jù)(AR Synthetic Data Generation)的方法,只要將對象放到 AR 系統(tǒng)的工作場景中,我們就能利用相機(jī)姿態(tài)估計、水平面檢測、光照估計生成物理上可能存在的位置及場景。這種方法能生成高質(zhì)量合成數(shù)據(jù),并無縫匹配實際背景。通過結(jié)合真實數(shù)據(jù)與 AR 合成數(shù)據(jù),研究者能將模型的準(zhǔn)確性提高約 10%。

3D 目標(biāo)檢測的流程是什么樣的

對于 3D 目標(biāo)檢測,研究者先構(gòu)建了一個單階段模型 MobilePose,以預(yù)測單張 RGB 圖像中某個目標(biāo)的姿態(tài)和物理大小。該模型的主干是一個編碼器-解碼器架構(gòu),其構(gòu)建在 MobileNet V2 的基礎(chǔ)上。研究者應(yīng)用了多任務(wù)學(xué)習(xí)方法,來從檢測與回歸的角度聯(lián)合預(yù)測目標(biāo)的形狀,且在預(yù)測形狀的過程中,其只依賴于標(biāo)注的分割圖像。

MobilePose-Shape 網(wǎng)絡(luò)在中間層會帶有形狀預(yù)測模塊。

在模型的訓(xùn)練中,如果數(shù)據(jù)沒有標(biāo)注形狀,那也是可行的。只不過借助檢測邊界框,研究者可以預(yù)測形狀中心與分布。

為了獲得邊界框的最終 3D 坐標(biāo),研究者利用了一種完善的姿態(tài)估計算法(EPnP),它可以恢復(fù)對象的 3D 邊界框,而無需知道對象維度這一先驗知識。給定 3D 邊界框,我們可以輕松計算對象的姿態(tài)和大小。

下圖顯示了網(wǎng)絡(luò)架構(gòu)和后處理過程,該模型輕巧到可以在移動設(shè)備上實時運(yùn)行(在 Adreno 650 mobile GPU 上以 26 FPS 的速度運(yùn)行)。

3D 目標(biāo)檢測的神經(jīng)網(wǎng)絡(luò)架構(gòu)與后處理過程。

模型的示例結(jié)果,其中左圖為估計邊界框的原始 2D 圖像,中間為帶高斯分布的目標(biāo)檢測,最右邊為預(yù)測的分割 Mask。

在 MediaPipe 中進(jìn)行檢測和追蹤

當(dāng)模型對移動設(shè)備獲得的每一幀圖像進(jìn)行計算的時候,它可能會遇到晃動的情況,這是因為每一幀對目標(biāo)邊界框預(yù)測本身的模糊性造成的。為了緩解這個問題,研究者采用了檢測+追蹤的框架,這一框架近期被用于 2D 檢測和追蹤中。這個框架減少了需要在每一幀上運(yùn)行網(wǎng)絡(luò)的要求,因此可以讓模型的檢測更為精確,同時保證在移動端上的實時性。它同時還能保持識別幀與幀之間的目標(biāo),確保預(yù)測的連貫性,減少晃動。

為了進(jìn)一步提升這一 pipeline 的效率,研究者設(shè)置模型在每幾幀后再進(jìn)行一次模型推理。之后,他們使用名為快速動作追蹤(instant motion tracking)和 Motion Stills 技術(shù)進(jìn)行預(yù)測和追蹤。當(dāng)模型提出一個新的預(yù)測時,他們會根據(jù)重疊區(qū)域?qū)z測結(jié)果進(jìn)行合并。

為了鼓勵研究者和開發(fā)者基于這一 pipeline 進(jìn)行試驗,谷歌目前已經(jīng)將研究成果開源到了 MediaPipe 項目中,包括端到端的移動設(shè)備應(yīng)用 demo,以及在鞋、椅子兩個分類中訓(xùn)練好的模型。研究者希望這一解決方案能夠更好地幫助到社區(qū),并產(chǎn)生新的方法、應(yīng)用和研究成果。團(tuán)隊也希望能夠擴(kuò)大模型到更多類別中,進(jìn)一步提升在移動端設(shè)備的性能表現(xiàn)。

責(zé)任編輯:gt

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 3D
    3D
    +關(guān)注

    關(guān)注

    9

    文章

    2891

    瀏覽量

    107640
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6172

    瀏覽量

    105518
收藏 人收藏

    評論

    相關(guān)推薦

    AI模型部署邊緣設(shè)備的奇妙之旅:目標(biāo)檢測模型

    以及邊緣計算能力的增強(qiáng),越來越多的目標(biāo)檢測應(yīng)用開始直接在靠近數(shù)據(jù)源的邊緣設(shè)備運(yùn)行。這不僅減少了數(shù)據(jù)傳輸延遲,保護(hù)了用戶隱私,同時也減輕了云
    發(fā)表于 12-19 14:33

    CASAIM自動化檢測設(shè)備3D尺寸檢測形位公差測量設(shè)備

    隨著科技的不斷發(fā)展,自動化檢測設(shè)備正朝著高精度、高效率、自動化和柔性化的方向發(fā)展,能夠不需要人工干預(yù)的情況下完成檢測任務(wù)。CASAIM自動化檢測
    的頭像 發(fā)表于 11-20 16:22 ?175次閱讀

    中興通訊攜手中國移動推出AI裸眼3D創(chuàng)新產(chǎn)品

    全球領(lǐng)先的通訊科技企業(yè)中興通訊攜手中國移動,2024MWC上海展上聯(lián)合發(fā)布兩款全球首創(chuàng)的AI裸眼3D創(chuàng)新產(chǎn)品:千元普惠的中興遠(yuǎn)航3D手機(jī)和第二代裸眼
    的頭像 發(fā)表于 10-15 10:05 ?809次閱讀

    中興通訊與中國移動發(fā)布全球首創(chuàng)AI裸眼3D新品,引領(lǐng)3D科技新浪潮

    科技飛速發(fā)展的今天,裸眼3D技術(shù)以其獨特的沉浸式體驗,正逐漸成為科技領(lǐng)域的新寵。近日,全球領(lǐng)先的通訊科技企業(yè)中興通訊攜手中國移動,備受矚目的2024MWC上海展
    的頭像 發(fā)表于 06-28 15:32 ?1024次閱讀

    蘇州吳中區(qū)多色PCB板元器件3D視覺檢測技術(shù)

    3D視覺檢測相較于2D視覺檢測,有其獨特的優(yōu)勢,不受產(chǎn)品表面對比度影響,精確檢出產(chǎn)品形狀,可以測出高度(厚度)、體積、平整度等。實際應(yīng)用中
    的頭像 發(fā)表于 06-14 15:02 ?425次閱讀
    蘇州吳中區(qū)多色PCB板元器件<b class='flag-5'>3D</b>視覺<b class='flag-5'>檢測</b>技術(shù)

    工業(yè)鏡頭3D結(jié)構(gòu)光檢測中實際應(yīng)用

    工業(yè)鏡頭3D結(jié)構(gòu)光檢測中實際應(yīng)用
    的頭像 發(fā)表于 06-01 08:34 ?309次閱讀
    工業(yè)鏡頭<b class='flag-5'>在</b><b class='flag-5'>3D</b>結(jié)構(gòu)光<b class='flag-5'>檢測</b>中實際應(yīng)用

    VIVERSE 推行實時3D渲染: 探索Polygon Streaming技術(shù)力量與應(yīng)用

    商業(yè)領(lǐng)域和娛樂行業(yè)中,3D渲染技術(shù)一直是推動視覺體驗革新的關(guān)鍵力量。隨著技術(shù)的進(jìn)步,實時3D渲染技術(shù)逐漸成為主流,近期VIVERSE平臺對外發(fā)布引入一項全新技術(shù)——Polygon
    的頭像 發(fā)表于 05-31 15:49 ?2350次閱讀
    VIVERSE 推行<b class='flag-5'>實時</b><b class='flag-5'>3D</b>渲染: 探索Polygon Streaming技術(shù)力量與應(yīng)用

    3D視覺技術(shù)慣性環(huán)料領(lǐng)域的未來發(fā)展

    隨著制造業(yè)的智能化和自動化水平不斷提升,慣性環(huán)作為汽車發(fā)動機(jī)減震器中的核心組件,其精準(zhǔn)、高效的料過程顯得尤為關(guān)鍵。作為實現(xiàn)這一目標(biāo)的重要技術(shù)手段,3D視覺技術(shù)慣性環(huán)
    的頭像 發(fā)表于 05-21 16:06 ?317次閱讀
    <b class='flag-5'>3D</b>視覺技術(shù)<b class='flag-5'>在</b>慣性環(huán)<b class='flag-5'>上</b>料領(lǐng)域的未來發(fā)展

    機(jī)器人3D視覺引導(dǎo)系統(tǒng)框架介紹

    通過自主開發(fā)3D掃描儀可獲準(zhǔn)確并且快速地獲取場景的點云圖像,通過3D識別算法,實現(xiàn)在對點云圖中的多種目標(biāo)物體進(jìn)行識別和位姿估計。
    發(fā)表于 04-29 09:31 ?345次閱讀
    機(jī)器人<b class='flag-5'>3D</b>視覺引導(dǎo)系統(tǒng)框架介紹

    友思特應(yīng)用 | 穩(wěn)步前行:基于FPGA 3D相機(jī)實現(xiàn)輪胎定位檢測應(yīng)用

    乘用車輛的長期穩(wěn)定行駛離不開輪胎等零部件的定期檢測。友思特 3D相機(jī)實時采集車輛四輪的三維點云圖,提取關(guān)鍵信息并進(jìn)行計算分析,實現(xiàn)車輛四輪
    的頭像 發(fā)表于 04-24 17:00 ?391次閱讀
    友思特應(yīng)用 | 穩(wěn)步前行:基于FPGA <b class='flag-5'>3D</b>相機(jī)實現(xiàn)輪胎定位<b class='flag-5'>檢測</b>應(yīng)用

    包含具有多種類型信息的3D模型

    三維視圖。事實,AE可以3D BIM模型元素與時間因素聯(lián)系起來后創(chuàng)建4D模型,從而更廣泛地進(jìn)行產(chǎn)品的可視化預(yù)覽,更精確地分析建筑項目的實施進(jìn)度。 以下五個BIM軟件平臺是目前最受
    發(fā)表于 03-28 17:18

    Nullmax提出多相機(jī)3D目標(biāo)檢測新方法QAF2D

    今天上午,計算機(jī)視覺領(lǐng)域頂會CVPR公布了最終的論文接收結(jié)果,Nullmax感知部門的3D目標(biāo)檢測研究《Enhancing 3D Objec
    的頭像 發(fā)表于 02-27 16:38 ?1162次閱讀
    Nullmax提出多相機(jī)<b class='flag-5'>3D</b><b class='flag-5'>目標(biāo)</b><b class='flag-5'>檢測</b>新方法QAF2<b class='flag-5'>D</b>

    基于深度學(xué)習(xí)的方法處理3D點云進(jìn)行缺陷分類應(yīng)用

    背景部分介紹了3D點云應(yīng)用領(lǐng)域中公開訪問的數(shù)據(jù)集的重要性,這些數(shù)據(jù)集對于分析和比較各種模型至關(guān)重要。研究人員專門設(shè)計了各種數(shù)據(jù)集,包括用于3D形狀分類、3D物體
    的頭像 發(fā)表于 02-22 16:16 ?1219次閱讀
    基于深度學(xué)習(xí)的方法<b class='flag-5'>在</b>處理<b class='flag-5'>3D</b>點云進(jìn)行缺陷分類應(yīng)用

    ELF 1 開發(fā)實現(xiàn)讀取攝像頭視頻進(jìn)行目標(biāo)檢測

    當(dāng)前,將AI或深度學(xué)習(xí)算法(如分類、目標(biāo)檢測和軌跡追蹤)部署到嵌入式設(shè)備,進(jìn)而實現(xiàn)邊緣計算,正成為輕量級深度學(xué)習(xí)算法發(fā)展的一個重要趨勢。今天將與各位小伙伴分享一個實際案例:
    的頭像 發(fā)表于 01-24 10:38 ?711次閱讀
    <b class='flag-5'>在</b>ELF 1 <b class='flag-5'>開發(fā)</b>板<b class='flag-5'>上</b>實現(xiàn)讀取攝像頭視頻進(jìn)行<b class='flag-5'>目標(biāo)</b><b class='flag-5'>檢測</b>

    友思特C系列3D相機(jī):實時3D點云圖像

    3D相機(jī)
    虹科光電
    發(fā)布于 :2024年01月10日 17:39:25