0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種通過視圖合成增強(qiáng)預(yù)訓(xùn)練的2D擴(kuò)散模型的可擴(kuò)展技術(shù)

3D視覺工坊 ? 來源:3DCV ? 2023-12-14 10:00 ? 次閱讀

1、導(dǎo)讀

現(xiàn)有的3D物體檢測方法通常需要使用完全注釋的數(shù)據(jù)進(jìn)行訓(xùn)練,而使用預(yù)訓(xùn)練的語義特征可以帶來一些優(yōu)勢。然而,目前還沒有利用擴(kuò)散特征進(jìn)行3D感知任務(wù)的研究。因此,我們提出了一種新的框架,通過視圖合成任務(wù)來增強(qiáng)預(yù)訓(xùn)練的2D擴(kuò)散模型的3D感知能力。該方法利用已知相對姿態(tài)的圖像對進(jìn)行訓(xùn)練,并通過擴(kuò)散過程生成目標(biāo)輸出。此外,文章還介紹了如何將這些增強(qiáng)的特征用于3D物體檢測,并通過引入輔助網(wǎng)絡(luò)來保持特征質(zhì)量。最后,文章通過實(shí)驗(yàn)證明了該方法在點(diǎn)對應(yīng)和3D檢測性能上的優(yōu)越性。

2、研究內(nèi)容

一種名為3DiffTection的新框架,該框架利用預(yù)訓(xùn)練的2D擴(kuò)散模型來進(jìn)行3D物體檢測任務(wù)。該方法通過視圖合成任務(wù),將2D擴(kuò)散特征增強(qiáng)為具有3D感知能力的特征。作者利用已知相對姿態(tài)的圖像對進(jìn)行特征提取和特征擴(kuò)散過程,從而生成目標(biāo)輸出。文章還介紹了如何將這些增強(qiáng)的特征用于3D物體檢測,并通過引入輔助控制網(wǎng)絡(luò)來進(jìn)一步適應(yīng)目標(biāo)任務(wù)和數(shù)據(jù)集。最后,作者通過多個(gè)合成視圖生成檢測提議,并通過非極大值抑制(NMS)來整合這些提議,從而提高檢測性能。

3、貢獻(xiàn)

介紹了一種通過視圖合成增強(qiáng)預(yù)訓(xùn)練的2D擴(kuò)散模型的可擴(kuò)展技術(shù),使其具有3D感知能力;

將這些特征適應(yīng)于3D檢測任務(wù)和目標(biāo)領(lǐng)域;

利用視圖合成能力通過集成預(yù)測進(jìn)一步提高檢測性能。

4、方法

e774878a-9a0c-11ee-8b88-92fbcf53809c.png

3DiffTection:它可以在3D物體檢測任務(wù)中利用預(yù)訓(xùn)練的2D擴(kuò)散模型。該方法的關(guān)鍵在于設(shè)計(jì)了一個(gè)視圖合成任務(wù),通過使用極線幾何將源圖像中的殘差特征進(jìn)行變形,從而增強(qiáng)了2D擴(kuò)散特征的3D感知能力。通過去噪擴(kuò)散過程,這些變形的特征有助于生成目標(biāo)輸出。我們的方法利用了具有已知相對姿態(tài)的圖像對,這些圖像對通常可以從視頻數(shù)據(jù)中輕松獲取。鑒于視頻數(shù)據(jù)的不斷增加,這使得我們的表示精煉解決方案具有高度的可擴(kuò)展性。

4.1、2D擴(kuò)散模型特征提取

在3DiffTection中,我們使用預(yù)訓(xùn)練的2D擴(kuò)散模型作為特征提取器。擴(kuò)散模型已經(jīng)在圖像分割等密集感知任務(wù)中展現(xiàn)出了強(qiáng)大的性能。我們利用這些模型學(xué)習(xí)到的語義特征,并通過視圖合成任務(wù)增強(qiáng)這些特征的3D感知能力。通過提取源圖像的殘差特征,并利用極線幾何將其映射到目標(biāo)視圖,我們能夠生成目標(biāo)輸出。這樣,我們就能夠?qū)㈩A(yù)訓(xùn)練的2D擴(kuò)散模型的特征轉(zhuǎn)化為具有3D感知能力的特征。這種方法使得我們的模型能夠更好地理解圖像中的3D結(jié)構(gòu),并在3D目標(biāo)檢測任務(wù)中取得更好的性能。

4.2、3D感知融入擴(kuò)散特征

e785a718-9a0c-11ee-8b88-92fbcf53809c.png

如何將3D感知融入擴(kuò)散特征。具體而言,作者通過訓(xùn)練一個(gè)視圖合成任務(wù)來增強(qiáng)預(yù)訓(xùn)練的2D擴(kuò)散模型的3D感知能力。這個(gè)任務(wù)的關(guān)鍵是從源圖像中提取殘差特征,并使用極線幾何將它們映射到目標(biāo)視圖上。通過這種映射,可以通過去噪擴(kuò)散過程生成目標(biāo)輸出。這些經(jīng)過映射的特征有助于增強(qiáng)模型對目標(biāo)的生成能力。這種方法利用了具有已知相對姿態(tài)的圖像對,這些圖像對通??梢詮囊曨l數(shù)據(jù)中輕松獲取。我們接下來利用這些增強(qiáng)的3D特征進(jìn)行3D檢測,通過在3D框注釋下訓(xùn)練一個(gè)標(biāo)準(zhǔn)的檢測頭。雖然我們的模型的基線性能已經(jīng)顯示出對現(xiàn)有方法的改進(jìn),但我們的目標(biāo)是進(jìn)一步將訓(xùn)練好的特征適應(yīng)目標(biāo)任務(wù)和數(shù)據(jù)集,這可能與用于視圖合成預(yù)訓(xùn)練的數(shù)據(jù)不同。

由于訓(xùn)練數(shù)據(jù)有限,直接微調(diào)模型來彌合任務(wù)和領(lǐng)域差距可能會(huì)導(dǎo)致性能下降。為了解決這個(gè)問題,作者引入了一個(gè)輔助的ControlNet,它有助于保持特征的質(zhì)量。這個(gè)過程還保留了模型的視圖合成能力。在測試時(shí),我們通過從多個(gè)合成視圖生成檢測提議,并通過非極大值抑制(NMS)來合并這些提議,從而充分利用幾何和語義能力。

5、實(shí)驗(yàn)結(jié)果

本研究采用了兩種實(shí)驗(yàn)方法來評估提出的3DiffTection框架的性能。

第一種實(shí)驗(yàn)方法是在Omni3D-ARKitscene數(shù)據(jù)集上進(jìn)行的。首先,使用預(yù)訓(xùn)練的2D擴(kuò)散模型進(jìn)行視圖合成,以增強(qiáng)2D特征的3D感知能力。然后,使用訓(xùn)練好的3D檢測頭在3D邊界框監(jiān)督下對特征進(jìn)行3D檢測。為了進(jìn)一步適應(yīng)目標(biāo)任務(wù)和數(shù)據(jù)集,引入了一個(gè)輔助的控制網(wǎng)絡(luò)來維持特征質(zhì)量。最后,通過生成多個(gè)合成視圖的檢測提議,并通過非最大抑制(NMS)進(jìn)行整合,來進(jìn)行3D檢測。實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有方法相比,3DiffTection在Omni3D-ARKitscene數(shù)據(jù)集上取得了顯著的改進(jìn)。

第二種實(shí)驗(yàn)方法是在跨數(shù)據(jù)集上進(jìn)行的。首先,在Omni3D-ARKitscene數(shù)據(jù)集上訓(xùn)練了具有幾何控制網(wǎng)絡(luò)的3DiffTection模型,并僅在跨域數(shù)據(jù)集上訓(xùn)練了3D檢測頭。然后,將3DiffTection與CubeRCNN進(jìn)行比較。實(shí)驗(yàn)結(jié)果顯示,即使在目標(biāo)域中沒有對幾何控制網(wǎng)絡(luò)進(jìn)行訓(xùn)練,3DiffTection仍然能夠超越完全微調(diào)的CubeRCNN。

e79138d0-9a0c-11ee-8b88-92fbcf53809c.pnge79c73ee-9a0c-11ee-8b88-92fbcf53809c.pnge7a87068-9a0c-11ee-8b88-92fbcf53809c.pnge7b444ec-9a0c-11ee-8b88-92fbcf53809c.pnge7c220da-9a0c-11ee-8b88-92fbcf53809c.png

6、創(chuàng)新性

主要體現(xiàn)在以下幾個(gè)方面:

引入了幾何感知的穩(wěn)定擴(kuò)散特征:本研究通過在穩(wěn)定擴(kuò)散特征中引入幾何感知,提高了3D目標(biāo)檢測的性能。通過訓(xùn)練幾何控制網(wǎng)絡(luò),將相機(jī)姿態(tài)信息與擴(kuò)散特征結(jié)合起來,實(shí)現(xiàn)了對3D空間的感知。這種幾何感知的穩(wěn)定擴(kuò)散特征在目標(biāo)檢測任務(wù)中表現(xiàn)出更好的性能。

提出了基于視圖合成的訓(xùn)練方法:本研究利用視圖合成技術(shù),通過生成新的視圖來增強(qiáng)模型的泛化能力。通過訓(xùn)練模型生成與輸入圖像不同視角的合成圖像,使得模型能夠?qū)W習(xí)到更多的視角信息,從而提高了模型在不同數(shù)據(jù)集上的性能。

結(jié)合語義控制網(wǎng)絡(luò)進(jìn)行聯(lián)合訓(xùn)練:本研究還引入了語義控制網(wǎng)絡(luò),通過與3D檢測頭部聯(lián)合訓(xùn)練,進(jìn)一步提高了2D和3D檢測的性能。語義控制網(wǎng)絡(luò)能夠適應(yīng)感知任務(wù),并優(yōu)化特征的使用,從而提高檢測的準(zhǔn)確性。

7、總結(jié)

我們提出了一種名為3DiffTection的新框架,該框架利用預(yù)訓(xùn)練的2D擴(kuò)散模型增強(qiáng)了3D物體檢測任務(wù)的性能。作者通過視圖合成任務(wù),將源圖像中的殘差特征提取出來,并利用極線幾何將其變形到目標(biāo)視圖中,從而增強(qiáng)了2D擴(kuò)散特征的3D感知能力。作者還通過訓(xùn)練一個(gè)標(biāo)準(zhǔn)的檢測頭來利用這些增強(qiáng)的特征進(jìn)行3D檢測。實(shí)驗(yàn)證明,這種方法在點(diǎn)對應(yīng)和物體檢測性能上都優(yōu)于基準(zhǔn)模型。此外,作者還介紹了一個(gè)輔助的控制網(wǎng)絡(luò),用于保持特征質(zhì)量,并通過生成多個(gè)合成視圖的檢測提案來進(jìn)一步提高檢測性能??傮w而言,作者的方法在3D物體檢測任務(wù)中取得了顯著的改進(jìn),并展示了其在不同數(shù)據(jù)集上的泛化能力。






審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • NMS
    NMS
    +關(guān)注

    關(guān)注

    0

    文章

    9

    瀏覽量

    6122
  • 控制網(wǎng)絡(luò)
    +關(guān)注

    關(guān)注

    0

    文章

    28

    瀏覽量

    10009

原文標(biāo)題:英偉達(dá)最新發(fā)布!超越其它所有SOTA的3D目標(biāo)檢測

文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 0人收藏

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    文詳解知識增強(qiáng)的語言預(yù)訓(xùn)練模型

    ,在實(shí)際應(yīng)用場景中效果不好。為了解決這個(gè)問題,將知識注入到PLMs中已經(jīng)成為個(gè)非常活躍的研究領(lǐng)域。本次分享將介紹三篇知識增強(qiáng)預(yù)訓(xùn)練語言模型
    的頭像 發(fā)表于 04-02 17:21 ?1w次閱讀

    【大語言模型:原理與工程實(shí)踐】大語言模型預(yù)訓(xùn)練

    數(shù)據(jù)格式的轉(zhuǎn)換、數(shù)據(jù)字段的匹配和整合等。通過數(shù)據(jù)級凈化,可以進(jìn)步提高數(shù)據(jù)的質(zhì)量和可用性,為后續(xù)的數(shù)據(jù)分析和建模提供更有價(jià)值的數(shù)據(jù)支持。 在得到了大語言模型的數(shù)據(jù)之后,就是對其進(jìn)行預(yù)
    發(fā)表于 05-07 17:10

    探索一種降低ViT模型訓(xùn)練成本的方法

    其上的實(shí)驗(yàn)來評估性能,當(dāng)每次實(shí)驗(yàn)的訓(xùn)練成本過高時(shí),這不是一種擴(kuò)展的方法。通過降低訓(xùn)練成本,縮短
    發(fā)表于 11-24 14:56

    為什么要使用預(yù)訓(xùn)練模型?8優(yōu)秀預(yù)訓(xùn)練模型大盤點(diǎn)

    正如我們在本文中所述,ULMFiT使用新穎的NLP技術(shù)取得了令人矚目的成果。該方法對預(yù)訓(xùn)練語言模型進(jìn)行微調(diào),將其在WikiText-103數(shù)據(jù)集(維基百科的長期依賴語言建模數(shù)據(jù)集Wik
    的頭像 發(fā)表于 04-04 11:26 ?2.4w次閱讀
    為什么要使用<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b><b class='flag-5'>模型</b>?8<b class='flag-5'>種</b>優(yōu)秀<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b><b class='flag-5'>模型</b>大盤點(diǎn)

    一種脫離預(yù)訓(xùn)練的多尺度目標(biāo)檢測網(wǎng)絡(luò)模型

    為提高卷積神經(jīng)網(wǎng)絡(luò)目標(biāo)檢測模型精度并增強(qiáng)檢測器對小目標(biāo)的檢測能力,提出一種脫離預(yù)訓(xùn)練的多尺度目標(biāo)檢測網(wǎng)絡(luò)
    發(fā)表于 04-02 11:35 ?26次下載
    <b class='flag-5'>一種</b>脫離<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>的多尺度目標(biāo)檢測網(wǎng)絡(luò)<b class='flag-5'>模型</b>

    一種側(cè)重于學(xué)習(xí)情感特征的預(yù)訓(xùn)練方法

    transformers編碼表示)的基礎(chǔ)上,提岀了一種側(cè)重學(xué)習(xí)情感特征的預(yù)訓(xùn)練方法。在目標(biāo)領(lǐng)域的預(yù)練階段,利用情感詞典改進(jìn)了BERT的預(yù)
    發(fā)表于 04-13 11:40 ?4次下載
    <b class='flag-5'>一種</b>側(cè)重于學(xué)習(xí)情感特征的<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>方法

    HarmonyOS測試技術(shù)與實(shí)戰(zhàn)-2D負(fù)載模型

    HDC 2021華為開發(fā)者大會(huì) HarmonyOS測試技術(shù)與實(shí)戰(zhàn)-2D負(fù)載模型
    的頭像 發(fā)表于 10-23 15:19 ?1383次閱讀
    HarmonyOS測試<b class='flag-5'>技術(shù)</b>與實(shí)戰(zhàn)-<b class='flag-5'>2D</b>負(fù)載<b class='flag-5'>模型</b>

    如何實(shí)現(xiàn)更綠色、經(jīng)濟(jì)的NLP預(yù)訓(xùn)練模型遷移

    NLP中,預(yù)訓(xùn)練模型Finetune是一種非常常見的解決問題的范式。利用在海量文本上預(yù)訓(xùn)練得到
    的頭像 發(fā)表于 03-21 15:33 ?2445次閱讀

    一種基于亂序語言模型預(yù)訓(xùn)練模型-PERT

    由于亂序語言模型不使用[MASK]標(biāo)記,減輕了預(yù)訓(xùn)練任務(wù)與微調(diào)任務(wù)之間的gap,并由于預(yù)測空間大小為輸入序列長度,使得計(jì)算效率高于掩碼語言模型。PERT
    的頭像 發(fā)表于 05-10 15:01 ?1790次閱讀

    利用視覺語言模型對檢測器進(jìn)行預(yù)訓(xùn)練

    ,到使用合成數(shù)據(jù)直接預(yù)訓(xùn)練檢測器再在真實(shí)數(shù)據(jù)上Finetune,再到通過定義預(yù)
    的頭像 發(fā)表于 08-08 15:33 ?1675次閱讀

    什么是預(yù)訓(xùn)練 AI 模型?

    該向孩子展示這種生物的圖像并描述其獨(dú)有特征。 那么,如果要教臺人工智能(AI)機(jī)器什么是獨(dú)角獸,該從什么地方做起呢? 預(yù)訓(xùn)練 AI 模型提供了解決方案。
    的頭像 發(fā)表于 04-04 01:45 ?1814次閱讀

    2D Transformer 可以幫助3D表示學(xué)習(xí)嗎?

    預(yù)訓(xùn)練2D圖像或語言Transformer:作為基礎(chǔ)Transformer模型,具有豐富的特征表示能力。作者選擇了先進(jìn)的2D Transf
    的頭像 發(fā)表于 07-03 10:59 ?1099次閱讀
    <b class='flag-5'>2D</b> Transformer 可以幫助3<b class='flag-5'>D</b>表示學(xué)習(xí)嗎?

    介紹一種使用2D材料進(jìn)行3D集成的新方法

    美國賓夕法尼亞州立大學(xué)的研究人員展示了一種使用2D材料進(jìn)行3D集成的新穎方法。
    的頭像 發(fā)表于 01-13 11:37 ?1342次閱讀

    預(yù)訓(xùn)練模型的基本原理和應(yīng)用

    預(yù)訓(xùn)練模型(Pre-trained Model)是深度學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域中的個(gè)重要概念,尤其是在自然語言處理(NLP)和計(jì)算機(jī)視覺(CV)等領(lǐng)域中得到了廣泛應(yīng)用。
    的頭像 發(fā)表于 07-03 18:20 ?4226次閱讀

    大語言模型預(yù)訓(xùn)練

    能力,逐漸成為NLP領(lǐng)域的研究熱點(diǎn)。大語言模型預(yù)訓(xùn)練是這一技術(shù)發(fā)展的關(guān)鍵步驟,它通過在海量無標(biāo)簽數(shù)據(jù)上進(jìn)行
    的頭像 發(fā)表于 07-11 10:11 ?904次閱讀

    電子發(fā)燒友

    中國電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會(huì)員交流學(xué)習(xí)
    • 獲取您個(gè)性化的科技前沿技術(shù)信息
    • 參加活動(dòng)獲取豐厚的禮品