0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

開放詞匯檢測新晉SOTA:地瓜機(jī)器人開源DOSOD實(shí)時(shí)檢測算法

地瓜機(jī)器人 ? 2025-01-08 15:27 ? 次閱讀

計(jì)算機(jī)視覺領(lǐng)域,目標(biāo)檢測是一項(xiàng)關(guān)鍵技術(shù),旨在識別圖像或視頻中感興趣物體的位置與類別。傳統(tǒng)的閉集檢測長期占據(jù)主導(dǎo)地位,但近年來,開放詞匯檢測(Open-Vocabulary Object Detection-OVOD 或者 Open-Set Object Detection-OSOD)嶄露頭角,為目標(biāo)檢測帶來了新的活力與可能性。與閉集檢測相比,開放詞匯檢測打破了檢測類別固定的“枷鎖”,它在訓(xùn)練時(shí)利用豐富多樣的文本 - 區(qū)域?qū)Γ╰ext-region pairs)數(shù)據(jù),將文本作為類別標(biāo)簽,大大拓寬了可檢測的范圍。尤其是在機(jī)器人感受周圍環(huán)境的任務(wù)中,能夠起到極大的幫助。

目前主流的開放詞匯檢測算法有Grounding-DINO系列和YOLO-World。在海量的私有數(shù)據(jù)集的加持下,前者具有非常強(qiáng)大的檢測能力,精度遙遙領(lǐng)先,其模型依賴參數(shù)量較大的Transformer結(jié)構(gòu),實(shí)時(shí)性較弱。后者依賴輕量級的Convolution結(jié)構(gòu),能夠達(dá)到實(shí)時(shí)推理的效率,精度上依然不錯(cuò)。

DOSOD(Decoupled Open-Set Object Detection)是地瓜機(jī)器人最新發(fā)布的開放詞匯目標(biāo)檢測算法,力求在低算力邊緣端實(shí)現(xiàn)更高的推理效率,同時(shí)帶來比YOLO-World更具競爭力的精度表現(xiàn)。在算法上,DOSOD采用了獨(dú)特的解耦特征對齊策略,摒棄了傳統(tǒng)的圖像-文本交互方式,通過基于MLPs的特征適配模塊對圖像與文本的特征進(jìn)行優(yōu)化與對齊,進(jìn)一步提升了模型的推理效率和精度。

實(shí)驗(yàn)結(jié)果顯示,DOSOD在多個(gè)公開數(shù)據(jù)集(如LVIS)上的表現(xiàn)超越了YOLO-World-v2,并在邊緣AI計(jì)算平臺上展現(xiàn)了壓倒性的效率優(yōu)勢。

wKgZPGd-J-yAGoSwAACJUwG6G7Q417.pngwKgZPGd-J-yAFdkCAADuErP-nd8054.png

文章開源地址:https://arxiv.org/abs/2412.14680

代碼開源地址:https://github.com/D-Robotics-AI-Lab/DOSOD

文章由地瓜機(jī)器人應(yīng)用算法部,中科院自動化所多模態(tài)人工智能系統(tǒng)全國重點(diǎn)實(shí)驗(yàn)室,蘇州大學(xué)未來學(xué)院,上海科技大學(xué)信息科學(xué)技術(shù)學(xué)院聯(lián)合出品。

DOSOD的基本原理

wKgZO2d-J_iAWCzrAAE33dqtCyY933.png

目前主流的開放詞匯檢測對齊策略主要分為以下三種:

(a) 教師 - 學(xué)生蒸餾方法

  • 描述:利用 VLM(視覺語言模型)的文本編碼器生成的文本嵌入來監(jiān)督圖像特征和檢測器特征的對齊。也可以通過裁剪圖像區(qū)域來對齊特征。
  • 總結(jié):通過 VLM 的文本編碼器來指導(dǎo)圖像和檢測器特征的對齊。

(b) 基于交互的對齊策略

  • 描述:文本嵌入與檢測器骨干網(wǎng)絡(luò)提取的圖像特征進(jìn)行交互,以實(shí)現(xiàn)對齊。
  • 總結(jié):通過文本嵌入與圖像特征的交互來實(shí)現(xiàn)特征對齊。

(c) 提出的解耦對齊策略

  • 描述:在不進(jìn)行交互的情況下對齊特征,通過視覺 - 語言特征適配來實(shí)現(xiàn)。
  • 總結(jié):采用解耦方式,不依賴交互來進(jìn)行特征對齊。

DOSOD(Decoupled Open-Set Object Detection) 屬于第三種開放詞匯檢測對齊策略——解耦對齊策略。該方法的核心思想是通過將文本和圖像模態(tài)的特征解耦,以實(shí)現(xiàn)更高效的對齊過程,從而在保證檢測精度的同時(shí)大幅提升推理速度。

wKgZPGd-J-yAFdkCAADuErP-nd8054.png

在此基礎(chǔ)上,DOSOD洞察到了閉集檢測開放詞匯檢測之間的本質(zhì)聯(lián)系,提出了全新的結(jié)構(gòu)框架(如上圖所示)。具體來說,DOSOD將傳統(tǒng)分類分支最后的卷積操作等價(jià)地解構(gòu)為兩個(gè)模態(tài)的特征對齊操作,從而激發(fā)出解耦的特征學(xué)習(xí)和共同空間對齊的結(jié)構(gòu)。

在該框架中,類別標(biāo)簽文本首先通過一個(gè)文本編碼器(來自VLM)生成初步的Text Embedding,然后經(jīng)過一個(gè)基于MLPs的特征適應(yīng)模塊,對Text Embedding進(jìn)行特征優(yōu)化,為Joint Space中的對齊操作做準(zhǔn)備。

在圖像側(cè),DOSOD使用經(jīng)典的單階段目標(biāo)檢測器(文中使用了YOLOv8)來提取圖像的多尺度特征圖。每個(gè)特征點(diǎn)表示圖像中的一個(gè)區(qū)域特征。最后,在Joint Space中,通過計(jì)算Text Embedding與Region Feature之間的相似度,從而完成特征對齊。

DOSOD的實(shí)驗(yàn)結(jié)果

在實(shí)驗(yàn)部分,DOSOD在公開數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練,并在LVISCOCO數(shù)據(jù)集上進(jìn)行了Zero-shot驗(yàn)證。DOSOD均擁有優(yōu)秀的精度表現(xiàn):

  • 在LVIS數(shù)據(jù)集上,相較于YOLO-World-v2,DOSOD精度全面領(lǐng)先,并與YOLO-World-v1不分伯仲。
wKgZPGd-KCSALFMrAAIe5rvyLD8554.png
  • 在COCO數(shù)據(jù)集上,DOSOD整體精度要略低于YOLO-World,但YOLO-World-v2的精度微高于YOLO-World-v1,也一定程度上說明,COCO由于詞匯豐富程度較低,不太適用于開放詞匯檢測任務(wù)評測。
wKgZO2d-KC6AKSsFAAGDQ-iWUZo696.png

在推理速度上,通過將DOSODYOLO-WorldNVIDIA RTX 4090D-Robotics RDK X5上進(jìn)行全面對比,我們可以看到:

  • DOSOD在主流的服務(wù)器級別的芯片上,推理效率是顯著高于YOLO-World。
wKgZO2d-KC6AKSsFAAGDQ-iWUZo696.pngwKgZPGd-KEOALx_OAAGP2zjV2sc218.png
  • 在邊緣側(cè)的AI計(jì)算平臺上,DOSOD以碾壓式的效率提升,遠(yuǎn)遠(yuǎn)超越Y(jié)OLO-World。
wKgZPGd-KDyAMKDDAAFpUcnVdy8314.png

DOSOD的應(yīng)用效果

DOSOD開放詞匯檢測算法有著廣泛的應(yīng)用場景,既能用于常規(guī)檢測任務(wù)里的目標(biāo)檢測,也可以應(yīng)用在特殊場景下長尾目標(biāo)類型的檢測任務(wù)當(dāng)中。針對某些極端長尾的目標(biāo)類型,只需收集少量相關(guān)數(shù)據(jù)進(jìn)行微調(diào),就能顯著提高模型的穩(wěn)定性和檢測效果。

  • DOSOD 在常規(guī)目標(biāo)檢測上的檢測效果

在閉集目標(biāo)檢測任務(wù)中,COCO數(shù)據(jù)集預(yù)先定義了80個(gè)固定類別。我們可以看到,在經(jīng)過大數(shù)據(jù)量的開放詞匯數(shù)據(jù)集預(yù)訓(xùn)練后,DOSOD能夠檢測出諸多長尾類別,如圖2左下角的“heater”,圖4中的“shoe”和“wheel”,而這些詞匯并未包含在COCO數(shù)據(jù)集的80個(gè)類別之內(nèi)。

wKgZPGd-KGuAD2btABTSXQElOvM312.png
  • DOSOD 在特殊場景的長尾類別上的檢測效果

以下展示的是掃地機(jī)視角下的圖像,任務(wù)要求是檢測出地面上的各類污漬或障礙物,這些類別并不是常規(guī)目標(biāo)檢測任務(wù)中的標(biāo)準(zhǔn)類別。通過少量數(shù)據(jù)的微調(diào),DOSOD成功識別了這些特殊類別,為在該場景中準(zhǔn)確檢測出多樣化的長尾類別發(fā)揮了關(guān)鍵作用。

wKgZO2d-KHiAbTY1AA2qnxQlJ6M949.pngwKgZO2d-KHyAWxULAAs0BhJTdr4300.pngwKgZO2d-KICAQBnfAArijXABNDw183.pngwKgZO2d-KIeAahcBAAljeeMwkGw740.png

DOSOD作為一款新興的開放詞匯檢測算法,憑借創(chuàng)新的解耦特征對齊策略,在提升推理效率的同時(shí),成功地保證了精度,展示出了極強(qiáng)的應(yīng)用潛力。未來,隨著計(jì)算資源的提升與算法的不斷優(yōu)化,DOSOD有望在機(jī)器人、自動駕駛、智能家居等領(lǐng)域提供更加高效精準(zhǔn)的目標(biāo)檢測解決方案。

作為地瓜機(jī)器人前沿算法研究的最新成果,DOSOD不僅在精度上超越了對標(biāo)方法,更成功解決了推理效率與低算力設(shè)備適應(yīng)性之間的挑戰(zhàn),為智能機(jī)器人技術(shù)的普及與發(fā)展提供了有力支持。

未來,地瓜機(jī)器人將秉承“成為機(jī)器人時(shí)代的Wintel”的品牌初心,持續(xù)與客戶一同深入應(yīng)用場景,在提供擁有極致性能表現(xiàn)的硬件的同時(shí),為行業(yè)客戶和開發(fā)者提供豐富的具有實(shí)用價(jià)值的算法,加速機(jī)器人技術(shù)的落地和廣泛應(yīng)用。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 機(jī)器人
    +關(guān)注

    關(guān)注

    211

    文章

    28632

    瀏覽量

    208096
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4629

    瀏覽量

    93230
  • 人工智能
    +關(guān)注

    關(guān)注

    1796

    文章

    47642

    瀏覽量

    239843
  • RDK
    RDK
    +關(guān)注

    關(guān)注

    0

    文章

    8

    瀏覽量

    9058
收藏 人收藏

    評論

    相關(guān)推薦

    【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】2.具身智能機(jī)器人的基礎(chǔ)模塊

    具身智能機(jī)器人的基礎(chǔ)模塊,這個(gè)是本書的第二部分內(nèi)容,主要分為四個(gè)部分:機(jī)器人計(jì)算系統(tǒng),自主機(jī)器人的感知系統(tǒng),自主機(jī)器人的定位系統(tǒng),自主機(jī)器人
    發(fā)表于 01-04 19:22

    ROSCon China 2024 | RDK第一本教材來了!地瓜機(jī)器人與古月居發(fā)布新書《ROS 2智能機(jī)器人開發(fā)實(shí)踐》

    12月7日-8日,為期兩天的ROSCon China 2024在上海圓滿落幕,來自全球的ROS專家學(xué)者、開發(fā)者、企業(yè)代表齊聚一堂,共享機(jī)器人前沿技術(shù)成果。地瓜機(jī)器人攜手眾多RDK生態(tài)產(chǎn)品亮相,并聯(lián)手古月居共同推出首本基于RDK
    的頭像 發(fā)表于 12-10 18:48 ?501次閱讀
    ROSCon China 2024 | RDK第一本教材來了!<b class='flag-5'>地瓜</b><b class='flag-5'>機(jī)器人</b>與古月居發(fā)布新書《ROS 2智能<b class='flag-5'>機(jī)器人</b>開發(fā)實(shí)踐》

    兆易創(chuàng)新亮相2024地平線地瓜機(jī)器人開發(fā)者日

    日前,以“加速智能生長”為主題的“2024地瓜機(jī)器人開發(fā)者日暨新品發(fā)布”活動在深圳成功舉辦。兆易創(chuàng)新作為地瓜機(jī)器人優(yōu)質(zhì)生態(tài)合作伙伴,受邀出席大會。中央市場部王霄受邀參加議程中的DUP教
    的頭像 發(fā)表于 10-17 09:47 ?481次閱讀

    地瓜機(jī)器人發(fā)布一系列通用機(jī)器人套件

    在“機(jī)器人+”浪潮的推動下,地瓜機(jī)器人近日隆重推出了一系列面向未來的軟硬件產(chǎn)品組合,旨在賦能新一代通用機(jī)器人的發(fā)展。此次發(fā)布的亮點(diǎn)包括旭日5智能計(jì)算芯片、RDK X5
    的頭像 發(fā)表于 09-25 15:56 ?388次閱讀

    地瓜機(jī)器人與廣和通深度合作,共驅(qū)智能機(jī)器人商用落地

    9月20日,2024地瓜機(jī)器人開發(fā)者日暨新品發(fā)布在深圳順利舉辦。廣和通作為地瓜機(jī)器人官方授權(quán)硬件IDH合作伙伴,受邀出席大會并展示了一系列基于地瓜
    的頭像 發(fā)表于 09-23 16:27 ?358次閱讀
    <b class='flag-5'>地瓜</b><b class='flag-5'>機(jī)器人</b>與廣和通深度合作,共驅(qū)智能<b class='flag-5'>機(jī)器人</b>商用落地

    地瓜機(jī)器人與廣和通深度合作,共驅(qū)智能機(jī)器人商用落地

    9月20日,2024地瓜機(jī)器人開發(fā)者日暨新品發(fā)布在深圳順利舉辦。廣和通作為地瓜機(jī)器人官方授權(quán)硬件IDH合作伙伴,受邀出席大會并展示了一系列基于地瓜
    的頭像 發(fā)表于 09-23 16:27 ?528次閱讀
    <b class='flag-5'>地瓜</b><b class='flag-5'>機(jī)器人</b>與廣和通深度合作,共驅(qū)智能<b class='flag-5'>機(jī)器人</b>商用落地

    地瓜機(jī)器人攜手廣和通共推智能機(jī)器人新紀(jì)元

    2024年9月20日,深圳迎來了科技界的一場盛會——地瓜機(jī)器人開發(fā)者日暨新品發(fā)布會圓滿舉行。此次活動不僅見證了地瓜機(jī)器人在智能計(jì)算領(lǐng)域的又一里程碑,還深化了其與廣和通作為官方授權(quán)硬件I
    的頭像 發(fā)表于 09-23 13:03 ?693次閱讀

    使用OpenVINO C# API部署YOLO-World實(shí)現(xiàn)實(shí)時(shí)開放詞匯對象檢測

    的快速準(zhǔn)確識別,并通過AR技術(shù)將虛擬元素與真實(shí)場景相結(jié)合,為用戶帶來沉浸式的交互體驗(yàn)。在本文中,我們將結(jié)合OpenVINO C# API使用最新發(fā)布的OpenVINO 2024.0部署 YOLO-World實(shí)現(xiàn)實(shí)時(shí)開放詞匯對象
    的頭像 發(fā)表于 08-30 16:27 ?830次閱讀
    使用OpenVINO C# API部署YOLO-World實(shí)現(xiàn)<b class='flag-5'>實(shí)時(shí)</b><b class='flag-5'>開放</b><b class='flag-5'>詞匯</b>對象<b class='flag-5'>檢測</b>

    地瓜機(jī)器人全新亮相:引領(lǐng)機(jī)器人時(shí)代&quot;母生態(tài)&quot;的革新

    在科技日新月異的今天,每一個(gè)細(xì)微的創(chuàng)新都可能成為推動行業(yè)變革的關(guān)鍵力量。地平線旗下的“地瓜機(jī)器人”官方公眾號正式揭曉了其歷經(jīng)九年精心打磨的全新面貌,標(biāo)志著這家企業(yè)在機(jī)器人領(lǐng)域的深度布局與遠(yuǎn)大愿景正式啟航。
    的頭像 發(fā)表于 08-21 16:40 ?1131次閱讀

    旗晟機(jī)器人環(huán)境檢測算法有哪些?

    硬件支撐,更離不開強(qiáng)大的算法庫作為軟件核心,二者相輔相成,缺一不可。今天就來了解旗晟機(jī)器人環(huán)境檢測算法。 1、設(shè)施異常監(jiān)測 通過集成高精度傳感器與智能圖像識別技術(shù)。它不僅能檢測A字梯是
    的頭像 發(fā)表于 07-19 17:54 ?563次閱讀
    旗晟<b class='flag-5'>機(jī)器人</b>環(huán)境<b class='flag-5'>檢測算法</b>有哪些?

    ROS讓機(jī)器人開發(fā)更便捷,基于RK3568J+Debian系統(tǒng)發(fā)布!

    ,簡單快捷地調(diào)用合適的算法庫,以提高開發(fā)效率,加快開發(fā)進(jìn)程。 (2) 開源免費(fèi),架構(gòu)精簡 ROS系統(tǒng)是一個(gè)開源免費(fèi),架構(gòu)精簡的機(jī)器人操作系統(tǒng)。ROS被設(shè)計(jì)為盡可能精簡,以便為ROS
    發(fā)表于 07-09 11:38

    口罩佩戴檢測算法

    口罩佩戴檢測算法基于YOLOv5在圖像識別檢測領(lǐng)域的優(yōu)異性能,本文研究基于基于YOLOv5的口罩佩自動戴檢測方法。首先從網(wǎng)絡(luò)和真實(shí)生活中中尋找并采集不同場景人群口罩佩戴的圖片約500張并自建數(shù)據(jù)集
    的頭像 發(fā)表于 07-01 20:20 ?356次閱讀
    口罩佩戴<b class='flag-5'>檢測算法</b>

    人員跌倒識別檢測算法

    人員跌倒識別檢測算法是基于視頻的檢測方法,通過對目標(biāo)人體監(jiān)測,當(dāng)目標(biāo)人體出現(xiàn)突然倒地行為時(shí),自動監(jiān)測并觸發(fā)報(bào)警。人員跌倒識別檢測算法基于計(jì)算機(jī)識別技術(shù),配合現(xiàn)場攝像頭,自動識別如地鐵手扶梯/樓梯
    的頭像 發(fā)表于 06-30 11:47 ?500次閱讀
    人員跌倒識別<b class='flag-5'>檢測算法</b>

    安全帽佩戴檢測算法

    安全帽佩戴監(jiān)控是鐵路工程施工人員安全管理中的重點(diǎn)和難點(diǎn),它對檢測算法的準(zhǔn)確 率與檢測速度都有較高的要求。本文提出一種基于神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索的安全帽佩戴檢測算法 NAS-YOLO。該神經(jīng)網(wǎng)絡(luò)架構(gòu)由上
    的頭像 發(fā)表于 06-26 22:22 ?439次閱讀
    安全帽佩戴<b class='flag-5'>檢測算法</b>

    基于FPGA EtherCAT的六自由度機(jī)器人視覺伺服控制設(shè)計(jì)

    機(jī)器人視覺伺服中有著廣闊的應(yīng)用,本實(shí)驗(yàn)將集成攝像頭的 伊瑟特主站應(yīng)用在自主研發(fā)的六自由度串聯(lián)機(jī)器人上,將機(jī)器人運(yùn)動學(xué)算法編寫入 伊瑟特主站,使得機(jī)器
    發(fā)表于 05-29 16:17