0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

百度開源DETRs在實(shí)時(shí)目標(biāo)檢測(cè)中勝過YOLOs

3D視覺工坊 ? 來源:3D視覺工坊 ? 2024-03-06 09:24 ? 次閱讀

這篇論文介紹了一種名為RT-DETR的實(shí)時(shí)檢測(cè)Transformer,是第一個(gè)實(shí)時(shí)端到端目標(biāo)檢測(cè)器。該方法通過設(shè)計(jì)高效的混合編碼器和IoU感知的查詢選擇,有效處理多尺度特征,并支持靈活調(diào)整推斷速度,無需重新訓(xùn)練。在COCO val2017數(shù)據(jù)集上,RT-DETR-L實(shí)現(xiàn)了53.0%的AP和114 FPS,RT-DETR-X實(shí)現(xiàn)了54.8%的AP和74 FPS,RT-DETR-R50實(shí)現(xiàn)了53.1%的AP和108 FPS,性能優(yōu)于同等規(guī)模的YOLO檢測(cè)器和DINO-DeformableDETR-R50模型。

f0a0d872-db48-11ee-a297-92fbcf53809c.png

讀者理解:

本文提出了一種新的實(shí)時(shí)端到端目標(biāo)檢測(cè)器RT-DETR,并通過詳細(xì)的分析和實(shí)驗(yàn)證明了其在速度和準(zhǔn)確性方面的優(yōu)勢(shì)。文章對(duì)NMS進(jìn)行了深入的分析,并指出了當(dāng)前實(shí)時(shí)檢測(cè)器中存在的問題,為提出新的解決方案提供了理論基礎(chǔ)。RT-DETR的設(shè)計(jì)理念和實(shí)驗(yàn)結(jié)果為實(shí)時(shí)目標(biāo)檢測(cè)領(lǐng)域的研究和應(yīng)用提供了新的思路和方法。整體來說,這篇文章對(duì)實(shí)時(shí)目標(biāo)檢測(cè)領(lǐng)域具有重要的學(xué)術(shù)和應(yīng)用價(jià)值。

1 引言

目標(biāo)檢測(cè)是一項(xiàng)重要的視覺任務(wù),涉及在圖像中識(shí)別和定位物體?,F(xiàn)代目標(biāo)檢測(cè)器有兩種典型架構(gòu):基于CNN和基于Transformer?;贑NN的檢測(cè)器架構(gòu)從最初的兩階段發(fā)展到單階段,并出現(xiàn)了基于錨點(diǎn)和基于無錨點(diǎn)的檢測(cè)范式。這些研究取得了顯著進(jìn)展?;赥ransformer的目標(biāo)檢測(cè)器(DETRs)自提出以來受到廣泛關(guān)注,因?yàn)樗烁鞣N手工制作的組件,如非最大抑制(NMS),實(shí)現(xiàn)了端到端的目標(biāo)檢測(cè)。實(shí)時(shí)目標(biāo)檢測(cè)是一個(gè)重要的研究領(lǐng)域,現(xiàn)有的實(shí)時(shí)檢測(cè)器通常采用基于CNN的架構(gòu),但需要NMS進(jìn)行后處理,導(dǎo)致推理速度延遲。

近年來,基于Transformer的檢測(cè)器取得了顯著進(jìn)展,但其高計(jì)算成本限制了實(shí)際應(yīng)用。為了解決這些問題,作者提出了實(shí)時(shí)檢測(cè)Transformer(RT-DETR),是第一個(gè)實(shí)時(shí)端到端目標(biāo)檢測(cè)器,不需要后處理,推理速度穩(wěn)定。RT-DETR在速度和準(zhǔn)確性上均優(yōu)于當(dāng)前最先進(jìn)的實(shí)時(shí)檢測(cè)器,成為新的SOTA。

f0ae1c4e-db48-11ee-a297-92fbcf53809c.png

2 探測(cè)器端到端速度

2.1 NMS的分析

本部分介紹了目標(biāo)檢測(cè)中常用的后處理算法非極大值抑制(NMS),用于消除檢測(cè)器輸出的重疊預(yù)測(cè)框。NMS需要兩個(gè)超參數(shù):分?jǐn)?shù)閾值和IoU閾值。作者通過實(shí)驗(yàn)驗(yàn)證了NMS對(duì)這兩個(gè)超參數(shù)的敏感性,并展示了NMS操作在不同超參數(shù)下的執(zhí)行時(shí)間。實(shí)驗(yàn)結(jié)果表明,NMS的執(zhí)行時(shí)間主要取決于輸入預(yù)測(cè)框的數(shù)量和超參數(shù)的選擇。此外,作者還介紹了實(shí)驗(yàn)中使用的模型(YOLOv5和YOLOv8)以及評(píng)估準(zhǔn)確性和執(zhí)行時(shí)間的方法。這些實(shí)驗(yàn)結(jié)果有助于更好地理解NMS在目標(biāo)檢測(cè)中的作用和影響。

2.2 端到端速度基準(zhǔn)

本部分介紹了建立了一個(gè)端到端速度測(cè)試基準(zhǔn),以公平比較各種實(shí)時(shí)檢測(cè)器的推理速度。選擇了COCO val2017作為默認(rèn)數(shù)據(jù)集,并使用了TensorRT的NMS后處理插件。通過測(cè)試基于錨點(diǎn)的檢測(cè)器(如YOLOv5和YOLOv7)以及無錨點(diǎn)檢測(cè)器(如PP-YOLOE、YOLOv6和YOLOv8)在T4 GPU上的端到端速度,發(fā)現(xiàn)無錨點(diǎn)檢測(cè)器在等效準(zhǔn)確性下優(yōu)于基于錨點(diǎn)的檢測(cè)器,因?yàn)榍罢叩暮筇幚頃r(shí)間明顯少于后者。這對(duì)于實(shí)時(shí)檢測(cè)器的后處理時(shí)間進(jìn)行了新的探討,為實(shí)時(shí)目標(biāo)檢測(cè)提供了重要的參考。

3 實(shí)時(shí)DETR

f0e2c278-db48-11ee-a297-92fbcf53809c.png

3.1

本部分介紹了提出的實(shí)時(shí)DETR(RT-DETR)的模型架構(gòu)。RT-DETR由骨干網(wǎng)絡(luò)、混合編碼器和Transformer解碼器組成,解碼器帶有輔助預(yù)測(cè)頭。模型利用骨干網(wǎng)絡(luò)最后三個(gè)階段的輸出特征作為編碼器的輸入,然后通過混合編碼器將多尺度特征轉(zhuǎn)換為圖像特征序列。接下來,使用IoU感知的查詢選擇從編碼器輸出序列中選擇一定數(shù)量的圖像特征作為解碼器的初始對(duì)象查詢。最后,解碼器利用輔助預(yù)測(cè)頭迭代優(yōu)化對(duì)象查詢,生成框和置信度分?jǐn)?shù)。這種架構(gòu)使得RT-DETR能夠?qū)崿F(xiàn)端到端的實(shí)時(shí)目標(biāo)檢測(cè)。

f0f37bd6-db48-11ee-a297-92fbcf53809c.png

3.2 高效混合編碼器

本部分詳細(xì)介紹了實(shí)時(shí)DETR中的高效混合編碼器的設(shè)計(jì)和優(yōu)化。作者通過分析多尺度Transformer編碼器中的計(jì)算冗余,提出了一種新穎的編碼器結(jié)構(gòu)。該編碼器包括兩個(gè)模塊,即基于注意力的內(nèi)部尺度特征交互(AIFI)模塊和基于CNN的跨尺度特征融合模塊(CCFM)。AIFI模塊在高級(jí)特征上執(zhí)行內(nèi)部尺度交互,以捕捉圖像中概念實(shí)體之間的關(guān)系。而CCFM模塊則通過融合塊實(shí)現(xiàn)跨尺度特征融合,進(jìn)一步優(yōu)化了編碼器性能。通過實(shí)驗(yàn)驗(yàn)證,這種編碼器結(jié)構(gòu)顯著降低了計(jì)算成本,同時(shí)提高了模型的準(zhǔn)確性和實(shí)時(shí)性,為實(shí)時(shí)目標(biāo)檢測(cè)提供了重要的技術(shù)支持。

3.3 基于IoU的查詢選擇

本部分介紹了IoU感知的查詢選擇方法,用于在DETR模型中選擇高質(zhì)量的編碼器特征作為對(duì)象查詢的初始化。傳統(tǒng)的查詢選擇方法可能導(dǎo)致選擇具有高分類分?jǐn)?shù)但低IoU分?jǐn)?shù)的特征,從而降低了檢測(cè)器的性能。為了解決這個(gè)問題,提出了IoU感知的查詢選擇,通過在訓(xùn)練期間約束模型對(duì)具有高IoU分?jǐn)?shù)的特征產(chǎn)生高分類分?jǐn)?shù),并對(duì)具有低IoU分?jǐn)?shù)的特征產(chǎn)生低分類分?jǐn)?shù)。實(shí)驗(yàn)結(jié)果表明,這種方法可以提供更準(zhǔn)確的分類和定位結(jié)果,從而提高了檢測(cè)器的準(zhǔn)確性。

3.4 縮放RT-DETR

本部分介紹了縮放的RT-DETR,通過將ResNet骨干網(wǎng)絡(luò)替換為HGNetv2來提供可擴(kuò)展的版本。我們使用深度倍增器和寬度倍增器一起縮放骨干網(wǎng)絡(luò)和混合編碼器。因此,我們得到了兩個(gè)具有不同參數(shù)數(shù)量和FPS的RT-DETR版本。對(duì)于我們的混合編碼器,我們通過調(diào)整CCFM中RepBlocks的數(shù)量和編碼器的嵌入維度來控制深度倍增器和寬度倍增器。值得注意的是,我們提出的不同規(guī)模的RT-DETR保持了相同的解碼器,這有助于使用高精度大型DETR模型對(duì)輕量級(jí)檢測(cè)器進(jìn)行蒸餾。

f100dcae-db48-11ee-a297-92fbcf53809c.png

4 實(shí)驗(yàn)

該部分介紹了實(shí)驗(yàn)設(shè)置和結(jié)果。實(shí)驗(yàn)在Microsoft COCO數(shù)據(jù)集上進(jìn)行,使用COCO train2017進(jìn)行訓(xùn)練,使用COCO val2017進(jìn)行驗(yàn)證。使用單尺度圖像作為輸入,采用標(biāo)準(zhǔn)的COCO AP指標(biāo)評(píng)估性能。使用在ImageNet上預(yù)訓(xùn)練的ResNet和HGNetv2作為骨干網(wǎng)絡(luò),AIFI由1個(gè)transformer層組成,CCMF中的融合塊默認(rèn)由3個(gè)RepBlocks組成。在IoU感知的查詢選擇中,選擇前300個(gè)編碼器特征來初始化解碼器的對(duì)象查詢。訓(xùn)練策略和解碼器的超參數(shù)幾乎遵循DINO。使用AdamW優(yōu)化器進(jìn)行訓(xùn)練,基礎(chǔ)學(xué)習(xí)率為0.0001,權(quán)重衰減為0.0001,全局梯度剪裁范數(shù)為5。實(shí)驗(yàn)結(jié)果表明,使用IoU感知的查詢選擇可以提高檢測(cè)器的準(zhǔn)確性。

f12342c6-db48-11ee-a297-92fbcf53809c.pngf1303d6e-db48-11ee-a297-92fbcf53809c.png

總結(jié)

在本文中,提出了RT-DETR,據(jù)作者所知是第一個(gè)實(shí)時(shí)端到端檢測(cè)器。作者首先對(duì)NMS進(jìn)行了詳細(xì)分析,并建立了一個(gè)端到端速度基準(zhǔn),驗(yàn)證了當(dāng)前實(shí)時(shí)檢測(cè)器的推理速度受到NMS延遲的事實(shí)。作者還從NMS的分析中得出結(jié)論,無錨點(diǎn)檢測(cè)器在相同準(zhǔn)確性下優(yōu)于基于錨點(diǎn)的檢測(cè)器。為了避免NMS造成的延遲,設(shè)計(jì)了一個(gè)實(shí)時(shí)端到端檢測(cè)器,包括兩個(gè)關(guān)鍵改進(jìn)組件:一個(gè)能夠高效處理多尺度特征的混合編碼器和提高對(duì)象查詢初始化的IoU感知查詢選擇。大量實(shí)驗(yàn)證明,與其他實(shí)時(shí)檢測(cè)器和相似大小的端到端檢測(cè)器相比,RT-DETR在速度和準(zhǔn)確性上均達(dá)到了最先進(jìn)的水平。此外,提出的檢測(cè)器支持通過使用不同的解碼器層靈活調(diào)整推理速度,無需重新訓(xùn)練,這有利于實(shí)時(shí)目標(biāo)檢測(cè)器的實(shí)際應(yīng)用。




審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 檢測(cè)器
    +關(guān)注

    關(guān)注

    1

    文章

    887

    瀏覽量

    48451
  • 編解碼器
    +關(guān)注

    關(guān)注

    0

    文章

    272

    瀏覽量

    24665
  • FPS
    FPS
    +關(guān)注

    關(guān)注

    0

    文章

    35

    瀏覽量

    12171
  • NMS
    NMS
    +關(guān)注

    關(guān)注

    0

    文章

    9

    瀏覽量

    6121

原文標(biāo)題:CVPR'24 | 百度開源DETRs在實(shí)時(shí)目標(biāo)檢測(cè)中勝過YOLOs

文章出處:【微信號(hào):3D視覺工坊,微信公眾號(hào):3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    巧借SEO查詢工具 優(yōu)化百度排名技術(shù)教程

    很多時(shí)候,當(dāng)我們想優(yōu)化一個(gè)關(guān)鍵詞百度排名的位置時(shí),我們必須先清楚:目標(biāo)關(guān)鍵詞,現(xiàn)在的百度排名是多少位?打個(gè)比方,當(dāng)你想優(yōu)化“查詢工具”這
    發(fā)表于 05-08 19:31

    百度智能手環(huán)方案全開源包括硬件原理圖、BOM清單和源代碼

    百度剛剛公布了一套智能手環(huán)的開源方案,是一整套的參考設(shè)計(jì),包括硬件原理圖、BOM清單和源代碼。據(jù)百度官方說明百度云智能手環(huán)的開源方案是基于A
    發(fā)表于 08-25 22:28

    百度總裁:百度人工智能領(lǐng)域已有重大突破

      隨著阿法狗大戰(zhàn)李世石,人工智能引發(fā)越來越多的關(guān)注。百度總裁張亞勤28日表示,百度長(zhǎng)期堅(jiān)持技術(shù)創(chuàng)新,2015年研發(fā)投入超過100億元,目前人工智能領(lǐng)域已有重大突破?! 垇喦?b class='flag-5'>在天津
    發(fā)表于 07-01 15:22

    百度智能手環(huán)方開源項(xiàng)目設(shè)計(jì)方案

    百度云智能手環(huán)的開源方案是基于Apache2.0開源協(xié)議,開源內(nèi)容包括硬件設(shè)計(jì)文檔,原理圖、ROM、通訊協(xié)議在內(nèi)的全套方案,同時(shí)開放APP和云服務(wù)的免費(fèi)使用。這套方案不僅能實(shí)現(xiàn)運(yùn)動(dòng)記錄
    發(fā)表于 08-07 08:32

    百度宣布量子計(jì)算研究所成立

    段潤(rùn)堯?qū)用?b class='flag-5'>百度深感榮幸,他表示,將全力推動(dòng)”百度量子、量子百度“的研究規(guī)劃,計(jì)劃五年時(shí)間里百度組建世界一流的量子計(jì)算研究所,并在之后五年
    發(fā)表于 03-09 11:14 ?1213次閱讀

    百度大數(shù)據(jù)怎么使用

    百度大數(shù)據(jù)+連接垂直行業(yè),深挖用戶價(jià)值精準(zhǔn)拓展客戶,高效經(jīng)營(yíng)管理百度大數(shù)據(jù)+,是百度開放的新商業(yè)“能源庫”,旨在面向行業(yè)關(guān)鍵訴求,開放百度大數(shù)據(jù)核心能力,幫助企業(yè)先人一步創(chuàng)造新商業(yè)機(jī)會(huì)
    的頭像 發(fā)表于 12-18 16:11 ?9846次閱讀

    百度投資開源中國(guó)的意義是什么

    開源中國(guó)最新獲得百度戰(zhàn)略投資。百度為什么投資開源中國(guó)?意義何在?其實(shí)不只是百度,科技巨頭都在加緊建設(shè)開源
    的頭像 發(fā)表于 12-09 16:30 ?3336次閱讀

    百度超級(jí)鏈金融行業(yè)的應(yīng)用介紹

    區(qū)塊鏈金融行業(yè)的科技化升級(jí)扮演舉足輕重的作用?;趨^(qū)塊鏈技術(shù)防篡改、可追溯等特性,百度超級(jí)鏈聯(lián)合信銀行將其首先落地于百度收銀臺(tái)商戶。
    發(fā)表于 01-17 11:31 ?1268次閱讀

    百度一步到位解決復(fù)工難題,可多人實(shí)時(shí)體溫檢測(cè)

    近日,百度基于領(lǐng)先的復(fù)雜場(chǎng)景多人臉檢測(cè)、戴口罩人臉識(shí)別、多人實(shí)時(shí)體溫檢測(cè)等AI技術(shù),打造出企業(yè)AI入場(chǎng)解決方案,幫助企業(yè)構(gòu)筑防疫屏障,支持疫情防控期間高效、安全、有序的復(fù)工入場(chǎng)。
    的頭像 發(fā)表于 03-03 16:29 ?2890次閱讀

    百度徘徊盯緊AI,AI真的能夠撐起百度的未來嗎?

    10月11日晚間,百度宣布即日起,北京全面開放百度自動(dòng)駕駛出租車(Robotaxi)服務(wù)。北京成為繼長(zhǎng)沙、滄州后,該項(xiàng)服務(wù)常態(tài)化的第三個(gè)城市。此后多日,不少人專門跑到亦莊、海淀、試駕試乘百度
    的頭像 發(fā)表于 10-16 16:41 ?2593次閱讀

    百度王海峰:自研云端AI通用芯片百度昆侖1已實(shí)現(xiàn)量產(chǎn)

    12月17日消息,“ABC SUMMIT 2020百度云智峰會(huì)”上,百度CTO王海峰透露,百度自主研發(fā)了云端AI通用芯片—百度昆侖,其中
    的頭像 發(fā)表于 12-18 09:59 ?2896次閱讀

    百度戰(zhàn)略贊助 GOTC 2021,詳解最活躍的自動(dòng)駕駛開源平臺(tái)Apollo

    項(xiàng)目、擁有 10000+ 社區(qū)貢獻(xiàn)者、30萬+ GitHub Star,多個(gè)項(xiàng)目已經(jīng)廣泛應(yīng)用于實(shí)際業(yè)務(wù)生產(chǎn)。 值得注意的是,百度開源版圖之下,Apollo 自動(dòng)駕駛平臺(tái)已開源運(yùn)營(yíng)
    發(fā)表于 08-05 15:37 ?989次閱讀
    <b class='flag-5'>百度</b>戰(zhàn)略贊助 GOTC 2021,詳解最活躍的自動(dòng)駕駛<b class='flag-5'>開源</b>平臺(tái)Apollo

    百度Create AI開發(fā)者大會(huì):百度大腦位居中國(guó)市場(chǎng)第一

    百度Create AI開發(fā)者大會(huì):2021百度AI開發(fā)者大會(huì)上,百度推出了數(shù)字人平臺(tái)以及透露了百度AI技術(shù)和業(yè)務(wù)發(fā)展等,
    的頭像 發(fā)表于 12-28 11:33 ?2424次閱讀

    百度AI開發(fā)者大會(huì)有什么內(nèi)容

    今年12月27日-29日,百度AI開發(fā)者大會(huì)舉行,百度Create大會(huì)是百度每年發(fā)布最新技術(shù)進(jìn)展、以開發(fā)者為核心、連接全球合作伙伴和科技愛好者的科技盛會(huì)。那么
    的頭像 發(fā)表于 12-29 11:32 ?2011次閱讀

    百度文心大模型將升級(jí)并開源

    提供更加高效、智能的服務(wù)。與此同時(shí),百度還明確了該系列模型的開源時(shí)間,定于6月30日正式對(duì)外開放源代碼。這一舉措將有助于推動(dòng)AI技術(shù)的普及和發(fā)展,為更多開發(fā)者提供學(xué)習(xí)和創(chuàng)新的機(jī)會(huì)。 值得一提的是,百度
    的頭像 發(fā)表于 02-14 14:25 ?400次閱讀

    電子發(fā)燒友

    中國(guó)電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會(huì)員交流學(xué)習(xí)
    • 獲取您個(gè)性化的科技前沿技術(shù)信息
    • 參加活動(dòng)獲取豐厚的禮品