0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

百度開源DETRs在實時目標檢測中勝過YOLOs

3D視覺工坊 ? 來源:3D視覺工坊 ? 2024-03-06 09:24 ? 次閱讀

這篇論文介紹了一種名為RT-DETR的實時檢測Transformer,是第一個實時端到端目標檢測器。該方法通過設計高效的混合編碼器和IoU感知的查詢選擇,有效處理多尺度特征,并支持靈活調整推斷速度,無需重新訓練。在COCO val2017數據集上,RT-DETR-L實現了53.0%的AP和114 FPS,RT-DETR-X實現了54.8%的AP和74 FPS,RT-DETR-R50實現了53.1%的AP和108 FPS,性能優(yōu)于同等規(guī)模的YOLO檢測器和DINO-DeformableDETR-R50模型。

f0a0d872-db48-11ee-a297-92fbcf53809c.png

讀者理解:

本文提出了一種新的實時端到端目標檢測器RT-DETR,并通過詳細的分析和實驗證明了其在速度和準確性方面的優(yōu)勢。文章對NMS進行了深入的分析,并指出了當前實時檢測器中存在的問題,為提出新的解決方案提供了理論基礎。RT-DETR的設計理念和實驗結果為實時目標檢測領域的研究和應用提供了新的思路和方法。整體來說,這篇文章對實時目標檢測領域具有重要的學術和應用價值。

1 引言

目標檢測是一項重要的視覺任務,涉及在圖像中識別和定位物體?,F代目標檢測器有兩種典型架構:基于CNN和基于Transformer?;贑NN的檢測器架構從最初的兩階段發(fā)展到單階段,并出現了基于錨點和基于無錨點的檢測范式。這些研究取得了顯著進展?;赥ransformer的目標檢測器(DETRs)自提出以來受到廣泛關注,因為它消除了各種手工制作的組件,如非最大抑制(NMS),實現了端到端的目標檢測。實時目標檢測是一個重要的研究領域,現有的實時檢測器通常采用基于CNN的架構,但需要NMS進行后處理,導致推理速度延遲。

近年來,基于Transformer的檢測器取得了顯著進展,但其高計算成本限制了實際應用。為了解決這些問題,作者提出了實時檢測Transformer(RT-DETR),是第一個實時端到端目標檢測器,不需要后處理,推理速度穩(wěn)定。RT-DETR在速度和準確性上均優(yōu)于當前最先進的實時檢測器,成為新的SOTA。

f0ae1c4e-db48-11ee-a297-92fbcf53809c.png

2 探測器端到端速度

2.1 NMS的分析

本部分介紹了目標檢測中常用的后處理算法非極大值抑制(NMS),用于消除檢測器輸出的重疊預測框。NMS需要兩個超參數:分數閾值和IoU閾值。作者通過實驗驗證了NMS對這兩個超參數的敏感性,并展示了NMS操作在不同超參數下的執(zhí)行時間。實驗結果表明,NMS的執(zhí)行時間主要取決于輸入預測框的數量和超參數的選擇。此外,作者還介紹了實驗中使用的模型(YOLOv5和YOLOv8)以及評估準確性和執(zhí)行時間的方法。這些實驗結果有助于更好地理解NMS在目標檢測中的作用和影響。

2.2 端到端速度基準

本部分介紹了建立了一個端到端速度測試基準,以公平比較各種實時檢測器的推理速度。選擇了COCO val2017作為默認數據集,并使用了TensorRT的NMS后處理插件。通過測試基于錨點的檢測器(如YOLOv5和YOLOv7)以及無錨點檢測器(如PP-YOLOE、YOLOv6和YOLOv8)在T4 GPU上的端到端速度,發(fā)現無錨點檢測器在等效準確性下優(yōu)于基于錨點的檢測器,因為前者的后處理時間明顯少于后者。這對于實時檢測器的后處理時間進行了新的探討,為實時目標檢測提供了重要的參考。

3 實時DETR

f0e2c278-db48-11ee-a297-92fbcf53809c.png

3.1

本部分介紹了提出的實時DETR(RT-DETR)的模型架構。RT-DETR由骨干網絡、混合編碼器和Transformer解碼器組成,解碼器帶有輔助預測頭。模型利用骨干網絡最后三個階段的輸出特征作為編碼器的輸入,然后通過混合編碼器將多尺度特征轉換為圖像特征序列。接下來,使用IoU感知的查詢選擇從編碼器輸出序列中選擇一定數量的圖像特征作為解碼器的初始對象查詢。最后,解碼器利用輔助預測頭迭代優(yōu)化對象查詢,生成框和置信度分數。這種架構使得RT-DETR能夠實現端到端的實時目標檢測。

f0f37bd6-db48-11ee-a297-92fbcf53809c.png

3.2 高效混合編碼器

本部分詳細介紹了實時DETR中的高效混合編碼器的設計和優(yōu)化。作者通過分析多尺度Transformer編碼器中的計算冗余,提出了一種新穎的編碼器結構。該編碼器包括兩個模塊,即基于注意力的內部尺度特征交互(AIFI)模塊和基于CNN的跨尺度特征融合模塊(CCFM)。AIFI模塊在高級特征上執(zhí)行內部尺度交互,以捕捉圖像中概念實體之間的關系。而CCFM模塊則通過融合塊實現跨尺度特征融合,進一步優(yōu)化了編碼器性能。通過實驗驗證,這種編碼器結構顯著降低了計算成本,同時提高了模型的準確性和實時性,為實時目標檢測提供了重要的技術支持。

3.3 基于IoU的查詢選擇

本部分介紹了IoU感知的查詢選擇方法,用于在DETR模型中選擇高質量的編碼器特征作為對象查詢的初始化。傳統(tǒng)的查詢選擇方法可能導致選擇具有高分類分數但低IoU分數的特征,從而降低了檢測器的性能。為了解決這個問題,提出了IoU感知的查詢選擇,通過在訓練期間約束模型對具有高IoU分數的特征產生高分類分數,并對具有低IoU分數的特征產生低分類分數。實驗結果表明,這種方法可以提供更準確的分類和定位結果,從而提高了檢測器的準確性。

3.4 縮放RT-DETR

本部分介紹了縮放的RT-DETR,通過將ResNet骨干網絡替換為HGNetv2來提供可擴展的版本。我們使用深度倍增器和寬度倍增器一起縮放骨干網絡和混合編碼器。因此,我們得到了兩個具有不同參數數量和FPS的RT-DETR版本。對于我們的混合編碼器,我們通過調整CCFM中RepBlocks的數量和編碼器的嵌入維度來控制深度倍增器和寬度倍增器。值得注意的是,我們提出的不同規(guī)模的RT-DETR保持了相同的解碼器,這有助于使用高精度大型DETR模型對輕量級檢測器進行蒸餾。

f100dcae-db48-11ee-a297-92fbcf53809c.png

4 實驗

該部分介紹了實驗設置和結果。實驗在Microsoft COCO數據集上進行,使用COCO train2017進行訓練,使用COCO val2017進行驗證。使用單尺度圖像作為輸入,采用標準的COCO AP指標評估性能。使用在ImageNet上預訓練的ResNet和HGNetv2作為骨干網絡,AIFI由1個transformer層組成,CCMF中的融合塊默認由3個RepBlocks組成。在IoU感知的查詢選擇中,選擇前300個編碼器特征來初始化解碼器的對象查詢。訓練策略和解碼器的超參數幾乎遵循DINO。使用AdamW優(yōu)化器進行訓練,基礎學習率為0.0001,權重衰減為0.0001,全局梯度剪裁范數為5。實驗結果表明,使用IoU感知的查詢選擇可以提高檢測器的準確性。

f12342c6-db48-11ee-a297-92fbcf53809c.pngf1303d6e-db48-11ee-a297-92fbcf53809c.png

總結

在本文中,提出了RT-DETR,據作者所知是第一個實時端到端檢測器。作者首先對NMS進行了詳細分析,并建立了一個端到端速度基準,驗證了當前實時檢測器的推理速度受到NMS延遲的事實。作者還從NMS的分析中得出結論,無錨點檢測器在相同準確性下優(yōu)于基于錨點的檢測器。為了避免NMS造成的延遲,設計了一個實時端到端檢測器,包括兩個關鍵改進組件:一個能夠高效處理多尺度特征的混合編碼器和提高對象查詢初始化的IoU感知查詢選擇。大量實驗證明,與其他實時檢測器和相似大小的端到端檢測器相比,RT-DETR在速度和準確性上均達到了最先進的水平。此外,提出的檢測器支持通過使用不同的解碼器層靈活調整推理速度,無需重新訓練,這有利于實時目標檢測器的實際應用。




審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • 檢測器
    +關注

    關注

    1

    文章

    864

    瀏覽量

    47687
  • 編解碼器
    +關注

    關注

    0

    文章

    258

    瀏覽量

    24235
  • FPS
    FPS
    +關注

    關注

    0

    文章

    35

    瀏覽量

    11996
  • NMS
    NMS
    +關注

    關注

    0

    文章

    9

    瀏覽量

    6034

原文標題:CVPR'24 | 百度開源DETRs在實時目標檢測中勝過YOLOs

文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    巧借SEO查詢工具 優(yōu)化百度排名技術教程

    很多時候,當我們想優(yōu)化一個關鍵詞百度排名的位置時,我們必須先清楚:目標關鍵詞,現在的百度排名是多少位?打個比方,當你想優(yōu)化“查詢工具”這
    發(fā)表于 05-08 19:31

    百度智能手環(huán)方案全開源包括硬件原理圖、BOM清單和源代碼

    百度剛剛公布了一套智能手環(huán)的開源方案,是一整套的參考設計,包括硬件原理圖、BOM清單和源代碼。據百度官方說明百度云智能手環(huán)的開源方案是基于A
    發(fā)表于 08-25 22:28

    百度總裁:百度人工智能領域已有重大突破

      隨著阿法狗大戰(zhàn)李世石,人工智能引發(fā)越來越多的關注。百度總裁張亞勤28日表示,百度長期堅持技術創(chuàng)新,2015年研發(fā)投入超過100億元,目前人工智能領域已有重大突破?! 垇喦?b class='flag-5'>在天津
    發(fā)表于 07-01 15:22

    百度智能手環(huán)方開源項目設計方案

    百度云智能手環(huán)的開源方案是基于Apache2.0開源協議,開源內容包括硬件設計文檔,原理圖、ROM、通訊協議在內的全套方案,同時開放APP和云服務的免費使用。這套方案不僅能實現運動記錄
    發(fā)表于 08-07 08:32

    百度宣布量子計算研究所成立

    段潤堯對加盟百度深感榮幸,他表示,將全力推動”百度量子、量子百度“的研究規(guī)劃,計劃五年時間里百度組建世界一流的量子計算研究所,并在之后五年
    發(fā)表于 03-09 11:14 ?1125次閱讀

    百度大數據怎么使用

    百度大數據+連接垂直行業(yè),深挖用戶價值精準拓展客戶,高效經營管理百度大數據+,是百度開放的新商業(yè)“能源庫”,旨在面向行業(yè)關鍵訴求,開放百度大數據核心能力,幫助企業(yè)先人一步創(chuàng)造新商業(yè)機會
    的頭像 發(fā)表于 12-18 16:11 ?9558次閱讀

    百度投資開源中國的意義是什么

    開源中國最新獲得百度戰(zhàn)略投資。百度為什么投資開源中國?意義何在?其實不只是百度,科技巨頭都在加緊建設開源
    的頭像 發(fā)表于 12-09 16:30 ?3155次閱讀

    百度超級鏈金融行業(yè)的應用介紹

    區(qū)塊鏈金融行業(yè)的科技化升級扮演舉足輕重的作用?;趨^(qū)塊鏈技術防篡改、可追溯等特性,百度超級鏈聯合信銀行將其首先落地于百度收銀臺商戶。
    發(fā)表于 01-17 11:31 ?1198次閱讀

    百度一步到位解決復工難題,可多人實時體溫檢測

    近日,百度基于領先的復雜場景多人臉檢測、戴口罩人臉識別、多人實時體溫檢測等AI技術,打造出企業(yè)AI入場解決方案,幫助企業(yè)構筑防疫屏障,支持疫情防控期間高效、安全、有序的復工入場。
    的頭像 發(fā)表于 03-03 16:29 ?2784次閱讀

    百度徘徊盯緊AI,AI真的能夠撐起百度的未來嗎?

    10月11日晚間,百度宣布即日起,北京全面開放百度自動駕駛出租車(Robotaxi)服務。北京成為繼長沙、滄州后,該項服務常態(tài)化的第三個城市。此后多日,不少人專門跑到亦莊、海淀、試駕試乘百度
    的頭像 發(fā)表于 10-16 16:41 ?2354次閱讀

    百度王海峰:自研云端AI通用芯片百度昆侖1已實現量產

    12月17日消息,“ABC SUMMIT 2020百度云智峰會”上,百度CTO王海峰透露,百度自主研發(fā)了云端AI通用芯片—百度昆侖,其中
    的頭像 發(fā)表于 12-18 09:59 ?2703次閱讀

    百度股價大漲的底層邏輯

    從2018年5月陸奇出走百度,至今過去33個月,百度股價走出一個U型。2020年3月,百度市值一徘徊至300億美元左右的低谷,而在2月9
    的頭像 發(fā)表于 02-24 11:42 ?2645次閱讀

    百度戰(zhàn)略贊助 GOTC 2021,詳解最活躍的自動駕駛開源平臺Apollo

    項目、擁有 10000+ 社區(qū)貢獻者、30萬+ GitHub Star,多個項目已經廣泛應用于實際業(yè)務生產。 值得注意的是,百度開源版圖之下,Apollo 自動駕駛平臺已開源運營
    發(fā)表于 08-05 15:37 ?866次閱讀
    <b class='flag-5'>百度</b>戰(zhàn)略贊助 GOTC 2021,詳解最活躍的自動駕駛<b class='flag-5'>開源</b>平臺Apollo

    百度Create AI開發(fā)者大會:百度大腦位居中國市場第一

    百度Create AI開發(fā)者大會:2021百度AI開發(fā)者大會上,百度推出了數字人平臺以及透露了百度AI技術和業(yè)務發(fā)展等,
    的頭像 發(fā)表于 12-28 11:33 ?2133次閱讀

    百度AI開發(fā)者大會有什么內容

    今年12月27日-29日,百度AI開發(fā)者大會舉行,百度Create大會是百度每年發(fā)布最新技術進展、以開發(fā)者為核心、連接全球合作伙伴和科技愛好者的科技盛會。那么
    的頭像 發(fā)表于 12-29 11:32 ?1858次閱讀