欧美一级夜夜爽wWW,人妻系列无码专区在线视频,天天天天香蕉线视频国产

這篇論文介紹了一種名為RT-DETR的實(shí)時(shí)檢測(cè)Transformer，是第一個(gè)實(shí)時(shí)端到端目標(biāo)檢測(cè)器。該方法通過設(shè)計(jì)高效的混合編碼器和IoU感知的查詢選擇，有效處理多尺度特征，并支持靈活調(diào)整推斷速度，無需重新訓(xùn)練。在COCO val2017數(shù)據(jù)集上，RT-DETR-L實(shí)現(xiàn)了53.0%的AP和114 FPS，RT-DETR-X實(shí)現(xiàn)了54.8%的AP和74 FPS，RT-DETR-R50實(shí)現(xiàn)了53.1%的AP和108 FPS，性能優(yōu)于同等規(guī)模的YOLO檢測(cè)器和DINO-DeformableDETR-R50模型。

讀者理解：

本文提出了一種新的實(shí)時(shí)端到端目標(biāo)檢測(cè)器RT-DETR，并通過詳細(xì)的分析和實(shí)驗(yàn)證明了其在速度和準(zhǔn)確性方面的優(yōu)勢(shì)。文章對(duì)NMS進(jìn)行了深入的分析，并指出了當(dāng)前實(shí)時(shí)檢測(cè)器中存在的問題，為提出新的解決方案提供了理論基礎(chǔ)。RT-DETR的設(shè)計(jì)理念和實(shí)驗(yàn)結(jié)果為實(shí)時(shí)目標(biāo)檢測(cè)領(lǐng)域的研究和應(yīng)用提供了新的思路和方法。整體來說，這篇文章對(duì)實(shí)時(shí)目標(biāo)檢測(cè)領(lǐng)域具有重要的學(xué)術(shù)和應(yīng)用價(jià)值。

1 引言

目標(biāo)檢測(cè)是一項(xiàng)重要的視覺任務(wù)，涉及在圖像中識(shí)別和定位物體?，F(xiàn)代目標(biāo)檢測(cè)器有兩種典型架構(gòu)：基于CNN和基于Transformer?；贑NN的檢測(cè)器架構(gòu)從最初的兩階段發(fā)展到單階段，并出現(xiàn)了基于錨點(diǎn)和基于無錨點(diǎn)的檢測(cè)范式。這些研究取得了顯著進(jìn)展?；赥ransformer的目標(biāo)檢測(cè)器（DETRs）自提出以來受到廣泛關(guān)注，因?yàn)樗烁鞣N手工制作的組件，如非最大抑制（NMS），實(shí)現(xiàn)了端到端的目標(biāo)檢測(cè)。實(shí)時(shí)目標(biāo)檢測(cè)是一個(gè)重要的研究領(lǐng)域，現(xiàn)有的實(shí)時(shí)檢測(cè)器通常采用基于CNN的架構(gòu)，但需要NMS進(jìn)行后處理，導(dǎo)致推理速度延遲。

近年來，基于Transformer的檢測(cè)器取得了顯著進(jìn)展，但其高計(jì)算成本限制了實(shí)際應(yīng)用。為了解決這些問題，作者提出了實(shí)時(shí)檢測(cè)Transformer（RT-DETR），是第一個(gè)實(shí)時(shí)端到端目標(biāo)檢測(cè)器，不需要后處理，推理速度穩(wěn)定。RT-DETR在速度和準(zhǔn)確性上均優(yōu)于當(dāng)前最先進(jìn)的實(shí)時(shí)檢測(cè)器，成為新的SOTA。

2 探測(cè)器端到端速度

2.1 NMS的分析

本部分介紹了目標(biāo)檢測(cè)中常用的后處理算法非極大值抑制（NMS），用于消除檢測(cè)器輸出的重疊預(yù)測(cè)框。NMS需要兩個(gè)超參數(shù)：分?jǐn)?shù)閾值和IoU閾值。作者通過實(shí)驗(yàn)驗(yàn)證了NMS對(duì)這兩個(gè)超參數(shù)的敏感性，并展示了NMS操作在不同超參數(shù)下的執(zhí)行時(shí)間。實(shí)驗(yàn)結(jié)果表明，NMS的執(zhí)行時(shí)間主要取決于輸入預(yù)測(cè)框的數(shù)量和超參數(shù)的選擇。此外，作者還介紹了實(shí)驗(yàn)中使用的模型（YOLOv5和YOLOv8）以及評(píng)估準(zhǔn)確性和執(zhí)行時(shí)間的方法。這些實(shí)驗(yàn)結(jié)果有助于更好地理解NMS在目標(biāo)檢測(cè)中的作用和影響。

2.2 端到端速度基準(zhǔn)

本部分介紹了建立了一個(gè)端到端速度測(cè)試基準(zhǔn)，以公平比較各種實(shí)時(shí)檢測(cè)器的推理速度。選擇了COCO val2017作為默認(rèn)數(shù)據(jù)集，并使用了TensorRT的NMS后處理插件。通過測(cè)試基于錨點(diǎn)的檢測(cè)器（如YOLOv5和YOLOv7）以及無錨點(diǎn)檢測(cè)器（如PP-YOLOE、YOLOv6和YOLOv8）在T4 GPU上的端到端速度，發(fā)現(xiàn)無錨點(diǎn)檢測(cè)器在等效準(zhǔn)確性下優(yōu)于基于錨點(diǎn)的檢測(cè)器，因?yàn)榍罢叩暮筇幚頃r(shí)間明顯少于后者。這對(duì)于實(shí)時(shí)檢測(cè)器的后處理時(shí)間進(jìn)行了新的探討，為實(shí)時(shí)目標(biāo)檢測(cè)提供了重要的參考。

3 實(shí)時(shí)DETR

3.1

本部分介紹了提出的實(shí)時(shí)DETR（RT-DETR）的模型架構(gòu)。RT-DETR由骨干網(wǎng)絡(luò)、混合編碼器和Transformer解碼器組成，解碼器帶有輔助預(yù)測(cè)頭。模型利用骨干網(wǎng)絡(luò)最后三個(gè)階段的輸出特征作為編碼器的輸入，然后通過混合編碼器將多尺度特征轉(zhuǎn)換為圖像特征序列。接下來，使用IoU感知的查詢選擇從編碼器輸出序列中選擇一定數(shù)量的圖像特征作為解碼器的初始對(duì)象查詢。最后，解碼器利用輔助預(yù)測(cè)頭迭代優(yōu)化對(duì)象查詢，生成框和置信度分?jǐn)?shù)。這種架構(gòu)使得RT-DETR能夠?qū)崿F(xiàn)端到端的實(shí)時(shí)目標(biāo)檢測(cè)。

3.2 高效混合編碼器

本部分詳細(xì)介紹了實(shí)時(shí)DETR中的高效混合編碼器的設(shè)計(jì)和優(yōu)化。作者通過分析多尺度Transformer編碼器中的計(jì)算冗余，提出了一種新穎的編碼器結(jié)構(gòu)。該編碼器包括兩個(gè)模塊，即基于注意力的內(nèi)部尺度特征交互（AIFI）模塊和基于CNN的跨尺度特征融合模塊（CCFM）。AIFI模塊在高級(jí)特征上執(zhí)行內(nèi)部尺度交互，以捕捉圖像中概念實(shí)體之間的關(guān)系。而CCFM模塊則通過融合塊實(shí)現(xiàn)跨尺度特征融合，進(jìn)一步優(yōu)化了編碼器性能。通過實(shí)驗(yàn)驗(yàn)證，這種編碼器結(jié)構(gòu)顯著降低了計(jì)算成本，同時(shí)提高了模型的準(zhǔn)確性和實(shí)時(shí)性，為實(shí)時(shí)目標(biāo)檢測(cè)提供了重要的技術(shù)支持。

3.3 基于IoU的查詢選擇

本部分介紹了IoU感知的查詢選擇方法，用于在DETR模型中選擇高質(zhì)量的編碼器特征作為對(duì)象查詢的初始化。傳統(tǒng)的查詢選擇方法可能導(dǎo)致選擇具有高分類分?jǐn)?shù)但低IoU分?jǐn)?shù)的特征，從而降低了檢測(cè)器的性能。為了解決這個(gè)問題，提出了IoU感知的查詢選擇，通過在訓(xùn)練期間約束模型對(duì)具有高IoU分?jǐn)?shù)的特征產(chǎn)生高分類分?jǐn)?shù)，并對(duì)具有低IoU分?jǐn)?shù)的特征產(chǎn)生低分類分?jǐn)?shù)。實(shí)驗(yàn)結(jié)果表明，這種方法可以提供更準(zhǔn)確的分類和定位結(jié)果，從而提高了檢測(cè)器的準(zhǔn)確性。

3.4 縮放RT-DETR

本部分介紹了縮放的RT-DETR，通過將ResNet骨干網(wǎng)絡(luò)替換為HGNetv2來提供可擴(kuò)展的版本。我們使用深度倍增器和寬度倍增器一起縮放骨干網(wǎng)絡(luò)和混合編碼器。因此，我們得到了兩個(gè)具有不同參數(shù)數(shù)量和FPS的RT-DETR版本。對(duì)于我們的混合編碼器，我們通過調(diào)整CCFM中RepBlocks的數(shù)量和編碼器的嵌入維度來控制深度倍增器和寬度倍增器。值得注意的是，我們提出的不同規(guī)模的RT-DETR保持了相同的解碼器，這有助于使用高精度大型DETR模型對(duì)輕量級(jí)檢測(cè)器進(jìn)行蒸餾。

4 實(shí)驗(yàn)

該部分介紹了實(shí)驗(yàn)設(shè)置和結(jié)果。實(shí)驗(yàn)在Microsoft COCO數(shù)據(jù)集上進(jìn)行，使用COCO train2017進(jìn)行訓(xùn)練，使用COCO val2017進(jìn)行驗(yàn)證。使用單尺度圖像作為輸入，采用標(biāo)準(zhǔn)的COCO AP指標(biāo)評(píng)估性能。使用在ImageNet上預(yù)訓(xùn)練的ResNet和HGNetv2作為骨干網(wǎng)絡(luò)，AIFI由1個(gè)transformer層組成，CCMF中的融合塊默認(rèn)由3個(gè)RepBlocks組成。在IoU感知的查詢選擇中，選擇前300個(gè)編碼器特征來初始化解碼器的對(duì)象查詢。訓(xùn)練策略和解碼器的超參數(shù)幾乎遵循DINO。使用AdamW優(yōu)化器進(jìn)行訓(xùn)練，基礎(chǔ)學(xué)習(xí)率為0.0001，權(quán)重衰減為0.0001，全局梯度剪裁范數(shù)為5。實(shí)驗(yàn)結(jié)果表明，使用IoU感知的查詢選擇可以提高檢測(cè)器的準(zhǔn)確性。

總結(jié)

在本文中，提出了RT-DETR，據(jù)作者所知是第一個(gè)實(shí)時(shí)端到端檢測(cè)器。作者首先對(duì)NMS進(jìn)行了詳細(xì)分析，并建立了一個(gè)端到端速度基準(zhǔn)，驗(yàn)證了當(dāng)前實(shí)時(shí)檢測(cè)器的推理速度受到NMS延遲的事實(shí)。作者還從NMS的分析中得出結(jié)論，無錨點(diǎn)檢測(cè)器在相同準(zhǔn)確性下優(yōu)于基于錨點(diǎn)的檢測(cè)器。為了避免NMS造成的延遲，設(shè)計(jì)了一個(gè)實(shí)時(shí)端到端檢測(cè)器，包括兩個(gè)關(guān)鍵改進(jìn)組件：一個(gè)能夠高效處理多尺度特征的混合編碼器和提高對(duì)象查詢初始化的IoU感知查詢選擇。大量實(shí)驗(yàn)證明，與其他實(shí)時(shí)檢測(cè)器和相似大小的端到端檢測(cè)器相比，RT-DETR在速度和準(zhǔn)確性上均達(dá)到了最先進(jìn)的水平。此外，提出的檢測(cè)器支持通過使用不同的解碼器層靈活調(diào)整推理速度，無需重新訓(xùn)練，這有利于實(shí)時(shí)目標(biāo)檢測(cè)器的實(shí)際應(yīng)用。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

檢測(cè)器

檢測(cè)器

+關(guān)注

關(guān)注
1

文章
887

瀏覽量
48451
編解碼器

編解碼器

+關(guān)注

關(guān)注
0

文章
272

瀏覽量
24665
FPS

FPS

+關(guān)注

關(guān)注
0

文章
35

瀏覽量
12171
NMS

NMS

+關(guān)注

關(guān)注
0

文章
9

瀏覽量
6121

原文標(biāo)題：CVPR'24 | 百度開源DETRs在實(shí)時(shí)目標(biāo)檢測(cè)中勝過YOLOs

文章出處：【微信號(hào)：3D視覺工坊，微信公眾號(hào)：3D視覺工坊】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

搜索歷史

百度開源DETRs在實(shí)時(shí)目標(biāo)檢測(cè)中勝過YOLOs

評(píng)論

電子發(fā)燒友