搜索歷史

清空

搜索熱詞

0

聊天消息
系統(tǒng)消息
評(píng)論與回復(fù)

查看更多

查看更多

查看更多

VIP于到期續(xù)費(fèi)

登錄后你可以

下載海量資料
學(xué)習(xí)在線課程
觀看技術(shù)視頻
寫(xiě)文章/發(fā)帖/加入社區(qū)

會(huì)員中心

創(chuàng)作中心

發(fā)布

創(chuàng)作活動(dòng)

完善資料讓更多小伙伴認(rèn)識(shí)你，還能領(lǐng)取20積分哦，立即完善>

3天內(nèi)不再提示

RT-DETR用114FPS實(shí)現(xiàn)54.8AP遠(yuǎn)超YOLOv8

最近，基于Transformer的端到端檢測(cè)器（DETR）已經(jīng)取得了顯著的性能。然而，DETR的高計(jì)算成本問(wèn)題尚未得到有效解決，這限制了它們的實(shí)際應(yīng)用，并使它們無(wú)法充分利用無(wú)后處理的好處，如非最大值抑制（NMS）。

本文首先分析了現(xiàn)代實(shí)時(shí)目標(biāo)檢測(cè)器中NMS對(duì)推理速度的影響，并建立了端到端的速度基準(zhǔn)。為了避免NMS引起的推理延遲，作者提出了一種實(shí)時(shí)檢測(cè)Transformer（RT-DETR），這是第一個(gè)實(shí)時(shí)端到端目標(biāo)檢測(cè)器。

具體而言，設(shè)計(jì)了一種高效的混合編碼器，通過(guò)解耦尺度內(nèi)交互和跨尺度融合來(lái)高效處理多尺度特征，并提出了IoU感知的查詢選擇，以提高目標(biāo)查詢的初始化。

此外，本文提出的檢測(cè)器支持通過(guò)使用不同的解碼器層來(lái)靈活調(diào)整推理速度，而不需要重新訓(xùn)練，這有助于實(shí)時(shí)目標(biāo)檢測(cè)器的實(shí)際應(yīng)用。

RTDETR-L在COCO val2017上實(shí)現(xiàn)了53.0%的AP，在T4 GPU上實(shí)現(xiàn)了114 FPS，而RT-DETR-X實(shí)現(xiàn)了54.8%的AP和74 FPS，在速度和精度方面都優(yōu)于相同規(guī)模的所有YOLO檢測(cè)器。

此外，RTDETR-R50實(shí)現(xiàn)了53.1%的AP和108 FPS，在精度上比DINO-Deformable-DETR-R50高出2.2%的AP，在FPS上高出約21倍。

1、簡(jiǎn)介

目標(biāo)檢測(cè)是一項(xiàng)基本的視覺(jué)任務(wù)，涉及識(shí)別和定位圖像中的目標(biāo)。現(xiàn)代目標(biāo)檢測(cè)器有兩種典型的體系結(jié)構(gòu)：

基于CNN

基于Transformer

在過(guò)去的幾年里，人們對(duì)基于CNN的目標(biāo)檢測(cè)器進(jìn)行了廣泛的研究。這些檢測(cè)器的架構(gòu)已經(jīng)從最初的兩階段發(fā)展到一階段，并且出現(xiàn)了兩種檢測(cè)范式，Anchor-Base和Anchor-Free。這些研究在檢測(cè)速度和準(zhǔn)確性方面都取得了重大進(jìn)展。

基于Transformer的目標(biāo)檢測(cè)器（DETR）由于消除了各種手工設(shè)計(jì)的組件，如非最大值抑制（NMS），自提出以來(lái)，受到了學(xué)術(shù)界的廣泛關(guān)注。該架構(gòu)極大地簡(jiǎn)化了目標(biāo)檢測(cè)的流水線，實(shí)現(xiàn)了端到端的目標(biāo)檢測(cè)。

實(shí)時(shí)目標(biāo)檢測(cè)是一個(gè)重要的研究領(lǐng)域，具有廣泛的應(yīng)用，如目標(biāo)跟蹤、視頻監(jiān)控、自動(dòng)駕駛等?，F(xiàn)有的實(shí)時(shí)檢測(cè)器通常采用基于CNN的架構(gòu)，在檢測(cè)速度和準(zhǔn)確性方面實(shí)現(xiàn)了合理的權(quán)衡。然而，這些實(shí)時(shí)檢測(cè)器通常需要NMS進(jìn)行后處理，這通常難以優(yōu)化并且不夠魯棒，導(dǎo)致檢測(cè)器的推理速度延遲。

最近，由于研究人員在加速訓(xùn)練收斂和降低優(yōu)化難度方面的努力，基于Transformer的檢測(cè)器取得了顯著的性能。然而，DETR的高計(jì)算成本問(wèn)題尚未得到有效解決，這限制了DETR的實(shí)際應(yīng)用，并導(dǎo)致無(wú)法充分利用其優(yōu)勢(shì)。這意味著，盡管簡(jiǎn)化了目標(biāo)檢測(cè)流水線，但由于模型本身的計(jì)算成本高，很難實(shí)現(xiàn)實(shí)時(shí)目標(biāo)檢測(cè)。

上述問(wèn)題自然啟發(fā)考慮是否可以將DETR擴(kuò)展到實(shí)時(shí)場(chǎng)景，充分利用端到端檢測(cè)器來(lái)避免NMS對(duì)實(shí)時(shí)檢測(cè)器造成的延遲。為了實(shí)現(xiàn)上述目標(biāo)，作者重新思考了DETR，并對(duì)其關(guān)鍵組件進(jìn)行了詳細(xì)的分析和實(shí)驗(yàn)，以減少不必要的計(jì)算冗余。

具體而言，作者發(fā)現(xiàn)，盡管多尺度特征的引入有利于加速訓(xùn)練收斂和提高性能，但它也會(huì)導(dǎo)致編碼器中序列長(zhǎng)度的顯著增加。因此，由于計(jì)算成本高，Transformer編碼器成為模型的計(jì)算瓶頸。為了實(shí)現(xiàn)實(shí)時(shí)目標(biāo)檢測(cè)，設(shè)計(jì)了一種高效的混合編碼器來(lái)取代原來(lái)的Transformer編碼器。通過(guò)解耦多尺度特征的尺度內(nèi)交互和尺度間融合，編碼器可以有效地處理不同尺度的特征。

此外，先前的工作表明，解碼器的目標(biāo)查詢初始化方案對(duì)檢測(cè)性能至關(guān)重要。為了進(jìn)一步提高性能，作者提出了IoU-Aware的查詢選擇，它通過(guò)在訓(xùn)練期間提供IoU約束來(lái)向解碼器提供更高質(zhì)量的初始目標(biāo)查詢。

此外，作者提出的檢測(cè)器支持通過(guò)使用不同的解碼器層來(lái)靈活調(diào)整推理速度，而不需要重新訓(xùn)練，這得益于DETR架構(gòu)中解碼器的設(shè)計(jì)，并有助于實(shí)時(shí)檢測(cè)器的實(shí)際應(yīng)用。

本文提出了一種實(shí)時(shí)檢測(cè)Transformer（RT-DETR），這是第一個(gè)實(shí)時(shí)基于Transformer的端到端目標(biāo)檢測(cè)器。RT-DETR不僅在精度和速度上優(yōu)于目前最先進(jìn)的實(shí)時(shí)檢測(cè)器，而且不需要后處理，因此檢測(cè)器的推理速度不會(huì)延遲并保持穩(wěn)定，充分利用了端到端檢測(cè)流水線的優(yōu)勢(shì)。

RT-DETR-L在COCO val2017上實(shí)現(xiàn)了53.0%的AP，在NVIDIA Tesla T4 GPU上實(shí)現(xiàn)了114 FPS，而RT-DETR-X實(shí)現(xiàn)了54.8%的AP和74 FPS，在速度和精度方面都優(yōu)于相同規(guī)模的所有YOLO檢測(cè)器。因此，RT-DETR成為了一種用于實(shí)時(shí)目標(biāo)檢測(cè)的新的SOTA，如圖1所示。

此外，提出的RT-DETR-R50實(shí)現(xiàn)了53.1%的AP和108 FPS，而RT-DETR-R101實(shí)現(xiàn)了54.3%的AP和74 FPS。其中，RT-DETR50在準(zhǔn)確度上優(yōu)于DINO-Deformable-DETR-R50 2.2%的AP（53.1%的AP對(duì)50.9%的AP），在FPS（108 FPS對(duì)5 FPS）上優(yōu)于DINO-Deformable-DETR-R5約21倍。

本文的主要貢獻(xiàn)總結(jié)如下：

提出了第一個(gè)實(shí)時(shí)端到端目標(biāo)檢測(cè)器，它不僅在準(zhǔn)確性和速度上優(yōu)于當(dāng)前的實(shí)時(shí)檢測(cè)器，而且不需要后處理，因此推理速度不延遲，保持穩(wěn)定；

詳細(xì)分析了NMS對(duì)實(shí)時(shí)檢測(cè)器的影響，并從后處理的角度得出了關(guān)于基于CNN的實(shí)時(shí)檢測(cè)器的結(jié)論；

提出的IoU-Aware查詢選擇在我們的模型中顯示出優(yōu)異的性能改進(jìn)，這為改進(jìn)目標(biāo)查詢的初始化方案提供了新的線索；

本文的工作為端到端檢測(cè)器的實(shí)時(shí)實(shí)現(xiàn)提供了一個(gè)可行的解決方案，并且所提出的檢測(cè)器可以通過(guò)使用不同的解碼器層來(lái)靈活地調(diào)整模型大小和推理速度，而不需要重新訓(xùn)練。

2、相關(guān)方法

2.1、實(shí)時(shí)目標(biāo)檢測(cè)器

經(jīng)過(guò)多年的不斷發(fā)展，YOLO系列已成為實(shí)時(shí)目標(biāo)檢測(cè)器的代名詞，大致可分為兩類：

Anchor-Base

Anchor-Free

從這些檢測(cè)器的性能來(lái)看，Anchor不再是制約YOLO發(fā)展的主要因素。然而，上述檢測(cè)器產(chǎn)生了許多冗余的邊界框，需要在后處理階段使用NMS來(lái)過(guò)濾掉它們。

不幸的是，這會(huì)導(dǎo)致性能瓶頸，NMS的超參數(shù)對(duì)檢測(cè)器的準(zhǔn)確性和速度有很大影響。作者認(rèn)為這與實(shí)時(shí)目標(biāo)檢測(cè)器的設(shè)計(jì)理念不兼容。

2.2、端到端目標(biāo)檢測(cè)器

端到端目標(biāo)檢測(cè)器以其流線型管道而聞名。Carion等人首先提出了基于Transformer的端到端目標(biāo)檢測(cè)器，稱為DETR（DEtection Transformer）。它因其獨(dú)特的特點(diǎn)而備受關(guān)注。特別地，DETR消除了傳統(tǒng)檢測(cè)流水線中手工設(shè)計(jì)的Anchor和NMS組件。相反，它采用二分匹配，并直接預(yù)測(cè)一對(duì)一的對(duì)象集。通過(guò)采用這種策略，DETR簡(jiǎn)化了檢測(cè)管道，緩解了NMS帶來(lái)的性能瓶頸。

盡管DETR具有明顯的優(yōu)勢(shì)，但它存在兩個(gè)主要問(wèn)題：

訓(xùn)練收斂緩慢

查詢難以優(yōu)化

已經(jīng)提出了許多DETR變體來(lái)解決這些問(wèn)題。具體而言，Deformable DETR通過(guò)提高注意力機(jī)制的效率，加速了多尺度特征的訓(xùn)練收斂。Conditional DETR和Anchor DETR降低了查詢的優(yōu)化難度。DAB-DETR引入4D參考點(diǎn)，并逐層迭代優(yōu)化預(yù)測(cè)框。DN-DETR通過(guò)引入查詢?nèi)ピ雭?lái)加速訓(xùn)練收斂。DINO以之前的作品為基礎(chǔ)，取得了最先進(jìn)的成果。

盡管正在不斷改進(jìn)DETR的組件，但本文的目標(biāo)不僅是進(jìn)一步提高模型的性能，而且是創(chuàng)建一個(gè)實(shí)時(shí)的端到端目標(biāo)檢測(cè)器。

2.3、目標(biāo)檢測(cè)的多尺度特征

現(xiàn)代目標(biāo)檢測(cè)器已經(jīng)證明了利用多尺度特征來(lái)提高性能的重要性，尤其是對(duì)于小物體。FPN引入了一種融合相鄰尺度特征的特征金字塔網(wǎng)絡(luò)。隨后的工作擴(kuò)展和增強(qiáng)了這種結(jié)構(gòu)，并被廣泛用于實(shí)時(shí)目標(biāo)檢測(cè)器。Zhu等人首先在DETR中引入了多尺度特征，提高了性能和收斂速度，但這也導(dǎo)致了DETR計(jì)算成本的顯著增加。

盡管Deformable Attention制在一定程度上減輕了計(jì)算成本，但多尺度特征的結(jié)合仍然會(huì)導(dǎo)致較高的計(jì)算負(fù)擔(dān)。為了解決這個(gè)問(wèn)題，一些工作試圖設(shè)計(jì)計(jì)算高效的DETR。Effificient DETR通過(guò)初始化具有密集先驗(yàn)的目標(biāo)查詢來(lái)減少編碼器和解碼器層的數(shù)量。Sparse DETR選擇性地更新期望被解碼器引用的編碼器token，從而減少計(jì)算開(kāi)銷。Lite DETR通過(guò)以交錯(cuò)方式降低低級(jí)別特征的更新頻率來(lái)提高編碼器的效率。盡管這些研究降低了DETR的計(jì)算成本，但這些工作的目標(biāo)并不是將DETR作為一種實(shí)時(shí)檢測(cè)器來(lái)推廣。

3、檢測(cè)器端到端速度

3.1、分析NMS

NMS是檢測(cè)中廣泛采用的后處理算法，用于消除檢測(cè)器輸出的重疊預(yù)測(cè)框。NMS中需要2個(gè)超參數(shù)：得分閾值和IoU閾值。

特別地，分?jǐn)?shù)低于分?jǐn)?shù)閾值的預(yù)測(cè)框被直接過(guò)濾掉，并且每當(dāng)2個(gè)預(yù)測(cè)框的IoU超過(guò)IoU閾值時(shí)，分?jǐn)?shù)較低的框?qū)⒈粊G棄。重復(fù)執(zhí)行此過(guò)程，直到每個(gè)類別的所有框都已處理完畢。因此，NMS的執(zhí)行時(shí)間主要取決于輸入預(yù)測(cè)框的數(shù)量和兩個(gè)超參數(shù)。

為了驗(yàn)證這一觀點(diǎn)，作者利用YOLOv5和YOLOv8進(jìn)行實(shí)驗(yàn)。首先計(jì)算在輸出框被相同輸入圖像的不同得分閾值濾波后剩余的預(yù)測(cè)框的數(shù)量。采樣了0.001到0.25的一些分?jǐn)?shù)作為閾值，對(duì)兩個(gè)檢測(cè)器的剩余預(yù)測(cè)框進(jìn)行計(jì)數(shù)，并將其繪制成直方圖，直觀地反映了NMS易受其超參數(shù)的影響，如圖2所示。

此外，以YOLOv8為例，評(píng)估了不同NMS超參數(shù)下COCO val2017的模型準(zhǔn)確性和NMS操作的執(zhí)行時(shí)間。

注意，在實(shí)驗(yàn)中采用的NMS后處理操作是指TensorRT efficientNMSPlugin，它涉及多個(gè)CUDA內(nèi)核，包括EfficientNMSFilter、RadixSort、EfficientNMS等，作者只報(bào)告了EfficientNMS內(nèi)核的執(zhí)行時(shí)間。在T4 GPU上測(cè)試了速度，上述實(shí)驗(yàn)中的輸入圖像和預(yù)處理是一致的。使用的超參數(shù)和相應(yīng)的結(jié)果如表1所示。

3.2、端到端速度基準(zhǔn)

為了能夠公平地比較各種實(shí)時(shí)檢測(cè)器的端到端推理速度，作者建立了一個(gè)端到端速度測(cè)試基準(zhǔn)?？紤]到NMS的執(zhí)行時(shí)間可能會(huì)受到輸入圖像的影響，有必要選擇一個(gè)基準(zhǔn)數(shù)據(jù)集，并計(jì)算多個(gè)圖像的平均執(zhí)行時(shí)間。該基準(zhǔn)采用COCO val2017作為默認(rèn)數(shù)據(jù)集，為需要后處理的實(shí)時(shí)檢測(cè)器添加了TensorRT的NMS后處理插件。

具體來(lái)說(shuō)，根據(jù)基準(zhǔn)數(shù)據(jù)集上相應(yīng)精度的超參數(shù)測(cè)試檢測(cè)器的平均推理時(shí)間，不包括IO和內(nèi)存復(fù)制操作。利用該基準(zhǔn)測(cè)試T4 GPU上基于錨的檢測(cè)器YOLOv5和YOLOv7以及Anchor-Free檢測(cè)器PP-YOLOE、YOLOv6和YOLOv8的端到端速度。

測(cè)試結(jié)果如表2所示。

根據(jù)結(jié)果得出結(jié)論，對(duì)于需要NMS后處理的實(shí)時(shí)檢測(cè)器，Anchor-Free檢測(cè)器在同等精度上優(yōu)于Anchor-Base的檢測(cè)器，因?yàn)榍罢叩暮筇幚頃r(shí)間明顯少于后者，這在以前的工作中被忽略了。這種現(xiàn)象的原因是，Anchor-Base的檢測(cè)器比Anchor-Free的檢測(cè)器產(chǎn)生更多的預(yù)測(cè)框（在測(cè)試的檢測(cè)器中是3倍多）。

4、The Real-time DETR

4.1、方法概覽

所提出的RT-DETR由Backbone、混合編碼器和帶有輔助預(yù)測(cè)頭的Transformer解碼器組成。模型體系結(jié)構(gòu)的概述如圖3所示。

具體來(lái)說(shuō)：

首先，利用Backbone的最后3個(gè)階段的輸出特征作為編碼器的輸入；

然后，混合編碼器通過(guò)尺度內(nèi)交互和跨尺度融合將多尺度特征轉(zhuǎn)換為一系列圖像特征（如第4.2節(jié)所述）；

隨后，采用IoU-Aware查詢選擇從編碼器輸出序列中選擇固定數(shù)量的圖像特征，作為解碼器的初始目標(biāo)查詢；

最后，具有輔助預(yù)測(cè)頭的解碼器迭代地優(yōu)化對(duì)象查詢以生成框和置信度得分。

4.2、高效混合編碼器

1、計(jì)算瓶頸分析

為了加速訓(xùn)練收斂并提高性能，Zhu等人建議引入多尺度特征，并提出Deformable Attention機(jī)制以減少計(jì)算。然而，盡管注意力機(jī)制的改進(jìn)減少了計(jì)算開(kāi)銷，但輸入序列長(zhǎng)度的急劇增加仍然導(dǎo)致編碼器成為計(jì)算瓶頸，阻礙了DETR的實(shí)時(shí)實(shí)現(xiàn)。

如所述，編碼器占GFLOP的49%，但在Deformable DETR中僅占AP的11%。為了克服這一障礙，作者分析了多尺度Transformer編碼器中存在的計(jì)算冗余，并設(shè)計(jì)了一組變體，以證明尺度內(nèi)和尺度間特征的同時(shí)交互在計(jì)算上是低效的。

從包含關(guān)于圖像中的對(duì)象的豐富語(yǔ)義信息的低級(jí)特征中提取高級(jí)特征。直觀地說(shuō)，對(duì)連接的多尺度特征進(jìn)行特征交互是多余的。如圖5所示，為了驗(yàn)證這一觀點(diǎn)，作者重新思考編碼器結(jié)構(gòu)，并設(shè)計(jì)了一系列具有不同編碼器的變體。

該組變體通過(guò)將多尺度特征交互解耦為尺度內(nèi)交互和跨尺度融合的兩步操作，逐步提高模型精度，同時(shí)顯著降低計(jì)算成本。首先刪除了DINO-R50中的多尺度變換編碼器作為基線A。接下來(lái)，插入不同形式的編碼器，以產(chǎn)生基于基線A的一系列變體，具體如下：

A→ B：變體B插入一個(gè)單尺度Transformer編碼器，該編碼器使用一層Transformer Block。每個(gè)尺度的特征共享編碼器，用于尺度內(nèi)特征交互，然后連接輸出的多尺度特征。

B→ C：變體C引入了基于B的跨尺度特征融合，并將連接的多尺度特征輸入編碼器以執(zhí)行特征交互。

C→ D：變體D解耦了多尺度特征的尺度內(nèi)交互和跨尺度融合。首先，使用單尺度Transformer編碼器進(jìn)行尺度內(nèi)交互，然后使用類PANet結(jié)構(gòu)進(jìn)行跨尺度融合。

D→ E：變體E進(jìn)一步優(yōu)化了基于D的多尺度特征的尺度內(nèi)交互和跨尺度融合，采用了設(shè)計(jì)的高效混合編碼器。

2、Hybrid design

基于上述分析，作者重新思考了編碼器的結(jié)構(gòu)，并提出了一種新的高效混合編碼器。如圖3所示，所提出的編碼器由兩個(gè)模塊組成，即基于注意力的尺度內(nèi)特征交互（AIFI）模塊和基于神經(jīng)網(wǎng)絡(luò)的跨尺度特征融合模塊（CCFM）。

AIFI進(jìn)一步減少了基于變體D的計(jì)算冗余，變體D僅在上執(zhí)行尺度內(nèi)交互。作者認(rèn)為，將自注意力操作應(yīng)用于具有更豐富語(yǔ)義概念的高級(jí)特征可以捕捉圖像中概念實(shí)體之間的聯(lián)系，這有助于后續(xù)模塊對(duì)圖像中目標(biāo)的檢測(cè)和識(shí)別。

同時(shí)，由于缺乏語(yǔ)義概念以及與高級(jí)特征的交互存在重復(fù)和混淆的風(fēng)險(xiǎn)，較低級(jí)別特征的尺度內(nèi)交互是不必要的。為了驗(yàn)證這一觀點(diǎn)，只對(duì)變體D中的進(jìn)行了尺度內(nèi)相互作用，實(shí)驗(yàn)結(jié)果見(jiàn)表3，見(jiàn)行。與變體D相比，顯著降低了延遲（快35%），但提高了準(zhǔn)確性（AP高0.4%）。這一結(jié)論對(duì)實(shí)時(shí)檢測(cè)器的設(shè)計(jì)至關(guān)重要。

CCFM也基于變體D進(jìn)行了優(yōu)化，在融合路徑中插入了幾個(gè)由卷積層組成的融合塊。融合塊的作用是將相鄰的特征融合成一個(gè)新的特征，其結(jié)構(gòu)如圖4所示。融合塊包含N個(gè)RepBlock，兩個(gè)路徑輸出通過(guò)元素相加進(jìn)行融合。

可以將這個(gè)過(guò)程表述如下：

其中表示多頭自注意力，表示將特征的形狀恢復(fù)到與相同的形狀，這是的inverse操作。

4.3、IoU-Aware查詢選擇

DETR中的目標(biāo)查詢是一組可學(xué)習(xí)的嵌入，這些嵌入由解碼器優(yōu)化，并由預(yù)測(cè)頭映射到分類分?jǐn)?shù)和邊界框。然而，這些目標(biāo)查詢很難解釋和優(yōu)化，因?yàn)樗鼈儧](méi)有明確的物理意義。后續(xù)工作改進(jìn)了目標(biāo)查詢的初始化，并將其擴(kuò)展到內(nèi)容查詢和位置查詢（Anchor點(diǎn)）。其中，Effificient detr、Dino以及Deformable detr都提出了查詢選擇方案，它們的共同點(diǎn)是利用分類得分從編碼器中選擇Top-K個(gè)特征來(lái)初始化目標(biāo)查詢（或僅位置查詢）。然而，由于分類得分和位置置信度的分布不一致，一些預(yù)測(cè)框具有高分類得分，但不接近GT框，這導(dǎo)致選擇了分類得分高、IoU得分低的框，而分類得分低、IoU分?jǐn)?shù)高的框被丟棄。這會(huì)削弱探測(cè)器的性能。

為了解決這個(gè)問(wèn)題，作者提出了IoU-Aware查詢選擇，通過(guò)約束模型在訓(xùn)練期間為具有高IoU分?jǐn)?shù)的特征產(chǎn)生高分類分?jǐn)?shù)，并為具有低IoU得分的特征產(chǎn)生低分類分?jǐn)?shù)。因此，與模型根據(jù)分類得分選擇的Top-K個(gè)編碼器特征相對(duì)應(yīng)的預(yù)測(cè)框具有高分類得分和高IoU得分。

將檢測(cè)器的優(yōu)化目標(biāo)重新表述如下：

其中和表示預(yù)測(cè)和GT，和。和分別表示類別和邊界框。將IoU分?jǐn)?shù)引入分類分支的目標(biāo)函數(shù)（類似于VFL），以實(shí)現(xiàn)對(duì)正樣本分類和定位的一致性約束。

有效性分析

為了分析所提出的IoU感知查詢選擇的有效性，在val2017上可視化了查詢選擇所選擇的編碼器特征的分類分?jǐn)?shù)和IoU分?jǐn)?shù)，如圖6所示。

具體來(lái)說(shuō)，首先根據(jù)分類得分選擇前K個(gè)（在實(shí)驗(yàn)中K=300）編碼器特征，然后可視化分類得分大于0.5的散點(diǎn)圖。紅點(diǎn)和藍(lán)點(diǎn)是根據(jù)分別應(yīng)用普通查詢選擇和IoU感知查詢選擇訓(xùn)練的模型計(jì)算的。點(diǎn)越靠近圖的右上角，對(duì)應(yīng)特征的質(zhì)量就越高，即分類標(biāo)簽和邊界框更有可能描述圖像中的真實(shí)對(duì)象。

根據(jù)可視化結(jié)果發(fā)現(xiàn)最引人注目的特征是大量藍(lán)色點(diǎn)集中在圖的右上角，而紅色點(diǎn)集中在右下角。這表明，使用IoU感知查詢選擇訓(xùn)練的模型可以產(chǎn)生更多高質(zhì)量的編碼器特征。

此外，還定量分析了這兩類點(diǎn)的分布特征。圖中藍(lán)色點(diǎn)比紅色點(diǎn)多138%，即分類得分小于或等于0.5的紅色點(diǎn)更多，這可以被視為低質(zhì)量特征。然后，分析分類得分大于0.5的特征的IoU得分，發(fā)現(xiàn)IoU得分大于0.5時(shí)，藍(lán)色點(diǎn)比紅色點(diǎn)多120%。

定量結(jié)果進(jìn)一步表明，IoU感知查詢選擇可以為對(duì)象查詢提供更多具有準(zhǔn)確分類（高分類分?jǐn)?shù)）和精確定位（高IoU分?jǐn)?shù)）的編碼器特征，從而提高檢測(cè)器的準(zhǔn)確性。

4.4、Scaled RT-DETR

為了提供RT-DETR的可擴(kuò)展版本，將ResNet網(wǎng)替換為HGNetv2。使用depth multiplier和width multiplier將Backbone和混合編碼器一起縮放。因此，得到了具有不同數(shù)量的參數(shù)和FPS的RT-DETR的兩個(gè)版本。

對(duì)于混合編碼器，通過(guò)分別調(diào)整CCFM中RepBlock的數(shù)量和編碼器的嵌入維度來(lái)控制depth multiplier和width multiplier。值得注意的是，提出的不同規(guī)模的RT-DETR保持了同質(zhì)解碼器，這有助于使用高精度大型DETR模型對(duì)光檢測(cè)器進(jìn)行蒸餾。這將是一個(gè)可探索的未來(lái)方向。

5、實(shí)驗(yàn)

5.1、與SOTA比較

5.2、混合編碼器的消融實(shí)驗(yàn)研究

5.3、IoU感知查詢選擇的消融研究

5.4、解碼器的消融研究

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

編碼器

編碼器

+關(guān)注

關(guān)注
45

文章
3780

瀏覽量
137288
檢測(cè)器

檢測(cè)器

+關(guān)注

關(guān)注
1

文章
887

瀏覽量
48451
FPS

FPS

+關(guān)注

關(guān)注
0

文章
35

瀏覽量
12171
NMS

NMS

+關(guān)注

關(guān)注
0

文章
9

瀏覽量
6122

原文標(biāo)題：YOLO超快時(shí)代終結(jié)了 | RT-DETR用114FPS實(shí)現(xiàn)54.8AP，遠(yuǎn)超YOLOv8

文章出處：【微信號(hào)：vision263com，微信公眾號(hào)：新機(jī)器視覺(jué)】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

華秋（原“華強(qiáng)聚豐”）：

電子發(fā)燒友

華秋開(kāi)發(fā)

華秋電路(原"華強(qiáng)PCB")

華秋商城(原"華強(qiáng)芯城")

華秋智造

My ElecFans

APP
網(wǎng)站地圖

設(shè)計(jì)技術(shù)

可編程邏輯

電源/新能源

MEMS/傳感技術(shù)

測(cè)量?jī)x表

嵌入式技術(shù)

制造/封裝

模擬技術(shù)

RF/無(wú)線

接口/總線/驅(qū)動(dòng)

處理器/DSP

EDA/IC設(shè)計(jì)

存儲(chǔ)技術(shù)

光電顯示

EMC/EMI設(shè)計(jì)

連接器

行業(yè)應(yīng)用

LEDs

汽車電子

音視頻及家電

通信網(wǎng)絡(luò)

醫(yī)療電子

人工智能

虛擬現(xiàn)實(shí)

可穿戴設(shè)備

機(jī)器人

安全設(shè)備/系統(tǒng)

軍用/航空電子

移動(dòng)通信

工業(yè)控制

便攜設(shè)備

觸控感測(cè)

物聯(lián)網(wǎng)

智能電網(wǎng)

區(qū)塊鏈

新科技

特色內(nèi)容

專欄推薦

學(xué)院

設(shè)計(jì)資源

設(shè)計(jì)技術(shù)

電子百科

電子視頻

元器件知識(shí)

工具箱

VIP會(huì)員

最新技術(shù)文章

產(chǎn)品地圖

品牌地圖

社區(qū)

小組

論壇

問(wèn)答

評(píng)測(cè)試用

企業(yè)服務(wù)

產(chǎn)品

資料

文章

方案

企業(yè)

供應(yīng)鏈服務(wù)

硬件開(kāi)發(fā)

華秋電路

華秋商城

華秋智造

nextPCB

BOM配單

媒體服務(wù)

網(wǎng)站廣告

在線研討會(huì)

活動(dòng)策劃

新聞發(fā)布

新品發(fā)布

小測(cè)驗(yàn)

設(shè)計(jì)大賽

華秋

關(guān)于我們

投資關(guān)系

新聞動(dòng)態(tài)

加入我們

聯(lián)系我們

舉報(bào)投訴

社交網(wǎng)絡(luò)

微博

移動(dòng)端

發(fā)燒友APP

硬聲APP

WAP

聯(lián)系我們

廣告合作

王婉珠：wangwanzhu@elecfans.com

內(nèi)容合作

黃晶晶：huangjingjing@elecfans.com

內(nèi)容合作（海外）

張迎輝：mikezhang@elecfans.com

供應(yīng)鏈服務(wù) PCB/IC/PCBA

江良華：lanhu@huaqiu.com

投資合作

曾海銀：zenghaiyin@huaqiu.com

社區(qū)合作

劉勇：liuyong@huaqiu.com

關(guān)注我們的微信

下載發(fā)燒友APP

電子發(fā)燒友觀察

電子工程師社區(qū)

1-32層PCB打樣·中小批量

元器件現(xiàn)貨·全球代購(gòu)·SmartBOM

SMT貼片·PCBA加工

PCB Manufacturer

華秋簡(jiǎn)介

企業(yè)動(dòng)態(tài)

聯(lián)系我們

企業(yè)文化

企業(yè)宣傳片

加入我們

版權(quán)所有 ? 湖南華秋數(shù)字科技有限公司

長(zhǎng)沙市望城經(jīng)濟(jì)技術(shù)開(kāi)發(fā)區(qū)航空路6號(hào)手機(jī)智能終端產(chǎn)業(yè)園2號(hào)廠房3層（0731-88081133）
電子發(fā)燒友 （電路圖） 湘公網(wǎng)安備43011202000918 工商網(wǎng)監(jiān) 湘ICP備2023018690號(hào)-1

感谢您访问我们的网站，您可能还对以下资源感兴趣：
中文字幕日韩第八页在线
国内精品久久久久久久星辰影视欧美成人免费高清二区三区男女视频免费在线观看嫩草视频国产精品一区

電子發(fā)燒友

中國(guó)電子工程師最喜歡的網(wǎng)站

與2931785位工程師會(huì)員交流學(xué)習(xí)
獲取您個(gè)性化的科技前沿技術(shù)信息
參加活動(dòng)獲取豐厚的禮品