0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

在目標(biāo)檢測(cè)中大物體的重要性

穎脈Imgtec ? 2024-10-09 08:05 ? 次閱讀

作者:ronghuaiyang

來(lái)源:AI公園

導(dǎo)讀

實(shí)驗(yàn)表明,對(duì)大型物體賦予更大的權(quán)重可以提高所有尺寸物體的檢測(cè)分?jǐn)?shù),從而整體提升目標(biāo)檢測(cè)器的性能(在COCO val 2017數(shù)據(jù)集上使用InternImage-T模型,小物體檢測(cè)精度提高2個(gè)百分點(diǎn),中等物體提高2個(gè)百分點(diǎn),大物體提高4個(gè)百分點(diǎn))。

2bc8c55c-85d2-11ef-bb4b-92fbcf53809c.png


摘要

目標(biāo)檢測(cè)模型是一類重要的機(jī)器學(xué)習(xí)算法,旨在識(shí)別并精確定位圖像或視頻中的物體。然而,由于物體的大小差異以及用于訓(xùn)練的圖像和標(biāo)簽的質(zhì)量,這項(xiàng)任務(wù)有時(shí)會(huì)產(chǎn)生不一致的表現(xiàn)。在本文中,我們強(qiáng)調(diào)了大型物體在學(xué)習(xí)適用于所有尺寸特征的重要性?;谶@一發(fā)現(xiàn),我們建議在訓(xùn)練損失函數(shù)中引入一個(gè)權(quán)重項(xiàng),該權(quán)重項(xiàng)與物體面積大小有關(guān)。實(shí)驗(yàn)表明,對(duì)大型物體賦予更大的權(quán)重可以提高所有尺寸物體的檢測(cè)分?jǐn)?shù),從而整體提升目標(biāo)檢測(cè)器的性能(在COCO val 2017數(shù)據(jù)集上使用InternImage-T模型,小物體檢測(cè)精度提高2個(gè)百分點(diǎn),中等物體提高2個(gè)百分點(diǎn),大物體提高4個(gè)百分點(diǎn))。此外,使用不同模型和數(shù)據(jù)集進(jìn)行的額外實(shí)驗(yàn)和消融研究進(jìn)一步證實(shí)了我們的發(fā)現(xiàn)的穩(wěn)健性。


介紹

目標(biāo)檢測(cè)是計(jì)算機(jī)視覺(jué)中的基本任務(wù),在自動(dòng)駕駛汽車、監(jiān)控、機(jī)器人等領(lǐng)域有著廣泛的應(yīng)用。自自動(dòng)圖像處理技術(shù)誕生以來(lái),它一直是計(jì)算機(jī)視覺(jué)研究的重點(diǎn)領(lǐng)域之一。卷積神經(jīng)網(wǎng)絡(luò)(CNNs)的興起徹底改變了這一領(lǐng)域,催生了大量的方法,并在檢測(cè)精度方面取得了顯著的進(jìn)步。研究人員提出了多種目標(biāo)檢測(cè)模型的變體,包括單階段檢測(cè)器和雙階段檢測(cè)器,以提高目標(biāo)檢測(cè)的速度和準(zhǔn)確性。此外,諸如注意力機(jī)制和無(wú)錨點(diǎn)目標(biāo)檢測(cè)等新技術(shù)也不斷涌現(xiàn),進(jìn)一步提升了現(xiàn)有模型的性能。在本文中,我們將重點(diǎn)放在目標(biāo)檢測(cè)模型及其在圖像中定位物體的基本機(jī)制分析上。檢測(cè)數(shù)據(jù)集中通常包含大量的簡(jiǎn)單樣本和少量的困難樣本。自動(dòng)選擇這些困難樣本可以使訓(xùn)練更加有效和高效。根據(jù)選擇困難樣本的標(biāo)準(zhǔn),不同的數(shù)據(jù)采樣技術(shù)被提出。這些標(biāo)準(zhǔn)包括當(dāng)前較高的訓(xùn)練損失、前景/背景比例不平衡、向困難樣本傾斜的IoU不平衡以及類別不平衡。訓(xùn)練數(shù)據(jù)集中物體大小分布對(duì)檢測(cè)性能的影響是文獻(xiàn)中較少探討的主題。常識(shí)認(rèn)為,如果最終目標(biāo)是在特定大小的物體(如小型物體)上實(shí)現(xiàn)最大性能,則在訓(xùn)練過(guò)程中應(yīng)該更關(guān)注這些目標(biāo)物體。然而,我們的研究表明現(xiàn)實(shí)可能與直覺(jué)相反,即更多地關(guān)注大型物體可以改善所有尺寸物體的檢測(cè)性能,包括小型物體。事實(shí)上,我們發(fā)現(xiàn)對(duì)訓(xùn)練損失的一個(gè)簡(jiǎn)單調(diào)整可以提高各種目標(biāo)檢測(cè)器的性能。目標(biāo)檢測(cè)的損失函數(shù)可以分為兩類:分類損失和定位損失。前者用于訓(xùn)練一個(gè)分類頭,用于檢測(cè)目標(biāo)物體,并在多類目標(biāo)檢測(cè)的情況下對(duì)其進(jìn)行分類;后者用于訓(xùn)練一個(gè)回歸頭,以找到目標(biāo)物體的矩形框。我們建議在總損失計(jì)算中包含樣本權(quán)重函數(shù),包括分類項(xiàng)(見(jiàn)圖1)。通過(guò)對(duì)較小物體分配較少的權(quán)重而對(duì)較大物體分配較多的權(quán)重,模型能夠有效地從大小不同的物體中學(xué)習(xí)。通過(guò)實(shí)證評(píng)估和消融研究,我們驗(yàn)證了所提出的權(quán)重函數(shù)的有效性,并展示了其在目標(biāo)檢測(cè)領(lǐng)域推動(dòng)技術(shù)前沿的潛力。我們的貢獻(xiàn)如下:

我們驗(yàn)證了在大型物體上的學(xué)習(xí)比在小型物體上的學(xué)習(xí)能帶來(lái)更好的檢測(cè)性能。

我們提出了一種簡(jiǎn)單的損失重加權(quán)方案,更多地關(guān)注大型物體,從而在所有物體尺寸上整體提升目標(biāo)檢測(cè)器的性能。

我們分析了哪些目標(biāo)檢測(cè)子任務(wù)最能看到性能提升,從而更好地理解損失重加權(quán)的影響。

2bfd9d90-85d2-11ef-bb4b-92fbcf53809c.png



2、相關(guān)工作

除了幾何數(shù)據(jù)增強(qiáng)技術(shù)的應(yīng)用外,多年來(lái),目標(biāo)檢測(cè)器架構(gòu)中還加入了越來(lái)越多的元素來(lái)改進(jìn)不同尺度物體的檢測(cè)性能。在本節(jié)中,我們將回顧一些我們認(rèn)為對(duì)其影響力或性能重要的模型,主要突出它們處理不同大小物體的方法。接著,我們將重點(diǎn)討論數(shù)據(jù)增強(qiáng)技術(shù)如何用于相同的目標(biāo)及其局限性。

特征金字塔網(wǎng)絡(luò)(FPN)

特征金字塔網(wǎng)絡(luò)(FPN)是由Lin等人提出的一種廣泛應(yīng)用的模塊,旨在解決單一預(yù)測(cè)輸出對(duì)于所有物體尺度的限制問(wèn)題。具體來(lái)說(shuō),它提出從骨干卷積網(wǎng)絡(luò)的不同層次提取特征,并將其合并回倒置的特征金字塔中。然后,倒置特征金字塔的每一層都有一個(gè)專門(mén)針對(duì)某一特定大小范圍物體的檢測(cè)分支。性能的提升可以歸因于在較高分辨率下捕捉語(yǔ)義信息的同時(shí)保持較低分辨率下的空間信息。

YOLO

YOLO(You Only Look Once),由Redmon等人提出,是一種基于錨點(diǎn)的實(shí)時(shí)單階段目標(biāo)檢測(cè)系統(tǒng),使用單一神經(jīng)網(wǎng)絡(luò)實(shí)時(shí)直接從輸入圖像預(yù)測(cè)物體邊界框和類別概率。實(shí)現(xiàn)了業(yè)界領(lǐng)先的檢測(cè)速度和準(zhǔn)確度。自問(wèn)世以來(lái),YOLO經(jīng)歷了幾次迭代改進(jìn)。YOLOv2通過(guò)引入錨點(diǎn)框增強(qiáng)了原始架構(gòu),使模型能夠高效檢測(cè)不同長(zhǎng)寬比和大小的物體。YOLOv3集成了特征金字塔網(wǎng)絡(luò),使模型能夠有效捕捉多個(gè)尺度的物體。YOLOv4采用了CSPDarknet53骨干網(wǎng)絡(luò),提高了模型提取復(fù)雜特征的能力。它還集成了PANet模塊,該模塊在網(wǎng)絡(luò)的不同層次上執(zhí)行特征聚合,進(jìn)一步改進(jìn)了多尺度物體檢測(cè)。YOLOv5是YOLO的PyTorch實(shí)現(xiàn)版本,具有實(shí)用的質(zhì)量改進(jìn)功能,適用于訓(xùn)練和推理。就性能而言,它與YOLOv4相當(dāng)。TTFNet

TTFNet源自CenterNet,將物體定義為其邊界框的中心點(diǎn)。它使用關(guān)鍵點(diǎn)估計(jì)來(lái)查找中心點(diǎn),并回歸到其他所有物體屬性。TTFNet通過(guò)在中心像素周圍預(yù)測(cè)邊界框并使用高斯懲罰加快了CenterNet的訓(xùn)練速度??紤]了幾種加權(quán)方案后,作者發(fā)現(xiàn)最佳性能是通過(guò)標(biāo)準(zhǔn)化權(quán)重然后乘以框面積的對(duì)數(shù)來(lái)實(shí)現(xiàn)的。然后,定位損失由批次中存在的所有權(quán)重之和進(jìn)行標(biāo)準(zhǔn)化。受此方法啟發(fā),我們建議也將對(duì)數(shù)加權(quán)應(yīng)用于其他術(shù)語(yǔ),即定位和分類。其他工作如FCOS研究了邊界框面積對(duì)訓(xùn)練的影響,但據(jù)我們所知,還沒(méi)有人提出一種針對(duì)大物體的加權(quán)方案。在FCOS中,所有邊界框內(nèi)的像素都參與預(yù)測(cè),但隨后的損失在整個(gè)像素中平均。其后來(lái)擴(kuò)展為FCOS Plus,將學(xué)習(xí)區(qū)域縮小到框內(nèi)的中心區(qū)域。

DETR

DETR(Detection Transformer)引入了一種基于Transformer的目標(biāo)檢測(cè)架構(gòu),能夠在一次傳遞中同時(shí)預(yù)測(cè)物體類別及其邊界框坐標(biāo)。值得注意的是,DETR利用基于集合的全局損失函數(shù),通過(guò)集成自注意力機(jī)制和位置編碼有效處理可變數(shù)量的物體。這使得模型在處理不同數(shù)量的物體時(shí)表現(xiàn)優(yōu)異。

InternImage

InternImage由Wang等人提出,是一種大規(guī)?;贑NN的基礎(chǔ)模型,通過(guò)增加參數(shù)數(shù)量和訓(xùn)練數(shù)據(jù)量來(lái)提高性能,類似于視覺(jué)變換器(Vision Transformers)。InternImage的核心操作是可變形卷積,這使其能夠捕獲更豐富的上下文信息。此外,InternImage結(jié)合了適應(yīng)性空間聚合,這種聚合由輸入和任務(wù)信息條件決定,減少了傳統(tǒng)CNN中常見(jiàn)的嚴(yán)格歸納偏置。InternImage在不同數(shù)據(jù)集上的目標(biāo)檢測(cè)結(jié)果得到了改進(jìn),并且目前在多項(xiàng)評(píng)估指標(biāo)中排名靠前。正如我們將看到的那樣,通過(guò)引入大小依賴的加權(quán)項(xiàng),我們可以進(jìn)一步提升InternImage的性能。
數(shù)據(jù)增強(qiáng)數(shù)據(jù)增強(qiáng)是一種強(qiáng)大的解決方案,可以提升所有尺度物體檢測(cè)模型的性能。通過(guò)對(duì)訓(xùn)練數(shù)據(jù)集應(yīng)用變換,數(shù)據(jù)增強(qiáng)技術(shù)引入了多樣性并擴(kuò)展了不同尺度物體的表示。諸如隨機(jī)縮放、翻轉(zhuǎn)、旋轉(zhuǎn)和平移等增強(qiáng)方法使模型能夠?qū)W習(xí)到穩(wěn)健的特征,從而準(zhǔn)確檢測(cè)小物體和大物體。特別是針對(duì)小物體設(shè)計(jì)的數(shù)據(jù)增強(qiáng)方法,例如隨機(jī)補(bǔ)丁復(fù)制粘貼和像素級(jí)增強(qiáng),有助于緩解低分辨率細(xì)節(jié)和有限上下文信息的問(wèn)題。類似地,那些保留空間上下文并在調(diào)整大小或裁剪過(guò)程中防止信息丟失的增強(qiáng)方法也有助于處理大物體。然而,需要注意的是,數(shù)據(jù)增強(qiáng)技術(shù)在應(yīng)對(duì)物體大小方面存在局限性。盡管增強(qiáng)可以引入多樣性并擴(kuò)展物體的表示,但放大物體本身并不會(huì)帶來(lái)額外的信息。通過(guò)增強(qiáng)增大小物體的尺寸可能會(huì)提高其可見(jiàn)性,但不會(huì)提供原本圖像中不存在的額外上下文細(xì)節(jié)或特征。另一方面,縮小或調(diào)整大物體的大小可能會(huì)導(dǎo)致重要信息和細(xì)粒度細(xì)節(jié)的丟失,這可能妨礙準(zhǔn)確檢測(cè)。對(duì)于數(shù)據(jù)集本身的內(nèi)容(除了標(biāo)注錯(cuò)誤之外),人們關(guān)注較少,尤其是物體大小分布對(duì)所有尺度檢測(cè)性能的影響。在下一節(jié)中,我們將強(qiáng)調(diào)從大物體中學(xué)到的特征對(duì)整體物體檢測(cè)器性能的重要性。


3、目標(biāo)尺寸的重要性

諸如COCO這樣的數(shù)據(jù)集包含各種尺寸的多樣化物體。然而,檢測(cè)大物體與小物體相比面臨著不同的挑戰(zhàn)。大物體具有豐富的細(xì)節(jié)和紋理,這些細(xì)節(jié)可能需要被解釋或忽略,但通常這些豐富的信息足以識(shí)別它們而無(wú)需依賴周圍環(huán)境。小物體則不同,周圍環(huán)境對(duì)其解釋具有重要意義。圖2展示了一組沒(méi)有或帶有上下文的小物體裁剪圖,以此來(lái)說(shuō)明這一事實(shí)。我們傾向于認(rèn)為小物體檢測(cè)主要依賴于骨干網(wǎng)絡(luò)的早期階段。然而,這一觀察表明,骨干網(wǎng)絡(luò)的后期階段不僅包含了捕捉大物體的特征,還包含用于檢測(cè)小物體所需的上下文信息。因此,所有尺寸的物體都需要在網(wǎng)絡(luò)骨干的所有層級(jí)上具備高質(zhì)量的特征。我們研究背后的直覺(jué)是,擁有各種尺寸的物體有助于在所有尺寸上學(xué)習(xí)高質(zhì)量的特征,并且在損失函數(shù)中強(qiáng)調(diào)大物體的重要性會(huì)更好。這一直覺(jué)可以通過(guò)以下實(shí)驗(yàn)來(lái)驗(yàn)證:給定一個(gè)物體檢測(cè)器(本例中為YOLO v5 )和一個(gè)訓(xùn)練數(shù)據(jù)集(COCO),我們首先使用隨機(jī)權(quán)重初始化模型,并僅使用大物體對(duì)其進(jìn)行預(yù)訓(xùn)練。我們使用了YOLO v5作者在其GitHub倉(cāng)庫(kù)中定義的尺寸范圍,并如表1所示。然后凍結(jié)編碼層,并在所有訓(xùn)練數(shù)據(jù)上微調(diào)模型。我們也重復(fù)同樣的過(guò)程,但在預(yù)訓(xùn)練時(shí)使用小物體和中等物體的數(shù)據(jù)。訓(xùn)練和測(cè)試的mAP與mAR結(jié)果如表2所示。這些實(shí)驗(yàn)的目標(biāo)是在僅使用大物體或小+中等物體訓(xùn)練的情況下,觀察所學(xué)到的骨干網(wǎng)絡(luò)特征對(duì)于不同尺寸物體的質(zhì)量。

2c73bba6-85d2-11ef-bb4b-92fbcf53809c.png

2c9cf2d2-85d2-11ef-bb4b-92fbcf53809c.png我們可以看到,盡管相比數(shù)據(jù)集中其他物體而言,大物體的數(shù)量相對(duì)較少,但僅在大物體上預(yù)訓(xùn)練并在整個(gè)數(shù)據(jù)集上微調(diào)的模型在所有尺寸上的表現(xiàn)都更優(yōu)。這意味著較大物體的特征更具通用性,可以用于檢測(cè)所有尺寸的物體,包括較小的物體。而在小物體上學(xué)到的特征則不那么通用。

另一個(gè)有趣的發(fā)現(xiàn)是,僅在小物體和中等物體上訓(xùn)練的網(wǎng)絡(luò)在這類物體上的表現(xiàn)不如在整個(gè)數(shù)據(jù)集上訓(xùn)練的網(wǎng)絡(luò)。事實(shí)上,即使是使用僅在大物體上預(yù)訓(xùn)練的骨干網(wǎng)絡(luò)并在整個(gè)數(shù)據(jù)集上微調(diào)的網(wǎng)絡(luò),其在小物體上的檢測(cè)性能也更好。這一點(diǎn)突顯了大物體有助于學(xué)習(xí)適用于所有尺度的更有意義的特征的觀點(diǎn)。


4、方法

4.1 權(quán)重項(xiàng)

為了有效利用大尺寸物體來(lái)提升模型性能,我們提出在專為物體檢測(cè)任務(wù)設(shè)計(jì)的損失函數(shù)中加入一個(gè)權(quán)重項(xiàng)。

2ccb7fda-85d2-11ef-bb4b-92fbcf53809c.png

例如,我們考慮 YOLO v5 的損失函數(shù)。

2ce86276-85d2-11ef-bb4b-92fbcf53809c.png

在每個(gè)訓(xùn)練步驟中,損失是通過(guò)對(duì)所有批次樣本取平均值得到的。

2d06c6f8-85d2-11ef-bb4b-92fbcf53809c.png

其中,是批次中的邊界框數(shù)量,是批次中邊界框的集合,i 是對(duì)單個(gè)邊界框的預(yù)測(cè),是對(duì)應(yīng)的地面實(shí)況。我們修改以加入權(quán)重:2d267fca-85d2-11ef-bb4b-92fbcf53809c.png其中?。這一項(xiàng)旨在在訓(xùn)練過(guò)程中給較大的物體分配更高的權(quán)重,從而鼓勵(lì)模型更多地從較大物體中學(xué)習(xí)。另一方面,由于批次中權(quán)重的總和是歸一化的,較小的物體對(duì)學(xué)習(xí)的影響會(huì)減少。然而,由于對(duì)數(shù)的緩慢增長(zhǎng)意味著任何尺寸的物體在損失函數(shù)中都不是可以忽略的。

如第2節(jié)所述,加權(quán)項(xiàng)(式4)已經(jīng)在 TTFNet 中使用過(guò)。然而,與 TTFNet 將此權(quán)重納入其尺寸回歸損失(GIoU)不同,我們?cè)诙ㄎ粨p失和分類損失項(xiàng)中都使用了它。我們?cè)诘?.1節(jié)中通過(guò)消融研究對(duì)此選擇進(jìn)行了論證。

在損失函數(shù)中包含權(quán)重項(xiàng)鼓勵(lì)模型優(yōu)先準(zhǔn)確檢測(cè)和定位較大物體。這導(dǎo)致更具辨別力的特征和更好的上下文理解,特別是對(duì)于較大物體而言。因此,模型也更好地處理較小物體。

此外,權(quán)重項(xiàng)有助于解決數(shù)據(jù)集固有的對(duì)較小物體的偏差,通過(guò)在訓(xùn)練過(guò)程中顯式地賦予較大物體更多的顯著性來(lái)糾正這種偏差。這種偏差校正使模型能夠更有效地從數(shù)據(jù)集中有限數(shù)量的較大物體中學(xué)習(xí),縮小小物體和大物體識(shí)別之間的性能差距。例如,在表3中,每種物體尺寸的比例表明:

2d6add14-85d2-11ef-bb4b-92fbcf53809c.png

這一比例被用來(lái)與這些物體的加權(quán)和進(jìn)行比較

2d888120-85d2-11ef-bb4b-92fbcf53809c.png

在 COCO 和 NuScenes 數(shù)據(jù)集上,我們發(fā)現(xiàn) r' 偏向于較大的物體,盡管這些物體的實(shí)際比例相對(duì)較小。這迫使訓(xùn)練更加關(guān)注大物體,從而在所有尺寸上提升了性能。這就提出了一個(gè)問(wèn)題,即在構(gòu)建數(shù)據(jù)集時(shí)物體尺寸分布的理想比例是什么,而這可能取決于目標(biāo)物體及其在不同尺寸下的復(fù)雜性。因此,每個(gè)數(shù)據(jù)集可能都有一個(gè)不同的最優(yōu)加權(quán)函數(shù)。

4.2 權(quán)重項(xiàng)對(duì)訓(xùn)練的影響

為了更深入地了解權(quán)重項(xiàng)對(duì)訓(xùn)練的影響,我們需要量化每次樣本在訓(xùn)練中的重要性,損失梯度的大小之和可以很好地衡量這一點(diǎn)。實(shí)際上,模型參數(shù)在訓(xùn)練過(guò)程中的變化與損失相對(duì)于模型參數(shù)的梯度大小成正比,即。由于這些梯度存在于高維空間中,任意兩個(gè)輸入對(duì)應(yīng)的梯度向量很可能是正交的。因此,三角不等式適用于這種情況。2da87f02-85d2-11ef-bb4b-92fbcf53809c.png可以作為權(quán)重更新的緊密估計(jì)。因此,我們可以將?視為每個(gè)目標(biāo)對(duì)學(xué)習(xí)特征影響的度量,并可以通過(guò)按目標(biāo)大小重新分組這些量來(lái)觀察不同大小的目標(biāo)對(duì)學(xué)習(xí)過(guò)程的影響。我們計(jì)算了大目標(biāo)的梯度大小之和與小目標(biāo)的梯度大小之和的比例。2dc25f94-85d2-11ef-bb4b-92fbcf53809c.png其中,?是大目標(biāo)的集合,?是小目標(biāo)的集合,而?是在輸入 ?i ?上評(píng)估的訓(xùn)練損失項(xiàng)(在對(duì)整個(gè)圖像和批次進(jìn)行縮減之前)。圖 3 展示了在 COCO 數(shù)據(jù)集上使用 YOLO v5 訓(xùn)練 100 個(gè)周期時(shí),該比例的變化情況,包括使用和未使用所提出的加權(quán)項(xiàng)的情況。我們可以看到,在沒(méi)有加權(quán)項(xiàng)的情況下,小目標(biāo)和大目標(biāo)對(duì)模型參數(shù)的貢獻(xiàn)相當(dāng)。這表現(xiàn)為?圍繞 1 波動(dòng)。相反,使用加權(quán)項(xiàng)會(huì)增加較大目標(biāo)的影響。這一點(diǎn)通過(guò)??在訓(xùn)練開(kāi)始時(shí)較高(約為 1.8)并在訓(xùn)練過(guò)程中保持大于 1 的值得以體現(xiàn)。

2de6b2ae-85d2-11ef-bb4b-92fbcf53809c.png

為了進(jìn)一步研究這種效應(yīng),我們?cè)诰W(wǎng)絡(luò)的不同層次上研究了這一行為。YOLO v5 架構(gòu)基于 7 個(gè) BottleNeckCSP 塊:其中兩個(gè)塊構(gòu)成了骨干網(wǎng),其余塊則是模型頸部(即 PANet 部分)的主要組件。我們將分析限制在第一個(gè)或最后一個(gè) BottleNeckCSP 塊的參數(shù)上,并定義如下:2e28add0-85d2-11ef-bb4b-92fbcf53809c.png其中,是模型中特定 BottleNeckCSP 塊的參數(shù)集。圖 4 展示了第一個(gè)或最后一個(gè) BottleNeckCSP 塊參數(shù)的?變化情況。2e47c08a-85d2-11ef-bb4b-92fbcf53809c.png這為我們提供了關(guān)于低級(jí)特征和高級(jí)特征影響的見(jiàn)解。我們發(fā)現(xiàn),當(dāng)使用加權(quán)函數(shù)時(shí),第一個(gè)塊受到特別顯著的影響,比例在訓(xùn)練初期上升至原來(lái)的 16 倍,并最終穩(wěn)定在 4 倍的增長(zhǎng)水平。對(duì)于最后一層,我們?nèi)匀挥^察到 ( r_{\text{grad}} ) 的增長(zhǎng),但幅度較小。這表明將訓(xùn)練重點(diǎn)放在大目標(biāo)上主要影響的是低級(jí)特征,并且在整個(gè)訓(xùn)練過(guò)程中都是如此??梢哉J(rèn)為這些通用的低級(jí)特征在大目標(biāo)上比在小目標(biāo)上更具區(qū)分性。這些發(fā)現(xiàn)揭示了重新加權(quán)如何影響訓(xùn)練,表明低級(jí)特征從大目標(biāo)中受益最多。此外,可以認(rèn)為將注意力轉(zhuǎn)向大目標(biāo)與整體性能提升有關(guān),因?yàn)檫@一現(xiàn)象自最初的訓(xùn)練周期就開(kāi)始顯現(xiàn)(這一點(diǎn)將在下一節(jié)中討論)。


5、實(shí)驗(yàn)

為了驗(yàn)證所提出的加權(quán)方案的影響,我們?cè)?COCO 和 nuScenes 數(shù)據(jù)集上對(duì)幾種目標(biāo)檢測(cè)器(YOLO V5、InternImage、DETR 和 Mask R-CNN)進(jìn)行了對(duì)比實(shí)驗(yàn),分別測(cè)試啟用和禁用權(quán)重項(xiàng)的情況。我們?cè)趦蓧K NVIDIA RTX 2080 Ti 上對(duì)這些模型進(jìn)行了訓(xùn)練,每個(gè)數(shù)據(jù)集訓(xùn)練 35 個(gè)周期,批量大小為 16。對(duì)于 InternImage-T 使用了 5 個(gè)周期的預(yù)熱階段。我們使用了 Adam 優(yōu)化器并采用余弦退火學(xué)習(xí)率,YOLO v5 和 Mask R-CNN 的初始最大值為 0.01,而 InternImage-T 和 DETR 的初始最大值為 0.1。驗(yàn)證檢測(cè)的有效 IoU 閾值固定為 0.5,COCO 數(shù)據(jù)集的置信度閾值為 0.001,nuScenes 數(shù)據(jù)集的置信度閾值為 0.05。至于數(shù)據(jù)增強(qiáng),我們保留了每種方法在其原始論文中定義的數(shù)據(jù)增強(qiáng)流程。

表 4 展示了這些實(shí)驗(yàn)的平均精度均值(mAP)和平均召回率(mAR)得分??梢钥闯?,所有模型在使用所提出的加權(quán)方案后,在各個(gè)尺度的目標(biāo)上都表現(xiàn)出顯著的性能提升。例如,經(jīng)過(guò)修改后的 InternImage-T 達(dá)到了 51.2% 的 mAP,而原版為 47.2%,提升了 4 個(gè)百分點(diǎn)。我們的基準(zhǔn)結(jié)果重現(xiàn)了 InternImage 作者的實(shí)驗(yàn)結(jié)果,其論文顯示參數(shù)數(shù)量超過(guò) InternImage-T 一倍的 InternImage-B 在類似訓(xùn)練條件下僅能達(dá)到 48.8% 的 mAP。由于訓(xùn)練 InternImage-XL 需要昂貴的計(jì)算資源,因此我們無(wú)法對(duì)該模型應(yīng)用修改,但該模型目前是最先進(jìn)的。如果能夠訓(xùn)練這樣的模型,很可能會(huì)定義新的技術(shù)前沿。盡管這里展示的結(jié)果涉及四種不同的卷積神經(jīng)網(wǎng)絡(luò)目標(biāo)檢測(cè)器,但所提出的加權(quán)方案較為簡(jiǎn)單,可以輕松應(yīng)用于其他目標(biāo)檢測(cè)模型。

所選示例表明,所提出的修改使得模型能夠檢測(cè)出一些原本未被檢測(cè)到的目標(biāo)。例如,在第一行和第三行中,領(lǐng)帶和飛機(jī)僅在應(yīng)用了我們修改的模型中被檢測(cè)到。如第一行和第二行所示,邊界框預(yù)測(cè)也有所改進(jìn),兩個(gè)模型檢測(cè)到的目標(biāo)在第二列中的邊界框更加精確。

2eb86614-85d2-11ef-bb4b-92fbcf53809c.png

我們還在另一個(gè)數(shù)據(jù)集 NuScenes 上驗(yàn)證了改進(jìn)效果。我們使用 InternImage 模型并對(duì)比了使用和不使用權(quán)重項(xiàng)的性能。表 5 展示了實(shí)驗(yàn)結(jié)果。我們觀察到,在加權(quán)損失下,分?jǐn)?shù)有輕微提升。圖 6 顯示了隨著訓(xùn)練周期增加的整體 mAP 變化情況,證明了模型從一開(kāi)始就受益于對(duì)大目標(biāo)的關(guān)注,因?yàn)檎麄€(gè)訓(xùn)練過(guò)程中的性能始終更優(yōu)。我們可以看到,從最初幾個(gè)周期開(kāi)始,我們的加權(quán)策略平均帶來(lái)了近 3 個(gè)百分點(diǎn)的提升。這進(jìn)一步證明了增加大目標(biāo)的存在有助于引導(dǎo)訓(xùn)練朝更好的方向發(fā)展,并避免陷入更差的局部極小點(diǎn)。這也表明未來(lái)對(duì)目標(biāo)加權(quán)改進(jìn)的效果可能在訓(xùn)練早期就能顯現(xiàn)出來(lái)。

2ee61672-85d2-11ef-bb4b-92fbcf53809c.png


6、消融實(shí)驗(yàn)和討論

6.1 損失項(xiàng)的影響

為了進(jìn)一步研究加權(quán)策略對(duì) YOLO v5 損失函數(shù)的影響,我們?cè)?COCO 數(shù)據(jù)集上進(jìn)行了消融研究。給定模型的總損失函數(shù)(公式 2),我們分別對(duì)分類損失和檢測(cè)損失應(yīng)用了不同的加權(quán)函數(shù)。具體來(lái)說(shuō),我們探索了四種場(chǎng)景:無(wú)權(quán)重項(xiàng)、僅對(duì)分類項(xiàng)應(yīng)用權(quán)重項(xiàng)、僅對(duì)檢測(cè)項(xiàng)應(yīng)用權(quán)重項(xiàng)以及對(duì)所有損失項(xiàng)應(yīng)用權(quán)重項(xiàng)。我們的分析重點(diǎn)在于評(píng)估平均精度均值(MAP@50:95)作為一般度量指標(biāo)以及邊界框中心誤差作為定位度量指標(biāo)。表 6 展示了各種組合對(duì)不同尺度物體 mAP 的影響。由于 mAP 受定位誤差和網(wǎng)絡(luò)檢測(cè)與正確分類物體能力的影響,我們補(bǔ)充了平均絕對(duì)誤差(MAE:預(yù)測(cè)邊界框中心與真實(shí)中心之間的平均 L1 距離)。MAE 僅在水平分量上進(jìn)行估計(jì)。這是因?yàn)樵诖怪焙退?MAE 之間存在高度相關(guān)性(見(jiàn)圖 7)。為了減少網(wǎng)絡(luò)檢測(cè)物體能力的影響,這些結(jié)果是在正確檢測(cè)的物體集合上計(jì)算得出(正確的類別且 IoU > 0.5)。最后,由于 AP@50 對(duì)定位誤差不太敏感,我們展示了所有物體的相應(yīng)結(jié)果。2f1806fa-85d2-11ef-bb4b-92fbcf53809c.png2f43c4b6-85d2-11ef-bb4b-92fbcf53809c.png結(jié)果表明,當(dāng)僅對(duì)分類項(xiàng)添加加權(quán)方案時(shí),mAP 略有下降,特別是在小型物體上,盡管 AP50 和 MAE 有所改善。這種現(xiàn)象的確切解釋尚不清楚。然而,當(dāng)改變的項(xiàng)是檢測(cè)項(xiàng)時(shí),mAP、MAE 和 AP50 均有所提高。對(duì)于大型物體,MAE 的相對(duì)增益更大(30%),表明定位更好。最后,同時(shí)對(duì)兩個(gè)損失項(xiàng)應(yīng)用加權(quán)方案在所有度量指標(biāo)上表現(xiàn)最佳。與初始結(jié)果相比,最大的增益出現(xiàn)在小型目標(biāo)上,mAP 提升了 12 個(gè)百分點(diǎn)(而中等物體提升 3 個(gè)百分點(diǎn),大型物體提升 6 個(gè)百分點(diǎn)),MAE 減少了 43%(而中等物體減少了 23%,大型物體減少了 36%)。這表明,考慮到分類和檢測(cè)的綜合性方法,并適當(dāng)分配權(quán)重項(xiàng),對(duì)于實(shí)現(xiàn) mAP 分?jǐn)?shù)和邊界框中心誤差的最佳結(jié)果至關(guān)重要。

6.2 關(guān)于選擇 log(w × h)

如前所述,選擇 log(w × h) 的主要目的是增加大尺寸物體在網(wǎng)絡(luò)特征學(xué)習(xí)中的貢獻(xiàn)。我們測(cè)試了其他 w × h 的函數(shù),并將其與所提出的函數(shù)進(jìn)行了比較。表 7 在 COCO 數(shù)據(jù)集上評(píng)估了 YOLO v5 的一些樣本加權(quán)函數(shù)。我們堅(jiān)持認(rèn)為該函數(shù)應(yīng)該依賴于物體的面積,并只改變了函數(shù)類型(線性、對(duì)數(shù)、平方根)。雖然 log(w×h) 在此表中表現(xiàn)出最佳結(jié)果,但我們認(rèn)為還需要在這個(gè)方向上進(jìn)行更多的研究和實(shí)驗(yàn),以識(shí)別更好的函數(shù)或證明所選的加權(quán)函數(shù)是否是最佳選擇以獲得更好的性能。2f80a7c8-85d2-11ef-bb4b-92fbcf53809c.png6.3 數(shù)據(jù)集的影響在 COCO 和 NuScenes 這兩個(gè)數(shù)據(jù)集上驗(yàn)證了性能提升的效果。盡管在這兩個(gè)數(shù)據(jù)集上的性能提升不容忽視,但并不能保證在其他數(shù)據(jù)集上也能獲得類似的收益。事實(shí)上,加權(quán)方案相當(dāng)于人為增加數(shù)據(jù)集中大尺寸物體的比例,因此如果數(shù)據(jù)集本身已經(jīng)具有最優(yōu)比例,那么加權(quán)不會(huì)提高性能。然而,本研究的結(jié)論是,在構(gòu)建數(shù)據(jù)集時(shí),擁有一定比例的大尺寸物體是很重要的,如果沒(méi)有,則需要通過(guò)加權(quán)因子來(lái)彌補(bǔ)。影響加權(quán)需求的一個(gè)方面是每個(gè)物體尺寸檢測(cè)的難度。對(duì)于 COCO 和 NuScenes 數(shù)據(jù)集,小尺寸物體的檢測(cè)得分低于大尺寸物體。由于小尺寸物體更難檢測(cè),因此它們?cè)趽p失中往往產(chǎn)生更大的誤差,從而導(dǎo)致更高的梯度。加權(quán)方案可以看作是對(duì)這種行為的一種修正因子。


7、結(jié)論

在本文中,我們展示了訓(xùn)練數(shù)據(jù)集中包含大尺寸物體有助于學(xué)習(xí)到在小尺寸和中等尺寸物體上也能取得更好性能的特征。隨后,我們提出了一種簡(jiǎn)單的損失重新加權(quán)方案,該方案提高了目標(biāo)檢測(cè)器的性能。我們的發(fā)現(xiàn)強(qiáng)調(diào)了考慮大尺寸物體的重要性,并展示了在增強(qiáng)整體目標(biāo)檢測(cè)性能方面加入加權(quán)損失項(xiàng)的潛力。通過(guò)實(shí)驗(yàn)和消融研究,我們驗(yàn)證了所提方法的有效性。我們?cè)u(píng)估了不同模型和數(shù)據(jù)集,一致觀察到在所有尺寸上的檢測(cè)得分都有所提高。未來(lái)的研究可以探討新的策略,明確考慮大尺寸物體對(duì)不同尺度檢測(cè)準(zhǔn)確性的影響。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    元器件電路設(shè)計(jì)中的重要性

    元器件電路設(shè)計(jì)中的重要性是不言而喻的,它們構(gòu)成了電路的基本單元,并決定了電路的功能、性能以及可靠。以下從幾個(gè)方面詳細(xì)闡述元器件電路設(shè)計(jì)中的重要
    的頭像 發(fā)表于 10-29 16:17 ?395次閱讀

    關(guān)于蓄電池氣密檢測(cè)重要性和使用方法

    能源存儲(chǔ)領(lǐng)域,電池的性能和安全非常重要,氣密作為衡量其質(zhì)量的關(guān)鍵指標(biāo)之一,直接影響電池的使用壽命、性能和安全。因此,蓄電池氣密
    的頭像 發(fā)表于 08-23 15:48 ?292次閱讀
    關(guān)于蓄電池氣密<b class='flag-5'>性</b><b class='flag-5'>檢測(cè)</b>儀<b class='flag-5'>重要性</b>和使用方法

    凱迪正大分享電纜交流電壓檢測(cè)的試驗(yàn)方法及其重要性

    電纜交流電壓檢測(cè)作為評(píng)估電纜工作狀態(tài)、預(yù)防故障發(fā)生的重要方式之一,其試驗(yàn)方法的選擇與執(zhí)行至關(guān)重要。本文講結(jié)合凱迪正大的實(shí)操經(jīng)驗(yàn)探討電纜交流電壓檢測(cè)的基本原理、常用試驗(yàn)方法、操作步驟及其
    的頭像 發(fā)表于 08-12 15:41 ?407次閱讀

    武漢凱迪正大享電纜耐壓檢測(cè):內(nèi)容、標(biāo)準(zhǔn)與重要性

    電纜耐壓性關(guān)系到電力系統(tǒng)的安全穩(wěn)定運(yùn)行,對(duì)電纜進(jìn)行耐壓檢測(cè)是電力工程建設(shè)和維護(hù)中不可或缺的一環(huán)。本文將依照凱迪正大的經(jīng)驗(yàn)從電纜耐壓檢測(cè)的內(nèi)容、標(biāo)準(zhǔn)及其
    的頭像 發(fā)表于 07-16 14:28 ?357次閱讀

    NLP技術(shù)人工智能領(lǐng)域的重要性

    智能的橋梁,其重要性日益凸顯。本文將從NLP的定義、發(fā)展歷程、核心技術(shù)、應(yīng)用領(lǐng)域以及對(duì)人工智能領(lǐng)域的深遠(yuǎn)影響等多個(gè)維度,深入探討NLP技術(shù)人工智能領(lǐng)域的重要性
    的頭像 發(fā)表于 07-04 16:03 ?535次閱讀

    武漢凱迪正大分享電纜電容檢測(cè):原理、應(yīng)用與重要性

    為了確保電纜的安全穩(wěn)定運(yùn)行評(píng)估電纜絕緣質(zhì)量以及檢測(cè)潛在故障,需要對(duì)電纜做一些必要的檢測(cè)。本文將依照凱迪正大的一些經(jīng)驗(yàn)對(duì)電纜電容檢測(cè)的原理、應(yīng)用及其重要性進(jìn)行簡(jiǎn)單的序述。
    的頭像 發(fā)表于 07-02 09:22 ?384次閱讀

    求助,ADC接地的重要性?

    ADC接地的重要性
    發(fā)表于 06-04 07:56

    新能源電池氣密檢測(cè)儀的重要性

    新能源電池氣密檢測(cè)儀的重要性和作用(以下簡(jiǎn)稱“檢測(cè)儀”)。電池的氣密是什么?電池氣密,顧名
    的頭像 發(fā)表于 05-20 11:25 ?537次閱讀
    新能源電池氣密<b class='flag-5'>性</b><b class='flag-5'>檢測(cè)</b>儀的<b class='flag-5'>重要性</b>

    氣密檢測(cè)重要性

    現(xiàn)代工業(yè)生產(chǎn)和日常生活中,氣密檢測(cè)扮演著至關(guān)重要的角色。無(wú)論是汽車、航空、醫(yī)療還是電子行業(yè),確保產(chǎn)品或結(jié)構(gòu)具有良好的氣密性能對(duì)于保障其
    的頭像 發(fā)表于 04-26 11:51 ?874次閱讀
    氣密<b class='flag-5'>性</b><b class='flag-5'>檢測(cè)</b>的<b class='flag-5'>重要性</b>

    集成芯片的重要性和必要

    集成芯片在現(xiàn)代科技和工業(yè)中占據(jù)著至關(guān)重要的地位,其重要性和必要主要體現(xiàn)在以下幾個(gè)方面。
    的頭像 發(fā)表于 03-18 15:17 ?1144次閱讀

    模擬前端電路的重要性

    模擬前端電路電子系統(tǒng)中占據(jù)著舉足輕重的地位,其重要性不容忽視。模擬前端電路作為連接真實(shí)世界與數(shù)字世界的橋梁,起到了至關(guān)重要的作用。它負(fù)責(zé)將傳感器等物理設(shè)備捕捉到的模擬信號(hào)轉(zhuǎn)換為數(shù)字信號(hào),以供后續(xù)的數(shù)字電路或處理器進(jìn)行分析和處理
    的頭像 發(fā)表于 03-16 15:07 ?663次閱讀

    正負(fù)壓氣密檢測(cè)儀的應(yīng)用范圍及重要性

    各個(gè)行業(yè)中的重要性。一、汽車行業(yè)(圖片來(lái)源于網(wǎng)絡(luò),可刪)汽車行業(yè)中,氣密檢測(cè)是確保車輛質(zhì)量和性能的關(guān)鍵環(huán)節(jié)。無(wú)論是發(fā)動(dòng)機(jī)、燃油系統(tǒng)還是
    的頭像 發(fā)表于 03-12 11:30 ?648次閱讀
    正負(fù)壓氣密<b class='flag-5'>性</b><b class='flag-5'>檢測(cè)</b>儀的應(yīng)用范圍及<b class='flag-5'>重要性</b>

    蜂鳴器的用途和重要性

    蜂鳴器的用途和重要性? 蜂鳴器是一種能夠發(fā)出高音頻或低音頻聲音的設(shè)備,常用于警報(bào)系統(tǒng)、電子設(shè)備、通信系統(tǒng)和家庭電器中。它作為一種重要的聲音輸出設(shè)備,具有廣泛的用途和重要性。 首先,蜂鳴器
    的頭像 發(fā)表于 02-19 10:27 ?3380次閱讀

    泰克示波器探頭校準(zhǔn)的重要性及步驟詳解

    泰克示波器探頭校準(zhǔn)的重要性及步驟詳解 泰克示波器探頭是電子測(cè)量中常用的測(cè)試工具,用于從電路中獲取信號(hào)并顯示示波器屏幕上。為確保測(cè)量結(jié)果的準(zhǔn)確和可靠,進(jìn)行泰克示波器探頭校準(zhǔn)是非常
    的頭像 發(fā)表于 01-08 13:50 ?1175次閱讀

    線性交流可調(diào)恒流源重要性、優(yōu)勢(shì)與應(yīng)用

    具有重要性電子設(shè)備中,恒流源是一種能夠輸出恒定電流的電子元件。它的作用是電路中提供恒定的電流,以保持電路的穩(wěn)定運(yùn)行。很多電子設(shè)備中,如LED驅(qū)動(dòng)器、穩(wěn)壓電源等,恒流源都是必不可
    的頭像 發(fā)表于 01-04 15:39 ?876次閱讀