0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于并行附加特征提取網(wǎng)絡(luò)的SSD地面小目標(biāo)檢測(cè)模型

li1234567890123 ? 來(lái)源:li1234567890123 ? 作者:li1234567890123 ? 2022-02-17 16:41 ? 次閱讀

基于并行附加特征提取網(wǎng)絡(luò)的SSD地面小目標(biāo)檢測(cè)模型

來(lái)源:《電子學(xué)報(bào)》 ,作者李寶奇等
摘 要: 針對(duì)SSD原始附加特征提取網(wǎng)絡(luò)(Original Additional Feature Extraction Network,OAFEN)中stride操作造成圖像小目標(biāo)信息丟失和串聯(lián)結(jié)構(gòu)產(chǎn)生的多尺度特征之間冗余度較大的問(wèn)題,提出了一種計(jì)算量小、感受野大的深度可分離空洞卷積(Depthwise Separable Dilated Convolution,DSDC),并利用DSDC設(shè)計(jì)了一個(gè)包含三個(gè)獨(dú)立子網(wǎng)絡(luò)的并行附加特征提取網(wǎng)絡(luò)(Parallel Additional Feature Extraction Network,PAFEN).PAFEN上路用兩個(gè)DSDC提取尺寸為19*19和3*3的特征圖;中路用一個(gè)DSDC提取尺寸為10*10的特征圖;下路用兩個(gè)DSDC提取尺寸為5*5和1*1的特征圖.實(shí)驗(yàn)結(jié)果表明,在SSD框架內(nèi),PAFEN在mAP和檢測(cè)時(shí)間等方面均優(yōu)于OAFEN,適用于地面小目標(biāo)的檢測(cè)任務(wù).

關(guān)鍵詞: 目標(biāo)檢測(cè);SSD;深度可分離卷積;空洞卷積;深度可分離空洞卷積;并行附加特征提取網(wǎng)絡(luò)

1 引言
地面目標(biāo)檢測(cè)在無(wú)人機(jī)導(dǎo)航、搜索、精確打擊和毀傷后評(píng)估中發(fā)揮著重要作用[1~3].考慮飛行安全和飛行距離,無(wú)人機(jī)通常會(huì)在較遠(yuǎn)距離獲取地面目標(biāo)圖像,由此造成的結(jié)果是圖像內(nèi)目標(biāo)像素比較小,這會(huì)進(jìn)一步增加目標(biāo)檢測(cè)的難度[4].

通過(guò)將深度學(xué)習(xí)[5~7]模型 CNN(Convolutional Neural Networks)[8~10]嵌入到目標(biāo)檢測(cè)模型之中,目標(biāo)檢測(cè)精度在過(guò)去幾年中不斷提高,結(jié)合CNN的目標(biāo)檢測(cè)算法可分為基于候選區(qū)域和基于回歸兩類(lèi).Girshick等[11]第一個(gè)將CNN用于目標(biāo)檢測(cè),并提出R-CNN(Regionbased Convolutional Neural Networks)模型.R-CNN使用區(qū)域建議方法從輸入圖像中生成2000個(gè)候選區(qū)域,并將所有的候選區(qū)域縮放到固定尺寸.然后,使用CNN在這些候選區(qū)域上提取特征.在CNN的最后一個(gè)特征層加入兩個(gè)全連接層(SVM和回歸層).由于SVM和回歸層是分開(kāi)訓(xùn)練,R-CNN很難優(yōu)化而且占用內(nèi)存空間非常大.Girshick 等[12]又提出 Fast R-CNN 模型.Fast RCNN首先在圖像中提取感興趣區(qū)域 (Regions of Interest,RoI);然后對(duì)每幅圖像只做一次卷積處理,在最后一個(gè)卷積層輸出的特征圖上對(duì)每個(gè)RoI進(jìn)行映射,并送入RoI池化層把各尺寸的特征圖統(tǒng)一到相同的大?。?3];最后利用 Softmax Loss和 Smooth L1 Loss對(duì)分類(lèi)概率和邊框回歸聯(lián)合訓(xùn)練.聯(lián)合訓(xùn)練省去了特征存儲(chǔ),提高了空間和時(shí)間利用率.然而,提取感興趣區(qū)域占用了整個(gè)檢測(cè)過(guò)程的大部分時(shí)間.Ren等[14]提出了目標(biāo)檢測(cè)模型Faster R-CNN.與Fast R-CNN相比,F(xiàn)aster RCNN利用RPN(Region Proposal Network)在CNN最后一個(gè)連接層中自行產(chǎn)生建議框,因此建議框生成網(wǎng)絡(luò)和目標(biāo)檢測(cè)網(wǎng)絡(luò)共享卷積網(wǎng)絡(luò).同時(shí)建議框數(shù)目從原有的約2000個(gè)減少為300個(gè),重要的是建議框的質(zhì)量也有本質(zhì)的提高,但Faster R-CNN檢測(cè)的速度依然有待提高.

基于區(qū)域建議的目標(biāo)檢測(cè)方法不能利用局部目標(biāo)在整幅圖像中的空間信息,所以一些研究者開(kāi)展了無(wú)區(qū)域建議的目標(biāo)檢測(cè)研究,主要采用回歸的思想.Redmon等[15]提出了一種無(wú)區(qū)域建議的目標(biāo)檢測(cè)模型,稱(chēng)為YOLO(You Only Look Once).YOLO通過(guò)采用空間限制,減少了對(duì)同一目標(biāo)的重復(fù)檢測(cè),大大提高了效率,能夠達(dá)到實(shí)時(shí)的效果.但是YOLO的檢測(cè)精度不如Faster R-CNN.針對(duì) YOLO 存在的不足,Liu等[16]提出 SSD(Single Shot Detector)模型.SSD模型主要由四部分組成:基礎(chǔ)網(wǎng)絡(luò)VGG-16(Visual Geometry Group),附加特征提取層部分,default boxes生成部分和卷積預(yù)測(cè)部分.SSD通過(guò)融合六個(gè)尺度的特征來(lái)提高目標(biāo)檢測(cè)的精度.原始附加特征提取網(wǎng)絡(luò)從基礎(chǔ)網(wǎng)絡(luò)特征層conv4_3(38*38)開(kāi)始,然后通過(guò)在標(biāo)準(zhǔn)卷積層中使用stride操作依次生成 fc7(19*19)、conv6_2(10*10)、conv7_2(5*5)、conv8_2(3*3)和conv9_2(1*1)五個(gè)尺度的特征圖.stride操作會(huì)造成圖像目標(biāo)信息的丟失[17~19],尤其是圖像中的小目標(biāo).原始附加特征提取網(wǎng)絡(luò)中六個(gè)尺度的特征圖采用串聯(lián)結(jié)構(gòu)生成,彼此之間具有很高的冗余度,特征圖之間冗余度較高不利于圖像小目標(biāo)的精準(zhǔn)定位.為了提高SSD對(duì)小目標(biāo)的檢測(cè)精度,Cao等[20]提出 FFSSD(Feature-Fused SSD)模型.FFSSD 利用Feature Fusion Module對(duì)VGG-16中conv5_3進(jìn)行2倍上采樣操作,并與conv4_3融合來(lái)提高小尺寸目標(biāo)的檢測(cè)精度.Fu等[21]提出 DSSD(Deconvolutional Single Shot Detector)模型.DSSD基礎(chǔ)網(wǎng)絡(luò)為特征提取能力更強(qiáng)的Resnet-101,并利用Deconvolution Module擴(kuò)展低維度信息的上下文信息來(lái)提高小尺度目標(biāo)的檢測(cè)精度.FFSSD和DSSD都是通過(guò)整合更多尺度上的語(yǔ)義特征來(lái)提高模型對(duì)小目標(biāo)的檢測(cè)精度,但是這些方法,在提高對(duì)于目標(biāo)物體特別時(shí)小物體識(shí)別效果的同時(shí)由于加入了額外的層,也增大了計(jì)算量,影響了檢測(cè)的實(shí)時(shí)性.Zhou 等[22]提出了 STDN(Scale-Transferrable Object Detection)模型.STDN基礎(chǔ)網(wǎng)絡(luò)為 DenseNet-169,并通過(guò)Scale-Transfer層實(shí)現(xiàn)了在幾乎不增加參數(shù)量和計(jì)算量的前提下生成大尺寸的特征層來(lái)提高模型對(duì)小目標(biāo)的檢測(cè)精度.由于Scale-Transfer層是一個(gè)轉(zhuǎn)換操作,因此基本不會(huì)引入額外的參數(shù)量和計(jì)算量.為了提高SSD的檢測(cè)速度,Howard等[23]提出了輕量化的卷積神經(jīng)網(wǎng)絡(luò)MobileNet.MobileNet用深度可分離卷積(Depthwise Separable Convolution,DSC)替換標(biāo)準(zhǔn)卷積來(lái)減少模型的參數(shù)和計(jì)算量,它在不影響目標(biāo)檢測(cè)精度的條件下能極大地提高SSD的檢測(cè)速度.

除了上述針對(duì)SSD的改進(jìn)方法外,還有一些其它提高小目標(biāo)檢測(cè)精度的研究工作,例如設(shè)計(jì)專(zhuān)用的目標(biāo)檢測(cè)的骨干網(wǎng)絡(luò)[24],優(yōu)化檢測(cè)模型訓(xùn)練過(guò)程[25],IoU閾值動(dòng)態(tài)設(shè)計(jì)[26]和生成高分辨率小目標(biāo)特征[27]等.特別是文獻(xiàn)[27],Li等提出了一種基于PGAN(Perceptual Generative Adversarial Networks)的小目標(biāo)檢測(cè)方法.PGAN通過(guò)訓(xùn)練條件生成網(wǎng)絡(luò)使小目標(biāo)的特征表示與大目標(biāo)特征表示類(lèi)似,并利用一個(gè)新的感知分類(lèi)器來(lái)監(jiān)督小目標(biāo)特征的生成從而更精確地檢測(cè)小目標(biāo).

針對(duì)上述改進(jìn)方法不能兼顧小目標(biāo)檢測(cè)精度和速度的問(wèn)題,本文提出了一種計(jì)算量小,覆蓋范圍大的卷積單元-深度可分離空洞卷積(Depthwise Separable Dilated Convolution,DSDC),并利用 DSDC設(shè)計(jì)了一種包含三個(gè)子網(wǎng)絡(luò)的并行附加特征提取層網(wǎng)絡(luò)(Parallel Additional Feature Extraction Network,PAFEN),同時(shí)通過(guò)優(yōu)化DSDC空洞率(Dilation Rate)的選取來(lái)改善 PAFEN的性能,最后在SSD框架內(nèi)通過(guò)結(jié)合MobileNet(基礎(chǔ)網(wǎng)絡(luò))和PAFEN(特征提取網(wǎng)絡(luò))實(shí)現(xiàn)對(duì)地面小目標(biāo)的快速、準(zhǔn)確的檢測(cè).

2 基于并行附加特征提取網(wǎng)絡(luò)的SSD小目標(biāo)檢測(cè)模型
本文通過(guò)改進(jìn)附加特征提取網(wǎng)絡(luò)來(lái)提高SSD對(duì)地面小目標(biāo)的檢測(cè)精度和速度.在新的附加特征提取網(wǎng)絡(luò)中,深度可分離空洞卷積作為網(wǎng)絡(luò)基本單元(深度可分離空洞卷積摒棄了stride操作,它通過(guò)通道分解和卷積核空洞化來(lái)減少計(jì)算量和增大感受野);三個(gè)獨(dú)立子網(wǎng)絡(luò)結(jié)構(gòu)替代原來(lái)的單網(wǎng)絡(luò)串聯(lián)結(jié)構(gòu)以增加多尺度特征圖的多樣性,并為與conv4(在MobileNet中與VGG-16中conv4_3對(duì)應(yīng)的層為conv4)直接相連的三個(gè)多尺度特征fc7、conv6_2和conv7_2設(shè)計(jì)convex空洞率策略來(lái)增加上下兩個(gè)子網(wǎng)絡(luò)的信息以改善新附加特征提取網(wǎng)絡(luò)的性能.

2.1 深度可分離空洞卷積單元
深度可分離卷積通過(guò)將標(biāo)準(zhǔn)卷積分解成深度卷積和點(diǎn)卷積來(lái)大幅降低模型的參數(shù),重要的是卷積層的特征提取能力基本不受影響.但為了生成尺寸更小的特征圖,深度可分離卷積只能通過(guò)增加卷積核尺寸或stride操作實(shí)現(xiàn),過(guò)大尺寸的卷積核會(huì)大幅增加模型參數(shù),而stride操作會(huì)造成圖像小目標(biāo)信息的丟失.深度可分離空洞卷積是在深度可分離卷積的基礎(chǔ)上,通過(guò)對(duì)深度卷積空洞化實(shí)現(xiàn).空洞化是向標(biāo)準(zhǔn)卷積中引入了一個(gè)稱(chēng)作空洞率的新參數(shù)[17],并利用擴(kuò)張率控制卷積核處理數(shù)據(jù)時(shí)各值的間距,從而在計(jì)算量相當(dāng)?shù)臈l件下實(shí)現(xiàn)卷積層感受野的增大.深度可分離空洞卷積與深度可分離卷積相比具有更大的感受野,與空洞卷積相比具有更小的計(jì)算量.深度可分離空洞卷積(DSDC)、深度可分離卷積(DSC)和標(biāo)準(zhǔn)卷積之間的關(guān)系如圖1所示.

對(duì)于M個(gè)尺寸為DF*DF的輸入特征圖F,經(jīng)尺寸為DK*DK的卷積核操作后,輸出N個(gè)尺寸為DG*DG的特征圖G,其中DF是輸入的特征圖的寬度和高度,M是輸入通道數(shù),DG是輸出特征圖的寬度和高度,N是輸出通道數(shù).標(biāo)準(zhǔn)卷積、深度可分離卷積和深度可分離空洞卷積的計(jì)算分解過(guò)程如圖2所示.

圖片

圖片

標(biāo)準(zhǔn)卷積生成特征圖G的計(jì)算成本為:

圖片

深度可分離卷積生成特征圖G的計(jì)算成本為:

圖片

深度可分離空洞卷積生成特征圖G的計(jì)算成本為:

圖片

深度可分離卷積和深度可分離空洞卷積與標(biāo)準(zhǔn)卷積的計(jì)算成本比值均為:

圖片

但在相同計(jì)算量的條件下,深度可分離空洞卷積的覆蓋范圍更大.深度可分離空洞卷積實(shí)際空洞濾波器(RDF)尺寸與空洞率之間的關(guān)系如下:

圖片

其中K rdf為該層RDF尺寸,DK為該層卷積核尺寸,R為該層空洞率大小.例如,一個(gè)卷積核尺寸為3*3,空洞率R=2的空洞卷積層,RDF的實(shí)際覆蓋范圍為5*5,即K rdf=5.同時(shí)可以通過(guò)進(jìn)一步增大空洞率R來(lái)擴(kuò)大卷積層的感受野.

2.2 基于并行附加特征提取網(wǎng)絡(luò)的SSD小目標(biāo)檢測(cè)模型設(shè)計(jì)
附加特征提取網(wǎng)絡(luò)并行化設(shè)計(jì)是由conv4直接生成剩余的多尺度特征圖,每個(gè)子網(wǎng)絡(luò)之間保持獨(dú)立,生成的多尺度特征圖之間的冗余度也相對(duì)較?。?3].考慮conv7_2(5*5)、conv8_2(3*3)和 conv9_2(1*1)三個(gè)尺度的特征圖尺寸比較接近,因此將剩余的五個(gè)尺度特征圖設(shè)計(jì)為三個(gè)獨(dú)立的子網(wǎng)絡(luò)結(jié)構(gòu),即conv4與fc7、conv6_2和conv7_2直接相連接,同時(shí)將 conv8_2和conv9_2分配到上路和下路兩個(gè)子網(wǎng)絡(luò)有助于提升fc7和conv7_2特征圖的質(zhì)量,也可以避免與conv7_2特征尺度上的重復(fù).基于MobileNet和PAFEN的SSD地面小目標(biāo)檢測(cè)模型結(jié)構(gòu)如圖3所示,記作MPSDD.

圖片

地面小目標(biāo)圖像首先進(jìn)入SSD基礎(chǔ)網(wǎng)絡(luò)部分,其中基礎(chǔ)網(wǎng)絡(luò)為MobileNet被截?cái)嘀羉onv4的部分網(wǎng)絡(luò),并將conv4作為PAFEN的第一個(gè)特征層;PAFEN由conv4生成三個(gè)獨(dú)立的子網(wǎng)絡(luò):上路子網(wǎng)絡(luò)、中路子網(wǎng)絡(luò)和下路子網(wǎng)絡(luò).上路子網(wǎng)絡(luò)由conv4(38*38)生成fc7(19*19)和conv8_2(3*3)兩個(gè)尺度的特征圖;中路子網(wǎng)絡(luò)由 conv4(38*38)生成conv6_2(10*10)一個(gè)尺度的特征圖;下路子網(wǎng)絡(luò)由conv4(38*38)生成conv7_2(5*5)和conv9_2(1*1)兩個(gè)尺度的特征圖.default boxes生成部分根據(jù)預(yù)先定義的scales和aspect ratios從上述六個(gè)尺度的特征層中提取數(shù)量和大小不同的default boxes;卷積預(yù)測(cè)部分則是對(duì)default boxes內(nèi)目標(biāo)的類(lèi)型和位置進(jìn)行判斷.

利用深度可分離空洞卷積構(gòu)建PAFEN需要首先解決網(wǎng)格問(wèn)題[17~19],網(wǎng)格問(wèn)題就是空洞卷積網(wǎng)絡(luò)每一層實(shí)際感受野疊加操作后無(wú)法實(shí)現(xiàn)對(duì)輸入圖像的完全覆蓋,因此會(huì)造成信息的丟失.文獻(xiàn)[17]和文獻(xiàn)[19]針對(duì)并行和串行空洞卷積網(wǎng)絡(luò)分別提出了卷積核尺寸固定下的空洞率選取準(zhǔn)則.考慮PAFEN并非嚴(yán)格意義上的串聯(lián)或并聯(lián)結(jié)構(gòu),同時(shí)PAFEN主要是為了提取圖像小目標(biāo)特征,因此文獻(xiàn)[17]和文獻(xiàn)[19]中的空洞率選取策略并不適用PAFEN中深度可分離空洞卷積空洞率的設(shè)計(jì).為了更好地提取圖像小目標(biāo)特征,PAFEN中使用的空洞率數(shù)值整體相對(duì)較?。瑫r(shí),由于PAFEN上路和下路子網(wǎng)絡(luò)均包含兩個(gè)DSDC,因此fc7和conv7_2使用更小的空洞率有利于提高兩個(gè)子網(wǎng)絡(luò)特征圖的質(zhì)量.PAFEN中五個(gè)深度可分離空洞卷積層的參數(shù)設(shè)置如表1所示.

為了嚴(yán)格保證PAFEN與OAFEN中多尺度特征圖尺寸完全一致,需要對(duì)部分DSDC進(jìn)行填充,例如fc7、conv6_2和 conv9_2.

表1 并行附加特征提取網(wǎng)絡(luò)參數(shù)設(shè)置

圖片

3 仿真試驗(yàn)
為了驗(yàn)證PAFEN的有效性以及特征層組合方式和DSDC空洞率選取對(duì)PAFEN性能的影響,實(shí)驗(yàn)以mAP、平均檢測(cè)時(shí)間和參數(shù)大小作為模型定量評(píng)價(jià)指標(biāo).設(shè)計(jì)實(shí)驗(yàn) 1,以 MOSSD[23](基礎(chǔ)網(wǎng)絡(luò)為 MobileNet,特征提取網(wǎng)絡(luò)為OAFEN)為參考,比較分析Faster-RCNN[14]、SSD[16]、FFSSD[20]、DSSD[21]與本文地面小目標(biāo)檢測(cè)方法MPSSD(基礎(chǔ)網(wǎng)絡(luò)為MobileNet,特征提取網(wǎng)絡(luò)為PAFEN)之間的性能差異.設(shè)計(jì)實(shí)驗(yàn)2,以附加特征提取網(wǎng)絡(luò)中不同尺度的特征圖為研究對(duì)象,比較分析特征圖不同的組合方式對(duì)PAFEN性能的影響.設(shè)計(jì)實(shí)驗(yàn)3,以深度可分離空洞卷積的空洞率為研究對(duì)象,比較分析不同的空洞率選取方式對(duì)PAFEN性能的影響.SSD、FFSSD、DSSD、MOSSD 和 MPSSD 由 Caffe工具箱設(shè)計(jì),采用 GPU(Titan X)計(jì)算方式[28],其中檢測(cè)時(shí)間為模型檢測(cè)100幅圖像的平均前向時(shí)間,參數(shù)大小指模型(.caffemodel文件)的實(shí)際大?。瓼aster-RCNN實(shí)驗(yàn)?zāi)P陀?a href="http://wenjunhu.com/tags/tensorflow/" target="_blank">TensorFlow工具箱設(shè)計(jì),同樣采用GPU(Titan X)計(jì)算方式,平均檢測(cè)時(shí)間為模型檢測(cè)完整測(cè)試數(shù)據(jù)集的平均時(shí)間,參數(shù)大小指模型(.ckpt文件)的實(shí)際大小.

3.1 實(shí)驗(yàn)數(shù)據(jù)集
為了更好地檢驗(yàn)基于PAFEN的SSD模型(MPSSD)對(duì)圖像小目標(biāo)的檢測(cè)性能,我們建立了一個(gè)地面小目標(biāo)數(shù)據(jù)集:SGT-DET.SGT-DET包括四種地面目標(biāo):軍用卡車(chē)、直升機(jī)、導(dǎo)彈和坦克,共計(jì)3350幅圖像,其中2410幅用于模型訓(xùn)練,940幅圖像用于模型測(cè)試,如表2所示.

表2 地面小目標(biāo)數(shù)據(jù)集組成

圖片

地面小目標(biāo)是一個(gè)相對(duì)的概念,其中“小”指的是圖像中目標(biāo)的像素比值小,SGT-DET圖像中四個(gè)地面小目標(biāo)的像素比均小于0.05.

3.2 實(shí)驗(yàn)1:目標(biāo)檢測(cè)算法的性能比較
本實(shí)驗(yàn)比較分析 Faster-RCNN、SSD、FFSSD、DSSD、MOSSD與本文地面小目標(biāo)檢測(cè)方法MPSSD在數(shù)據(jù)集SGT-DET上的性能差異.Faster-RCNN的基礎(chǔ)網(wǎng)絡(luò)為VGG-16,特征提取網(wǎng)絡(luò)為 RPN;SSD的基礎(chǔ)網(wǎng)絡(luò)為VGG-16,特征提取網(wǎng)絡(luò)為OAFEN;FFSSD的基礎(chǔ)網(wǎng)絡(luò)為VGG-16,特征提取網(wǎng)絡(luò)為 Feature Fusion Module;DSSD的基礎(chǔ)網(wǎng)絡(luò)為ResNet101,特征提取網(wǎng)絡(luò)為Deconvolution Module;MOSSD的基礎(chǔ)網(wǎng)絡(luò)為MobileNet,特征提取網(wǎng)絡(luò)為OAFEN;MPSSD的基礎(chǔ)網(wǎng)絡(luò)為MobileNet,特征提取網(wǎng)絡(luò)為PAFEN,其中PAFEN包含三個(gè)獨(dú)立的子網(wǎng)絡(luò),其中fc7,conv6_2和conv7_2三個(gè)卷積層的卷積核,空洞率和填充為[8,3,1]、[7,5,1]和[12,3,0].分別記錄檢測(cè)模型在迭代30000次時(shí)對(duì) SGTDET測(cè)試數(shù)據(jù)集的mAP數(shù)值、平均檢測(cè)時(shí)間和參數(shù)大?。?/p>

從表3可以發(fā)現(xiàn),F(xiàn)aster-RCNN的檢測(cè)精度最高為97.6%,MPSSD的檢測(cè)時(shí)間最短為7.18ms,MPSSD的參數(shù)大小最少為7.9MB.FFSSD、DSSD和SSD的實(shí)驗(yàn)結(jié)果表明增加特征提取網(wǎng)絡(luò)的層數(shù)(增加contextual information)能夠改善SSD對(duì)小目標(biāo)檢測(cè)的精度,但不可避免地會(huì)增加計(jì)算量和模型參數(shù).MOSSD和SSD的實(shí)驗(yàn)結(jié)果表明利用MobileNet替換VGG-16在減少模型參數(shù)和降低檢測(cè)時(shí)間方面帶來(lái)的效果是明顯的,但也存在檢測(cè)精度上的下降.MPSSD和MOSSD的實(shí)驗(yàn)結(jié)果表明PAFEN在三種定量評(píng)價(jià)指標(biāo)中明顯優(yōu)于OAFEN,在地面小目標(biāo)的檢測(cè)任務(wù)中,PAFEN比OAFEN精度更高,速度更快.綜合考慮檢測(cè)精度(mAP)、平均檢測(cè)時(shí)間(Times)和參數(shù)大小(Parameters)三個(gè)因素,MPSSD優(yōu)于其它檢測(cè)模型,更適合無(wú)人機(jī)遠(yuǎn)距離地面實(shí)時(shí)檢測(cè)任務(wù).

為了更直觀的說(shuō)明MPSSD對(duì)地面小目標(biāo)的檢測(cè)效果,通過(guò)Juyter notebook利用訓(xùn)練30000次的MPSSD模型分別對(duì)4種地面小目標(biāo)圖像進(jìn)行檢測(cè),檢測(cè)結(jié)果如圖4所示.從圖4可以看出,MPSSD模型對(duì)四種地面小目標(biāo)能實(shí)現(xiàn)準(zhǔn)確檢測(cè).

表3 目標(biāo)檢測(cè)模型性能比較

圖片

圖片

3.3 實(shí)驗(yàn)2:子網(wǎng)絡(luò)數(shù)量對(duì)PAFEN性能的影響
本實(shí)驗(yàn)比較不同數(shù)量子網(wǎng)絡(luò)對(duì)PAFEN性能的影響.實(shí)驗(yàn)以包含三個(gè)子網(wǎng)絡(luò)的 PAFEN為參考,記PAFEN-3;設(shè)計(jì)包含一個(gè)子網(wǎng)絡(luò)的PAFEN-1和包含五個(gè)子網(wǎng)絡(luò)的PAFEN-5.PAFEN-1可解釋為OAFEN的深度可分離空洞化,其中 fc7、conv6_2、conv7_2、conv8_2和conv9_2五個(gè)卷積層的卷積核、空洞率和填充為[8,3,1]、[4,3,0]、[4,3,2]、[3,2,1]和[3,2,1].PAFEN-5為包含五個(gè)獨(dú)立子網(wǎng)絡(luò)的并行附加特征提取網(wǎng)絡(luò),即fc7、conv6_2、conv7_2、conv8_2 和 conv9_2 直接與 conv4相連,其中五個(gè)卷積層的卷積核、空洞率和填充為[8,3,1]、[8,4,0]、[8,5,1]、[8,5,0]和[8,6,3].記錄模型迭代30000次時(shí)模型對(duì)SGT-DET測(cè)試數(shù)據(jù)集的mAP數(shù)值、平均檢測(cè)時(shí)間和參數(shù)大?。?/p>

從表4可以看出,隨著PAFEN子網(wǎng)絡(luò)數(shù)量的增加,模型的檢測(cè)時(shí)間和參數(shù)都存在一定的增加,其中PAFEN-3比 PAFEN-1時(shí)間增加 0.09ms、參數(shù)增加0.4MB,PAFEN-5比PAFEN-1時(shí)間增加0.24ms,參數(shù)增加1.4MB.但檢測(cè)精度并沒(méi)有隨著子網(wǎng)絡(luò)數(shù)量的增加而改善,PAFEN-5的mAP比PAFEN-3低3.3%.綜合考慮檢測(cè)精度、平均檢測(cè)時(shí)間和參數(shù)大小三個(gè)評(píng)價(jià)指標(biāo),將PAFEN設(shè)計(jì)成三個(gè)子網(wǎng)絡(luò)效果最好.

***網(wǎng)絡(luò)數(shù)量對(duì)PAFEN性能的影響

圖片

3.4 實(shí)驗(yàn)3:空洞率選取對(duì)PAFEN性能的影響
fc7、conv6_2、conv7_2 與 conv4 直接相連,這三個(gè)卷積層對(duì)PAFEN的性能影響最大,因此本實(shí)驗(yàn)主要分析和比較fc7、conv6_2、conv7_2三個(gè)卷積層空洞率選取對(duì)PAFEN性能的影響.實(shí)驗(yàn)設(shè)計(jì)四種形式的空洞率策略:rise、decline、uniformity和 convex,其中 convex 為 PAFEN采用的策略.rise、decline和uniformity三種策略的空洞率分別為[3,5,7]、[7,5,3]和[5,5,5].記錄模型迭代30000次時(shí)對(duì)SGT-DET測(cè)試數(shù)據(jù)集的mAP數(shù)值、平均檢測(cè)時(shí)間和參數(shù)大?。?/p>

從表5可以看出,四種空洞率策略下模型的檢測(cè)時(shí)間和參數(shù)大小基本相同.rise、decline、uniformity三種策略下模型的mAP數(shù)值也保持在同一水平,但convex策略下模型的mAP數(shù)值高于其他三種策略,比rise高2.7%,比decline高2.6%,比uniformity高2.3%.換句話說(shuō),為包含更多層的子網(wǎng)絡(luò)的初始層設(shè)置較低的空洞率有助于提升PAFEN的性能.

表5 空洞率選取對(duì)PAFEN性能的影響

圖片

3.5 討論
實(shí)驗(yàn)從mAP、平均檢測(cè)時(shí)間和參數(shù)大小三個(gè)方面比較了本文小目標(biāo)檢測(cè)方法MPSSD與經(jīng)典算法(Faster-RCNN和SSD)和最新算法(FFSSD和DSSD)性能上的差異,也進(jìn)一步分析了子網(wǎng)絡(luò)的數(shù)量和空洞率的選取如何影響PAFEN的性能.本文地面小目標(biāo)檢測(cè)模型MPSSD的基礎(chǔ)網(wǎng)絡(luò)為 MobileNet,特征提取網(wǎng)絡(luò)為PAFEN.PAFEN利用計(jì)算量小、感受野大的深度可分離空洞卷積單元組建附加特征提取網(wǎng)絡(luò)能消除stride操作造成圖像中小目標(biāo)信息丟失的問(wèn)題.PAFEN采用三個(gè)獨(dú)立的子網(wǎng)絡(luò)結(jié)構(gòu),使其能從conv4生成三組尺度獨(dú)立的特征圖,減少多尺度特征圖之間的冗余度,提高目標(biāo)檢測(cè)的精度.但并非子網(wǎng)絡(luò)的數(shù)量越多越好,例如PAFEN-5的檢測(cè)精度低于 PAFEN-3.在 PAFEN-5中,conv4(38*38)直接生成conv8_2(3*3)或conv9_2(1*1),由于兩個(gè)子網(wǎng)絡(luò)尺度之間跨度較大(38-3或38-1),在一定程度上會(huì)影響conv8_2(3*3)和conv9_2(1*1)兩個(gè)尺度特征圖的質(zhì)量.同時(shí),PAFEN-5用五個(gè)獨(dú)立的子網(wǎng)絡(luò)生成五個(gè)尺度的特征圖,特征圖之間的獨(dú)立性能為目標(biāo)檢測(cè)提供更豐富的選擇,但過(guò)于獨(dú)立的特征會(huì)影響圖像目標(biāo)的定位.因此,PAFEN需要兼顧特征圖的質(zhì)量和特征圖的多樣性.PAFEN使用convex空洞率策略獲得了最高的檢測(cè)精度,事實(shí)上,四種空洞率策略下PAFEN的檢測(cè)精度均高于OAFEN.在convex策略中,上路和下路網(wǎng)絡(luò)初始特征層使用較小空洞率能從conv4中獲取更多的信息,增強(qiáng)conv8_2和conv9_2兩個(gè)尺度特征圖的質(zhì)量,進(jìn)而提高模型的檢測(cè)精度.

Faster-RCNN和SSD是經(jīng)典目標(biāo)檢測(cè)算法的代表,F(xiàn)aster-RCN側(cè)重于目標(biāo)檢測(cè)精度,而SSD側(cè)重于目標(biāo)檢測(cè)速度,實(shí)驗(yàn)1的結(jié)果也驗(yàn)證了這一觀點(diǎn).MOSSD用MobileNet替換基礎(chǔ)網(wǎng)絡(luò)VGG-16來(lái)進(jìn)一步提高SSD的檢測(cè)速度.對(duì)于本文的SGT-DET數(shù)據(jù)集,MOSSD比SSD檢測(cè)精度低3.5%,精度下降的幅度還是比較大,這也間接表明MobileNet作為小目標(biāo)檢測(cè)模型的基礎(chǔ)網(wǎng)絡(luò)還存在改進(jìn)的空間.FFSSD和DSSD是針對(duì)小目標(biāo)檢測(cè)任務(wù)提出改進(jìn)模型:FFSSD通過(guò)引入conv5_3的信息;DSSD通過(guò)融合特征提取網(wǎng)絡(luò)反卷積變化后的特征.雖然FFSSD和DSSD在一定程度上提升了小目標(biāo)檢測(cè)的精度,但卻增加了計(jì)算量.對(duì)于無(wú)人機(jī)遠(yuǎn)距離目標(biāo)檢測(cè)任務(wù)而言,除了滿足檢測(cè)精度要求外,圖像的實(shí)時(shí)檢測(cè)是另外一個(gè)重要的指標(biāo).MPSSD在減少模型參數(shù)和計(jì)算量的前提下,提升了對(duì)地面小目標(biāo)的檢測(cè)速度.

4 結(jié)論
地面小目標(biāo)檢測(cè)任務(wù)具有重要的理論研究和實(shí)際應(yīng)用價(jià)值.在SSD檢測(cè)模型框架內(nèi),本文提出了一種并行附加特征提取網(wǎng)絡(luò)PAFEN.PAFEN有效提升SSD對(duì)地面小目標(biāo)檢測(cè)精度和速度,并經(jīng)理論分析和仿真實(shí)驗(yàn)證明了PAFEN的有效性.

對(duì)于基于SSD的地面小目標(biāo)檢測(cè)任務(wù),改進(jìn)基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)和default box生成策略同樣能提升SSD模型的性能.下一步的研究重點(diǎn)包括:(1)研究適合小目標(biāo)特征提取的基礎(chǔ)網(wǎng)絡(luò);(2)研究適合捕獲小目標(biāo)特征的default box生成策略.

審核編輯:符乾江

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    MVTRF:多視圖特征預(yù)測(cè)SSD故障

    多任務(wù)隨機(jī)森林( MVTRF )方案。MVTRF基于從SSD的長(zhǎng)期和短期監(jiān)測(cè)數(shù)據(jù)中提取的多視圖特征預(yù)測(cè)SSD故障。特別地,采用多任務(wù)學(xué)習(xí),通過(guò)同一
    的頭像 發(fā)表于 12-30 11:04 ?111次閱讀
    MVTRF:多視圖<b class='flag-5'>特征</b>預(yù)測(cè)<b class='flag-5'>SSD</b>故障

    使用機(jī)器學(xué)習(xí)改善庫(kù)特征提取的質(zhì)量和運(yùn)行時(shí)間

    基于靜態(tài)時(shí)序分析(STA)的現(xiàn)代設(shè)計(jì)流程非常依賴(lài)標(biāo)準(zhǔn)單元、IO、存儲(chǔ)器和定制模塊的特征化Liberty模型。高效、準(zhǔn)確的庫(kù)特征提取是全芯片或模塊級(jí)設(shè)計(jì)流程的關(guān)鍵步驟之一,因?yàn)樗艽_保所有庫(kù)單元在所
    的頭像 發(fā)表于 12-26 11:15 ?110次閱讀
    使用機(jī)器學(xué)習(xí)改善庫(kù)<b class='flag-5'>特征提取</b>的質(zhì)量和運(yùn)行時(shí)間

    AI模型部署邊緣設(shè)備的奇妙之旅:目標(biāo)檢測(cè)模型

    挑戰(zhàn)的方法。 2 目標(biāo)檢測(cè)模型介紹 在目標(biāo)檢測(cè)的任務(wù)中,有著許許多多的模型,如 Picodet、
    發(fā)表于 12-19 14:33

    在RK3568教學(xué)實(shí)驗(yàn)箱上實(shí)現(xiàn)基于YOLOV5的算法物體識(shí)別案例詳解

    非常流行的實(shí)時(shí)目標(biāo)檢測(cè)模型,它提供了出色的性能和精度。YOLOv5可以分為三個(gè)部分,分別是: 1、主干特征提取網(wǎng)絡(luò)(Backbone) 2、
    發(fā)表于 12-03 14:56

    未來(lái)AI大模型的發(fā)展趨勢(shì)

    未來(lái)AI大模型的發(fā)展趨勢(shì)將呈現(xiàn)多元化和深入化的特點(diǎn),以下是對(duì)其發(fā)展趨勢(shì)的分析: 一、技術(shù)驅(qū)動(dòng)與創(chuàng)新 算法與架構(gòu)優(yōu)化 : 隨著Transformer架構(gòu)的廣泛應(yīng)用,AI大模型特征提取并行
    的頭像 發(fā)表于 10-23 15:06 ?638次閱讀

    目標(biāo)檢測(cè)與識(shí)別技術(shù)的關(guān)系是什么

    任務(wù)是在圖像或視頻中快速準(zhǔn)確地定位出感興趣的目標(biāo),并給出目標(biāo)的位置信息。目標(biāo)檢測(cè)技術(shù)通常包括候選區(qū)域提取、
    的頭像 發(fā)表于 07-17 09:38 ?618次閱讀

    三層神經(jīng)網(wǎng)絡(luò)模型的優(yōu)缺點(diǎn)

    是一種前饋神經(jīng)網(wǎng)絡(luò),由輸入層、兩個(gè)隱藏層和輸出層組成。輸入層接收輸入數(shù)據(jù),隱藏層對(duì)輸入數(shù)據(jù)進(jìn)行處理和特征提取,輸出層生成最終的預(yù)測(cè)結(jié)果。 模型結(jié)構(gòu) 三層神經(jīng)網(wǎng)絡(luò)
    的頭像 發(fā)表于 07-11 10:58 ?588次閱讀

    基于CNN的網(wǎng)絡(luò)入侵檢測(cè)系統(tǒng)設(shè)計(jì)

    入侵檢測(cè)提供了新的思路和方法。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)作為深度學(xué)習(xí)的一種重要模型,以其強(qiáng)大的特征提取能力和模式識(shí)別能力,在
    的頭像 發(fā)表于 07-05 17:28 ?1106次閱讀

    基于深度學(xué)習(xí)的小目標(biāo)檢測(cè)

    在計(jì)算機(jī)視覺(jué)領(lǐng)域,目標(biāo)檢測(cè)一直是研究的熱點(diǎn)和難點(diǎn)之一。特別是在小目標(biāo)檢測(cè)方面,由于小目標(biāo)在圖像中所占比例小、
    的頭像 發(fā)表于 07-04 17:25 ?892次閱讀

    如何設(shè)計(jì)人臉識(shí)別的神經(jīng)網(wǎng)絡(luò)

    識(shí)別技術(shù)主要分為兩個(gè)步驟:人臉檢測(cè)和人臉特征提取。人臉檢測(cè)是指在圖像中定位出人臉的位置和大小,人臉特征提取是指從人臉圖像中提取出能夠表征人臉
    的頭像 發(fā)表于 07-04 09:20 ?668次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)及其功能

    。 引言 深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)分支,它通過(guò)模擬人腦神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和功能,實(shí)現(xiàn)對(duì)數(shù)據(jù)的自動(dòng)學(xué)習(xí)和特征提取。卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)中的一種重要模型,它通過(guò)卷積操作和池化操作,有效地
    的頭像 發(fā)表于 07-02 14:45 ?2143次閱讀

    基于深度學(xué)習(xí)的鳥(niǎo)類(lèi)聲音識(shí)別系統(tǒng)

    的泛化能力,然后提出了一個(gè)輕量級(jí)的鳥(niǎo)類(lèi)聲音識(shí)別模型,以MobileNetV3為骨干構(gòu)建了一種輕量級(jí)的特征提取和識(shí)別網(wǎng)絡(luò)。通過(guò)調(diào)整模型中的深度可分離卷積,提高了
    發(fā)表于 05-30 20:30

    基于毫米波雷達(dá)的手勢(shì)識(shí)別神經(jīng)網(wǎng)絡(luò)

    預(yù)處理后的信號(hào)輸入卷積神經(jīng)網(wǎng)絡(luò)時(shí)域卷積網(wǎng)絡(luò)(CNNTCN)模型,提取時(shí)空特征,并通過(guò)分類(lèi)評(píng)估識(shí)別性能。實(shí)驗(yàn)結(jié)果表明,該方法在特定領(lǐng)域的識(shí)別中
    發(fā)表于 05-23 12:12

    咳嗽檢測(cè)深度神經(jīng)網(wǎng)絡(luò)算法

    的胸部以完成任務(wù)。由于該方法被普遍采用,因?yàn)閷?shí)時(shí)咳嗽事件將為進(jìn)一步分析提供更好的結(jié)果,因此它根據(jù)聲音質(zhì)量和咳痰密度將聲音分為干咳、百日咳和濕咳。我們提出的模型包括預(yù)處理、使用MFCC[12]的特征提取
    發(fā)表于 05-15 19:05

    視覺(jué)檢測(cè)設(shè)備的分類(lèi)

    、質(zhì)量控制、醫(yī)療影像、安防監(jiān)控、無(wú)人駕駛等。視覺(jué)檢測(cè)設(shè)備的主要功能包括圖像采集、圖像處理、目標(biāo)檢測(cè)、特征提取、分類(lèi)識(shí)別、缺陷檢測(cè)、測(cè)量計(jì)量等
    的頭像 發(fā)表于 02-21 09:41 ?1397次閱讀
    視覺(jué)<b class='flag-5'>檢測(cè)</b>設(shè)備的分類(lèi)