0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

我們是如何改進(jìn)YOLOv3進(jìn)行紅外小目標(biāo)檢測(cè)的

電子設(shè)計(jì) ? 來(lái)源:電子設(shè)計(jì) ? 作者:電子設(shè)計(jì) ? 2020-12-08 22:21 ? 次閱讀
文章轉(zhuǎn)載于微信公眾號(hào):GiantPandaCV
作者:pprp

【GiantPandCV導(dǎo)語(yǔ)】本文將介紹BBuf、小武和筆者一起在過(guò)年期間完成的一個(gè)目標(biāo)檢測(cè)項(xiàng)目,將描述我們模型改進(jìn)的思路、實(shí)驗(yàn)思路、結(jié)果匯總和經(jīng)驗(yàn)性總結(jié)。聲明:這篇文章經(jīng)過(guò)了三人同意,并且所有創(chuàng)新點(diǎn)也將被公布。此外,由于經(jīng)驗(yàn)上的不足,可能整個(gè)實(shí)驗(yàn)思路不夠成熟,比不上CV大組的嚴(yán)謹(jǐn)性,如有問(wèn)題還煩請(qǐng)指教。

1. 紅外小目標(biāo)檢測(cè)

紅外小目標(biāo)檢測(cè)的目標(biāo)比較小,目標(biāo)極其容易和其他物體混淆,有一定的挑戰(zhàn)性。

另外,這本質(zhì)上也是一個(gè)小目標(biāo)領(lǐng)域的問(wèn)題,很多適用于小目標(biāo)的創(chuàng)新點(diǎn)也會(huì)被借鑒進(jìn)來(lái)。

數(shù)據(jù)來(lái)源自@小武
此外,該數(shù)據(jù)集還有一個(gè)特點(diǎn),就是分背景,雖然同樣是檢測(cè)紅外小目標(biāo),區(qū)別是背景的不同,我們對(duì)數(shù)據(jù)集進(jìn)行了統(tǒng)計(jì)以及通過(guò)人工翻看的方式總結(jié)了其特點(diǎn),如下表所示:

通過(guò)以上結(jié)果,可以看出背景的不同對(duì)結(jié)果影響還是蠻大的,最后一列也給出了針對(duì)性的建議,打算后續(xù)實(shí)施。

2. 實(shí)驗(yàn)過(guò)程

首先,我們使用的是U版的yolov3: https://github.com/ultralytics/yolov3,那時(shí)候YOLOv4/5、PPYOLO還都沒(méi)出,當(dāng)時(shí)出了一個(gè)《從零開(kāi)始學(xué)習(xí)YOLOv3》就是做項(xiàng)目的時(shí)候?qū)懙?a target="_blank">電子書(shū),其中的在YOLOv3中添加注意力機(jī)制那篇很受歡迎(可以水很多文章出來(lái),畢業(yè)要緊:)

我們項(xiàng)目的代碼以及修改情況可以查看:https://github.com/GiantPandaCV/yolov3-point

將數(shù)據(jù)集轉(zhuǎn)成VOC格式的數(shù)據(jù)集,之前文章有詳細(xì)講述如何轉(zhuǎn)化為標(biāo)準(zhǔn)的VOC數(shù)據(jù)集,以及如何將VOC格式數(shù)據(jù)集轉(zhuǎn)化為U版的講解。當(dāng)時(shí)接觸到幾個(gè)項(xiàng)目,都需要用YOLOv3,由于每次都需要轉(zhuǎn)化,大概分別調(diào)用4、5個(gè)腳本吧,感覺(jué)很累,所以當(dāng)時(shí)花了一段時(shí)間構(gòu)建了一個(gè)一鍵從VOC轉(zhuǎn)U版YOLOv3格式的腳本庫(kù): https://github.com/pprp/voc2007_for_yolo_torch。

到此時(shí)為止,我們項(xiàng)目就已經(jīng)可以運(yùn)行了,然后就是很多細(xì)節(jié)調(diào)整了。

2.1 修改Anchor

紅外小目標(biāo)的Anchor和COCO等數(shù)據(jù)集的Anchor是差距很大的,為了更好更快速的收斂,采用了BBuf總結(jié)的一套專(zhuān)門(mén)計(jì)算Anchor的腳本:

#coding=utf-8importxml.etree.ElementTreeasETimportnumpyasnpdefiou(box,clusters):"""計(jì)算一個(gè)ground truth邊界盒和k個(gè)先驗(yàn)框(Anchor)的交并比(IOU)值。參數(shù)box:元組或者數(shù)據(jù),代表ground truth的長(zhǎng)寬。參數(shù)clusters:形如(k,2)的numpy數(shù)組,其中k是聚類(lèi)Anchor框的個(gè)數(shù)返回:ground truth和每個(gè)Anchor框的交并比。"""x=np.minimum(clusters[:,0],box[0])y=np.minimum(clusters[:,1],box[1])ifnp.count_nonzero(x==0)>0ornp.count_nonzero(y==0)>0:raiseValueError("Boxhasnoarea")intersection=x*ybox_area=box[0]*box[1]cluster_area=clusters[:,0]*clusters[:,1]iou_=intersection/(box_area+cluster_area-intersection)returniou_defavg_iou(boxes,clusters):"""計(jì)算一個(gè)ground truth和k個(gè)Anchor的交并比的均值。"""returnnp.mean([np.max(iou(boxes[i],clusters))foriinrange(boxes.shape[0])])defkmeans(boxes,k,dist=np.median):"""利用IOU值進(jìn)行K-means聚類(lèi)參數(shù)boxes:形狀為(r,2)的groundtruth框,其中r是groundtruth的個(gè)數(shù)參數(shù)k:Anchor的個(gè)數(shù)參數(shù)dist:距離函數(shù)返回值:形狀為(k, 2)的k個(gè)Anchor框"""#即是上面提到的rrows=boxes.shape[0]#距離數(shù)組,計(jì)算每個(gè)groundtruth和k個(gè)Anchor的距離distances=np.empty((rows,k))#上一次每個(gè)groundtruth"距離"最近的Anchor索引last_clusters=np.zeros((rows,))#設(shè)置隨機(jī)數(shù)種子np.random.seed()#初始化聚類(lèi)中心,k個(gè)簇,從r個(gè)groundtruth隨機(jī)選k個(gè)clusters=boxes[np.random.choice(rows,k,replace=False)]#開(kāi)始聚類(lèi)whileTrue:#計(jì)算每個(gè)groundtruth和k個(gè)Anchor的距離,用1-IOU(box,anchor)來(lái)計(jì)算forrowinrange(rows):distances[row]=1-iou(boxes[row],clusters)#對(duì)每個(gè)groundtruth,選取距離最小的那個(gè)Anchor,并存下索引nearest_clusters=np.argmin(distances,axis=1)#如果當(dāng)前每個(gè)groundtruth"距離"最近的Anchor索引和上一次一樣,聚類(lèi)結(jié)束if(last_clusters==nearest_clusters).all():break#更新簇中心為簇里面所有的groundtruth框的均值forclusterinrange(k):clusters[cluster]=dist(boxes[nearest_clusters==cluster],axis=0)#更新每個(gè)groundtruth"距離"最近的Anchor索引last_clusters=nearest_clustersreturnclusters#加載自己的數(shù)據(jù)集,只需要所有l(wèi)abelimg標(biāo)注出來(lái)的xml文件即可defload_dataset(path):dataset=[]forxml_fileinglob.glob("{}/*xml".format(path)):tree=ET.parse(xml_file)#圖片高度height=int(tree.findtext("./size/height"))#圖片寬度width=int(tree.findtext("./size/width"))forobjintree.iter("object"):#偏移量xmin=int(obj.findtext("bndbox/xmin"))/widthymin=int(obj.findtext("bndbox/ymin"))/heightxmax=int(obj.findtext("bndbox/xmax"))/widthymax=int(obj.findtext("bndbox/ymax"))/heightxmin=np.float64(xmin)ymin=np.float64(ymin)xmax=np.float64(xmax)ymax=np.float64(ymax)ifxmax==xminorymax==ymin:print(xml_file)#將Anchor的長(zhǎng)寬放入dateset,運(yùn)行kmeans獲得Anchordataset.append([xmax-xmin,ymax-ymin])returnnp.array(dataset)if__name__=='__main__':ANNOTATIONS_PATH="F:/Annotations"#xml文件所在文件夾CLUSTERS=9#聚類(lèi)數(shù)量,anchor數(shù)量INPUTDIM=416#輸入網(wǎng)絡(luò)大小data=load_dataset(ANNOTATIONS_PATH)out=kmeans(data,k=CLUSTERS)print('Boxes:')print(np.array(out)*INPUTDIM)print("Accuracy:{:.2f}%".format(avg_iou(data,out)*100))final_anchors=np.around(out[:,0]/out[:,1],decimals=2).tolist()print("BeforeSortRatios:/n{}".format(final_anchors))print("AfterSortRatios:/n{}".format(sorted(final_anchors)))

通過(guò)瀏覽腳本就可以知道,Anchor和圖片的輸入分辨率有沒(méi)有關(guān)系 這個(gè)問(wèn)題了,當(dāng)時(shí)這個(gè)問(wèn)題有很多群友都在問(wèn)。通過(guò)kmeans函數(shù)得到的結(jié)果實(shí)際上是歸一化到0-1之間的,然后Anchor的輸出是在此基礎(chǔ)上乘以輸入分辨率的大小。所以個(gè)人認(rèn)為Anchor和圖片的輸入分辨率是有關(guān)系的。

此外,U版也提供了Anchor計(jì)算,如下:

defkmean_anchors(path='./2007_train.txt',n=5,img_size=(416,416)):#fromutils.utilsimport*;_=kmean_anchors()#Producesalistoftargetkmeanssuitableforusein*.cfgfilesfromutils.datasetsimportLoadImagesAndLabelsthr=0.20#IoUthresholddefprint_results(thr,wh,k):k=k[np.argsort(k.prod(1))]#sortsmalltolargeiou=wh_iou(torch.Tensor(wh),torch.Tensor(k))max_iou,min_iou=iou.max(1)[0],iou.min(1)[0]bpr,aat=(max_iou>thr).float().mean(),(iou>thr).float().mean()*n#bestpossiblerecall,anch>thrprint('%.2fiou_thr:%.3fbestpossiblerecall,%.2fanchors>thr'%(thr,bpr,aat))print('kmeansanchors(n=%g,img_size=%s,IoU=%.3f/%.3f/%.3f-min/mean/best):'%(n,img_size,min_iou.mean(),iou.mean(),max_iou.mean()),end='')fori,xinenumerate(k):print('%i,%i'%(round(x[0]),round(x[1])),end=','ifithr).float().mean()#bestpossiblerecallreturniou.mean()*bpr#product#Getlabelwhwh=[]dataset=LoadImagesAndLabels(path,augment=True,rect=True,cache_labels=True)nr=1ifimg_size[0]==img_size[1]else10#numberaugmentationrepetitionsfors,linzip(dataset.shapes,dataset.labels):wh.append(l[:,3:5]*(s/s.max()))#imagenormalizedtoletterboxnormalizedwhwh=np.concatenate(wh,0).repeat(nr,axis=0)#augment10xwh*=np.random.uniform(img_size[0],img_size[1],size=(wh.shape[0],1))#normalizedtopixels(multi-scale)#Darknetyolov3.cfganchorsuse_darknet=Falseifuse_darknet:k=np.array([[10,13],[16,30],[33,23],[30,61],[62,45],[59,119],[116,90],[156,198],[373,326]])else:#Kmeanscalculationfromscipy.cluster.vqimportkmeansprint('Runningkmeansfor%ganchorson%gpoints...'%(n,len(wh)))s=wh.std(0)#sigmasforwhiteningk,dist=kmeans(wh/s,n,iter=30)#points,meandistancek*=sk=print_results(thr,wh,k)#Evolvewh=torch.Tensor(wh)f,ng=fitness(thr,wh,k),2000#fitness,generationsfor_intqdm(range(ng),desc='Evolvinganchors'):kg=(k.copy()*(1+np.random.random()*np.random.randn(*k.shape)*0.30)).clip(min=2.0)fg=fitness(thr,wh,kg)iffg>f:f,k=fg,kg.copy()print_results(thr,wh,k)k=print_results(thr,wh,k)returnk

這個(gè)和超參數(shù)搜索那篇采用的方法類(lèi)似,也是一種類(lèi)似遺傳算法的方法,通過(guò)一代一代的篩選找到合適的Anchor。以上兩種方法筆者并沒(méi)有對(duì)比,有興趣可以試試這兩種方法,對(duì)比看看。

Anchor這方面設(shè)置了三個(gè)不同的數(shù)量進(jìn)行聚類(lèi):

3 anchor:

13,18,16,22,19,25

6 anchor:

12,17,14,17,15,19,15,21,13,20,19,24

9 anchor:

10,16,12,17,13,20,13,22,15,18,15,20,15,23,18,23,21,26

2.2 構(gòu)建Baseline

由于數(shù)據(jù)集是單類(lèi)的,并且相對(duì)VOC等數(shù)據(jù)集來(lái)看,比較單一,所以不打算使用Darknet53這樣的深度神經(jīng)網(wǎng)絡(luò),采用的Baseline是YOLOv3-tiny模型,在使用原始Anchor的情況下,該模型可以在驗(yàn)證集上達(dá)到mAP@0.5=93.2%,在測(cè)試集上達(dá)到mAP@0.5=0.869的結(jié)果。

那接下來(lái)?yè)QAnchor,用上一節(jié)得到的新Anchor替換掉原來(lái)的Anchor,該改掉的模型為yolov3-tiny-6a:


可以看到幾乎所有的指標(biāo)都提升了,這說(shuō)明Anchor先驗(yàn)的引入是很有必要的。

2.3 數(shù)據(jù)集部分改進(jìn)

上邊已經(jīng)分析過(guò)了,背景對(duì)目標(biāo)檢測(cè)的結(jié)果還是有一定影響的,所以我們先后使用了幾種方法進(jìn)行改進(jìn)。

第一個(gè):過(guò)采樣

通過(guò)統(tǒng)計(jì)不同背景的圖像的數(shù)量,比如以sea為背景的圖像只有17張,而最多的cloudless/_sky為背景的圖像有1300+張,這就產(chǎn)生了嚴(yán)重的不平衡性。顯然cloudless/_sky為背景的很簡(jiǎn)單,sea為背景的難度更大,這樣由于數(shù)據(jù)不平衡的原因,訓(xùn)練得到的模型很可能也會(huì)在cloudless/_sky這類(lèi)圖片上效果很好,在其他背景下效果一般。
所以首先要采用過(guò)采樣的方法,這里的過(guò)采樣可能和別的地方的不太一樣,這里指的是將某些背景數(shù)量小的圖片通過(guò)復(fù)制的方式擴(kuò)充。

:( 可惜實(shí)驗(yàn)結(jié)果不支持想法,一起分析一下。ps:os代表over sample

然后進(jìn)行分背景測(cè)試,結(jié)果如下:

均衡后的分背景測(cè)試

從分背景結(jié)果來(lái)看,確實(shí)sea訓(xùn)練數(shù)據(jù)很少的結(jié)果很好,mAP提高了2個(gè)點(diǎn),但是complex/_cloud等mAP有所下降??偨Y(jié)一下就是對(duì)于訓(xùn)練集中數(shù)據(jù)很少的背景類(lèi)mAP有提升,但是其他本身數(shù)量就很多的背景mAP略微下降或者保持。

第二個(gè):在圖片中任意位置復(fù)制小目標(biāo)

修改后的版本地址:https://github.com/pprp/SimpleCVReproduction/tree/master/SmallObjectAugmentation

具體實(shí)現(xiàn)思路就是,先將所有小目標(biāo)摳出來(lái)備用。然后在圖像上復(fù)制這些小目標(biāo),要求兩兩之間重合率不能達(dá)到一個(gè)閾值并且復(fù)制的位置不能超出圖像邊界。

效果如下:(這個(gè)是示意圖,比較夸張,復(fù)制的個(gè)數(shù)比較多

增強(qiáng)結(jié)果

這種做法來(lái)自當(dāng)時(shí)比較新的論文《Augmentation for small object detection》,文中最好的結(jié)果是復(fù)制了1-2次。實(shí)際我們項(xiàng)目中也試過(guò)1次、2次、3次到多次的結(jié)果,都不盡如人意,結(jié)果太差就沒(méi)有記錄下來(lái)。。(話(huà)說(shuō)論文中展示的效果最佳組合是原圖+增強(qiáng)后的圖,并且最好的結(jié)果也就提高了1個(gè)百分點(diǎn))╮(╯﹏╰)╭

2.4 修改Backbone

修改Backbone經(jīng)常被群友問(wèn)到這樣一件事,修改骨干網(wǎng)絡(luò)以后無(wú)法加載預(yù)訓(xùn)練權(quán)重了,怎么辦?
有以下幾個(gè)辦法:

  • 干脆不加載,從頭訓(xùn)練,簡(jiǎn)單問(wèn)題(比如紅外小目標(biāo))從頭收斂效果也不次于有預(yù)訓(xùn)練權(quán)重的。
  • 不想改代碼的話(huà),可以選擇修改Backbone之后、YOLO Head之前的部分(比如SPP的位置屬于這種情況)
  • 能力比較強(qiáng)的,可以改一下模型加載部分代碼,跳過(guò)你新加入的模塊,這樣也能加載(筆者沒(méi)試過(guò),別找我)。

修改Backbone我們也從幾個(gè)方向入的手,分為注意力模塊、即插即用模塊、修改FPN、修改激活函數(shù)、用成熟的網(wǎng)絡(luò)替換backbone和SPP系列。
1. 注意力模塊
這個(gè)項(xiàng)目中使用的注意力模塊,大部分都在公號(hào)上寫(xiě)過(guò)代碼解析,感興趣的可以翻看一下。筆者前一段時(shí)間公布了一個(gè)電子書(shū)《卷積神經(jīng)網(wǎng)絡(luò)中的即插即用模塊》也是因?yàn)檫@個(gè)項(xiàng)目中總結(jié)了很多注意力模塊,所以開(kāi)始整理得到的結(jié)果。具體模塊還在繼續(xù)更新:https://github.com/pprp/SimpleCVReproduction
當(dāng)時(shí)實(shí)驗(yàn)的模塊有:SE、CBAM等,由于當(dāng)時(shí)Baseline有點(diǎn)高,效果并不十分理想。(注意力模塊插進(jìn)來(lái)不可能按照預(yù)期一下就提高多少百分點(diǎn),需要多調(diào)參才有可能超過(guò)原來(lái)的百分點(diǎn))根據(jù)群友反饋,SE直接插入成功率比較高。筆者在一個(gè)目標(biāo)檢測(cè)比賽中見(jiàn)到有一個(gè)大佬是在YOLOv3的FPN的三個(gè)分支上各加了一個(gè)CBAM,最終超過(guò)Cascade R-CNN等模型奪得冠軍。
2. 即插即用模塊
注意力模塊也屬于即插即用模塊,這部分就說(shuō)的是非注意力模塊的部分如 FFM、ASPP、PPM、Dilated Conv、SPP、FRB、CorNerPool、DwConv、ACNet等,效果還可以,但是沒(méi)有超過(guò)當(dāng)前最好的結(jié)果。
3. 修改FPN
FPN這方面花了老久時(shí)間,參考了好多版本才搞出了一個(gè)dt-6a-bifpn(dt代表dim target紅外目標(biāo);6a代表6個(gè)anchor),令人失望的是,這個(gè)BiFPN效果并不好,測(cè)試集上效果更差了。可能是因?yàn)閷?shí)現(xiàn)的cfg有問(wèn)題,歡迎反饋。
大家都知道通過(guò)改cfg的方式改網(wǎng)絡(luò)結(jié)構(gòu)是一件很痛苦的事情,推薦一個(gè)可視化工具:

https://lutzroeder.github.io/netron/

除此以外,為了方便查找行數(shù),筆者寫(xiě)了一個(gè)簡(jiǎn)單腳本用于查找行數(shù)(獻(xiàn)丑了

importosimportshutilcfg_path="./cfg/yolov3-dwconv-cbam.cfg"save_path="./cfg/preprocess_cfg/"new_save_name=os.path.join(save_path,os.path.basename(cfg_path))f=open(cfg_path,'r')lines=f.readlines()#去除以#開(kāi)頭的,屬于注釋部分的內(nèi)容#lines=[xforxinlinesifxandnotx.startswith('#')]#lines=[x.rstrip().lstrip()forxinlines]lines_nums=[]layers_nums=[]layer_cnt=-1fornum,lineinenumerate(lines):ifline.startswith('['):layer_cnt+=1layers_nums.append(layer_cnt)lines_nums.append(num+layer_cnt)print(line)#s=s.join("")#s=s.join(line)fori,numinenumerate(layers_nums):print(lines_nums[i],num)lines.insert(lines_nums[i]-1,'#layer-%d/n'%(num-1))fo=open(new_save_name,'w')fo.write(''.join(lines))fo.close()f.close()

我們也嘗試了只用一個(gè)、兩個(gè)和三個(gè)YOLO Head的情況,結(jié)果是3>2>1,但是用3個(gè)和2個(gè)效果幾乎一樣,差異不大小數(shù)點(diǎn)后3位的差異,所以還是選用兩個(gè)YOLO Head。
4. 修改激活函數(shù)
YOLO默認(rèn)使用的激活函數(shù)是leaky relu,激活函數(shù)方面使用了mish。效果并沒(méi)有提升,所以無(wú)疾而終了。
5. 用成熟的網(wǎng)絡(luò)替換backbone
這里使用了ResNet10(第三方實(shí)現(xiàn))、DenseNet、BBuf修改的DenseNet、ENet、VOVNet(自己改的)、csresnext50-panet(當(dāng)時(shí)AB版darknet提供的)、PRN(作用不大)等網(wǎng)絡(luò)結(jié)構(gòu)。
當(dāng)前最強(qiáng)的網(wǎng)絡(luò)是dense-v3-tiny-spp,也就是BBuf修改的Backbone+原汁原味的SPP組合的結(jié)構(gòu)完虐了其他模型,在測(cè)試集上達(dá)到了mAP@0.5=0.932、F1=0.951的結(jié)果。
6. SPP系列
這個(gè)得好好說(shuō)說(shuō),我們?nèi)苏{(diào)研了好多論文、參考了好多trick,大部分都無(wú)效,其中從來(lái)不會(huì)讓人失望的模塊就是SPP。我們對(duì)SPP進(jìn)行了深入研究,在《卷積神經(jīng)網(wǎng)絡(luò)中的各種池化操作》中提到過(guò)。
SPP是在SPPNet中提出的,SPPNet提出比較早,在RCNN之后提出的,用于解決重復(fù)卷積計(jì)算和固定輸出的兩個(gè)問(wèn)題,具體方法如下圖所示:

在feature map上通過(guò)selective search獲得窗口,然后將這些區(qū)域輸入到CNN中,然后進(jìn)行分類(lèi)。
實(shí)際上SPP就是多個(gè)空間池化的組合,對(duì)不同輸出尺度采用不同的劃窗大小和步長(zhǎng)以確保輸出尺度相同,同時(shí)能夠融合金字塔提取出的多種尺度特征,能夠提取更豐富的語(yǔ)義信息。常用于多尺度訓(xùn)練和目標(biāo)檢測(cè)中的RPN網(wǎng)絡(luò)。
在YOLOv3中有一個(gè)網(wǎng)絡(luò)結(jié)構(gòu)叫yolov3-spp.cfg, 這個(gè)網(wǎng)絡(luò)往往能達(dá)到比yolov3.cfg本身更高的準(zhǔn)確率,具體cfg如下:

###SPP###[maxpool]stride=1size=5[route]layers=-2[maxpool]stride=1size=9[route]layers=-4[maxpool]stride=1size=13[route]layers=-1,-3,-5,-6###EndSPP###

這里的SPP相當(dāng)于是原來(lái)的SPPNet的變體,通過(guò)使用多個(gè)kernel size的maxpool,最終將所有feature map進(jìn)行concate,得到新的特征組合。

再來(lái)看一下官方提供的yolov3和yolov3-spp在COCO數(shù)據(jù)集上的對(duì)比:

可以看到,在幾乎不增加FLOPS的情況下,YOLOv3-SPP要比YOLOv3-608mAP高接近3個(gè)百分點(diǎn)。
分析一下SPP有效的原因:

  1. 從感受野角度來(lái)講,之前計(jì)算感受野的時(shí)候可以明顯發(fā)現(xiàn),maxpool的操作對(duì)感受野的影響非常大,其中主要取決于kernel size大小。在SPP中,使用了kernel size非常大的maxpool會(huì)極大提高模型的感受野,筆者沒(méi)有詳細(xì)計(jì)算過(guò)darknet53這個(gè)backbone的感受野,在COCO上有效很可能是因?yàn)閎ackbone的感受野還不夠大。
  2. 第二個(gè)角度是從Attention的角度考慮,這一點(diǎn)啟發(fā)自CSDN@小楞,他在文章中這樣講:
出現(xiàn)檢測(cè)效果提升的原因:通過(guò)spp模塊實(shí)現(xiàn)局部特征和全局特征(所以空間金字塔池化結(jié)構(gòu)的最大的池化核要盡可能的接近等于需要池化的featherMap的大?。┑膄eatherMap級(jí)別的融合,豐富最終特征圖的表達(dá)能力,從而提高M(jìn)AP。

Attention機(jī)制很多都是為了解決遠(yuǎn)距離依賴(lài)問(wèn)題,通過(guò)使用kernel size接近特征圖的size可以以比較小的計(jì)算代價(jià)解決這個(gè)問(wèn)題。另外就是如果使用了SPP模塊,就沒(méi)有必要在SPP后繼續(xù)使用其他空間注意力模塊比如SK block,因?yàn)樗麄冏饔孟嗨?,可能?huì)有一定冗余。

在本實(shí)驗(yàn)中,確實(shí)也得到了一個(gè)很重要的結(jié)論,那就是:
SPP是有效的,其中size的設(shè)置應(yīng)該接近這一層的feature map的大小
口說(shuō)無(wú)憑,看一下實(shí)驗(yàn)結(jié)果:
SPP系列實(shí)驗(yàn)

當(dāng)前的feature map大小就是13x13,實(shí)驗(yàn)結(jié)果表示,直接使用13x13的效果和SPP的幾乎一樣,運(yùn)算量還減少了。

2.5 修改Loss

loss方面嘗試了focal loss,但是經(jīng)過(guò)調(diào)整alpha和beta兩個(gè)參數(shù),不管用默認(rèn)的還是自己慢慢調(diào)參,網(wǎng)絡(luò)都無(wú)法收斂,所以當(dāng)時(shí)給作者提了一個(gè)issue: https://github.com/ultralytics/yolov3/issues/811
glenn-jocher說(shuō)效果不好就別用:(

作者回復(fù)

BBuf也研究了好長(zhǎng)時(shí)間,發(fā)現(xiàn)focal loss在Darknet中可以用,但是效果也一般般。最終focal loss也是無(wú)疾而終。此外還試著調(diào)整了ignore thresh,來(lái)配合focal loss,實(shí)驗(yàn)結(jié)果如下(在A(yíng)B版Darknet下完成實(shí)驗(yàn)):

3. 經(jīng)驗(yàn)性總結(jié)

在這個(gè)實(shí)驗(yàn)過(guò)程中,和BBuf討論有了很多啟發(fā),也進(jìn)行了總結(jié),在這里公開(kāi)出來(lái),(可能部分結(jié)論不夠嚴(yán)謹(jǐn),沒(méi)有經(jīng)過(guò)嚴(yán)格對(duì)比實(shí)驗(yàn),感興趣的話(huà)可以做一下對(duì)比實(shí)驗(yàn))。

  • SPP層是有效的,Size設(shè)置接近feature map的時(shí)候效果更好。
  • YOLOv3、YOLOv3-SPP、YOLOv3-tiny三者在檢測(cè)同一個(gè)物體的情況下,YOLOv3-tiny給的該物體的置信度相比其他兩個(gè)模型低。(其實(shí)也可以形象化理解,YOLOv3-tiny的腦容量比較小,所以唯唯諾諾不敢確定)
  • 個(gè)人感覺(jué)Concate的方法要比Add的方法更柔和,對(duì)小目標(biāo)效果更好。本實(shí)驗(yàn)結(jié)果上是DenseNet作為Backbone的時(shí)候效果是最佳的。
  • 多尺度訓(xùn)練問(wèn)題,這個(gè)文中沒(méi)提。多尺度訓(xùn)練對(duì)于尺度分布比較廣泛的問(wèn)題效果明顯,比如VOC這類(lèi)數(shù)據(jù)集。但是對(duì)于尺度單一的數(shù)據(jù)集反而有反作用,比如紅外小目標(biāo)數(shù)據(jù)集目標(biāo)尺度比較統(tǒng)一,都很小。
  • Anchor對(duì)模型影響比較大,Anchor先驗(yàn)不合理會(huì)導(dǎo)致更多的失配,從而降低Recall。
  • 當(dāng)時(shí)跟群友討論的時(shí)候就提到一個(gè)想法,對(duì)于小目標(biāo)來(lái)說(shuō),淺層的信息更加有用,那么進(jìn)行FPN的時(shí)候,不應(yīng)該單純將兩者進(jìn)行Add或者Concate,而是應(yīng)該以一定的比例完成,比如對(duì)于小目標(biāo)來(lái)說(shuō),引入更多的淺層信息,讓淺層網(wǎng)絡(luò)權(quán)重增大;大目標(biāo)則相反。后邊通過(guò)閱讀發(fā)現(xiàn),這個(gè)想法被ASFF實(shí)現(xiàn)了,而且想法比較完善。
  • PyTorch中的Upsample層是不可復(fù)現(xiàn)的。
  • 有卡可以嘗試一下超參數(shù)進(jìn)化方法。

PS: 以上內(nèi)容不保證結(jié)論完全正確,只是經(jīng)驗(yàn)性總結(jié),歡迎入群討論交流。

4. 致謝

感謝BBuf和小武和我一起完成這個(gè)項(xiàng)目,感謝小武提供的數(shù)據(jù)和算法,沒(méi)有小武的支持,我們無(wú)法完成這么多實(shí)驗(yàn)。感謝BBuf的邀請(qǐng),我才能加入這個(gè)項(xiàng)目,一起討論對(duì)我的幫助非常大(怎么沒(méi)早點(diǎn)遇見(jiàn)BB:)
雖然最后是爛尾了,但是學(xué)到了不少東西,很多文章都是在這個(gè)過(guò)程中總結(jié)得到的,在這個(gè)期間總結(jié)的文章有《CV中的Attention機(jī)制》、《從零開(kāi)始學(xué)習(xí)YOLOv3》、《目標(biāo)檢測(cè)和感受野的總結(jié)和想法》、《PyTorch中模型的可復(fù)現(xiàn)性》、《目標(biāo)檢測(cè)算法優(yōu)化技巧》等,歡迎去干貨錦集中回顧。
以上是整個(gè)實(shí)驗(yàn)過(guò)程的一部分,后邊階段我們還遇到了很多困難,想將項(xiàng)目往輕量化的方向進(jìn)行,由于種種原因,最終沒(méi)有繼續(xù)下去,在這個(gè)過(guò)程中,總結(jié)一下教訓(xùn),實(shí)驗(yàn)說(shuō)明和備份要做好,修改的數(shù)據(jù)集、訓(xùn)練得到的權(quán)重、當(dāng)時(shí)的改動(dòng)點(diǎn)要做好備份。現(xiàn)在回看之前的實(shí)驗(yàn)記錄和cfg文件都有點(diǎn)想不起來(lái)某些模型的改動(dòng)點(diǎn)在哪里了,還是整理的不夠詳細(xì),實(shí)驗(yàn)記錄太亂。
最后希望這篇文章能給大家提供一些思路。

5. 資源列表

官方代碼:https://github.com/ultralytic...
改進(jìn)代碼:https://github.com/GiantPanda...
Focal Loss Issue: https://github.com/ultralytic...
小目標(biāo)增強(qiáng)庫(kù)(復(fù)制和粘貼的方式):https://github.com/pprp/Simpl...
pprp Github: https://github.com/pprp
BBuf Github:https://github.com/BBuf
以上涉及到的所有實(shí)驗(yàn)結(jié)果已經(jīng)整理成markdown文件,請(qǐng)?jiān)诤笈_(tái)回復(fù)“紅外”獲得。


歡迎關(guān)注GiantPandaCV, 在這里你將看到獨(dú)家的深度學(xué)習(xí)分享,堅(jiān)持原創(chuàng),每天分享我們學(xué)習(xí)到的新鮮知識(shí)。( ? ?ω?? )?
- END -

推薦閱讀

更多嵌入式AI技術(shù)干貨請(qǐng)關(guān)注嵌入式AI專(zhuān)欄。

審核編輯:符乾江
聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    采用華為云 Flexus 云服務(wù)器 X 實(shí)例部署 YOLOv3 算法完成目標(biāo)檢測(cè)

    一、前言 1.1 開(kāi)發(fā)需求 這篇文章講解:?采用華為云最新推出的 Flexus 云服務(wù)器 X 實(shí)例部署 YOLOv3 算法,完成圖像分析、目標(biāo)檢測(cè)。 隨著計(jì)算機(jī)視覺(jué)技術(shù)的飛速發(fā)展,深度學(xué)習(xí)模型如
    的頭像 發(fā)表于 01-02 12:00 ?91次閱讀
    采用華為云 Flexus 云服務(wù)器 X 實(shí)例部署 <b class='flag-5'>YOLOv3</b> 算法完成<b class='flag-5'>目標(biāo)</b><b class='flag-5'>檢測(cè)</b>

    在RK3568教學(xué)實(shí)驗(yàn)箱上實(shí)現(xiàn)基于YOLOV5的算法物體識(shí)別案例詳解

    非常流行的實(shí)時(shí)目標(biāo)檢測(cè)模型,它提供了出色的性能和精度。YOLOv5可以分為三個(gè)部分,分別是: 1、主干特征提取網(wǎng)絡(luò)(Backbone) 2、加強(qiáng)特征提取網(wǎng)絡(luò)(FPN) 3、分類(lèi)器與回歸
    發(fā)表于 12-03 14:56

    YOLOv10自定義目標(biāo)檢測(cè)之理論+實(shí)踐

    概述 YOLOv10 是由清華大學(xué)研究人員利用 Ultralytics Python 軟件包開(kāi)發(fā)的,它通過(guò)改進(jìn)模型架構(gòu)并消除非極大值抑制(NMS)提供了一種新穎的實(shí)時(shí)目標(biāo)檢測(cè)方法。這些
    的頭像 發(fā)表于 11-16 10:23 ?607次閱讀
    <b class='flag-5'>YOLOv</b>10自定義<b class='flag-5'>目標(biāo)</b><b class='flag-5'>檢測(cè)</b>之理論+實(shí)踐

    YOLOv10:引領(lǐng)無(wú)NMS實(shí)時(shí)目標(biāo)檢測(cè)的新紀(jì)元

    。 YOLO(You Only Look Once)系列一直是實(shí)時(shí)目標(biāo)檢測(cè)的基準(zhǔn),成功平衡了計(jì)算成本和檢測(cè)性能。盡管在架構(gòu)設(shè)計(jì)和優(yōu)化策略方面取得了進(jìn)展,但對(duì)非最大值抑制(NMS)的依賴(lài)阻礙了端到端部署,影響了推理延遲。
    的頭像 發(fā)表于 11-13 17:12 ?875次閱讀
    <b class='flag-5'>YOLOv</b>10:引領(lǐng)無(wú)NMS實(shí)時(shí)<b class='flag-5'>目標(biāo)</b><b class='flag-5'>檢測(cè)</b>的新紀(jì)元

    在樹(shù)莓派上部署YOLOv5進(jìn)行動(dòng)物目標(biāo)檢測(cè)的完整流程

    卓越的性能。本文將詳細(xì)介紹如何在性能更強(qiáng)的計(jì)算機(jī)上訓(xùn)練YOLOv5模型,并將訓(xùn)練好的模型部署到樹(shù)莓派4B上,通過(guò)樹(shù)莓派的攝像頭進(jìn)行實(shí)時(shí)動(dòng)物目標(biāo)檢測(cè)。 一、在電腦上訓(xùn)練
    的頭像 發(fā)表于 11-11 10:38 ?1271次閱讀
    在樹(shù)莓派上部署<b class='flag-5'>YOLOv</b>5<b class='flag-5'>進(jìn)行</b>動(dòng)物<b class='flag-5'>目標(biāo)</b><b class='flag-5'>檢測(cè)</b>的完整流程

    YOLOv6在LabVIEW中的推理部署(含源碼)

    YOLOv6 是美團(tuán)視覺(jué)智能部研發(fā)的一款目標(biāo)檢測(cè)框架,致力于工業(yè)應(yīng)用。如何使用python進(jìn)行該模型的部署,官網(wǎng)已經(jīng)介紹的很清楚了,但是對(duì)于如何在LabVIEW中實(shí)現(xiàn)該模型的部署,筆者
    的頭像 發(fā)表于 11-06 16:07 ?344次閱讀
    <b class='flag-5'>YOLOv</b>6在LabVIEW中的推理部署(含源碼)

    YOLOv8中的損失函數(shù)解析

    YOLO長(zhǎng)期以來(lái)一直是目標(biāo)檢測(cè)任務(wù)的首選模型之一。它既快速又準(zhǔn)確。此外,其API簡(jiǎn)潔易用。運(yùn)行訓(xùn)練或推斷作業(yè)所需的代碼行數(shù)有限。在2023年下半年,YOLOv8在框架中引入了姿態(tài)估計(jì)后,該框架現(xiàn)在支持最多四個(gè)任務(wù),包括分類(lèi)、
    的頭像 發(fā)表于 11-05 17:15 ?1267次閱讀
    <b class='flag-5'>YOLOv</b>8中的損失函數(shù)解析

    使用無(wú)源紅外技術(shù)進(jìn)行占位檢測(cè)

    電子發(fā)燒友網(wǎng)站提供《使用無(wú)源紅外技術(shù)進(jìn)行占位檢測(cè).pdf》資料免費(fèi)下載
    發(fā)表于 08-27 10:00 ?0次下載
    使用無(wú)源<b class='flag-5'>紅外</b>技術(shù)<b class='flag-5'>進(jìn)行</b>占位<b class='flag-5'>檢測(cè)</b>

    基于迅為RK3588【RKNPU2項(xiàng)目實(shí)戰(zhàn)1】:YOLOV5實(shí)時(shí)目標(biāo)分類(lèi)

    [/url] 【RKNPU2 人工智能開(kāi)發(fā)】 【AI深度學(xué)習(xí)推理加速器】——RKNPU2 從入門(mén)到實(shí)踐(基于RK3588和RK3568) 【RKNPU2項(xiàng)目實(shí)戰(zhàn)1】:YOLOV5實(shí)時(shí)目標(biāo)分類(lèi) 【RKNPU2項(xiàng)目實(shí)戰(zhàn)2】:SORT目標(biāo)
    發(fā)表于 08-15 10:51

    目標(biāo)檢測(cè)與識(shí)別技術(shù)有哪些

    視頻中識(shí)別并定位感興趣的目標(biāo),通常包括目標(biāo)的類(lèi)別和位置信息。目標(biāo)識(shí)別(Object Recognition)是指對(duì)檢測(cè)到的目標(biāo)
    的頭像 發(fā)表于 07-17 09:40 ?666次閱讀

    利用紅外熱像儀進(jìn)行鋼包檢測(cè)

    在鋼鐵行業(yè)中,如何利用紅外熱像儀進(jìn)行鋼包檢測(cè)。這是一項(xiàng)充滿(mǎn)挑戰(zhàn)的任務(wù),但也是一項(xiàng)充滿(mǎn)機(jī)遇的任務(wù)。在這篇文章中,我們將深入解析紅外熱像儀在鋼包
    的頭像 發(fā)表于 07-03 16:04 ?431次閱讀
    利用<b class='flag-5'>紅外</b>熱像儀<b class='flag-5'>進(jìn)行</b>鋼包<b class='flag-5'>檢測(cè)</b>

    YOLOv5的原理、結(jié)構(gòu)、特點(diǎn)和應(yīng)用

    YOLOv5(You Only Look Once version 5)是一種基于深度學(xué)習(xí)的實(shí)時(shí)目標(biāo)檢測(cè)算法,它屬于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的范疇。下面我將詳細(xì)介紹YOLOv5的原理、結(jié)
    的頭像 發(fā)表于 07-03 09:23 ?6386次閱讀

    用OpenVINO C# API在intel平臺(tái)部署YOLOv10目標(biāo)檢測(cè)模型

    的模型設(shè)計(jì)策略,從效率和精度兩個(gè)角度對(duì)YOLOs的各個(gè)組成部分進(jìn)行了全面優(yōu)化,大大降低了計(jì)算開(kāi)銷(xiāo),增強(qiáng)了性能。在本文中,我們將結(jié)合OpenVINO C# API使用最新發(fā)布的OpenVINO 2024.1部署YOLOv10
    的頭像 發(fā)表于 06-21 09:23 ?1083次閱讀
    用OpenVINO C# API在intel平臺(tái)部署<b class='flag-5'>YOLOv</b>10<b class='flag-5'>目標(biāo)</b><b class='flag-5'>檢測(cè)</b>模型

    在IAR中使用KitProg3進(jìn)行調(diào)試,無(wú)法檢測(cè)目標(biāo)是怎么回事?

    我試圖在 IAR 中使用 KitProg3 進(jìn)行調(diào)試,但遇到以下錯(cuò)誤: 看來(lái) KitProg3 設(shè)備已被識(shí)別。 似乎無(wú)法檢測(cè)目標(biāo)。 考
    發(fā)表于 06-03 06:15

    OpenVINO? C# API部署YOLOv9目標(biāo)檢測(cè)和實(shí)例分割模型

    YOLOv9模型是YOLO系列實(shí)時(shí)目標(biāo)檢測(cè)算法中的最新版本,代表著該系列在準(zhǔn)確性、速度和效率方面的又一次重大飛躍。
    的頭像 發(fā)表于 04-03 17:35 ?927次閱讀
    OpenVINO? C# API部署<b class='flag-5'>YOLOv</b>9<b class='flag-5'>目標(biāo)</b><b class='flag-5'>檢測(cè)</b>和實(shí)例分割模型