前言
圖片分類任務(wù)我們已經(jīng)熟悉了,就是算法對(duì)其中的對(duì)象進(jìn)行分類。而今天我們要了解構(gòu)建神經(jīng)網(wǎng)絡(luò)的另一個(gè)問(wèn)題,即目標(biāo)檢測(cè)問(wèn)題。這意味著,我們不僅要用算法判斷圖片中是不是一輛汽車, 還要在圖片中標(biāo)記出它的位置, 用邊框或紅色方框把汽車圈起來(lái), 這就是目標(biāo)檢測(cè)問(wèn)題。其中“定位”的意思是判斷汽車在圖片中的具體位置。
近幾年來(lái),目標(biāo)檢測(cè)算法取得了很大的突破。比較流行的算法可以分為兩類,一類是基于Region Proposal的R-CNN系算法(R-CNN,F(xiàn)ast R-CNN, Faster R-CNN等),它們是two-stage的,需要先算法產(chǎn)生目標(biāo)候選框,也就是目標(biāo)位置,然后再對(duì)候選框做分類與回歸。而另一類是Yolo,SSD這類one-stage算法,其僅僅使用一個(gè)卷積神經(jīng)網(wǎng)絡(luò)CNN直接預(yù)測(cè)不同目標(biāo)的類別與位置。第一類方法是準(zhǔn)確度高一些,但是速度慢,但是第二類算法是速度快,但是準(zhǔn)確性要低一些。這可以在下圖中看到。
本文對(duì)常見(jiàn)目標(biāo)檢測(cè)算法進(jìn)行簡(jiǎn)要綜述,并最后總結(jié)了目標(biāo)檢測(cè)算法方向的一些大V方便大家學(xué)習(xí)查看。
1. R-CNN
目標(biāo)檢測(cè)有兩個(gè)主要任務(wù):物體分類和定位,為了完成這兩個(gè)任務(wù),R-CNN借鑒了滑動(dòng)窗口思想, 采用對(duì)區(qū)域進(jìn)行識(shí)別的方案,具體是:
輸入一張圖片,通過(guò)指定算法從圖片中提取 2000 個(gè)類別獨(dú)立的候選區(qū)域(可能目標(biāo)區(qū)域)
對(duì)于每個(gè)候選區(qū)域利用卷積神經(jīng)網(wǎng)絡(luò)來(lái)獲取一個(gè)特征向量
對(duì)于每個(gè)區(qū)域相應(yīng)的特征向量,利用支持向量機(jī)SVM 進(jìn)行分類,并通過(guò)一個(gè)bounding box regression調(diào)整目標(biāo)包圍框的大小
1.1. 提取候選區(qū)域
R-CNN目標(biāo)檢測(cè)首先需要獲取2000個(gè)目標(biāo)候選區(qū)域,能夠生成候選區(qū)域的方法很多,比如:
objectness
selective search
category-independen object proposals
constrained parametric min-cuts(CPMC)
multi-scale combinatorial grouping
Ciresan R-CNN 采用的是 Selective Search 算法。簡(jiǎn)單來(lái)說(shuō)就是通過(guò)一些傳統(tǒng)圖像處理方法將圖像分成很多小尺寸區(qū)域,然后根據(jù)小尺寸區(qū)域的特征合并小尺寸得到大尺寸區(qū)域,以實(shí)現(xiàn)候選區(qū)域的選取。
1.2. 提取特征向量
對(duì)于上述獲取的候選區(qū)域,需進(jìn)一步使用CNN提取對(duì)應(yīng)的特征向量,作者使用模型AlexNet (2012)。(需要注意的是 Alexnet 的輸入圖像大小是 227x227,而通過(guò) Selective Search 產(chǎn)生的候選區(qū)域大小不一,為了與 Alexnet 兼容,R-CNN 采用了非常暴力的手段,那就是無(wú)視候選區(qū)域的大小和形狀,統(tǒng)一變換到 227x227 的尺寸)。那么,該網(wǎng)絡(luò)是如何訓(xùn)練的呢?訓(xùn)練過(guò)程如下:
有監(jiān)督預(yù)訓(xùn)練:訓(xùn)練網(wǎng)絡(luò)參數(shù)
樣本:ImageNet
這里只訓(xùn)練和分類有關(guān)的參數(shù),因?yàn)镮mageNet數(shù)據(jù)只有分類,沒(méi)有位置標(biāo)注
圖片尺寸調(diào)整為227x227
最后一層:4097維向量->1000向量的映射。
特定樣本下的微調(diào) :訓(xùn)練網(wǎng)絡(luò)參數(shù)
樣本:
采用訓(xùn)練好的AlexNet模型進(jìn)行PASCAL VOC 2007樣本集下的微調(diào),學(xué)習(xí)率=0.001(PASCAL VOC 2007樣本集上既有圖像中物體類別標(biāo)簽,也有圖像中物體位置標(biāo)簽)
mini-batch為32個(gè)正樣本和96個(gè)負(fù)樣本(由于正樣本太少)
修改了原來(lái)的1000為類別輸出,改為21維【20類+背景】輸出。
1.3. SVM分類
通過(guò)上述卷積神經(jīng)網(wǎng)絡(luò)獲取候選區(qū)域的特征向量,進(jìn)一步使用SVM進(jìn)行物體分類,關(guān)鍵知識(shí)點(diǎn)如下:
使用了一個(gè)SVM進(jìn)行分類:向SVM輸入特征向量,輸出類別得分
用于訓(xùn)練多個(gè)SVM的數(shù)據(jù)集是ImageNet數(shù)據(jù)
將2000×4096維特征(2000個(gè)候選框,每個(gè)候選框獲得4096的特征向量)與20個(gè)SVM組成的權(quán)值矩陣4096×20相乘(20種分類,SVM是二分類器,每個(gè)種類訓(xùn)練一個(gè)SVM,則有20個(gè)SVM),獲得2000×20維矩陣表示每個(gè)建議框是某個(gè)物體類別的得分
分別對(duì)上述2000×20維矩陣中每列即每一類進(jìn)行非極大值抑制剔除重疊建議框,得到該列即該類中得分最高的一些候選框;
SVM訓(xùn)練:
樣本:
由于SVM是二分類器,需要為每個(gè)類別訓(xùn)練單獨(dú)的SVM;
SVM訓(xùn)練時(shí),輸入正負(fù)樣本是在AlexNet CNN網(wǎng)絡(luò)輸出的4096維特征向量,輸出為該類的得分
由于負(fù)樣本太多,采用hard negative mining的方法在負(fù)樣本中選取有代表性的負(fù)樣本
1.4 邊框修正
使用一個(gè)回歸器進(jìn)行邊框回歸:輸入為卷積神經(jīng)網(wǎng)絡(luò)pool5層的4096維特征向量,輸出為x、y方向的縮放和平移,實(shí)現(xiàn)邊框的修正。在進(jìn)行測(cè)試前仍需回歸器進(jìn)行訓(xùn)練?;貧w器訓(xùn)練
樣本:
在2014年R-CNN橫空出世的時(shí)候,顛覆了以往的目標(biāo)檢測(cè)方案,精度大大提升。對(duì)于R-CNN的貢獻(xiàn),可以主要分為兩個(gè)方面:1) 使用了卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取 2) 使用bounding box regression進(jìn)行目標(biāo)包圍框的修正 但是,我們來(lái)看一下,R-CNN有什么問(wèn)題:1) 耗時(shí)的selective search,對(duì)一張圖像,需要花費(fèi)2s 2) 耗時(shí)的串行式CNN前向傳播,對(duì)于每一個(gè)候選框,都需經(jīng)過(guò)一個(gè)AlexNet提取特征,為所有的候選框提取特征大約花費(fèi)47s 3) 三個(gè)模塊(CNN特征提取、SVM分類和邊框修正)是分別訓(xùn)練的,并且在訓(xùn)練的時(shí)候,對(duì)于存儲(chǔ)空間的消耗很大
2. Fast R-CNN
面對(duì)R-CNN的缺陷,Ross在2015年提出的Fast R-CNN進(jìn)行了改進(jìn),下面我們來(lái)概述一下Fast R-CNN的解決方案:
首先還是采用selective search提取2000個(gè)候選框RoI
使用一個(gè)卷積神經(jīng)網(wǎng)絡(luò)對(duì)全圖進(jìn)行特征提取
使用一個(gè)RoI Pooling Layer在全圖特征上摘取每一個(gè)RoI對(duì)應(yīng)的特征
分別經(jīng)過(guò)為21和84維的全連接層(并列的,前者是分類輸出,后者是回歸輸出) Fast R-CNN通過(guò)CNN直接獲取整張圖像的特征圖,再使用RoI Pooling Layer在特征圖上獲取對(duì)應(yīng)每個(gè)候選框的特征,避免了R-CNN中的對(duì)每個(gè)候選框串行進(jìn)行卷積(耗時(shí)較長(zhǎng))。
2.1 RoI Pooling Layer
對(duì)于每個(gè)RoI而言,需要從共享卷積層獲取的特征圖上提取對(duì)應(yīng)的特征,并且送入全連接層進(jìn)行分類。因此,RoI Pooling主要做了兩件事,第一件是為每個(gè)RoI選取對(duì)應(yīng)的特征,第二件事是為了滿足全連接層的輸入需求,將每個(gè)RoI對(duì)應(yīng)的特征的維度轉(zhuǎn)化成某個(gè)定值。RoI Pooling示意圖如下所示:
如上圖所示,對(duì)于每一個(gè)RoI,RoI Pooling Layer將其映射到特征圖對(duì)應(yīng)位置,獲取對(duì)應(yīng)特征。另外,由于每一個(gè)RoI的尺度各不相同,所以提取出來(lái)的特征向量region proposal維度也不盡相同,因此需要某種特殊的技術(shù)來(lái)做保證輸入后續(xù)全連接層的特征向量維度相同。ROI Pooling的提出便是為了解決這一問(wèn)題的。其思路如下:
將region proposal劃分為目標(biāo)H×W大小的分塊
對(duì)每一個(gè)分塊中做MaxPooling(每個(gè)分塊中含有多個(gè)網(wǎng)格,每個(gè)分塊獲取一個(gè)特征值)
將所有輸出值組合起來(lái)便形成固定大小為H×W的feature map
Fast R-CNN的貢獻(xiàn)可以主要分為兩個(gè)方面:
取代R-CNN的串行特征提取方式,直接采用一個(gè)CNN對(duì)全圖提取特征(這也是為什么需要RoI Pooling的原因)。
除了selective search,其他部分都可以合在一起訓(xùn)練。Fast R-CNN也有缺點(diǎn),體現(xiàn)在耗時(shí)的selective search還是依舊存在。
3. Faster R-CNN
Faster R-CNN 取代selective search,直接通過(guò)一個(gè)Region Proposal Network (RPN)生成待檢測(cè)區(qū)域,這么做,在生成RoI區(qū)域的時(shí)候,時(shí)間也就從2s縮減到了10ms。下圖是Faster R-CNN整體結(jié)構(gòu)。
由上圖可知,F(xiàn)aster R-CNN由共享卷積層、RPN、RoI pooling以及分類和回歸四部分組成:
首先使用共享卷積層為全圖提取特征feature maps
將得到的feature maps送入RPN,RPN生成待檢測(cè)框(指定RoI的位置),并對(duì)RoI的包圍框進(jìn)行第一次修正
RoI Pooling Layer根據(jù)RPN的輸出在feature map上面選取每個(gè)RoI對(duì)應(yīng)的特征,并將維度置為定值
使用全連接層(FC Layer)對(duì)框進(jìn)行分類,并且進(jìn)行目標(biāo)包圍框的第二次修正。尤其注意的是,F(xiàn)aster R-CNN真正實(shí)現(xiàn)了端到端的訓(xùn)練(end-to-end training)。Faster R-CNN最大特色是使用了RPN取代了SS算法來(lái)獲取RoI,以下對(duì)RPN進(jìn)行分析。
3.1 RPN
經(jīng)典的檢測(cè)方法生成檢測(cè)框都非常耗時(shí),如OpenCV adaboost使用滑動(dòng)窗口+圖像金字塔生成檢測(cè)框;或如R-CNN使用SS(Selective Search)方法生成檢測(cè)框。而Faster R-CNN則拋棄了傳統(tǒng)的滑動(dòng)窗口和SS方法,直接使用RPN生成檢測(cè)框,這也是Faster R-CNN的巨大優(yōu)勢(shì),能極大提升檢測(cè)框的生成速度。首先來(lái)看看RPN的工作原理:
上圖展示了RPN網(wǎng)絡(luò)的具體結(jié)構(gòu)。可以看到RPN網(wǎng)絡(luò)實(shí)際分為2條支線,上面一條支線通過(guò)softmax來(lái)分類anchors獲得前景foreground和背景background(檢測(cè)目標(biāo)是foreground),下面一條支線用于計(jì)算anchors的邊框偏移量,以獲得精確的proposals。而最后的proposal層則負(fù)責(zé)綜合foreground anchors和偏移量獲取proposals,同時(shí)剔除太小和超出邊界的proposals。其實(shí)整個(gè)網(wǎng)絡(luò)到了Proposal Layer這里,就完成了相當(dāng)于目標(biāo)定位的功能。anchor:簡(jiǎn)單地說(shuō),RPN依靠一個(gè)在共享特征圖上滑動(dòng)的窗口,為每個(gè)位置生成9種預(yù)先設(shè)置好長(zhǎng)寬比與面積的目標(biāo)框(即anchor)。這9種初始anchor包含三種面積(128×128,256×256,512×512),每種面積又包含三種長(zhǎng)寬比(1:1,1:2,2:1)。示意圖如下所示:
由于共享特征圖的大小約為40×60,所以RPN生成的初始anchor的總數(shù)約為20000個(gè)(40×60×9)。其實(shí)RPN最終就是在原圖尺度上,設(shè)置了密密麻麻的候選anchor。進(jìn)而去判斷anchor到底是前景還是背景,意思就是判斷這個(gè)anchor到底有沒(méi)有覆蓋目標(biāo),以及為屬于前景的anchor進(jìn)行第一次坐標(biāo)修正。
判斷前景或背景:對(duì)于所有的anchors,首先需要判斷anchor是是否為前景。對(duì)于第一個(gè)問(wèn)題,RPN的做法是使用SoftmaxLoss直接訓(xùn)練,在訓(xùn)練的時(shí)候排除掉了超越圖像邊界的anchor;邊框修正:如圖綠色表示的是飛機(jī)的實(shí)際框標(biāo)簽(ground truth),紅色的表示的其中一個(gè)候選區(qū)域(foreground anchor),即被分類器識(shí)別為飛機(jī)的區(qū)域,但是由于紅色區(qū)域定位不準(zhǔn)確,這張圖相當(dāng)于沒(méi)有正確檢測(cè)出飛機(jī),所以我們希望采用一種方法對(duì)紅色的框進(jìn)行微調(diào),使得候選區(qū)域和實(shí)際框更加接近:
對(duì)于目標(biāo)框一般使用四維向量來(lái)表示(x,y,w,h)(x,y,w,h) ,分別表示目標(biāo)框的中心點(diǎn)坐標(biāo)、寬、高,我們使用AA 表示原始的foreground anchor,使用GG 表示目標(biāo)的ground truth,我們的目標(biāo)是尋找一種關(guān)系,使得輸入原始的Anchor AA 經(jīng)過(guò)映射到一個(gè)和真實(shí)框GG 更接近的回歸窗口G′G′ ,即:
給定:
尋找一種變換F,使得
那么如何去計(jì)算F 呢?這里我們可以通過(guò)平移和縮放實(shí)現(xiàn)
平移:
縮放:
上面公式中,我們需要學(xué)習(xí)四個(gè)參數(shù),分別是
其中
表示的兩個(gè)框中心距離的偏移量
當(dāng)輸入的anchor A與G相差較小時(shí),可以認(rèn)為這種變換是一種線性變換, 那么就可以用線性回歸來(lái)建模對(duì)目標(biāo)框進(jìn)行微調(diào)(注意,只有當(dāng)anchors A和G比較接近時(shí),才能使用線性回歸模型,否則就是復(fù)雜的非線性問(wèn)題了)。接下來(lái)就是如何通過(guò)線性回歸獲得
線性回歸就是給定輸入的特征向量X ,學(xué)習(xí)一組參數(shù)W,使得線性回歸的輸出WX和真實(shí)值Y 的差很小。對(duì)于該問(wèn)題,輸入X是特征圖,我們使用? 表示,同時(shí)訓(xùn)練時(shí)還需要A到G變換的真實(shí)參數(shù)值:
輸出是
那么目標(biāo)函數(shù)可以表示為:
其中?(A) 是對(duì)應(yīng)anchor的特征圖組成的特征向量,ww 是需要學(xué)習(xí)的參數(shù),d(A) 是得到預(yù)測(cè)值(表示x,y,w,h,也就是每一個(gè)變換對(duì)應(yīng)一個(gè)上述目標(biāo)函數(shù)),為了讓預(yù)測(cè)值和真實(shí)值差距最小,代價(jià)函數(shù)如下:
函數(shù)優(yōu)化目標(biāo)為:
需要說(shuō)明,只有在G和A比較接近時(shí),才可近似認(rèn)為上述線性變換成立,下面對(duì)于原文中,A與G之間的平移參數(shù)和尺度因子為:
在得到每一個(gè)候選區(qū)域anchor A的修正參數(shù)之后,我們就可以計(jì)算出精確的anchor,然后按照物體的區(qū)域得分從大到小對(duì)得到的anchor排序,然后提出一些寬或者高很小的anchor(獲取其它過(guò)濾條件),再經(jīng)過(guò)非極大值抑制抑制,取前Top-N的anchors,然后作為proposals(候選框)輸出,送入到RoI Pooling層。那么,RPN怎么實(shí)現(xiàn)呢?這個(gè)問(wèn)題通過(guò)RPN的本質(zhì)很好求解,RPN的本質(zhì)是一個(gè)樹(shù)狀結(jié)構(gòu),樹(shù)干是一個(gè)3×3的卷積層,樹(shù)枝是兩個(gè)1×1的卷積層,第一個(gè)1×1的卷積層解決了前后景的輸出,第二個(gè)1×1的卷積層解決了邊框修正的輸出。來(lái)看看在代碼中是怎么做的:
從如上代碼中可以看到,對(duì)于RPN輸出的特征圖中的每一個(gè)點(diǎn),一個(gè)1×1的卷積層輸出了18個(gè)值,因?yàn)槭敲恳粋€(gè)點(diǎn)對(duì)應(yīng)9個(gè)anchor,每個(gè)anchor有一個(gè)前景分?jǐn)?shù)和一個(gè)背景分?jǐn)?shù),所以9×2=18。另一個(gè)1×1的卷積層輸出了36個(gè)值,因?yàn)槭敲恳粋€(gè)點(diǎn)對(duì)應(yīng)9個(gè)anchor,每個(gè)anchor對(duì)應(yīng)了4個(gè)修正坐標(biāo)的值,所以9×4=36。那么,要得到這些值,RPN網(wǎng)絡(luò)需要訓(xùn)練。在訓(xùn)練的時(shí)候,就需要對(duì)應(yīng)的標(biāo)簽。那么,如何判定一個(gè)anchor是前景還是背景呢?文中做出了如下定義:如果一個(gè)anchor與ground truth的IoU在0.7以上,那這個(gè)anchor就算前景(positive)。類似地,如果這個(gè)anchor與ground truth的IoU在0.3以下,那么這個(gè)anchor就算背景(negative)。在作者進(jìn)行RPN網(wǎng)絡(luò)訓(xùn)練的時(shí)候,只使用了上述兩類anchor,與ground truth的IoU介于0.3和0.7的anchor沒(méi)有使用。在訓(xùn)練anchor屬于前景與背景的時(shí)候,是在一張圖中,隨機(jī)抽取了128個(gè)前景anchor與128個(gè)背景anchor。
3.3. 分類和定位
Faster R-CNN中的RoI Pooling Layer與 Fast R-CNN中原理一樣。在RoI Pooling Layer之后,就是Faster R-CNN的分類器和RoI邊框修正訓(xùn)練。分類器主要是分這個(gè)提取的RoI具體是什么類別(人,車,馬等),一共C+1類(包含一類背景)。RoI邊框修正和RPN中的anchor邊框修正原理一樣,同樣也是SmoothL1 Loss,值得注意的是,RoI邊框修正也是對(duì)于非背景的RoI進(jìn)行修正,對(duì)于類別標(biāo)簽為背景的RoI,則不進(jìn)行RoI邊框修正的參數(shù)訓(xùn)練。對(duì)于分類器和RoI邊框修正的訓(xùn)練,可以損失函數(shù)描述如下:
上式中u>=1表示RoI邊框修正是對(duì)于非背景的RoI而言的,實(shí)驗(yàn)中,上式的λ取1。在訓(xùn)練分類器和RoI邊框修正時(shí),步驟如下所示:1) 首先通過(guò)RPN生成約20000個(gè)anchor(40×60×9)。2) 對(duì)20000個(gè)anchor進(jìn)行第一次邊框修正,得到修訂邊框后的proposal。3) 對(duì)超過(guò)圖像邊界的proposal的邊進(jìn)行clip,使得該proposal不超過(guò)圖像范圍。4) 忽略掉長(zhǎng)或者寬太小的proposal。5) 將所有proposal按照前景分?jǐn)?shù)從高到低排序,選取前12000個(gè)proposal。6) 使用閾值為0.7的NMS算法排除掉重疊的proposal。7) 針對(duì)上一步剩下的proposal,選取前2000個(gè)proposal進(jìn)行分類和第二次邊框修正。總的來(lái)說(shuō),F(xiàn)aster R-CNN的loss分兩大塊,第一大塊是訓(xùn)練RPN的loss(包含一個(gè)SoftmaxLoss和SmoothL1Loss),第二大塊是訓(xùn)練Faster R-CNN中分類器的loss(包含一個(gè)SoftmaxLoss和SmoothL1Loss),F(xiàn)aster R-CNN的總的loss函數(shù)描述如下:
4. Mask R-CNN
Mask R-CNN可以分解為如下的3個(gè)模塊:Faster-RCNN、RoI Align和Mask。算法框架如下:
圖6 Mask R-CNN算法框架
算法步驟:
首先,輸入一幅你想處理的圖片,然后進(jìn)行對(duì)應(yīng)的預(yù)處理操作,或者預(yù)處理后的圖片;
然后,將其輸入到一個(gè)預(yù)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)中(ResNeXt等)獲得對(duì)應(yīng)的feature map;
接著,對(duì)這個(gè)feature map中的每一點(diǎn)設(shè)定預(yù)定個(gè)的RoI,從而獲得多個(gè)候選RoI;
接著,將這些候選的RoI送入RPN網(wǎng)絡(luò)進(jìn)行二值分類(前景或背景)和BB回歸,過(guò)濾掉一部分候選的ROI;
接著,對(duì)這些剩下的RoI進(jìn)行RoIAlign操作(即先將原圖和feature map的pixel對(duì)應(yīng)起來(lái),然后將feature map和固定的feature對(duì)應(yīng)起來(lái));
最后,對(duì)這些RoI進(jìn)行分類(N類別分類)、BB回歸和MASK生成(在每一個(gè)ROI里面進(jìn)行FCN操作)。Mask R-CNN是一個(gè)非常靈活的框架,可以增加不同的分支完成不同的任務(wù),可以完成目標(biāo)分類、目標(biāo)檢測(cè)、語(yǔ)義分割、實(shí)例分割、人體姿勢(shì)識(shí)別等多種任務(wù),如下圖所示。
4.1. ROI Align
Mask R-CNN使用RoIAlign取代了Faster RCNN中的RoIPooling,故下文對(duì)RoIPooling和RoIAlign進(jìn)行分析與比較
如上圖所示,RoI Pooling和RoIAlign最大的區(qū)別是:前者使用了兩次量化操作,而后者并沒(méi)有采用量化操作,使用了線性插值算法,具體的解釋如下所示。
RoI Pooling
如上圖所示,為了得到固定大?。?X7)的feature map,我們需要做兩次量化操作:1)圖像坐標(biāo) — feature map坐標(biāo),2)feature map坐標(biāo) — RoI feature坐標(biāo)。我們來(lái)說(shuō)一下具體的細(xì)節(jié),如圖我們輸入的是一張800x800的圖像,在圖像中有兩個(gè)目標(biāo)(貓和狗),狗的BB大小為665x665,經(jīng)過(guò)VGG16網(wǎng)絡(luò)后,我們可以獲得對(duì)應(yīng)的feature map,如果我們對(duì)卷積層進(jìn)行Padding操作,我們的圖片經(jīng)過(guò)卷積層后保持原來(lái)的大小,但是由于池化層的存在,我們最終獲得feature map 會(huì)比原圖縮小一定的比例,這和Pooling層的個(gè)數(shù)和大小有關(guān)。
在該VGG16中,我們使用了5個(gè)池化操作,每個(gè)池化操作都是2x2Pooling,因此我們最終獲得feature map的大小為800/32 x 800/32 = 25x25(是整數(shù)),但是將狗的BB對(duì)應(yīng)到feature map上面,我們得到的結(jié)果是665/32 x 665/32 = 20.78 x 20.78,結(jié)果是浮點(diǎn)數(shù),含有小數(shù),但是我們的像素值可沒(méi)有小數(shù),那么作者就對(duì)其進(jìn)行了量化操作(即取整操作),即其結(jié)果變?yōu)?0 x 20,在這里引入了第一次的量化誤差;然而我們的feature map中有不同大小的ROI,但是我們后面的網(wǎng)絡(luò)卻要求我們有固定的輸入,因此,我們需要將不同大小的ROI轉(zhuǎn)化為固定的ROI feature,在這里使用的是7x7的ROI feature,那么我們需要將20 x 20的ROI映射成7 x 7的ROI feature,其結(jié)果是 20 /7 x 20/7 = 2.86 x 2.86,同樣是浮點(diǎn)數(shù),含有小數(shù)點(diǎn),我們采取同樣的操作對(duì)其進(jìn)行取整吧,在這里引入了第二次量化誤差。其實(shí),這里引入的誤差會(huì)導(dǎo)致圖像中的像素和特征中的像素的偏差,即將feature空間的ROI對(duì)應(yīng)到原圖上面會(huì)出現(xiàn)很大的偏差。原因如下:比如用我們第二次引入的誤差來(lái)分析,本來(lái)是2,86,我們將其量化為2,這期間引入了0.86的誤差,看起來(lái)是一個(gè)很小的誤差呀,但是你要記得這是在feature空間,我們的feature空間和圖像空間是有比例關(guān)系的,在這里是1:32,那么對(duì)應(yīng)到原圖上面的差距就是0.86 x 32 = 27.52。這個(gè)差距不小吧,這還是僅僅考慮了第二次的量化誤差。這會(huì)大大影響整個(gè)檢測(cè)算法的性能,因此是一個(gè)嚴(yán)重的問(wèn)題。
RoIAlign
如上圖所示,為了得到為了得到固定大?。?X7)的feature map,RoIAlign技術(shù)并沒(méi)有使用量化操作,即我們不想引入量化誤差,比如665 / 32 = 20.78,我們就用20.78,不用什么20來(lái)替代它,比如20.78 / 7 = 2.97,我們就用2.97,而不用2來(lái)代替它。這就是RoIAlign的初衷。那么我們?nèi)绾翁幚磉@些浮點(diǎn)數(shù)呢,我們的解決思路是使用“雙線性插值”算法。雙線性插值是一種比較好的圖像縮放算法,它充分的利用了原圖中虛擬點(diǎn)(比如20.56這個(gè)浮點(diǎn)數(shù),像素位置都是整數(shù)值,沒(méi)有浮點(diǎn)值)四周的四個(gè)真實(shí)存在的像素值來(lái)共同決定目標(biāo)圖中的一個(gè)像素值,即可以將20.56這個(gè)虛擬的位置點(diǎn)對(duì)應(yīng)的像素值估計(jì)出來(lái)。如下圖所示,藍(lán)色的虛線框表示卷積后獲得的feature map,黑色實(shí)線框表示ROI feature,最后需要輸出的大小是2x2,那么我們就利用雙線性插值來(lái)估計(jì)這些藍(lán)點(diǎn)(虛擬坐標(biāo)點(diǎn),又稱雙線性插值的網(wǎng)格點(diǎn))處所對(duì)應(yīng)的像素值,最后得到相應(yīng)的輸出。這些藍(lán)點(diǎn)是2x2Cell中的隨機(jī)采樣的普通點(diǎn),作者指出,這些采樣點(diǎn)的個(gè)數(shù)和位置不會(huì)對(duì)性能產(chǎn)生很大的影響,你也可以用其它的方法獲得。然后在每一個(gè)橘紅色的區(qū)域里面進(jìn)行max pooling或者average pooling操作,獲得最終2x2的輸出結(jié)果。我們的整個(gè)過(guò)程中沒(méi)有用到量化操作,沒(méi)有引入誤差,即原圖中的像素和feature map中的像素是完全對(duì)齊的,沒(méi)有偏差,這不僅會(huì)提高檢測(cè)的精度,同時(shí)也會(huì)有利于實(shí)例分割。
4.2. Mask
下圖闡述了Mask R-CNN的Mask branch:
在Mask R-CNN中的RoI Align之后有一個(gè)"head"部分,主要作用是將RoI Align的輸出維度擴(kuò)大,這樣在預(yù)測(cè)Mask時(shí)會(huì)更加精確。在Mask Branch的訓(xùn)練環(huán)節(jié),作者沒(méi)有采用FCN式的SoftmaxLoss,反而是輸出了K個(gè)Mask預(yù)測(cè)圖(為每一個(gè)類都輸出一張),并采用average binary cross-entropy loss訓(xùn)練,當(dāng)然在訓(xùn)練Mask branch的時(shí)候,輸出的K個(gè)特征圖中,也只是對(duì)應(yīng)ground truth類別的那一個(gè)特征圖對(duì)Mask loss有貢獻(xiàn)。Mask R-CNN的訓(xùn)練損失函數(shù)可以描述為:
5. Yolo
以上目標(biāo)檢測(cè)模型都是two-stage算法,針對(duì)于two-stage目標(biāo)檢測(cè)算法普遍存在的運(yùn)算速度慢的缺點(diǎn),Yolo創(chuàng)造性的提出了one-stage,也就是將物體分類和物體定位在一個(gè)步驟中完成。Yolo直接在輸出層回歸bounding box的位置和bounding box所屬類別,從而實(shí)現(xiàn)one-stage。通過(guò)這種方式,Yolo可實(shí)現(xiàn)45幀每秒的運(yùn)算速度,完全能滿足實(shí)時(shí)性要求(達(dá)到24幀每秒,人眼就認(rèn)為是連續(xù)的)。整個(gè)系統(tǒng)如下圖所示。
主要分為三個(gè)部分:卷積層,目標(biāo)檢測(cè)層,NMS篩選層
5.1 卷積層
采用Google inceptionV1網(wǎng)絡(luò),對(duì)應(yīng)到上圖中的第一個(gè)階段,共20層。這一層主要是進(jìn)行特征提取,從而提高模型泛化能力。但作者對(duì)inceptionV1進(jìn)行了改造,他沒(méi)有使用inception module結(jié)構(gòu),而是用一個(gè)1x1的卷積,并聯(lián)一個(gè)3x3的卷積來(lái)替代。(可以認(rèn)為只使用了inception module中的一個(gè)分支,應(yīng)該是為了簡(jiǎn)化網(wǎng)絡(luò)結(jié)構(gòu))
5.2 目標(biāo)檢測(cè)層
先經(jīng)過(guò)4個(gè)卷積層和2個(gè)全連接層,最后生成7x7x30的輸出。先經(jīng)過(guò)4個(gè)卷積層的目的是為了提高模型泛化能力。Yolo將一副448x448的原圖分割成了7x7個(gè)網(wǎng)格,然后每個(gè)單元格負(fù)責(zé)去檢測(cè)那些中心點(diǎn)落在該格子內(nèi)的目標(biāo),如下圖所示,可以看到狗這個(gè)目標(biāo)的中心落在左下角一個(gè)單元格內(nèi),那么該單元格負(fù)責(zé)預(yù)測(cè)這個(gè)狗。每個(gè)單元格會(huì)預(yù)測(cè) 個(gè)邊界框(bounding box)以及邊界框的置信度(confidence score)。所謂置信度其實(shí)包含兩個(gè)方面,一是這個(gè)邊界框含有目標(biāo)的可能性大小,二是這個(gè)邊界框的準(zhǔn)確度。前者記為 ,當(dāng)該邊界框是背景時(shí)(即不包含目標(biāo)),此時(shí) 。而當(dāng)該邊界框包含目標(biāo)時(shí), 。邊界框的準(zhǔn)確度可以用預(yù)測(cè)框與實(shí)際框(ground truth)的IOU(intersection over union,交并比)來(lái)表征,記為 。因此置信度可以定義為 。很多人可能將Yolo的置信度看成邊界框是否含有目標(biāo)的概率,但是其實(shí)它是兩個(gè)因子的乘積,預(yù)測(cè)框的準(zhǔn)確度也反映在里面。邊界框的大小與位置可以用4個(gè)值來(lái)表征: ,其中 是邊界框的中心坐標(biāo),而 和 是邊界框的寬與高。還有一點(diǎn)要注意,中心坐標(biāo)的預(yù)測(cè)值 是相對(duì)于每個(gè)單元格左上角坐標(biāo)點(diǎn)的偏移值,并且單位是相對(duì)于單元格大小的,單元格的坐標(biāo)定義如圖6所示。而邊界框的 和 預(yù)測(cè)值是相對(duì)于整個(gè)圖片的寬與高的比例,這樣理論上4個(gè)元素的大小應(yīng)該在 范圍。這樣,每個(gè)邊界框的預(yù)測(cè)值實(shí)際上包含5個(gè)元素: ,其中前4個(gè)表征邊界框的大小與位置,而最后一個(gè)值是置信度。
bounding box坐標(biāo): 如上圖,7x7網(wǎng)格內(nèi)的每個(gè)grid(紅色框),對(duì)應(yīng)兩個(gè)大小形狀不同的bounding box(黃色框)。每個(gè)box的位置坐標(biāo)為(x,y,w,h), x和y表示box中心點(diǎn)坐標(biāo),w和h表示box寬度和高度。通過(guò)與訓(xùn)練數(shù)據(jù)集上標(biāo)定的物體真實(shí)坐標(biāo)(Gx,Gy,Gw,Gh)進(jìn)行對(duì)比訓(xùn)練,可以計(jì)算出初始bounding box平移和伸縮得到最終位置的模型。
bounding box置信度confidence:這個(gè)置信度只是為了表達(dá)box內(nèi)有無(wú)物體的概率,并不表達(dá)box內(nèi)物體是什么。
其中前一項(xiàng)表示有無(wú)人工標(biāo)記的物體落入了網(wǎng)格內(nèi),如果有則為1,否則為0。第二項(xiàng)代表bounding box和真實(shí)標(biāo)記的box之間的重合度。它等于兩個(gè)box面積交集,除以面積并集。值越大則box越接近真實(shí)位置。每個(gè)網(wǎng)格還需要預(yù)測(cè)它屬于20分類中每一個(gè)類別的概率。分類信息是針對(duì)每個(gè)網(wǎng)格的,而不是bounding box。故只需要20個(gè),而不是40個(gè)。而confidence則是針對(duì)bounding box的,它只表示box內(nèi)是否有物體,而不需要預(yù)測(cè)物體是20分類中的哪一個(gè),故只需要2個(gè)參數(shù)。雖然分類信息和confidence都是概率,但表達(dá)含義完全不同。?
5.3 NMS篩選層
篩選層是為了在多個(gè)結(jié)果中(多個(gè)bounding box)篩選出最合適的幾個(gè),這個(gè)方法和faster R-CNN 中基本相同。都是先過(guò)濾掉score低于閾值的box,對(duì)剩下的box進(jìn)行NMS非極大值抑制,去除掉重疊度比較高的box(NMS具體算法可以回顧上面faster R-CNN小節(jié))。這樣就得到了最終的最合適的幾個(gè)box和他們的類別。
5.4 Yolo損失函數(shù)
yolo的損失函數(shù)包含三部分,位置誤差,confidence誤差,分類誤差。具體公式如下
誤差均采用了均方差算法,其實(shí)我認(rèn)為,位置誤差應(yīng)該采用均方差算法,而分類誤差應(yīng)該采用交叉熵。由于物體位置只有4個(gè)參數(shù),而類別有20個(gè)參數(shù),他們的累加和不同。如果賦予相同的權(quán)重,顯然不合理。故Yolo中位置誤差權(quán)重為5,類別誤差權(quán)重為1。由于我們不是特別關(guān)心不包含物體的bounding box,故賦予不包含物體的box的置信度confidence誤差的權(quán)重為0.5,包含物體的權(quán)重則為1。Yolo算法開(kāi)創(chuàng)了one-stage檢測(cè)的先河,它將物體分類和物體檢測(cè)網(wǎng)絡(luò)合二為一,都在全連接層完成。故它大大降低了目標(biāo)檢測(cè)的耗時(shí),提高了實(shí)時(shí)性。但它的缺點(diǎn)也十分明顯
每個(gè)網(wǎng)格只對(duì)應(yīng)兩個(gè)bounding box,當(dāng)物體的長(zhǎng)寬比不常見(jiàn)(也就是訓(xùn)練數(shù)據(jù)集覆蓋不到時(shí)),效果很差。
原始圖片只劃分為7x7的網(wǎng)格,當(dāng)兩個(gè)物體靠的很近時(shí),效果很差
最終每個(gè)網(wǎng)格只對(duì)應(yīng)一個(gè)類別,容易出現(xiàn)漏檢(物體沒(méi)有被識(shí)別到)。
對(duì)于圖片中比較小的物體,效果很差。這其實(shí)是所有目標(biāo)檢測(cè)算法的通病,SSD對(duì)它有些優(yōu)化,我們后面再看。
6. SSD
Faster R-CNN準(zhǔn)確率mAP較高,漏檢率recall較低,但速度較慢。而Yolo則相反,速度快,但準(zhǔn)確率和漏檢率不盡人意。SSD綜合了他們的優(yōu)缺點(diǎn),對(duì)輸入300x300的圖像,在voc2007數(shù)據(jù)集上test,能夠達(dá)到58 幀每秒( Titan X 的 GPU ),72.1%的mAP。SSD和Yolo一樣都是采用一個(gè)CNN網(wǎng)絡(luò)來(lái)進(jìn)行檢測(cè),但是卻采用了多尺度的特征圖,SSD網(wǎng)絡(luò)結(jié)構(gòu)如下圖:
和Yolo一樣,也分為三部分:卷積層,目標(biāo)檢測(cè)層和NMS篩選層
6.1 卷積層
SSD論文采用了VGG16的基礎(chǔ)網(wǎng)絡(luò),其實(shí)這也是幾乎所有目標(biāo)檢測(cè)神經(jīng)網(wǎng)絡(luò)的慣用方法。先用一個(gè)CNN網(wǎng)絡(luò)來(lái)提取特征,然后再進(jìn)行后續(xù)的目標(biāo)定位和目標(biāo)分類識(shí)別。
6.2 目標(biāo)檢測(cè)層
這一層由5個(gè)卷積層和一個(gè)平均池化層組成。去掉了最后的全連接層。SSD認(rèn)為目標(biāo)檢測(cè)中的物體,只與周圍信息相關(guān),它的感受野不是全局的,故沒(méi)必要也不應(yīng)該做全連接。SSD的特點(diǎn)如下:
6.2.1 多尺寸feature map上進(jìn)行目標(biāo)檢測(cè)
每一個(gè)卷積層,都會(huì)輸出不同大小感受野的feature map。在這些不同尺度的feature map上,進(jìn)行目標(biāo)位置和類別的訓(xùn)練和預(yù)測(cè),從而達(dá)到多尺度檢測(cè)的目的,可以克服yolo對(duì)于寬高比不常見(jiàn)的物體,識(shí)別準(zhǔn)確率較低的問(wèn)題。而yolo中,只在最后一個(gè)卷積層上做目標(biāo)位置和類別的訓(xùn)練和預(yù)測(cè)。這是SSD相對(duì)于yolo能提高準(zhǔn)確率的一個(gè)關(guān)鍵所在。
如上所示,在每個(gè)卷積層上都會(huì)進(jìn)行目標(biāo)檢測(cè)和分類,最后由NMS進(jìn)行篩選,輸出最終的結(jié)果。多尺度f(wàn)eature map上做目標(biāo)檢測(cè),就相當(dāng)于多了很多寬高比例的bounding box,可以大大提高泛化能力。
6.2.2 設(shè)置先驗(yàn)框
在Yolo中,每個(gè)單元預(yù)測(cè)多個(gè)邊界框,但是其都是相對(duì)這個(gè)單元本身(正方塊),但是真實(shí)目標(biāo)的形狀是多變的,Yolo需要在訓(xùn)練過(guò)程中自適應(yīng)目標(biāo)的形狀。而SSD和Faster R-CNN相似,也提出了anchor的概念。卷積輸出的feature map,每個(gè)點(diǎn)對(duì)應(yīng)為原圖的一個(gè)區(qū)域的中心點(diǎn)。以這個(gè)點(diǎn)為中心,構(gòu)造出6個(gè)寬高比例不同,大小不同的anchor(SSD中稱為default box)。每個(gè)anchor對(duì)應(yīng)4個(gè)位置參數(shù)(x,y,w,h)和21個(gè)類別概率(voc訓(xùn)練集為20分類問(wèn)題,在加上anchor是否為背景,共21分類)。
SSD的檢測(cè)值也與Yolo不太一樣。對(duì)于每個(gè)單元的每個(gè)先驗(yàn)框,其都輸出一套獨(dú)立的檢測(cè)值,對(duì)應(yīng)一個(gè)邊界框,主要分為兩個(gè)部分。第一部分是各個(gè)類別的置信度或者評(píng)分,值得注意的是SSD將背景也當(dāng)做了一個(gè)特殊的類別,如果檢測(cè)目標(biāo)共有 個(gè)類別,SSD其實(shí)需要預(yù)測(cè) 個(gè)置信度值,其中第一個(gè)置信度指的是不含目標(biāo)或者屬于背景的評(píng)分。后面當(dāng)我們說(shuō) 個(gè)類別置信度時(shí),請(qǐng)記住里面包含背景那個(gè)特殊的類別,即真實(shí)的檢測(cè)類別只有 個(gè)。在預(yù)測(cè)過(guò)程中,置信度最高的那個(gè)類別就是邊界框所屬的類別,特別地,當(dāng)?shù)谝粋€(gè)置信度值最高時(shí),表示邊界框中并不包含目標(biāo)。第二部分就是邊界框的location,包含4個(gè)值 ,分別表示邊界框的中心坐標(biāo)以及寬高。但是真實(shí)預(yù)測(cè)值其實(shí)只是邊界框相對(duì)于先驗(yàn)框的轉(zhuǎn)換值(paper里面說(shuō)是offset,但是覺(jué)得transformation更合適,參見(jiàn)R-CNN(https://arxiv.org/abs/1311.2524) 另外,SSD采用了數(shù)據(jù)增強(qiáng)。生成與目標(biāo)物體真實(shí)box間IOU為0.1 0.3 0.5 0.7 0.9的patch,隨機(jī)選取這些patch參與訓(xùn)練,并對(duì)他們進(jìn)行隨機(jī)水平翻轉(zhuǎn)等操作。SSD認(rèn)為這個(gè)策略提高了8.8%的準(zhǔn)確率。
6.3 篩選層
和yolo的篩選層基本一致,同樣先過(guò)濾掉類別概率低于閾值的default box,再采用NMS非極大值抑制,篩掉重疊度較高的。只不過(guò)SSD綜合了各個(gè)不同feature map上的目標(biāo)檢測(cè)輸出的default box。
7 其他模型
針對(duì)Yolo準(zhǔn)確率不高,容易漏檢,對(duì)長(zhǎng)寬比不常見(jiàn)物體效果差等問(wèn)題,結(jié)合SSD的特點(diǎn),提出了YoloV2。它主要還是采用了Yolo的網(wǎng)絡(luò)結(jié)構(gòu),在其基礎(chǔ)上做了一些優(yōu)化和改進(jìn),如下:
網(wǎng)絡(luò)采用DarkNet-19:19層,里面包含了大量3x3卷積,同時(shí)借鑒inceptionV1,加入1x1卷積核全局平均池化層。結(jié)構(gòu)如下
去掉全連接層:和SSD一樣,模型中只包含卷積和平均池化層(平均池化是為了變?yōu)橐痪S向量,做softmax分類)。這樣做一方面是由于物體檢測(cè)中的目標(biāo),只是圖片中的一個(gè)區(qū)塊,它是局部感受野,沒(méi)必要做全連接。而是為了輸入不同尺寸的圖片,如果采用全連接,則只能輸入固定大小圖片了。
batch normalization:卷積層后加入BN,對(duì)下一次卷積輸入的數(shù)據(jù)做歸一化。可以在增大學(xué)習(xí)率的前提下,同樣可以穩(wěn)定落入局部最優(yōu)解。從而加速訓(xùn)練收斂,在相同耗時(shí)下,增大了有效迭代次數(shù)。
使用anchors:借鑒faster R-CNN和SSD,對(duì)于一個(gè)中心點(diǎn),使用多個(gè)anchor,得到多個(gè)bounding box,每個(gè)bounding box包含4個(gè)位置坐標(biāo)參數(shù)(x y w h)和21個(gè)類別概率信息。而在Yolo中,每個(gè)grid(對(duì)應(yīng)anchor),僅預(yù)測(cè)一次類別,而且只有兩個(gè)bounding box來(lái)進(jìn)行坐標(biāo)預(yù)測(cè)。
pass through layer:Yolo原本最終特征圖為13x13x256。YoloV2還利用了之前的26x26的特征圖進(jìn)行目標(biāo)檢測(cè)。26x26x256的feature map分別按行和列隔點(diǎn)采樣,得到4幅13x13x256的feature map,將他們組織成一幅13x13x2048的feature map。這樣做的目的是提高小物體的識(shí)別率。因?yàn)樵娇壳暗木矸e,其感受野越小,越有利于小物體的識(shí)別。
高分辨率輸入Training:Yolo采用224x224圖片進(jìn)行預(yù)訓(xùn)練,而YoloV2則采用448x448
Multi-Scale Training:輸入不同尺寸的圖片,迭代10次,就改變輸入圖片尺寸。由于模型中去掉了全連接層,故可以輸入不同尺寸的圖片了。從320x320,到608x608 Yolo和YoloV2只能識(shí)別20類物體,為了優(yōu)化這個(gè)問(wèn)題,提出了Yolo9000,可以識(shí)別9000類物體。它在YoloV2基礎(chǔ)上,進(jìn)行了imageNet和coco的聯(lián)合訓(xùn)練。這種方式充分利用imageNet可以識(shí)別1000類物體和coco可以進(jìn)行目標(biāo)位置檢測(cè)的優(yōu)點(diǎn)。當(dāng)使用imageNet訓(xùn)練時(shí),只更新物體分類相關(guān)的參數(shù)。而使用coco時(shí),則更新全部所有參數(shù)。
審核編輯 :李倩
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4776瀏覽量
100948 -
算法
+關(guān)注
關(guān)注
23文章
4623瀏覽量
93105 -
圖像
+關(guān)注
關(guān)注
2文章
1088瀏覽量
40515
原文標(biāo)題:最全綜述 | 圖像目標(biāo)檢測(cè)
文章出處:【微信號(hào):vision263com,微信公眾號(hào):新機(jī)器視覺(jué)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論