久久香港三级台湾三级播放,一级片免费在线观看,偷拍自伦2018国产极品白嫩精品

重磅干貨，第一時(shí)間送達(dá)

一. R-CNN：Rich feature hierarchies for accurate object detection and semantic segmentation

技術(shù)路線：selective search + CNN + SVMs

Step1:候選框提取(selectivesearch)

訓(xùn)練：給定一張圖片，利用seletive search方法從中提取出2000個(gè)候選框。由于候選框大小不一，考慮到后續(xù)CNN要求輸入的圖片大小統(tǒng)一，將2000個(gè)候選框全部resize到227*227分辨率（為了避免圖像扭曲嚴(yán)重，中間可以采取一些技巧減少圖像扭曲）。

測(cè)試：給定一張圖片，利用seletive search方法從中提取出2000個(gè)候選框。由于候選框大小不一，考慮到后續(xù)CNN要求輸入的圖片大小統(tǒng)一，將2000個(gè)候選框全部resize到227*227分辨率（為了避免圖像扭曲嚴(yán)重，中間可以采取一些技巧減少圖像扭曲）。

Step2:特征提取(CNN)

訓(xùn)練：提取特征的CNN模型需要預(yù)先訓(xùn)練得到。訓(xùn)練CNN模型時(shí)，對(duì)訓(xùn)練數(shù)據(jù)標(biāo)定要求比較寬松，即SS方法提取的proposal只包含部分目標(biāo)區(qū)域時(shí)，我們也將該proposal標(biāo)定為特定物體類別。這樣做的主要原因在于，CNN訓(xùn)練需要大規(guī)模的數(shù)據(jù)，如果標(biāo)定要求極其嚴(yán)格（即只有完全包含目標(biāo)區(qū)域且不屬于目標(biāo)的區(qū)域不能超過(guò)一個(gè)小的閾值），那么用于CNN訓(xùn)練的樣本數(shù)量會(huì)很少。因此，寬松標(biāo)定條件下訓(xùn)練得到的CNN模型只能用于特征提取。

測(cè)試：得到統(tǒng)一分辨率227*227的proposal后，帶入訓(xùn)練得到的CNN模型，最后一個(gè)全連接層的輸出結(jié)果---4096*1維度向量即用于最終測(cè)試的特征。

Step3:分類器(SVMs)

訓(xùn)練：對(duì)于所有proposal進(jìn)行嚴(yán)格的標(biāo)定（可以這樣理解，當(dāng)且僅當(dāng)一個(gè)候選框完全包含ground truth區(qū)域且不屬于ground truth部分不超過(guò)e.g,候選框區(qū)域的5%時(shí)認(rèn)為該候選框標(biāo)定結(jié)果為目標(biāo)，否則位背景），然后將所有proposal經(jīng)過(guò)CNN處理得到的特征和SVM新標(biāo)定結(jié)果輸入到SVMs分類器進(jìn)行訓(xùn)練得到分類器預(yù)測(cè)模型。

測(cè)試：對(duì)于一副測(cè)試圖像，提取得到的2000個(gè)proposal經(jīng)過(guò)CNN特征提取后輸入到SVM分類器預(yù)測(cè)模型中，可以給出特定類別評(píng)分結(jié)果。

結(jié)果生成：得到SVMs對(duì)于所有Proposal的評(píng)分結(jié)果，將一些分?jǐn)?shù)較低的proposal去掉后，剩下的proposal中會(huì)出現(xiàn)候選框相交的情況。采用非極大值抑制技術(shù)，對(duì)于相交的兩個(gè)框或若干個(gè)框，找到最能代表最終檢測(cè)結(jié)果的候選框（非極大值抑制方法可以參考：http://blog.csdn.net/pb09013037/article/details/45477591）

R-CNN需要對(duì)SS提取得到的每個(gè)proposal進(jìn)行一次前向CNN實(shí)現(xiàn)特征提取，因此計(jì)算量很大，無(wú)法實(shí)時(shí)。此外，由于全連接層的存在，需要嚴(yán)格保證輸入的proposal最終resize到相同尺度大小，這在一定程度造成圖像畸變，影響最終結(jié)果。

二. SPP-Net : Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition）

傳統(tǒng)CNN和SPP-Net流程對(duì)比如下圖所示（引自http://www.image-net.org/challenges/LSVRC/2014/slides/sppnet_ilsvrc2014.pdf）

SPP-net具有以下特點(diǎn)：

1.傳統(tǒng)CNN網(wǎng)絡(luò)中，卷積層對(duì)輸入圖像大小不作特別要求，但全連接層要求輸入圖像具有統(tǒng)一尺寸大小。因此，在R-CNN中，對(duì)于selective search方法提出的不同大小的proposal需要先通過(guò)Crop操作或Wrap操作將proposal區(qū)域裁剪為統(tǒng)一大小，然后用CNN提取proposal特征。相比之下，SPP-net在最后一個(gè)卷積層與其后的全連接層之間添加了一個(gè)SPP(spatial pyramid pooling)layer，從而避免對(duì)propsal進(jìn)行Crop或Warp操作。總而言之，SPP-layer適用于不同尺寸的輸入圖像，通過(guò)SPP-layer對(duì)最后一個(gè)卷積層特征進(jìn)行pool操作并產(chǎn)生固定大小feature map,進(jìn)而匹配后續(xù)的全連接層。

2.由于SPP-net支持不同尺寸輸入圖像，因此SPP-net提取得到的圖像特征具有更好的尺度不變性，降低了訓(xùn)練過(guò)程中的過(guò)擬合可能性。

3.R-CNN在訓(xùn)練和測(cè)試是需要對(duì)每一個(gè)圖像中每一個(gè)proposal進(jìn)行一遍CNN前向特征提取，如果是2000個(gè)propsal,需要2000次前向CNN特征提取。但SPP-net只需要進(jìn)行一次前向CNN特征提取，即對(duì)整圖進(jìn)行CNN特征提取，得到最后一個(gè)卷積層的feature map，然后采用SPP-layer根據(jù)空間對(duì)應(yīng)關(guān)系得到相應(yīng)proposal的特征。SPP-net速度可以比R-CNN速度快24~102倍，且準(zhǔn)確率比R-CNN更高（下圖引自SPP-net原作論文，可以看到SPP-net中spp-layer前有5個(gè)卷積層，第5個(gè)卷積層的輸出特征在位置上可以對(duì)應(yīng)到原來(lái)的圖像，例如第一個(gè)圖中左下角車輪在其conv5的圖中顯示為“^”的激活區(qū)域，因此基于此特性，SPP-net只需要對(duì)整圖進(jìn)行一遍前向卷積，在得到的conv5特征后，然后用SPP-net分別提取相應(yīng)proposal的特征）。

SPP-Layer原理：

在RNN中，conv5后是pool5;在SPP-net中，用SPP-layer替代原來(lái)的pool5，其目標(biāo)是為了使不同大小輸入圖像在經(jīng)過(guò)SPP-Layer后得到的特征向量長(zhǎng)度相同。其原理如圖如下所示

SPP與金字塔pooling類似，即我們先確定最終pooling得到的featuremap大小，例如4*4 bins，3*3 bins，2*2 bins，1*1 bins。那么我們已知conv5輸出的featuremap大?。ɡ?，256個(gè)13*13的feature map）.那么，對(duì)于一個(gè)13*13的feature map,我們可以通過(guò)spatial pyramid pooling （SPP）的方式得到輸出結(jié)果：當(dāng)window=ceil(13/4)=4, stride=floor(13/4)=3,可以得到的4*4 bins；當(dāng)window=ceil(13/3)=5, stride=floor(13/3)=4,可以得到的3*3 bins；當(dāng)window=ceil(13/2)=7, stride=floor(13/2)=6,可以得到的2*2 bins；當(dāng)window=ceil(13/1)=13, stride=floor(13/1)=13,可以得到的1*1 bins.因此SPP-layer后的輸出是256*（4*4+3*3+2*2+1*1）=256*30長(zhǎng)度的向量。不難看出，SPP的關(guān)鍵實(shí)現(xiàn)在于通過(guò)conv5輸出的feature map寬高和SPP目標(biāo)輸出bin的寬高計(jì)算spatial pyramid pooling中不同分辨率Bins對(duì)應(yīng)的pooling window和pool stride尺寸。

原作者在訓(xùn)練時(shí)采用兩種不同的方式，即1.采用相同尺寸的圖像訓(xùn)練SPP-net 2.采用不同尺寸的圖像訓(xùn)練SPP-net。實(shí)驗(yàn)結(jié)果表明：使用不同尺寸輸入圖像訓(xùn)練得到的SPP-Net效果更好。

SPP-Net +SVM訓(xùn)練：

采用selective search可以提取到一系列proposals，由于已經(jīng)訓(xùn)練完成SPP-Net,那么我們先將整圖代入到SPP-Net中，得到的conv5的輸出。接下來(lái)，區(qū)別于R-CNN，新方法不需要對(duì)不同尺寸的proposals進(jìn)行Crop或Wrap，直接根據(jù)proposal在圖中的相對(duì)位置關(guān)系計(jì)算得到proposal在整圖conv5輸出中的映射輸出結(jié)果。這樣，對(duì)于2000個(gè)proposal，我們事實(shí)上從conv1--->conv5只做了一遍前向，然后進(jìn)行2000次conv5 featuremap的集合映射，再通過(guò)SPP-Layer，就可以得到的2000組長(zhǎng)度相同的SPP-Layer輸出向量，進(jìn)而通過(guò)全連接層生成最終2000個(gè)proposal的卷積神經(jīng)網(wǎng)絡(luò)特征。接下來(lái)就和R-CNN類似，訓(xùn)練SVMs時(shí)對(duì)于所有proposal進(jìn)行嚴(yán)格的標(biāo)定（可以這樣理解，當(dāng)且僅當(dāng)一個(gè)候選框完全包含ground truth區(qū)域且不屬于ground truth部分不超過(guò)e.g,候選框區(qū)域的5%時(shí)認(rèn)為該候選框標(biāo)定結(jié)果為目標(biāo)，否則位背景），然后將所有proposal經(jīng)過(guò)CNN處理得到的特征和SVM新標(biāo)定結(jié)果輸入到SVMs分類器進(jìn)行訓(xùn)練得到分類器預(yù)測(cè)模型。

當(dāng)然，如果覺(jué)得SVM訓(xùn)練很麻煩，可以直接在SPP-Net后再加一個(gè)softmax層，用好的標(biāo)定結(jié)果去訓(xùn)練最后的softmax層參數(shù)。

三. Fast-R-CNN

基于R-CNN和SPP-Net思想，RBG提出了Fast-R-CNN算法。如果選用VGG16網(wǎng)絡(luò)進(jìn)行特征提取，在訓(xùn)練階段，F(xiàn)ast-R-CNN的速度相比RCNN和SPP-Net可以分別提升9倍和3倍；在測(cè)試階段，F(xiàn)ast-R-CNN的速度相比RCNN和SPP-Net可以分別提升213倍和10倍。

R-CNN和SPP-Net缺點(diǎn)：

1.R-CNN和SPP-Net的訓(xùn)練過(guò)程類似，分多個(gè)階段進(jìn)行，實(shí)現(xiàn)過(guò)程較復(fù)雜。這兩種方法首先選用Selective Search方法提取proposals,然后用CNN實(shí)現(xiàn)特征提取，最后基于SVMs算法訓(xùn)練分類器，在此基礎(chǔ)上還可以進(jìn)一步學(xué)習(xí)檢測(cè)目標(biāo)的boulding box。

2.R-CNN和SPP-Net的時(shí)間成本和空間代價(jià)較高。SPP-Net在特征提取階段只需要對(duì)整圖做一遍前向CNN計(jì)算，然后通過(guò)空間映射方式計(jì)算得到每一個(gè)proposal相應(yīng)的CNN特征；區(qū)別于前者，RCNN在特征提取階段對(duì)每一個(gè)proposal均需要做一遍前向CNN計(jì)算，考慮到proposal數(shù)量較多（~2000個(gè)），因此RCNN特征提取的時(shí)間成本很高。R-CNN和SPP-Net用于訓(xùn)練SVMs分類器的特征需要提前保存在磁盤，考慮到2000個(gè)proposal的CNN特征總量還是比較大，因此造成空間代價(jià)較高。

3.R-CNN檢測(cè)速度很慢。RCNN在特征提取階段對(duì)每一個(gè)proposal均需要做一遍前向CNN計(jì)算，如果用VGG進(jìn)行特征提取，處理一幅圖像的所有proposal需要47s。

4.特征提取CNN的訓(xùn)練和SVMs分類器的訓(xùn)練在時(shí)間上是先后順序，兩者的訓(xùn)練方式獨(dú)立，因此SVMs的訓(xùn)練Loss無(wú)法更新SPP-Layer之前的卷積層參數(shù)，因此即使采用更深的CNN網(wǎng)絡(luò)進(jìn)行特征提取，也無(wú)法保證SVMs分類器的準(zhǔn)確率一定能夠提升。

Fast-R-CNN亮點(diǎn)：

1.Fast-R-CNN檢測(cè)效果優(yōu)于R-CNN和SPP-Net

2.訓(xùn)練方式簡(jiǎn)單，基于多任務(wù)Loss,不需要SVM訓(xùn)練分類器。

3.Fast-R-CNN可以更新所有層的網(wǎng)絡(luò)參數(shù)（采用ROI Layer將不再需要使用SVM分類器，從而可以實(shí)現(xiàn)整個(gè)網(wǎng)絡(luò)端到端訓(xùn)練）。

4.不需要將特征緩存到磁盤。

Fast-R-CNN架構(gòu)：

Fast-R-CNN的架構(gòu)如下圖所示（https://github.com/rbgirshick/fast-rcnn/blob/master/models/VGG16/train.prototxt，可以參考此鏈接理解網(wǎng)絡(luò)模型）：輸入一幅圖像和Selective Search方法生成的一系列Proposals，通過(guò)一系列卷積層和Pooling層生成feature map,然后用RoI（region of ineterst）層處理最后一個(gè)卷積層得到的feature map為每一個(gè)proposal生成一個(gè)定長(zhǎng)的特征向量roi_pool5。RoI層的輸出roi_pool5接著輸入到全連接層產(chǎn)生最終用于多任務(wù)學(xué)習(xí)的特征并用于計(jì)算多任務(wù)Loss。全連接輸出包括兩個(gè)分支：1.SoftMax Loss:計(jì)算K+1類的分類Loss函數(shù)，其中K表示K個(gè)目標(biāo)類別，1表示背景；2.Regression Loss:即K+1的分類結(jié)果相應(yīng)的Proposal的Bounding Box四個(gè)角點(diǎn)坐標(biāo)值。最終將所有結(jié)果通過(guò)非極大抑制處理產(chǎn)生最終的目標(biāo)檢測(cè)和識(shí)別結(jié)果。

3.1 RoI Pooling Layer

事實(shí)上，RoI Pooling Layer是SPP-Layer的簡(jiǎn)化形式。SPP-Layer是空間金字塔Pooling層，包括不同的尺度；RoI Layer只包含一種尺度，如論文中所述7*7。這樣對(duì)于RoI Layer的輸入（r,c,h,w），RoI Layer首先產(chǎn)生7*7個(gè)r*c*(h/7)*(w/7)的Block(塊)，然后用Max-Pool方式求出每一個(gè)Block的最大值，這樣RoI Layer的輸出是r*c*7*7。

ROIs Pooling顧名思義，是Pooling層的一種，而且是針對(duì)RoIs的Pooling，他的特點(diǎn)是輸入特征圖尺寸不固定，但是輸出特征圖尺寸固定；

什么是ROI呢？
ROI是Region of Interest的簡(jiǎn)寫(xiě)，指的是在“特征圖上的框”；
1）在Fast RCNN中， RoI是指Selective Search完成后得到的“候選框”在特征圖上的映射，如下圖所示；
2）在Faster RCNN中，候選框是經(jīng)過(guò)RPN產(chǎn)生的，然后再把各個(gè)“候選框”映射到特征圖上，得到RoIs。

3.2 預(yù)訓(xùn)練網(wǎng)絡(luò)初始化

RBG復(fù)用了VGG訓(xùn)練ImageNet得到的網(wǎng)絡(luò)模型，即VGG16模型以初始化Fast-R-CNN中RoI Layer以前的所有層。Fast R-CNN的網(wǎng)絡(luò)結(jié)構(gòu)整體可以總結(jié)如下：13個(gè)convolution layers + 4個(gè)pooling layers+RoI layer+2個(gè)fc layer+兩個(gè)parrel層（即SoftmaxLoss layer和SmoothL1Loss layer）。在Fast R-CNN中，原來(lái)VGG16中第5個(gè)pooling layer被新的ROI layer替換掉。

3.3 Finetuning for detection

3.3.1 fast r-cnn在網(wǎng)絡(luò)訓(xùn)練階段采用了一些trick，每個(gè)minibatch是由N幅圖片（N=2）中提取得到的R個(gè)proposal（R=128）組成的。這種minibatch的構(gòu)造方式比從128張不同圖片中提取1個(gè)proposal的構(gòu)造方式快64倍。雖然minibatch的構(gòu)造速度加快，但也在一定程度上造成收斂速度減慢。此外，fast-r-cnn摒棄了之前svm訓(xùn)練分類器的方式，而是選用softmax classifer和bounding-box regressors聯(lián)合訓(xùn)練的方式更新cnn網(wǎng)絡(luò)所有層參數(shù)。注意：在每2張圖中選取128個(gè)proposals時(shí)，需要嚴(yán)格保證至少25%的正樣本類（proposals與groundtruth的IoU超過(guò)0.5），剩下的可全部視作背景類。在訓(xùn)練網(wǎng)絡(luò)模型時(shí)，不需要任何其他形式的數(shù)據(jù)擴(kuò)增操作。

3.3.2 multi-task loss：fast r-cnn包括兩個(gè)同等水平的sub-layer，分別用于classification和regression。其中，softmax loss對(duì)應(yīng)于classification，smoothL1Loss對(duì)應(yīng)于regression. 兩種Loss的權(quán)重比例為1：1

3.3.3 SGD hyer-parameters：用于softmax分類任務(wù)和bounding-box回歸的fc層參數(shù)用標(biāo)準(zhǔn)差介于0.01~0.001之間的高斯分布初始化。

3.4 Truncated SVD快速檢測(cè)

在檢測(cè)段，RBG使用truncated SVD優(yōu)化較大的FC層，這樣RoI數(shù)目較大時(shí)檢測(cè)端速度會(huì)得到的加速。

Fast-R-CNN實(shí)驗(yàn)結(jié)論：

1.multi-task loss訓(xùn)練方式能提高算法準(zhǔn)確度

2.multi-scale圖像訓(xùn)練fast r-cnn相比較single-scale圖像訓(xùn)練相比對(duì)mAP的提升幅度很小，但是卻增加了很高的時(shí)間成本。因此，綜合考慮訓(xùn)練時(shí)間和mAP，作者建議直接用single尺度的圖像訓(xùn)練fast-r-cnn。

3.用于訓(xùn)練的圖像越多，訓(xùn)練得到的模型準(zhǔn)確率也會(huì)越高。

4.SoftmaxLoss訓(xùn)練方式比SVMs訓(xùn)練得到的結(jié)果略好一點(diǎn)，因此無(wú)法證明SoftmaxLoss在效果上一定比svm強(qiáng)，但是簡(jiǎn)化了訓(xùn)練流程，無(wú)需分步驟訓(xùn)練模型。

5.proposal并不是提取的越多效果越好，太多proposal反而導(dǎo)致mAP下降。

四. Faster-R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

在之前介紹的Fast-R-CNN中，第一步需要先使用Selective Search方法提取圖像中的proposals?；?a target="_blank">CPU實(shí)現(xiàn)的Selective Search提取一幅圖像的所有Proposals需要約2s的時(shí)間。在不計(jì)入proposal提取情況下，F(xiàn)ast-R-CNN基本可以實(shí)時(shí)進(jìn)行目標(biāo)檢測(cè)。但是，如果從端到端的角度考慮，顯然proposal提取成為影響端到端算法性能的瓶頸。目前最新的EdgeBoxes算法雖然在一定程度提高了候選框提取的準(zhǔn)確率和效率，但是處理一幅圖像仍然需要0.2s。因此，Ren Shaoqing提出新的Faster-R-CNN算法，該算法引入了RPN網(wǎng)絡(luò)（Region Proposal Network）提取proposals。RPN網(wǎng)絡(luò)是一個(gè)全卷積神經(jīng)網(wǎng)絡(luò)，通過(guò)共享卷積層特征可以實(shí)現(xiàn)proposal的提取，RPN提取一幅像的proposal只需要10ms.

Faster-R-CNN算法由兩大模塊組成：1.PRN候選框提取模塊 2.Fast R-CNN檢測(cè)模塊。其中，RPN是全卷積神經(jīng)網(wǎng)絡(luò)，用于提取候選框；Fast R-CNN基于RPN提取的proposal檢測(cè)并識(shí)別proposal中的目標(biāo)。

4.1 Region Proposal Network (RPN)

RPN網(wǎng)絡(luò)的輸入可以是任意大?。ǖ€是有最小分辨率要求的，例如VGG是228*228）的圖片。如果用VGG16進(jìn)行特征提取，那么RPN網(wǎng)絡(luò)的組成形式可以表示為VGG16+RPN。

VGG16：參考https://github.com/rbgirshick/py-faster-rcnn/blob/master/models/pascal_voc/VGG16/faster_rcnn_end2end/train.prototxt，可以看出VGG16中用于特征提取的部分是13個(gè)卷積層（conv1_1---->conv5.3），不包括pool5及pool5后的網(wǎng)絡(luò)層次結(jié)構(gòu)。

RPN：RPN是作者重點(diǎn)介紹的一種網(wǎng)絡(luò)，如下圖所示。RPN的實(shí)現(xiàn)方式：在conv5-3的卷積feature map上用一個(gè)n*n的滑窗（論文中作者選用了n=3，即3*3的滑窗）生成一個(gè)長(zhǎng)度為256（對(duì)應(yīng)于ZF網(wǎng)絡(luò)）或512（對(duì)應(yīng)于VGG網(wǎng)絡(luò)）維長(zhǎng)度的全連接特征。然后在這個(gè)256維或512維的特征后產(chǎn)生兩個(gè)分支的全連接層：1.reg-layer,用于預(yù)測(cè)proposal的中心錨點(diǎn)對(duì)應(yīng)的proposal的坐標(biāo)x，y和寬高w，h；2.cls-layer，用于判定該proposal是前景還是背景。sliding window的處理方式保證reg-layer和cls-layer關(guān)聯(lián)了conv5-3的全部特征空間。事實(shí)上，作者用全連接層實(shí)現(xiàn)方式介紹RPN層實(shí)現(xiàn)容易幫助我們理解這一過(guò)程，但在實(shí)現(xiàn)時(shí)作者選用了卷積層實(shí)現(xiàn)全連接層的功能。個(gè)人理解：全連接層本來(lái)就是特殊的卷積層，如果產(chǎn)生256或512維的fc特征，事實(shí)上可以用Num_out=256或512, kernel_size=3*3, stride=1的卷積層實(shí)現(xiàn)conv5-3到第一個(gè)全連接特征的映射。然后再用兩個(gè)Num_out分別為2*9=18和4*9=36，kernel_size=1*1，stride=1的卷積層實(shí)現(xiàn)上一層特征到兩個(gè)分支cls層和reg層的特征映射。注意：這里2*9中的2指cls層的分類結(jié)果包括前后背景兩類，4*9的4表示一個(gè)Proposal的中心點(diǎn)坐標(biāo)x，y和寬高w，h四個(gè)參數(shù)。采用卷積的方式實(shí)現(xiàn)全連接處理并不會(huì)減少參數(shù)的數(shù)量，但是使得輸入圖像的尺寸可以更加靈活。在RPN網(wǎng)絡(luò)中，我們需要重點(diǎn)理解其中的anchors概念，Loss fucntions計(jì)算方式和RPN層訓(xùn)練數(shù)據(jù)生成的具體細(xì)節(jié)。

Anchors:字面上可以理解為錨點(diǎn)，位于之前提到的n*n的sliding window的中心處。對(duì)于一個(gè)sliding window,我們可以同時(shí)預(yù)測(cè)多個(gè)proposal，假定有k個(gè)。k個(gè)proposal即k個(gè)reference boxes，每一個(gè)reference box又可以用一個(gè)scale，一個(gè)aspect_ratio和sliding window中的錨點(diǎn)唯一確定。所以，我們?cè)诤竺嬲f(shuō)一個(gè)anchor,你就理解成一個(gè)anchor box 或一個(gè)reference box.作者在論文中定義k=9，即3種scales和3種aspect_ratio確定出當(dāng)前sliding window位置處對(duì)應(yīng)的9個(gè)reference boxes， 4*k個(gè)reg-layer的輸出和2*k個(gè)cls-layer的score輸出。對(duì)于一幅W*H的feature map,對(duì)應(yīng)W*H*k個(gè)錨點(diǎn)。所有的錨點(diǎn)都具有尺度不變性。

Loss functions:在計(jì)算Loss值之前，作者設(shè)置了anchors的標(biāo)定方法。正樣本標(biāo)定規(guī)則：1.如果Anchor對(duì)應(yīng)的reference box與ground truth的IoU值最大，標(biāo)記為正樣本；2.如果Anchor對(duì)應(yīng)的reference box與ground truth的IoU>0.7，標(biāo)記為正樣本。事實(shí)上，采用第2個(gè)規(guī)則基本上可以找到足夠的正樣本，但是對(duì)于一些極端情況，例如所有的Anchor對(duì)應(yīng)的reference box與groud truth的IoU不大于0.7,可以采用第一種規(guī)則生成。負(fù)樣本標(biāo)定規(guī)則：如果Anchor對(duì)應(yīng)的reference box與ground truth的IoU<0.3，標(biāo)記為負(fù)樣本。剩下的既不是正樣本也不是負(fù)樣本，不用于最終訓(xùn)練。訓(xùn)練RPN的Loss是有classification loss （即softmax loss）和regression loss （即L1 loss）按一定比重組成的。計(jì)算softmax loss需要的是anchors對(duì)應(yīng)的groundtruth標(biāo)定結(jié)果和預(yù)測(cè)結(jié)果，計(jì)算regression loss需要三組信息：1.預(yù)測(cè)框，即RPN網(wǎng)絡(luò)預(yù)測(cè)出的proposal的中心位置坐標(biāo)x,y和寬高w,h；2.錨點(diǎn)reference box:之前的9個(gè)錨點(diǎn)對(duì)應(yīng)9個(gè)不同scale和aspect_ratio的reference boxes，每一個(gè)reference boxes都有一個(gè)中心點(diǎn)位置坐標(biāo)x_a,y_a和寬高w_a,h_a。3.ground truth:標(biāo)定的框也對(duì)應(yīng)一個(gè)中心點(diǎn)位置坐標(biāo)x*,y*和寬高w*,h*。因此計(jì)算regression loss和總Loss方式如下：

RPN訓(xùn)練設(shè)置：在訓(xùn)練RPN時(shí)，一個(gè)Mini-batch是由一幅圖像中任意選取的256個(gè)proposal組成的，其中正負(fù)樣本的比例為1：1。如果正樣本不足128，則多用一些負(fù)樣本以滿足有256個(gè)Proposal可以用于訓(xùn)練，反之亦然。訓(xùn)練RPN時(shí)，與VGG共有的層參數(shù)可以直接拷貝經(jīng)ImageNet訓(xùn)練得到的模型中的參數(shù)；剩下沒(méi)有的層參數(shù)用標(biāo)準(zhǔn)差=0.01的高斯分布初始化。

4.2 RPN與Faster-R-CNN特征共享

RPN在提取得到proposals后，作者選擇使用Fast-R-CNN實(shí)現(xiàn)最終目標(biāo)的檢測(cè)和識(shí)別。RPN和Fast-R-CNN共用了13個(gè)VGG的卷積層，顯然將這兩個(gè)網(wǎng)絡(luò)完全孤立訓(xùn)練不是明智的選擇，作者采用交替訓(xùn)練階段卷積層特征共享：

交替訓(xùn)練（Alternating training）: Step1:訓(xùn)練RPN;Step2:用RPN提取得到的proposal訓(xùn)練Fast R-CNN;Step3:用Faster R-CNN初始化RPN網(wǎng)絡(luò)中共用的卷積層。迭代執(zhí)行Step1,2,3，直到訓(xùn)練結(jié)束為止。論文中采用的就是這種訓(xùn)練方式，注意：第一次迭代時(shí)，用ImageNet得到的模型初始化RPN和Fast-R-CNN中卷積層的參數(shù)；從第二次迭代開(kāi)始，訓(xùn)練RPN時(shí)，用Fast-R-CNN的共享卷積層參數(shù)初始化RPN中的共享卷積層參數(shù)，然后只Fine-tune不共享的卷積層和其他層的相應(yīng)參數(shù)。訓(xùn)練Fast-RCNN時(shí)，保持其與RPN共享的卷積層參數(shù)不變，只Fine-tune不共享的層對(duì)應(yīng)的參數(shù)。這樣就可以實(shí)現(xiàn)兩個(gè)網(wǎng)絡(luò)卷積層特征共享訓(xùn)練。相應(yīng)的網(wǎng)絡(luò)模型請(qǐng)參考https://github.com/rbgirshick/py-faster-rcnn/tree/master/models/pascal_voc/VGG16/faster_rcnn_alt_opt

4.3 深度挖掘

1.由于Selective Search提取得到的Proposal尺度不一，因此Fast-RCNN或SPP-Net生成的RoI也是尺度不一，最后分別用RoI Pooling Layer或SPP-Layer處理得到固定尺寸金字塔特征，在這一過(guò)程中，回歸最終proposal的坐標(biāo)網(wǎng)絡(luò)的權(quán)重事實(shí)上共享了整個(gè)FeatureMap，因此其訓(xùn)練的網(wǎng)絡(luò)精度也會(huì)更高。但是，RPN方式提取的ROI由k個(gè)錨點(diǎn)生成，具有k種不同分辨率，因此在訓(xùn)練過(guò)程中學(xué)習(xí)到了k種獨(dú)立的回歸方式。這種方式并沒(méi)有共享整個(gè)FeatureMap，但其訓(xùn)練得到的網(wǎng)絡(luò)精度也很高。這，我竟然無(wú)言以對(duì)。有什么問(wèn)題，請(qǐng)找Anchors同學(xué)。

2.采用不同分辨率圖像在一定程度可以提高準(zhǔn)確率，但是也會(huì)導(dǎo)致訓(xùn)練速度下降。采用VGG16訓(xùn)練RPN雖然使得第13個(gè)卷積層特征尺寸至少縮小到原圖尺寸的1/16（事實(shí)上，考慮到kernel_size作用，會(huì)更小一些），然并卵，最終的檢測(cè)和識(shí)別效果仍然好到令我無(wú)言以對(duì)。

3.三種scale(128*128，256*256，512*512),三種寬高比（1：2，1：1，2：1）,雖然scale區(qū)間很大，總感覺(jué)這樣會(huì)很奇怪，但最終結(jié)果依然表現(xiàn)的很出色。

4.訓(xùn)練時(shí)（例如600*1000的輸入圖像），如果reference box （即anchor box）的邊界超過(guò)了圖像邊界，這樣的anchors對(duì)訓(xùn)練Loss不產(chǎn)生影響，即忽略掉這樣的Loss.一幅600*1000的圖經(jīng)過(guò)VGG16大約為40*60，那么anchors的數(shù)量大約為40*60*9，約等于20000個(gè)anchor boxes.去除掉與圖像邊界相交的anchor boxes后，剩下約6000個(gè)anchor boxes,這么多數(shù)量的anchor boxes之間會(huì)有很多重疊區(qū)域，因此使用非極值抑制方法將IoU>0.7的區(qū)域全部合并，剩下2000個(gè)anchor boxes（同理，在最終檢測(cè)端，可以設(shè)置規(guī)則將概率大于某閾值P且IoU大于某閾值T的預(yù)測(cè)框（注意，和前面不同，不是anchor boxes）采用非極大抑制方法合并）。在每一個(gè)epoch訓(xùn)練過(guò)程中，隨機(jī)從一幅圖最終剩余的這些anchors采樣256個(gè)anchor box作為一個(gè)Mini-batch訓(xùn)練RPN網(wǎng)絡(luò)。

4.3 實(shí)驗(yàn)

1.PASCAL VOC 2007：使用ZF-Net訓(xùn)練RPN和Fast-R-CNN,那么SelectiveSearch+Fast-R-CNN, EdgeBox+Fast-R-CNN, RPN+Fast-R-CNN的準(zhǔn)確率分別為：58.7%，58.6%，59.9%.SeletiveSeach和EdgeBox方法提取2000個(gè)proposal，RPN最多提取300個(gè)proposal,因此卷積特征共享方式提取特征的RPN顯然在效率是更具有優(yōu)勢(shì)。

2.采用VGG以特征不共享方式和特征共享方式訓(xùn)練RPN+Fast-R-CNN,可以分別得到68.5%和69.9%的準(zhǔn)確率（VOC2007）。此外，采用VGG訓(xùn)練RCNN時(shí)，需要花320ms提取2000個(gè)proposal，加入SVD優(yōu)化后需要223ms，而Faster-RCNN整個(gè)前向過(guò)程（包括RPN+Fast-R-CNN）總共只要198ms.

3.Anchors的scales和aspect_ratio的數(shù)量雖然不會(huì)對(duì)結(jié)果產(chǎn)生明顯影響，但是為了算法穩(wěn)定性，建議兩個(gè)參數(shù)都設(shè)置為合適的數(shù)值。

4.當(dāng)Selective Search和EdgeBox提取的proposal數(shù)目由2000減少到300時(shí)，F(xiàn)aste-R-CNN的Recallvs. IoU overlap ratio圖中recall值會(huì)明顯下降；但RPN提取的proposal數(shù)目由2000減少到300時(shí)，Recallvs. IoU overlap ratio圖中recall值會(huì)比較穩(wěn)定。

4.4 總結(jié)

特征共享方式訓(xùn)練RPN+Fast-R-CNN能夠?qū)崿F(xiàn)極佳的檢測(cè)效果，特征共享訓(xùn)練實(shí)現(xiàn)了買一送一，RPN在提取Proposal時(shí)不僅沒(méi)有時(shí)間成本，還提高了proposal質(zhì)量。因此Faster-R-CNN中交替訓(xùn)練RPN+Fast-R-CNN方式比原來(lái)的SlectiveSeach+Fast-R-CNN更上一層樓。

5.YOLO: You Only Look Once：Unified, Real-Time Object Detection

YOLO是一個(gè)可以一次性預(yù)測(cè)多個(gè)Box位置和類別的卷積神經(jīng)網(wǎng)絡(luò)，能夠?qū)崿F(xiàn)端到端的目標(biāo)檢測(cè)和識(shí)別，其最大的優(yōu)勢(shì)就是速度快。事實(shí)上，目標(biāo)檢測(cè)的本質(zhì)就是回歸，因此一個(gè)實(shí)現(xiàn)回歸功能的CNN并不需要復(fù)雜的設(shè)計(jì)過(guò)程。YOLO沒(méi)有選擇滑窗或提取proposal的方式訓(xùn)練網(wǎng)絡(luò)，而是直接選用整圖訓(xùn)練模型。這樣做的好處在于可以更好的區(qū)分目標(biāo)和背景區(qū)域，相比之下，采用proposal訓(xùn)練方式的Fast-R-CNN常常把背景區(qū)域誤檢為特定目標(biāo)。當(dāng)然,YOLO在提升檢測(cè)速度的同時(shí)犧牲了一些精度。下圖所示是YOLO檢測(cè)系統(tǒng)流程：1.將圖像Resize到448*448；2.運(yùn)行CNN；3.非極大抑制優(yōu)化檢測(cè)結(jié)果。有興趣的童鞋可以按照http://pjreddie.com/darknet/install/的說(shuō)明安裝測(cè)試一下YOLO的scoring流程，非常容易上手。接下來(lái)將重點(diǎn)介紹YOLO的原理。

5.1 一體化檢測(cè)方案

YOLO的設(shè)計(jì)理念遵循端到端訓(xùn)練和實(shí)時(shí)檢測(cè)。YOLO將輸入圖像劃分為S*S個(gè)網(wǎng)絡(luò)，如果一個(gè)物體的中心落在某網(wǎng)格(cell)內(nèi)，則相應(yīng)網(wǎng)格負(fù)責(zé)檢測(cè)該物體。在訓(xùn)練和測(cè)試時(shí)，每個(gè)網(wǎng)絡(luò)預(yù)測(cè)B個(gè)bounding boxes，每個(gè)bounding box對(duì)應(yīng)5個(gè)預(yù)測(cè)參數(shù)，即bounding box的中心點(diǎn)坐標(biāo)(x,y)，寬高（w,h），和置信度評(píng)分。這里的置信度評(píng)分(Pr(Object)*IOU(pred|truth))綜合反映基于當(dāng)前模型bounding box內(nèi)存在目標(biāo)的可能性Pr(Object)和bounding box預(yù)測(cè)目標(biāo)位置的準(zhǔn)確性IOU(pred|truth)。如果bouding box內(nèi)不存在物體，則Pr(Object)=0。如果存在物體，則根據(jù)預(yù)測(cè)的bounding box和真實(shí)的bounding box計(jì)算IOU，同時(shí)會(huì)預(yù)測(cè)存在物體的情況下該物體屬于某一類的后驗(yàn)概率Pr(Class_i|Object)。假定一共有C類物體，那么每一個(gè)網(wǎng)格只預(yù)測(cè)一次C類物體的條件類概率Pr(Class_i|Object), i=1,2,...,C;每一個(gè)網(wǎng)格預(yù)測(cè)B個(gè)bounding box的位置。即這B個(gè)bounding box共享一套條件類概率Pr(Class_i|Object), i=1,2,...,C?；谟?jì)算得到的Pr(Class_i|Object)，在測(cè)試時(shí)可以計(jì)算某個(gè)bounding box類相關(guān)置信度：Pr(Class_i|Object)*Pr(Object)*IOU(pred|truth)=Pr(Class_i)*IOU(pred|truth)。如果將輸入圖像劃分為7*7網(wǎng)格（S=7），每個(gè)網(wǎng)格預(yù)測(cè)2個(gè)bounding box (B=2)，有20類待檢測(cè)的目標(biāo)（C=20），則相當(dāng)于最終預(yù)測(cè)一個(gè)長(zhǎng)度為S*S*(B*5+C)=7*7*30的向量，從而完成檢測(cè)+識(shí)別任務(wù)，整個(gè)流程可以通過(guò)下圖理解。

5.1.1 網(wǎng)絡(luò)設(shè)計(jì)

YOLO網(wǎng)絡(luò)設(shè)計(jì)遵循了GoogleNet的思想，但與之有所區(qū)別。YOLO使用了24個(gè)級(jí)聯(lián)的卷積（conv）層和2個(gè)全連接（fc）層，其中conv層包括3*3和1*1兩種Kernel，最后一個(gè)fc層即YOLO網(wǎng)絡(luò)的輸出，長(zhǎng)度為S*S*(B*5+C)=7*7*30.此外，作者還設(shè)計(jì)了一個(gè)簡(jiǎn)化版的YOLO-small網(wǎng)絡(luò)，包括9個(gè)級(jí)聯(lián)的conv層和2個(gè)fc層，由于conv層的數(shù)量少了很多，因此YOLO-small速度比YOLO快很多。如下圖所示我們給出了YOLO網(wǎng)絡(luò)的架構(gòu)。

5.1.2 訓(xùn)練

作者訓(xùn)練YOLO網(wǎng)絡(luò)是分步驟進(jìn)行的：首先，作者從上圖網(wǎng)絡(luò)中取出前20個(gè)conv層，然后自己添加了一個(gè)average pooling層和一個(gè)fc層，用1000類的ImageNet數(shù)據(jù)與訓(xùn)練。在ImageNet2012上用224*224d的圖像訓(xùn)練后得到的top5準(zhǔn)確率是88%。然后，作者在20個(gè)預(yù)訓(xùn)練好的conv層后添加了4個(gè)新的conv層和2個(gè)fc層，并采用隨即參數(shù)初始化這些新添加的層，在fine-tune新層時(shí)，作者選用448*448圖像訓(xùn)練。最后一個(gè)fc層可以預(yù)測(cè)物體屬于不同類的概率和bounding box中心點(diǎn)坐標(biāo)x,y和寬高w,h。Boundingbox的寬高是相對(duì)于圖像寬高歸一化后得到的，Bounding box的中心位置坐標(biāo)是相對(duì)于某一個(gè)網(wǎng)格的位置坐標(biāo)進(jìn)行過(guò)歸一化，因此x,y,w,h均介于0到1之間。

在設(shè)計(jì)Loss函數(shù)時(shí)，有兩個(gè)主要的問(wèn)題：1.對(duì)于最后一層長(zhǎng)度為7*7*30長(zhǎng)度預(yù)測(cè)結(jié)果，計(jì)算預(yù)測(cè)loss通常會(huì)選用平方和誤差。然而這種Loss函數(shù)的位置誤差和分類誤差是1：1的關(guān)系。2.整個(gè)圖有7*7個(gè)網(wǎng)格，大多數(shù)網(wǎng)格實(shí)際不包含物體（當(dāng)物體的中心位于網(wǎng)格內(nèi)才算包含物體），如果只計(jì)算Pr(Class_i),很多網(wǎng)格的分類概率為0，網(wǎng)格loss呈現(xiàn)出稀疏矩陣的特性，使得Loss收斂效果變差，模型不穩(wěn)定。為了解決上述問(wèn)題，作者采用了一系列方案：

1.增加bounding box坐標(biāo)預(yù)測(cè)的loss權(quán)重，降低bounding box分類的loss權(quán)重。坐標(biāo)預(yù)測(cè)和分類預(yù)測(cè)的權(quán)重分別是λcoord=5,λnoobj=0.5.

2.平方和誤差對(duì)于大和小的bounding box的權(quán)重是相同的，作者為了降低不同大小bounding box寬高預(yù)測(cè)的方差，采用了平方根形式計(jì)算寬高預(yù)測(cè)loss，即sqrt(w)和sqrt(h)。

訓(xùn)練Loss組成形式較為復(fù)雜，這里不作列舉，如有興趣可以參考作者原文慢慢理解體會(huì)。

5.1.3 測(cè)試

作者選用PASAL VOC圖像測(cè)試訓(xùn)練得到的YOLO網(wǎng)絡(luò)，每幅圖會(huì)預(yù)測(cè)得到98個(gè)（7*7*2）個(gè)bouding box及相應(yīng)的類概率。通常一個(gè)cell可以直接預(yù)測(cè)出一個(gè)物體對(duì)應(yīng)的bounding box,但是對(duì)于某些尺寸較大或靠近圖像邊界的物體，需要多個(gè)網(wǎng)格預(yù)測(cè)的結(jié)果通過(guò)非極大抑制處理生成。雖然YOLO對(duì)于非極大抑制的依賴不及R-CNN和DPM，但非極大抑制確實(shí)可以將mAP提高2到3個(gè)點(diǎn)。

5.2 方法對(duì)比

作者將YOLO目標(biāo)檢測(cè)與識(shí)別方法與其他幾種經(jīng)典方案進(jìn)行比較可知：

DPM(Deformable parts models):DPM是一種基于滑窗方式的目標(biāo)檢測(cè)方法，基本流程包括幾個(gè)獨(dú)立的環(huán)節(jié)：特征提取，區(qū)域劃分，基于高分值區(qū)域預(yù)測(cè)bounding box。YOLO采用端到端的訓(xùn)練方式，將特征提取、候選框預(yù)測(cè)，非極大抑制及目標(biāo)識(shí)別連接在一起，實(shí)現(xiàn)了更快更準(zhǔn)的檢測(cè)模型。

R-CNN：R-CNN方案分需要先用SeletiveSearch方法提取proposal,然后用CNN進(jìn)行特征提取，最后用SVM訓(xùn)練分類器。如此方案，誠(chéng)繁瑣也！YOLO精髓思想與其類似，但是通過(guò)共享卷積特征的方式提取proposal和目標(biāo)識(shí)別。另外，YOLO用網(wǎng)格對(duì)proposal進(jìn)行空間約束，避免在一些區(qū)域重復(fù)提取Proposal，相較于SeletiveSearch提取2000個(gè)proposal進(jìn)行R-CNN訓(xùn)練，YOLO只需要提取98個(gè)proposal，這樣訓(xùn)練和測(cè)試速度怎能不快？

Fast-R-CNN、Faster-R-CNN、Fast-DPM: Fast-R-CNN和Faster-R-CNN分別替換了SVMs訓(xùn)練和SelectiveSeach提取proposal的方式，在一定程度上加速了訓(xùn)練和測(cè)試速度，但其速度依然無(wú)法和YOLO相比。同理，將DPM優(yōu)化在GPU上實(shí)現(xiàn)也無(wú)出YOLO之右。

5.3 實(shí)驗(yàn)

5.3.1 實(shí)時(shí)檢測(cè)識(shí)別系統(tǒng)對(duì)比

5.3.2 VOC2007準(zhǔn)確率比較

5.3.3 Fast-R-CNN和YOLO錯(cuò)誤分析

如圖所示，不同區(qū)域分別表示不同的指標(biāo)：

Correct：正確檢測(cè)和識(shí)別的比例，即分類正確且IOU>0.5

Localization:分類正確，但0.1

Similar:類別相似，IOU>0.1

Other:分類錯(cuò)誤，IOU>0.1

Background: 對(duì)于任何目標(biāo)IOU<0.1

可以看出，YOLO在定位目標(biāo)位置時(shí)準(zhǔn)確度不及Fast-R-CNN。YOLO的error中，目標(biāo)定位錯(cuò)誤占據(jù)的比例最大，比Fast-R-CNN高出了10個(gè)點(diǎn)。但是，YOLO在定位識(shí)別背景時(shí)準(zhǔn)確率更高，可以看出Fast-R-CNN假陽(yáng)性很高（Background=13.6%，即認(rèn)為某個(gè)框是目標(biāo)，但是實(shí)際里面不含任何物體）。

5.3.4 VOC2012準(zhǔn)確率比較

由于YOLO在目標(biāo)檢測(cè)和識(shí)別是處理背景部分優(yōu)勢(shì)更明顯，因此作者設(shè)計(jì)了Fast-R-CNN+YOLO檢測(cè)識(shí)別模式，即先用R-CNN提取得到一組bounding box，然后用YOLO處理圖像也得到一組bounding box。對(duì)比這兩組bounding box是否基本一致，如果一致就用YOLO計(jì)算得到的概率對(duì)目標(biāo)分類，最終的bouding box的區(qū)域選取二者的相交區(qū)域。Fast-R-CNN的最高準(zhǔn)確率可以達(dá)到71.8%,采用Fast-R-CNN+YOLO可以將準(zhǔn)確率提升至75.0%。這種準(zhǔn)確率的提升是基于YOLO在測(cè)試端出錯(cuò)的情況不同于Fast-R-CNN。雖然Fast-R-CNN_YOLO提升了準(zhǔn)確率，但是相應(yīng)的檢測(cè)識(shí)別速度大大降低，因此導(dǎo)致其無(wú)法實(shí)時(shí)檢測(cè)。

使用VOC2012測(cè)試不同算法的mean Average Precision，YOLO的mAP=57.9%，該數(shù)值與基于VGG16的RCNN檢測(cè)算法準(zhǔn)確率相當(dāng)。對(duì)于不同大小圖像的測(cè)試效果進(jìn)行研究，作者發(fā)現(xiàn)：YOLO在檢測(cè)小目標(biāo)時(shí)準(zhǔn)確率比R-CNN低大約8~10%，在檢測(cè)大目標(biāo)是準(zhǔn)確率高于R-CNN。采用Fast-R-CNN+YOLO的方式準(zhǔn)確率最高，比Fast-R-CNN的準(zhǔn)確率高了2.3%。

5.4 總結(jié)

YOLO是一種支持端到端訓(xùn)練和測(cè)試的卷積神經(jīng)網(wǎng)絡(luò)，在保證一定準(zhǔn)確率的前提下能圖像中多目標(biāo)的檢測(cè)與識(shí)別。

作者為博客園博主賞月齋

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

深度圖像

深度圖像

+關(guān)注

關(guān)注
0

文章
19

瀏覽量
3515
卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
4

文章
367

瀏覽量
11885

原文標(biāo)題：深度圖像檢測(cè)算法總結(jié)與對(duì)比

文章出處：【微信號(hào)：vision263com，微信公眾號(hào)：新機(jī)器視覺(jué)】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

開(kāi)源項(xiàng)目！利用邊緣計(jì)算打造便攜式視覺(jué)識(shí)別系統(tǒng)

圖像和視頻流到實(shí)時(shí)識(shí)別物體或事件，這項(xiàng)技術(shù)在安防、交通、自動(dòng)化以及醫(yī)療保健等領(lǐng)域都有著強(qiáng)大影響力。自動(dòng)化檢測(cè)、智能監(jiān)控以及自動(dòng)駕駛車輛不過(guò)是冰山一角，對(duì)強(qiáng)大的視覺(jué)

發(fā)表于 12-16 16:31

RFID識(shí)別系統(tǒng)

隨著信息技術(shù)的快速發(fā)展，RFID（射頻識(shí)別）技術(shù)在各行各業(yè)的應(yīng)用日益廣泛，其中RFID識(shí)別系統(tǒng)作為核心應(yīng)用，已經(jīng)成為智能化管理不可或缺的基石。通過(guò)無(wú)線射頻信號(hào)的非接觸式識(shí)別與數(shù)據(jù)傳輸，RFID

發(fā)表于 12-06 17:57 ?300次閱讀

深度識(shí)別算法包括哪些內(nèi)容

：CNN是深度學(xué)習(xí)中處理圖像和視頻等具有網(wǎng)格結(jié)構(gòu)數(shù)據(jù)的主要算法。它通過(guò)卷積層、池化層和全連接層等組件，實(shí)現(xiàn)對(duì)圖像特征的自動(dòng)提取和識(shí)別。應(yīng)用領(lǐng)域：CNN在

發(fā)表于 09-10 15:28 ?429次閱讀

基于FPGA的指紋識(shí)別系統(tǒng)設(shè)計(jì)

隨著人們對(duì)安全問(wèn)題的日益重視，指紋識(shí)別作為一種高效、可靠的生物識(shí)別技術(shù)，在多個(gè)領(lǐng)域得到了廣泛應(yīng)用。本文設(shè)計(jì)并實(shí)現(xiàn)了一種基于FPGA的嵌入式指紋識(shí)別系統(tǒng)，該系統(tǒng)利用FPGA的高集成度、低

發(fā)表于 07-17 16:33 ?1432次閱讀

圖像檢測(cè)和圖像識(shí)別的原理、方法及應(yīng)用場(chǎng)景

圖像檢測(cè)和圖像識(shí)別是計(jì)算機(jī)視覺(jué)領(lǐng)域的兩個(gè)重要概念，它們?cè)谠S多應(yīng)用場(chǎng)景中發(fā)揮著關(guān)鍵作用。 1. 定義 1.1 圖像檢測(cè)

發(fā)表于 07-16 11:19 ?4676次閱讀

圖像識(shí)別算法都有哪些方法

傳統(tǒng)方法和基于深度學(xué)習(xí)的方法。傳統(tǒng)圖像識(shí)別算法 1.1 邊緣檢測(cè) 邊緣檢測(cè)是圖像識(shí)別的基礎(chǔ)，它用于檢測(cè)

發(fā)表于 07-16 11:14 ?5820次閱讀

多目標(biāo)智能識(shí)別系統(tǒng)

。以下是關(guān)于多目標(biāo)智能識(shí)別系統(tǒng)的詳細(xì)解析：智慧華盛恒輝系統(tǒng)原理多目標(biāo)智能識(shí)別系統(tǒng)的核心原理基于圖像處理、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等技術(shù)。

發(fā)表于 07-16 10:42 ?1.4w次閱讀

基于OpenCV的人臉識(shí)別系統(tǒng)設(shè)計(jì)

基于OpenCV的人臉識(shí)別系統(tǒng)是一個(gè)復(fù)雜但功能強(qiáng)大的系統(tǒng)，廣泛應(yīng)用于安全監(jiān)控、人機(jī)交互、智能家居等多個(gè)領(lǐng)域。下面將詳細(xì)介紹基于OpenCV的人臉識(shí)別系統(tǒng)的基本原理、實(shí)現(xiàn)步驟，并附上具體的代碼示例。

發(fā)表于 07-11 15:37 ?1.3w次閱讀

圖像檢測(cè)與識(shí)別技術(shù)的關(guān)系

圖像檢測(cè)與識(shí)別技術(shù)是計(jì)算機(jī)視覺(jué)領(lǐng)域的兩個(gè)重要分支，它們?cè)谠S多應(yīng)用場(chǎng)景中發(fā)揮著關(guān)鍵作用。本文將介紹圖像檢測(cè)與

發(fā)表于 07-03 14:43 ?691次閱讀

圖像檢測(cè)和圖像識(shí)別的區(qū)別是什么

圖像檢測(cè)和圖像識(shí)別是計(jì)算機(jī)視覺(jué)領(lǐng)域的兩個(gè)重要研究方向，它們?cè)谠S多應(yīng)用場(chǎng)景中都有著廣泛的應(yīng)用。盡管它們?cè)谀承┓矫嬗邢嗨浦?，但它們之間還是存在一些明顯的區(qū)別。本文將從多個(gè)角度對(duì)圖像

發(fā)表于 07-03 14:41 ?1115次閱讀

基于GIS的SAR多目標(biāo)智能識(shí)別系統(tǒng)

智慧華盛恒輝基于GIS的SAR多目標(biāo)智能識(shí)別系統(tǒng)是一個(gè)集成了合成孔徑雷達(dá)(SAR)和地理信息系統(tǒng)(GIS)技術(shù)的先進(jìn)系統(tǒng)，旨在實(shí)現(xiàn)高分辨率雷達(dá)圖像中的多目標(biāo)智能

發(fā)表于 06-26 14:26 ?530次閱讀

基于深度學(xué)習(xí)的鳥(niǎo)類聲音識(shí)別系統(tǒng)

的。由于鳥(niǎo)類飛行速度快，難以觀察，而且當(dāng)它們生活在陸地上時(shí)，它們很容易被人類活動(dòng)嚇到，無(wú)法被相機(jī)快速記錄下來(lái)。因此，使用圖像識(shí)別來(lái)實(shí)時(shí)識(shí)別鳥(niǎo)類既困難又昂貴[5]。更重要的是，許多鳥(niǎo)類被隔離在人跡罕至

發(fā)表于 05-30 20:30

基于FPGA的實(shí)時(shí)邊緣檢測(cè)系統(tǒng)設(shè)計(jì)，Sobel圖像邊緣檢測(cè)，F(xiàn)PGA圖像處理

摘要：本文設(shè)計(jì)了一種基于 FPGA 的實(shí)時(shí)邊緣檢測(cè)系統(tǒng) ，使用OV5640 攝像頭模塊獲取實(shí)時(shí)的視頻圖像數(shù)據(jù)，提取

發(fā)表于 05-24 07:45

在全志V853平臺(tái)上成功部署深度學(xué)習(xí)步態(tài)識(shí)別算法

偽裝等優(yōu)點(diǎn)。本文所設(shè)計(jì)的步態(tài)識(shí)別系統(tǒng)，搭建在全志V853開(kāi)發(fā)板上，充分利用板載外設(shè)、CPU與NPU，實(shí)現(xiàn)了嵌入式系統(tǒng)上的實(shí)時(shí)步態(tài)識(shí)別系統(tǒng)。具體來(lái)說(shuō)，

發(fā)表于 03-04 10:15

圖像識(shí)別技術(shù)原理 圖像識(shí)別技術(shù)的應(yīng)用領(lǐng)域

。圖像識(shí)別技術(shù)已經(jīng)在各個(gè)領(lǐng)域廣泛應(yīng)用，其應(yīng)用領(lǐng)域包括但不限于以下幾個(gè)方面。一、智能安防領(lǐng)域 圖像識(shí)別技術(shù)在智能安防領(lǐng)域得到了廣泛的應(yīng)用。通過(guò)對(duì)監(jiān)控?cái)z像頭中的圖像進(jìn)行實(shí)時(shí)分析和處理，可

發(fā)表于 02-02 11:01 ?2625次閱讀

搜索歷史

深度圖像實(shí)時(shí)檢測(cè)識(shí)別系統(tǒng)對(duì)比

評(píng)論

開(kāi)源項(xiàng)目！利用邊緣計(jì)算打造便攜式視覺(jué)識(shí)別系統(tǒng)

RFID識(shí)別系統(tǒng)

深度識(shí)別算法包括哪些內(nèi)容

基于FPGA的指紋識(shí)別系統(tǒng)設(shè)計(jì)

圖像檢測(cè)和圖像識(shí)別的原理、方法及應(yīng)用場(chǎng)景

圖像識(shí)別算法都有哪些方法

多目標(biāo)智能識(shí)別系統(tǒng)

基于OpenCV的人臉識(shí)別系統(tǒng)設(shè)計(jì)

圖像檢測(cè)與識(shí)別技術(shù)的關(guān)系

圖像檢測(cè)和圖像識(shí)別的區(qū)別是什么

基于GIS的SAR多目標(biāo)智能識(shí)別系統(tǒng)

基于深度學(xué)習(xí)的鳥(niǎo)類聲音識(shí)別系統(tǒng)

基于FPGA的實(shí)時(shí)邊緣檢測(cè)系統(tǒng)設(shè)計(jì)，Sobel圖像邊緣檢測(cè)，F(xiàn)PGA圖像處理

在全志V853平臺(tái)上成功部署深度學(xué)習(xí)步態(tài)識(shí)別算法

圖像識(shí)別技術(shù)原理圖像識(shí)別技術(shù)的應(yīng)用領(lǐng)域