卷積神經(jīng)網(wǎng)絡(luò)又簡稱卷積網(wǎng)絡(luò),是一種用來處理網(wǎng)格狀結(jié)構(gòu)數(shù)據(jù)的特殊網(wǎng)絡(luò)結(jié)構(gòu)。像時(shí)序數(shù)據(jù)通常被認(rèn)為是一維的數(shù)據(jù)格式,而圖片則被認(rèn)為是二維的數(shù)據(jù)格式,卷積神經(jīng)網(wǎng)絡(luò)在處理這種二維結(jié)構(gòu)的數(shù)據(jù)上取得了巨大的成功。卷積神經(jīng)網(wǎng)絡(luò)的研究是受到1962年對貓的視覺皮層細(xì)胞研究的啟發(fā),然后提出了感受野(Receptive Field)的概念。
1982年,F(xiàn)ukushima在感受野概念的基礎(chǔ)上提出的神經(jīng)認(rèn)知機(jī)(Neocognitron)可以看作是卷積神經(jīng)網(wǎng)絡(luò)的第一個實(shí)現(xiàn)版本。神經(jīng)認(rèn)知機(jī)將一個視覺特征分解為多個子特征,通過層層分解與組合將視覺系統(tǒng)模型化,使其能夠在物體有位移或輕微形變的時(shí)候,也能正確識別。而早在1989年,Y.LeCun等人就提出了一個五層的卷積神經(jīng)網(wǎng)絡(luò)LeNet,完美解決了手寫數(shù)字的識別,算是卷積神經(jīng)網(wǎng)絡(luò)由理論走向?qū)嶋H應(yīng)用的一個開端,但是由于當(dāng)時(shí)訓(xùn)練樣本的匱乏和計(jì)算能力的不足,導(dǎo)致卷積神經(jīng)網(wǎng)絡(luò)并沒有流行起來,反而是支持向量機(jī)等手工設(shè)計(jì)特征的方法在小樣本集上取得了較好的效果成為了主流。沉寂多年后,隨著大數(shù)據(jù)時(shí)代的來臨,卷積神經(jīng)網(wǎng)絡(luò)本身的不斷改進(jìn)(ReLU激活函數(shù)取代Sigmoid函數(shù),Dropout思想的提出),以及以GPU為主的并行計(jì)算的盛行。到了2012年,AlexKrizhevsky等人利用一個八層的卷積神經(jīng)網(wǎng)絡(luò)AlexNet在當(dāng)年的ImageNet圖像分類競賽中取得了冠軍,并遠(yuǎn)超第二名十個百分點(diǎn),讓卷積神經(jīng)網(wǎng)絡(luò)再次回到了人們的視線中。隨后各種改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如雨后春筍般涌現(xiàn)出來,其中比較有代表性的是VGG、GoogleNet和ResNet。
卷積神經(jīng)網(wǎng)絡(luò)包含以下幾個核心部分:
1.局部感知。圖像的空間聯(lián)系中局部的像素聯(lián)系比較緊密,而距離較遠(yuǎn)的像素相關(guān)性則較弱。因此,每個神經(jīng)元其實(shí)只需對局部區(qū)域進(jìn)行感知,而不需要對全局圖像進(jìn)行感知。
全連接和局部連接
2.權(quán)值共享。在上述的局部連接中,每個神經(jīng)元都對應(yīng)25個參數(shù),一共10000 個神經(jīng)元,如果這10000個神經(jīng)元的25個參數(shù)都是相等的,那么參數(shù)數(shù)目就變?yōu)?5了。把這25個參數(shù)對應(yīng)的卷積操作,看成是特征提取的方式,與圖像區(qū)域的位置無關(guān)。卷積神經(jīng)網(wǎng)絡(luò)中相同的卷積核的權(quán)值和偏置值是一樣的。同一種卷積核按照某種順序?qū)D像進(jìn)行卷積操作,卷積后得到的所有神經(jīng)元都是使用同一個卷積核區(qū)卷積圖像的,都是共享連接參數(shù)。因此,權(quán)值共享減少了卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)數(shù)量。
3.卷積,就是利用卷積核對圖像進(jìn)行特征提取。卷積過程就是一個減少參數(shù)數(shù)量的過程。卷積過程最重要的就是卷積核的大小步長設(shè)計(jì)和數(shù)量的選取,個數(shù)越多提取的特征越多,但網(wǎng)絡(luò)的復(fù)雜度也在增加,易出現(xiàn)過擬合問題。卷積核的大小影響網(wǎng)絡(luò)結(jié)構(gòu)的識別能力,步長決定了采取圖像的大小和特征個數(shù)。
卷積示意圖
4.池化。在卷積神經(jīng)網(wǎng)絡(luò)中,池化層一般在卷積層后,通過池化來降低卷積層輸出的特征向量維數(shù)。池化過程最大程度的降低了圖像的分辨率,同時(shí)降低了圖像的處理維度,但又保留了圖像的有效信息,降低了后面卷積層處理復(fù)雜度,大大降低了網(wǎng)絡(luò)對圖像旋轉(zhuǎn)和平移的敏感性。一般采用的池化方法有兩種:平均池化(mean pooling)和最大池化(max pooling)。平均池化是指對圖像目標(biāo)局部區(qū)域的平均值進(jìn)行計(jì)算,將其作為池化后該區(qū)域的值。最大池化則是選取圖像目標(biāo)區(qū)域的最大值作為池化后的值。
池化示意圖
-
圖像
+關(guān)注
關(guān)注
2文章
1088瀏覽量
40515 -
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8900瀏覽量
137591 -
卷積神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
4文章
367瀏覽量
11885
發(fā)布評論請先 登錄
相關(guān)推薦
評論