南洋理工大學(xué)的綜述論文《Recent Advances in Convolutional Neural Networks》對(duì)卷積神經(jīng)網(wǎng)絡(luò)的各個(gè)組件以及進(jìn)展情況進(jìn)行總結(jié)和解讀,其中涉及到 CNN 中各種重要層的數(shù)學(xué)原理以及各種激活函數(shù)和損失函數(shù)。機(jī)器之心技術(shù)分析師對(duì)該論文進(jìn)行了解讀。
引言
近段時(shí)間來(lái),深度 CNN 已經(jīng)在多個(gè)深度學(xué)習(xí)應(yīng)用領(lǐng)域取得了出色的表現(xiàn),并且也有很好的泛化的能力。圖像分類、目標(biāo)檢測(cè)、實(shí)例分割和場(chǎng)景理解等大量任務(wù)都使用 CNN 實(shí)現(xiàn)了當(dāng)前最佳。這篇論文總結(jié)了從最初到現(xiàn)在的 CNN 發(fā)展情況,并給出了以下指示:
解釋卷積層的數(shù)學(xué)原理
解釋池化層的數(shù)學(xué)原理
介紹某些常用的激活函數(shù)
介紹某些常用的損失函數(shù)
簡(jiǎn)要介紹基于 CNN 的應(yīng)用
卷積層的數(shù)學(xué)原理
從數(shù)學(xué)上看,第 l 層的第 k 個(gè)特征圖的位置 (i,j) 處的特征值可以寫成 z_{i,j,k}^l,可這樣計(jì)算:
其中 w_k^l 是第 l 層的權(quán)重,b_k^l 是第 l 層的偏置。x_{i,j}^l 是第 l 層的 (i,j) 位置的輸入圖塊。一個(gè)特征圖的權(quán)重是共享的。CNN 的最大優(yōu)勢(shì)之一就是這種權(quán)重共享機(jī)制,因?yàn)?a target="_blank">參數(shù)更少時(shí),它能顯著降低計(jì)算復(fù)雜度,同時(shí)還能讓訓(xùn)練和優(yōu)化更簡(jiǎn)單。
基于這類基本卷積層的一種最著名的應(yīng)用是用于 USPS 數(shù)字和 MNIST 識(shí)別的 LeNet-5,如下圖所示:
LeNet-5 由三類層構(gòu)成,即卷積層、池化層和全連接層。卷積層的目標(biāo)是學(xué)習(xí)更能代表輸入的特征,池化層則是為了降低空間維度,全連接層則是用于類別預(yù)測(cè)。具體而言,卷積層由多個(gè)卷積核構(gòu)成,這使其能夠得到多個(gè)特征圖,而且特征圖的每個(gè)神經(jīng)元都會(huì)連接到之前一層中的臨近神經(jīng)元區(qū)域,我們將這個(gè)區(qū)域稱為之前一層中神經(jīng)元的感受野(receptive field)。
如上圖所示,首先通過(guò)求輸入與一個(gè)學(xué)習(xí)后的卷積核的卷積,可以得到一個(gè)新的特征圖,然后在卷積得到的結(jié)果上逐元素應(yīng)用非線性激活。在當(dāng)時(shí),MNIST 或 USPS 數(shù)字的分類結(jié)果是很好的,即使現(xiàn)在也仍有很多研究者在使用它們來(lái)進(jìn)行簡(jiǎn)單實(shí)驗(yàn),以解釋說(shuō)明各種各樣的算法。一般而言,任何類型的卷積網(wǎng)絡(luò)都能在這些數(shù)據(jù)集上輕松實(shí)現(xiàn) 97%-98% 的準(zhǔn)確度。
近段時(shí)間來(lái),研究者還為卷積運(yùn)算提出了一些新型的架構(gòu)。其中最著名的一個(gè)是擴(kuò)張卷積(dilated convolution)。擴(kuò)張型 CNN 是 CNN 的一項(xiàng)近期進(jìn)展,為卷積層引入了某些額外的超參數(shù)。通過(guò)在過(guò)濾器之間插入零,可以增大網(wǎng)絡(luò)的感受野,使得網(wǎng)絡(luò)能夠覆蓋更多相關(guān)信息。從數(shù)學(xué)上看,使用擴(kuò)張方法的 1-D 擴(kuò)張卷積可將信號(hào) F 與大小為 r 的卷積核 k 進(jìn)行卷積:(F_{*l} k)_t = sum_t (k_t * F_{t?l * t}),其中 *l 表示 l-擴(kuò)張卷積。通過(guò)這種方式,該公式可以直接擴(kuò)展成 2-D 擴(kuò)張卷積。
上圖展示了三個(gè)擴(kuò)張卷積層,其中擴(kuò)張因子 l 隨每層而指數(shù)增大。中間特征圖 F2 是由底部特征圖 F1 通過(guò)應(yīng)用 1-擴(kuò)張卷積而得到的,其中 F2 中的每個(gè)元素都有一個(gè)大小為 3×3 的感受野。F3 是由 F2 通過(guò)應(yīng)用 2-擴(kuò)張卷積而得到的。特征圖 F4 是由 F3 通過(guò)應(yīng)用 4-擴(kuò)張卷積而得到的。見(jiàn)紅色輪廓。
池化層的數(shù)學(xué)原理
池化層是 CNN 中一個(gè)很重要的模塊,這類層最重要的目標(biāo)是降低特征圖的大小,具體方式是通過(guò)使用某個(gè)函數(shù)來(lái)融合子區(qū)域,比如取平均或最大/最小值。池化的工作方式是在輸入上滑動(dòng)一個(gè)窗口并將該窗口中的內(nèi)容送入池化函數(shù)。池化的工作方式非常類似于離散卷積,只是用某個(gè)其它函數(shù)替代了卷積核的線性組合。
描述沿某個(gè)方向 j 的池化層的性質(zhì)的數(shù)學(xué)公式:
i_j:沿方向 j 的輸入大小
k_j:沿方向 j 的池化窗口大小
s_j:沿方向 j 的步幅
所得到的沿方向 j 的輸出大小 o_j 可以這樣計(jì)算:o_j = (i_j - k_j) / s_j + 1,注意池化層通常不會(huì)使用零填充。
最大池化和平均池化可以歸納為 Lp 池化,可描述為:
其中 y_{i,j,k} 是池化算子在第 k 個(gè)特征圖的位置 (i,j) 處的輸出,a_{m,n,k} 是第 k 個(gè)特征圖中的池化區(qū)域 R_{ij} 中位置 (m,n) 處的特征值。特別要指出,當(dāng) p=1 時(shí),Lp 對(duì)應(yīng)于平均池化,當(dāng) p 趨近無(wú)窮是,Lp 會(huì)變成最大池化。
池化還有一些其它選擇,比如混合池化,其公式可寫成:
這可被視為最大池化和平均池化的混合版本,其中 λ 是一個(gè) 0 到 1 之間的隨機(jī)值,表明了使用平均池化和最大池化的位置。在實(shí)踐中,這有望降低過(guò)擬合問(wèn)題,且表現(xiàn)也會(huì)比單純的最大池化或平均池化好一點(diǎn)。
某些常用的激活函數(shù)
ReLU
上圖是 ReLU 函數(shù)。ReLU 激活函數(shù)定義如下:
其中 z_{i,j,k} 是第 k 通道中位置 (i,j) 處的激活函數(shù)的輸入。ReLU 是一個(gè)逐元素的函數(shù),會(huì)保留正的部分,并將負(fù)的部分變成零。相比于 sigmoid 或 tanh,ReLU 中的 max(.) 運(yùn)算能使其速度更快。ReLU 的缺點(diǎn)是其在 0 處的不連續(xù)性,這可能會(huì)導(dǎo)致在反向傳播中出現(xiàn)梯度消失問(wèn)題。
Leaky ReLU
為了避免梯度消失問(wèn)題,研究者提出了一種很重要的 ReLU 變體函數(shù):Leaky ReLU。其數(shù)學(xué)形式為:
其中 λ 的取值范圍是 (0,1)。Leaky ReLU 并不強(qiáng)制負(fù)的部分為零,相反它允許有一個(gè)較小的非零梯度。
PArametric ReLU
上圖是 PReLU 的圖示。PReLU 和 Leaky ReLU 的不同之處是參數(shù) λ。首先來(lái)看 PReLU 的公式:
其中 λ_k 是第 k 個(gè)通道所學(xué)習(xí)到的參數(shù)。這些 λ 不是預(yù)定義的,而是通過(guò)數(shù)據(jù)學(xué)習(xí)到的,而且可學(xué)習(xí)的參數(shù) λ_k 的數(shù)量正是網(wǎng)絡(luò)中通道的數(shù)量。因?yàn)橛糜谟?xùn)練的額外參數(shù)很少,所以無(wú)需擔(dān)心過(guò)擬合問(wèn)題。它可以在反向傳播過(guò)程中與其它參數(shù)一起同時(shí)優(yōu)化。另外也還有很多其它有用的非線性激活函數(shù),比如 ELU、Maxout 等。
某些常用的損失函數(shù)
hinge 損失
hinge 損失通常用于訓(xùn)練 SVM 及其變體。用于多類 SVM 的 hinge 損失定義如下:
其中 w 是可訓(xùn)練的權(quán)重;δ(y(i), j) 是指示函數(shù),如果 y(i) = j,則其輸出為 1,否則輸出為 0。N 是樣本數(shù)量,K 是類別數(shù)量。如果 p=1,則稱為 L1-hinge 損失;如果 p=2,則稱為 L2-hinge 損失。
softmax 損失
softmax 損失可以說(shuō)是分類目標(biāo)方面最流行的損失,其中 N 是圖像數(shù)量,K 是類別數(shù)量,p_j 是第 j 類的概率,y 是基本真值。1{.} 是一個(gè)指示函數(shù),如果 y_i == j,則輸出 1,否則輸出 0。
softmax 損失是一種泛化的 logistic 損失,能將預(yù)測(cè)結(jié)果轉(zhuǎn)換成范圍 (0,1) 之間的非負(fù)值并給出在各類別上的概率分布。
對(duì)比損失
對(duì)比損失常被用于訓(xùn)練用于圖像檢索或人臉驗(yàn)證的孿生網(wǎng)絡(luò)。其基本思想是增大不相似配對(duì)之間的距離,減小相似配對(duì)之間的距離。數(shù)學(xué)公式可寫成:
如果 y=1,則第二項(xiàng)為 0,總損失就來(lái)自第一項(xiàng),這就意味著目標(biāo)就成了降低相似配對(duì)之間的距離。如果 y=0,則第一項(xiàng)為 0,總損失就來(lái)自第二項(xiàng),這就意味著目標(biāo)就成了增大不相似配對(duì)之間的距離。注意,如果不相似配對(duì)之間的距離小于余量,則總損失會(huì)增大。
三重?fù)p失
三重?fù)p失是對(duì)對(duì)比損失的一種聰明的改進(jìn)。假設(shè)我們有三張圖像,這個(gè)三元組單元 (x_a, x_p, x_n) 包含一個(gè)錨圖像、正例和負(fù)例。
上述公式是三重?fù)p失,其中 N 是圖像數(shù)量,d_{a,p} 是錨圖像與其正例圖像之間的距離,d_{a,n} 是錨圖像與其負(fù)例圖像之間的距離,m 是余量。其目標(biāo)是增大 d_{a,n},使得 d_{a,p} 和 d_{a,n} 之差大于余量 m。三重?fù)p失的目標(biāo)是最小化錨圖像和正例之間的距離,以及最大化負(fù)例和錨圖像之間的距離。
常用的損失函數(shù)有很多,比如 histogram 損失、lda 損失、KL-散度損失等。就不一一介紹了。
CNN 的應(yīng)用
圖像分類
2012 年,Krizhevsky et al. [1] 提出了 LeNet-5 的一個(gè)擴(kuò)展版 AlexNet,在 ILSVRC 2012 取得了最佳表現(xiàn)。上圖即為其架構(gòu)。由于計(jì)算時(shí)間限制,他們使用了一種并行結(jié)構(gòu)來(lái)進(jìn)行訓(xùn)練。一個(gè) GPU 運(yùn)行圖中頂部的層部分,另一個(gè) GPU 運(yùn)行上圖底部的層。
目標(biāo)檢測(cè)
2014-2017 年,微軟和 Facebook 的研究者開發(fā)了多種基于 CNN 的目標(biāo)檢測(cè)方法,包括但不限于 R-CNN、SPP-Net、fast RCNN、faster RCNN 和 Mask RCNN。上圖是基本的 R-CNN [2]。在從原始圖像中提取出區(qū)域提議之后,它們會(huì)被調(diào)整為固定尺寸并會(huì)被發(fā)送給一個(gè)預(yù)訓(xùn)練的 CNN。然后輸出特征會(huì)得到優(yōu)化,以便邊界框回歸和分類。
圖像分割
圖像分類可以粗略地分為兩部分:形義分割和實(shí)例分割。其目標(biāo)是預(yù)測(cè)單張圖像中每個(gè)像素屬于哪一類。CNN 可用于從像素層面或圖塊層面預(yù)測(cè)類別可能性。Long et al. [3] 為像素級(jí)分割提出了一種全卷積網(wǎng)絡(luò),如上圖所示,該網(wǎng)絡(luò)類似于一般的網(wǎng)絡(luò),只是最后一層不同,這一層被稱為去卷積層。這一層的學(xué)習(xí)目標(biāo)是上采樣標(biāo)簽圖的分辨率。其結(jié)果可以是一張輸出圖像,其中包含了密集的像素級(jí)預(yù)測(cè)。
基于 CNN 的方法可用于很多不同的領(lǐng)域,比如圖像檢索、人臉識(shí)別、文本分類、機(jī)器翻譯、3D 重建、視覺(jué)問(wèn)答或圖像繪制等。這里不可能全面覆蓋。
分析師簡(jiǎn)評(píng)
盡管 CNN 表現(xiàn)出色而且泛化能力優(yōu)異,但仍還有些問(wèn)題仍待進(jìn)一步研究。CNN 的訓(xùn)練需要大規(guī)模數(shù)據(jù)集和大量計(jì)算能力,但人工收集數(shù)據(jù)的成本很高而且易出錯(cuò)。因此,研究者們也在探索能利用大量無(wú)標(biāo)注數(shù)據(jù)的弱監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)。與此同時(shí),為了加速訓(xùn)練過(guò)程,也有必要開發(fā)高效且可擴(kuò)展的并行訓(xùn)練算法。最后且最重要的是如何解釋網(wǎng)絡(luò)以及理解網(wǎng)絡(luò)的內(nèi)在部分,因?yàn)槿藗內(nèi)绻恢?CNN 表現(xiàn)優(yōu)異的原因,人們不會(huì)愿意坐在基于 CNN 的自動(dòng)駕駛汽車中或接受基于 CNN 的醫(yī)療技術(shù)的治療。
編輯:hfy
-
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5511瀏覽量
121363 -
卷積神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
4文章
367瀏覽量
11887
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論