研究人員在研究圖像處理算法時提出了CNN(卷積神經(jīng)網(wǎng)絡(luò))的概念。傳統(tǒng)的全連接網(wǎng)絡(luò)是一種黑盒子 - 它接收所有輸入并通過每個值傳遞到一個dense 網(wǎng)絡(luò),然后再傳遞給一個熱輸出。這似乎適用于少量的輸入。
當(dāng)我們處理1024x768像素的圖像時,我們輸入3x1024x768 = 2359296個數(shù)字(每個像素的RGB值)。使用2359296個數(shù)字的輸入向量的dense多層神經(jīng)網(wǎng)絡(luò)在第一層中每個神經(jīng)元至少具有2359296個權(quán)重 - 第一層的每個神經(jīng)元具有2MB的權(quán)重。對于處理器以及RAM,在20世紀(jì)90年代和2000年除,這幾乎是不可能的。
這導(dǎo)致研究人員想知道是否有更好的方法來完成這項(xiàng)工作。任何圖像處理(識別)中的第一個也是最重要的任務(wù)通常是檢測邊緣和紋理。接下來是識別和處理真實(shí)對象。很明顯要注意檢測紋理和邊緣實(shí)際上并不依賴于整個圖像。人們需要查看給定像素周圍的像素以識別邊緣或紋理。
此外,用于識別邊緣或紋理的算法在整個圖像中應(yīng)該是相同的。我們不能對圖像的中心或任何角落或側(cè)面使用不同的算法。檢測邊緣或紋理的概念必須相同。我們不需要為圖像的每個像素學(xué)習(xí)一組新參數(shù)。
這種理解導(dǎo)致了卷積神經(jīng)網(wǎng)絡(luò)。網(wǎng)絡(luò)的第一層由掃描圖像的小塊神經(jīng)元組成 - 一次處理幾個像素。通常這些是9或16或25像素的正方形。
CNN非常有效地減少了計(jì)算量。小的“filter/kernel”沿著圖像滑動,一次處理一小塊。整個圖像所需的處理非常相似,因此非常有效。
雖然它是為圖像處理而引入的,但多年來,CNN已經(jīng)在許多其他領(lǐng)域中得到應(yīng)用。
一個例子
?
現(xiàn)在我們已經(jīng)了解了CNN的基本概念,讓我們了解數(shù)字的工作原理。正如我們所看到的,邊緣檢測是任何圖像處理問題的主要任務(wù)。讓我們看看CNN如何用于解決邊緣檢測問題。 ?
? ? 左邊是16x16單色圖像的位圖。矩陣中的每個值表示相應(yīng)像素的亮度。我們可以看到,這是一個簡單的灰色圖像,中間有一個方塊。當(dāng)我們嘗試將其用2x2 filter(中圖)進(jìn)行卷積時,我們得到一個14x14的矩陣(右圖)。 ?
我們選擇的filter 可以突出顯示圖像中的邊緣。我們可以在右邊的矩陣中看到,原始圖像中與邊緣對應(yīng)的值是高的(正的或負(fù)的)。這是一個簡單的邊緣檢測filter。研究人員已經(jīng)確定了許多不同的filter,可以識別和突出圖像的各個不同方面。在典型的卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型開發(fā)中,我們讓網(wǎng)絡(luò)自己學(xué)習(xí)和發(fā)現(xiàn)這些filters。
?
重要概念
?
以下是我們在進(jìn)一步使用CNN之前應(yīng)該了解的一些重要概念。
Padding
卷積filter的一個明顯問題是每一步都通過減小矩陣大小來減少“信息” - 縮小輸出?;旧?,如果原始矩陣是N×N,并且filter是F×F,則得到的矩陣將是(N-F + 1)×(N-F + 1)。這是因?yàn)檫吘壣系南袼乇葓D像中間的像素少。
如果我們在所有邊上按(F - 1)/ 2像素填充圖像,則將保留N×N的大小。
因此,我們有兩種類型的卷積,即Valid Convolution和 Same Convolution。Valid 實(shí)質(zhì)上意味著沒有填充。因此每個卷積都會導(dǎo)致尺寸減小。Same Convolution使用填充,以便保留矩陣的大小。
在計(jì)算機(jī)視覺中,F(xiàn)通常是奇數(shù)。奇數(shù)F有助于保持圖像的對稱性,也允許一個中心像素,這有助于在各種算法中應(yīng)用均勻偏差。因此,3x3, 5x5, 7x7 filter是很常見的。我們還有1x1個filter。
Strided
我們上面討論的卷積是連續(xù)的,因?yàn)樗B續(xù)掃描像素。我們也可以使用strides - 通過在圖像上移動卷積filter時跳過s像素。
因此,如果我們有nxn圖像和fxf filter并且我們用stride s和padding p進(jìn)行卷積,則輸出的大小為:((n + 2p -f)/ s + 1)x((n + 2p -f)/ s + 1)
卷積v / s互相關(guān)
互相關(guān)基本上是在底部對角線上翻轉(zhuǎn)矩陣的卷積。翻轉(zhuǎn)會將關(guān)聯(lián)性添加到操作中。但在圖像處理中,我們不會翻轉(zhuǎn)它。
RGB圖像上的卷積
現(xiàn)在我們有一個nxnx 3圖像,我們用fxfx 3 filter進(jìn)行卷積。因此,我們在任何圖像及其filter中都有高度,寬度和通道數(shù)。任何時候,圖像中的通道數(shù)量與filter中的通道數(shù)量相同。這個卷積的輸出有寬度和高度(n-f + 1)和1通道。
多個filters
一個3通道圖像與一個3通道filter卷積得到一個單一通道輸出。但我們并不局限于一個filter。我們可以有多個filters——每個filter都會產(chǎn)生一個新的輸出層。因此,輸入中的通道數(shù)應(yīng)該與每個filter中的通道數(shù)相同。filters的數(shù)量和輸出通道的數(shù)量是一樣的。
因此,我們從3個通道的圖像開始,并在輸出中以多個通道結(jié)束。這些輸出通道中的每一個都表示圖像的某些特定方面,這些方面由相應(yīng)的filter拾取。因此,它也被稱為特征而不是通道。在一個真正的深層網(wǎng)絡(luò)中,我們還添加了一個偏差和一個非線性激活函數(shù),如RelU。
池化層
池化基本上是將值組合成一個值。我們可以有平均池,最大池化,最小化池等。因此,使用fxf池化的nxn輸入將生成(n/f)x(n/f)輸出。它沒有需要學(xué)習(xí)的參數(shù)。 ?
最大池化
CNN架構(gòu)
典型的中小型CNN模型遵循一些基本原則。
? 典型的CNN架構(gòu)
交替卷積和池化層
逐漸減小frame 大小并增加frame 數(shù),
朝向末端的Flat 和全連接層
對所有隱藏層激活RelU,然后為最終層激活softmax
隨著我們轉(zhuǎn)向大型和超大型網(wǎng)絡(luò),事情變得越來越復(fù)雜。研究人員為我們提供了更多可以在這里使用的具體架構(gòu)(如:ImageNet, GoogleNet和VGGNet等)。
?
Python實(shí)現(xiàn)
?
通常實(shí)現(xiàn)CNN模型時,先進(jìn)行數(shù)據(jù)分析和清理,然后選擇我們可以開始的網(wǎng)絡(luò)模型。我們根據(jù)網(wǎng)絡(luò)數(shù)量和層大小及其連接性的布局提供架構(gòu) - 然后我們允許網(wǎng)絡(luò)自己學(xué)習(xí)其余部分。然后我們可以調(diào)整超參數(shù)來生成一個足以滿足我們目的的模型。
讓我們看一個卷積網(wǎng)絡(luò)如何工作的簡單例子。
導(dǎo)入模塊
我們首先導(dǎo)入所需的Python庫。
import numpy as np import tensorflow as tf from tensorflow import keras from keras.layers import Dense, Conv2D, Flatten, MaxPooling2D from keras.models import Sequential
?
?
獲取數(shù)據(jù)
下一步是獲取數(shù)據(jù)。我們使用構(gòu)建到Keras模塊中的機(jī)器學(xué)習(xí)數(shù)據(jù)集——MNIST數(shù)據(jù)集。在現(xiàn)實(shí)生活中,這需要更多的處理。
我們加載訓(xùn)練和測試數(shù)據(jù)。我們reshape數(shù)據(jù),使其更適合卷積網(wǎng)絡(luò)?;旧?,我們將其reshape為具有60000(記錄數(shù))大小為28x28x1的4D數(shù)組(每個圖像的大小為28x28)。這使得在Keras中構(gòu)建Convolutional層變得容易。
如果我們想要一個dense 神經(jīng)網(wǎng)絡(luò),我們會將數(shù)據(jù)reshape為60000x784 - 每個訓(xùn)練圖像的1D記錄。但CNN是不同的。請記住,卷積的概念是2D - 因此沒有必要將其flattening 為1維數(shù)組。
我們還將標(biāo)簽更改為分類的one-hot數(shù)組,而不是數(shù)字分類。最后,對圖像數(shù)據(jù)進(jìn)行歸一化處理,以降低梯度消失的可能性。
(train_images, train_labels), (test_images, test_labels) = tf.keras.datasets.mnist.load_data() train_images = train_images.reshape(60000,28,28,1) test_images = test_images.reshape(10000,28,28,1) test_labels = tf.keras.utils.to_categorical(test_labels) train_labels = tf.keras.utils.to_categorical(train_labels) train_images = train_images / 255.0 test_images = test_images / 255.0
?
?
構(gòu)建模型
Keras庫為我們提供了準(zhǔn)備使用API來構(gòu)建我們想要的模型。我們首先創(chuàng)建Sequential模型的實(shí)例。然后,我們將層添加到模型中。第一層是卷積層,處理28x28的輸入圖像。我們將核大小定義為3并創(chuàng)建32個這樣的核 - 創(chuàng)建32 frames?的輸出 - 大小為26x26(28-3 + 1 = 26)
接下來是2x2的最大池化層。這將尺寸從26x26減小到13x13。我們使用了最大池化,因?yàn)槲覀冎绬栴}的本質(zhì)是基于邊緣 - 我們知道邊緣在卷積中顯示為高值。
接下來是另一個核大小為3x3的卷積層,并生成24個輸出frames。每frame的大小為22x22。接下來是卷積層。最后,我們將這些數(shù)據(jù)flatten 并將其輸入到dense 層,該層具有對應(yīng)于10個所需值的輸出。
model = Sequential() model.add(Conv2D(32, kernel_size=3, activation='relu', input_shape=(28,28,1))) model.add(MaxPooling2D(pool_size=(3, 3))) model.add(Conv2D(24, kernel_size=3, activation='relu')) model.add(MaxPooling2D(pool_size=(2, 2))) model.add(Flatten()) model.add(Dense(10, activation='softmax')) model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])
訓(xùn)練模型
最后,我們用我們擁有的數(shù)據(jù)訓(xùn)練機(jī)器學(xué)習(xí)模型。五個epochs足以獲得一個相當(dāng)準(zhǔn)確的模型。
model.fit(train_images, train_labels, validation_data=(test_images, test_labels), epochs=5)
?
最后
?
上面的模型只有9*32 + 9*24 = 504個值需要學(xué)習(xí)。全連接網(wǎng)絡(luò)在第一層本身需要每個神經(jīng)元784個權(quán)重!因此,我們大大節(jié)省了處理能力 - 同時降低了過度擬合的風(fēng)險(xiǎn)。請注意,我們使用了我們所知道的,然后訓(xùn)練模型來發(fā)現(xiàn)其余部分。使用全連接或隨機(jī)稀疏網(wǎng)絡(luò)的黑盒方法永遠(yuǎn)不會以這個成本獲得這樣的準(zhǔn)確性。
審核編輯:黃飛
?
評論
查看更多