這篇文章展示了一個具體的文檔示例,演示如何使用深度學(xué)習(xí)和 Computer Vision System Toolbox 訓(xùn)練語義分割網(wǎng)絡(luò)。
語義分割網(wǎng)絡(luò)對圖像中的每個像素進(jìn)行分類,從而生成按類分割的圖像。語義分割的應(yīng)用包括用于自動駕駛的道路分割和醫(yī)學(xué)診斷中的癌細(xì)胞分割。
如需了解更多文檔示例和詳細(xì)信息,建議查閱技術(shù)文檔:https://cn.mathworks.com/help
為了說明訓(xùn)練過程,本示例將訓(xùn)練 SegNet,一種用于圖像語義分割的卷積神經(jīng)網(wǎng)絡(luò) (CNN)。用于語義分割的其他類型網(wǎng)絡(luò)包括全卷積網(wǎng)絡(luò) (FCN) 和 U-Net。以下所示訓(xùn)練過程也可應(yīng)用于這些網(wǎng)絡(luò)。
本示例使用來自劍橋大學(xué)的CamVid 數(shù)據(jù)集展開訓(xùn)練。此數(shù)據(jù)集是包含駕駛時所獲得的街道級視圖的圖像集合。該數(shù)據(jù)集為 32 種語義類提供了像素級標(biāo)簽,包括車輛、行人和道路。
建立
本示例創(chuàng)建了 SegNet 網(wǎng)絡(luò),其權(quán)重從 VGG-16 網(wǎng)絡(luò)初始化。要獲取 VGG-16,請安裝Neural Network Toolbox Model for VGG-16 Network:
安裝完成后,運(yùn)行以下代碼以驗(yàn)證是否安裝正確。
vgg16();
此外,請下載預(yù)訓(xùn)練版 SegNet。預(yù)訓(xùn)練模型可支持您運(yùn)行整個示例,而無需等待訓(xùn)練完成。
強(qiáng)烈建議采用計(jì)算能力為 3.0 或更高級別,支持 CUDA 的 NVIDIA GPU 來運(yùn)行本示例。使用 GPU 需要 Parallel Computing Toolbox。
下載 CamVid 數(shù)據(jù)集
從以下 URL 中下載 CamVid 數(shù)據(jù)集。
注意:數(shù)據(jù)下載時間取決于您的 Internet 連接情況。在下載完成之前,上面使用的命令會阻止訪問 MATLAB。或者,您可以使用 Web 瀏覽器先將數(shù)據(jù)集下載到本地磁盤。要使用從 Web 中下載的文件,請將上述 outputFolder 變量更改為下載文件的位置。
加載 CamVid 圖像
用于加載 CamVid 圖像。借助 imageDatastore,可以高效地加載磁盤上的大量圖像數(shù)據(jù)。
imgDir = fullfile(outputFolder,'images','701_StillsRaw_full');imds = imageDatastore(imgDir);
顯示其中一個圖像。
I = readimage(imds,1);I = histeq(I);imshow(I)
加載 CamVid 像素標(biāo)簽圖像
使用imageDatastore加載 CamVid 像素標(biāo)簽圖像。pixelLabelDatastore 將像素標(biāo)簽數(shù)據(jù)和標(biāo)簽 ID 封裝到類名映射中。
按照 SegNet 原創(chuàng)論文(Badrinarayanan、Vijay、Alex Kendall 和 Roberto Cipolla:《SegNet:用于圖像分割的一種深度卷積編碼器-解碼器架構(gòu)》(SegNet: A Deep Convolutional Encoder-Decoder Architecture for ImageSegmentation)。arXiv 預(yù)印本:1511.00561,201)中采用的步驟進(jìn)行操作,將 CamVid 中的 32 個原始類分組為 11 個類。指定這些類。
classes = [ "Sky" "Building" "Pole" "Road" "Pavement" "Tree" "SignSymbol" "Fence" "Car" "Pedestrian" "Bicyclist" ];
要將 32 個類減少為 11 個,請將原始數(shù)據(jù)集中的多個類組合在一起。例如,“Car” 是 “Car” 、 “SUVPickupTruck” 、 “Truck_Bus” 、 “Train” 和 “OtherMoving” 的組合。使用支持函數(shù) camvidPixelLabelIDs 返回已分組的標(biāo)簽 ID,該函數(shù)會在本示例的末尾列出。
labelIDs = camvidPixelLabelIDs();
使用這些類和標(biāo)簽 ID 創(chuàng)建 pixelLabelDatastore。
labelDir = fullfile(outputFolder,'labels');pxds = pixelLabelDatastore(labelDir,classes,labelIDs);
讀取并在一幅圖像上疊加顯示像素標(biāo)簽圖像。
C = readimage(pxds,1);cmap = camvidColorMap;B = labeloverlay(I,C,'ColorMap',cmap);imshow(B)pixelLabelColorbar(cmap,classes);
沒有顏色疊加的區(qū)域沒有像素標(biāo)簽,在訓(xùn)練期間不會使用這些區(qū)域。
分析數(shù)據(jù)集統(tǒng)計(jì)信息
要查看 CamVid 數(shù)據(jù)集中類標(biāo)簽的分布情況,請使用countEachLabel。此函數(shù)會按類標(biāo)簽計(jì)算像素?cái)?shù)。
tbl = countEachLabel(pxds)
按類可視化像素計(jì)數(shù)。
frequency = tbl.PixelCount/sum(tbl.PixelCount);bar(1:numel(classes),frequency)xticks(1:numel(classes)) xticklabels(tbl.Name)xtickangle(45)ylabel('Frequency')
理想情況下,所有類都有相同數(shù)量的觀察結(jié)果。但是,CamVid 中的這些類比例失衡,這是街道場景汽車數(shù)據(jù)集中的常見問題。由于天空、建筑物和道路覆蓋了圖像中的更多區(qū)域,因此相比行人和騎自行車者像素,這些場景擁有更多的天空、建筑物和道路像素。如果處理不當(dāng),這種失衡可能影響學(xué)習(xí)過程,因?yàn)閷W(xué)習(xí)過程偏向主導(dǎo)類。在本示例中,您稍后將使用類權(quán)重來處理此問題。
調(diào)整 CamVid 數(shù)據(jù)的大小
CamVid 數(shù)據(jù)集中的圖像大小為 720 x 960。要減少訓(xùn)練時間和內(nèi)存使用量,請將圖像和像素標(biāo)記圖像的大小調(diào)整為 360 x 480。resizeCamVidImages 和 resizeCamVidPixelLabels 是本示例末尾所列出的支持函數(shù)。
準(zhǔn)備訓(xùn)練集和測試集
使用數(shù)據(jù)集中 60% 的圖像訓(xùn)練 SegNet。其余圖像用于測試。以下代碼會將圖像和像素標(biāo)記數(shù)據(jù)隨機(jī)分成訓(xùn)練集和測試集。
[imdsTrain,imdsTest,pxdsTrain,pxdsTest] = partitionCamVidData(imds,pxds);
60/40 拆分會生產(chǎn)以下數(shù)量的訓(xùn)練圖像和測試圖像:
numTrainingImages = numel(imdsTrain.Files)
numTrainingImages = 421
numTestingImages = numel(imdsTest.Files)
numTestingImages = 280
創(chuàng)建網(wǎng)絡(luò)
使用segnetLayers創(chuàng)建利用 VGG-16 權(quán)重初始化的 SegNet 網(wǎng)絡(luò)。segnetLayers 會自動執(zhí)行傳輸 VGG-16 中的權(quán)重所需的網(wǎng)絡(luò)操作,并添加語義分割所需其他網(wǎng)絡(luò)層。
imageSize = [360 480 3];numClasses = numel(classes);lgraph = segnetLayers(imageSize,numClasses,'vgg16');
根據(jù)數(shù)據(jù)集中圖像的大小選擇圖像大小。根據(jù) CamVid 中的類選擇類的數(shù)量。
使用類權(quán)重平衡類
如前所示,CamVid 中的這些類比例失衡。要改進(jìn)訓(xùn)練情況,可以使用類權(quán)重來平衡這些類。使用之前通過countEachLayer計(jì)算的像素標(biāo)簽計(jì)數(shù),并計(jì)算中值頻率類權(quán)重。
imageFreq = tbl.PixelCount ./ tbl.ImagePixelCount;classWeights = median(imageFreq) ./ imageFreq
使用pixelClassificationLayer指定類權(quán)重。
pxLayer = pixelClassificationLayer('Name','labels','ClassNames',tbl.Name,'ClassWeights',classWeights)
通過刪除當(dāng)前 pixelClassificationLayer 并添加新層,使用新的 pixelClassificationLayer 更新 SegNet 網(wǎng)絡(luò)。當(dāng)前 pixelClassificationLayer 名為“pixelLabels”。使用removeLayers刪除該層,使用addLayers添加新層,然后使用connectLayers將新層連接到網(wǎng)絡(luò)的其余部分。
選擇訓(xùn)練選項(xiàng)
用于訓(xùn)練的優(yōu)化算法是引入動量的隨機(jī)梯度下降 (SGDM) 算法。使用trainingOptions指定用于 SGDM 的超參數(shù)。
大小為 4 的 minimatch 用于減少訓(xùn)練時的內(nèi)存使用量。您可以根據(jù)系統(tǒng)中的 GPU 內(nèi)存量增加或減少此值。
數(shù)據(jù)擴(kuò)充
在訓(xùn)練期間使用數(shù)據(jù)擴(kuò)充向網(wǎng)絡(luò)提供更多示例,以便提高網(wǎng)絡(luò)的準(zhǔn)確性。此處,隨機(jī)左/右反射以及 +/- 10 像素的隨機(jī) X/Y 平移用于數(shù)據(jù)擴(kuò)充。用于指定這些數(shù)據(jù)擴(kuò)充參數(shù)。
imageDataAugmenter 支持其他幾種類型的數(shù)據(jù)擴(kuò)充。選擇它們需要經(jīng)驗(yàn)分析,并且這是另一個層次的超參數(shù)調(diào)整。
開始訓(xùn)練
使用pixelLabelImageDatastore組合訓(xùn)練數(shù)據(jù)和數(shù)據(jù)擴(kuò)充選擇。pixelLabelImageDatastore 會讀取批量訓(xùn)練數(shù)據(jù),應(yīng)用數(shù)據(jù)擴(kuò)充,并將已擴(kuò)充的數(shù)據(jù)發(fā)送至訓(xùn)練算法。
如果 doTraining 標(biāo)志為 true,則會開始訓(xùn)練。否則,會加載預(yù)訓(xùn)練網(wǎng)絡(luò)。注意:NVIDIA Titan X 上的訓(xùn)練大約需要 5 個小時,根據(jù)您的 GPU 硬件具體情況,可能會需要更長的時間。
在圖像上測試網(wǎng)絡(luò)
作為快速完整性檢查,將在測試圖像上運(yùn)行已訓(xùn)練的網(wǎng)絡(luò)。
I = read(imdsTest);C = semanticseg(I, net);
顯示結(jié)果。
將 C 中的結(jié)果與 pxdsTest 中的預(yù)期真值進(jìn)行比較。綠色和洋紅色區(qū)域突出顯示了分割結(jié)果與預(yù)期真值不同的區(qū)域。
expectedResult = read(pxdsTest);actual = uint8(C);expected = uint8(expectedResult);imshowpair(actual, expected)
從視覺上看,道路、天空、建筑物等類的語義分割結(jié)果重疊情況良好。然而,行人和車輛等較小的對象則不那么準(zhǔn)確。可以使用交叉聯(lián)合 (IoU) 指標(biāo)(又稱 Jaccard 系數(shù))來測量每個類的重疊量。使用jaccard函數(shù)測量 IoU。
iou = jaccard(C, expectedResult);table(classes,iou)
IoU 指標(biāo)可確認(rèn)視覺效果。道路、天空和建筑物類具有較高的 IoU 分?jǐn)?shù),而行人和車輛等類的分?jǐn)?shù)較低。其他常見的分割指標(biāo)包括Dice 系數(shù)和Boundary-F1輪廓匹配分?jǐn)?shù)。
評估已訓(xùn)練的網(wǎng)絡(luò)
要測量多個測試圖像的準(zhǔn)確性,請?jiān)谡麄€測試集中運(yùn)行semanticseg。
pxdsResults = semanticseg(imdsTest,net,'MiniBatchSize',4,'WriteLocation',tempdir,'Verbose',false);
semanticseg 會將測試集的結(jié)果作為 pixelLabelDatastore 對象返回。imdsTest 中每個測試圖像的實(shí)際像素標(biāo)簽數(shù)據(jù)會在“WriteLocation”參數(shù)指定的位置寫入磁盤。使用evaluateSemanticSegmentation測量測試集結(jié)果的語義分割指標(biāo)。
metrics = evaluateSemanticSegmentation(pxdsResults,pxdsTest,'Verbose',false);
evaluateSemanticSegmentation返回整個數(shù)據(jù)集、各個類以及每個測試圖像的各種指標(biāo)。要查看數(shù)據(jù)集級別指標(biāo),請檢查 metrics.DataSetMetrics。
metrics.DataSetMetrics
數(shù)據(jù)集指標(biāo)可提供網(wǎng)絡(luò)性能的高級概述。要查看每個類對整體性能的影響,請使用 metrics.ClassMetrics 檢查每個類的指標(biāo)。
metrics.ClassMetrics
盡管數(shù)據(jù)集整體性能非常高,但類指標(biāo)顯示,諸如 Pedestrian、Bicyclist 和 Car 等代表性不足的類分割效果不如Road、Sky 和 Building 等類。附加數(shù)據(jù)多一些代表性不足類樣本可能會提升分割效果。
-
網(wǎng)絡(luò)
+關(guān)注
關(guān)注
14文章
7568瀏覽量
88796 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5503瀏覽量
121175
發(fā)布評論請先 登錄
相關(guān)推薦
評論