0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

關于深度學習網絡識別的詳細介紹

MATLAB ? 來源:djl ? 2019-09-11 17:53 ? 次閱讀

你有沒有想過,你經常使用的深度學習網絡在看圖像的什么部分進行分類?

例如下圖:

如果深度學習網絡將此圖像分類為“圓號”,你認為圖片的哪個部分對分類最重要?

MathWorks Computer Vision System Toolbox 開發(fā)工程師Birju Patel專注于深度學習,設計了如下案例進行解答這一問題:

我們使用預訓練好的 ResNet-50 網絡進行此實驗。

* He, Kaiming, Zhang, Xiangyu, Ren, Shaoqing, Sun, Jian. "Deep Residual Learning for Image Recognition." In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 770-778. 2016.

獲取 MATLAB 中 ResNet-50 網絡的方法是啟動 Add-On Explorer(MATLAB 的 HOME 選項卡)并搜索 resnet。

net = resnet50;

我們需要注意 ResNet-50 需要輸入特定尺寸的圖像。網絡的初始層提供了這一信息

sz = net.Layers(1).InputSize(1:2)sz = 224 224

所需的圖像尺寸可以直接傳遞給 imresize 函數。)

在網絡中調用 classify ,查看圖片可能的分類:

classify(net,rgb)ans = categorical French horn

ResNet-50 認為這是圓號。

Birju 在一篇關于卷積神經網絡可視化技術的論文中,了解到遮擋敏感性的概念。如果阻擋或遮擋圖像的一部分,將如何影響網絡的預測得分?遮擋不同的部分又將如何影響結果?

Birju 做了如下嘗試:

rgb2 = rgb; rgb2((1:71)+77,(1:71)+108,:) = 128; imshow(rgb2)

classify(net,rgb2)ans = categorical notebook

Hmm...估計網絡“認為”灰色方塊看起來像筆記本。被遮擋的區(qū)域對于圖像分類來說應該很重要。再試試不同的遮擋位置:

rgb3 = rgb;rgb3((1:71)+15,(1:71)+80,:) = 128;imshow(rgb3)

classify(net,rgb3)ans = categorical French horn

好吧,腦袋并不重要。

Birju 編寫了一些 MATLAB 代碼來系統(tǒng)地量化不同圖像區(qū)域對分類結果的相對重要性。他使用 MATLAB 構建了大量圖像,并對遮擋不同區(qū)域的圖像進行批處理。對于遮擋的不同位置,記錄預期類(本例為“法國號”)的概率得分。

我們制作一批帶有 71x71 遮擋區(qū)域的圖像。首先計算所有遮擋模塊的頂點,用 (X1,Y1) 和 (X2,Y2) 表示。

mask_size = [71 71]; [H,W,~] = size(rgb); X = 1:W; Y = 1:H; [X1, Y1] = meshgrid(X, Y); X1 = X1(:) - (mask_size(2)-1)/2; Y1 = Y1(:) - (mask_size(1)-1)/2; X2 = X1 + mask_size(2) - 1; Y2 = Y1 + mask_size(1) - 1;

注意不要讓遮擋區(qū)域的頂點偏離圖像邊界。

X1 = max(1, X1); Y1 = max(1, Y1); X2 = min(W, X2); Y2 = min(H, Y2);

批處理:

batch = repmat(rgb,[1 1 1 size(X1,1)]); for i = 1:size(X1,1) c = X1(i):X2(i); r = Y1(i):Y2(i); batch(r,c,:,i) = 128; % gray mask. end

注意:這一批包含 50,000 多張圖像。你需要大量的 RAM 才能同時創(chuàng)建和處理如此大量的圖像。

這里有一些遮擋的圖像:

現在,我們將使用 predict(而不是 classify)來獲取每個圖像在每個類別中的預測分數。MiniBatchSize 參數是用來限制 GPU 內存的使用,意味著 predict 函數將一次發(fā)送 64 個圖像到 GPU 進行處理。

s = predict(net, batch, 'MiniBatchSize',64);size(s)ans = 50176 1000

我們獲得了很多的概率得分!其中 51,529 個圖像,共有 1,000 個類別。矩陣 s 具有每個類別和每個圖像的預測分數。

我們重點關注預測原始圖像類別的預測分數:

scores = predict(net,rgb); [~,horn_idx] = max(scores);

這里是每一個圓號類別中的圖像預測分數:

s_horn = s(:,horn_idx);

將圓號類別的分數轉換為圖像顯示:

S_horn = reshape(s_horn,H,W); imshow(-S_horn,[]) colormap(gca,'parula')

最亮的區(qū)域表示遮擋對概率得分影響最大的遮擋區(qū)間。

下面我們找到了最影響圓號概率得分的遮擋位置:

[min_score,min_idx] = min(s_horn); rgb_min_score = batch(:,:,:,min_idx); imshow(rgb_min_score)

結果可見,識別圓號的關鍵在于螺旋形管身和閥鍵,而不是號嘴。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4760

    瀏覽量

    129127
  • 圖像分類
    +關注

    關注

    0

    文章

    90

    瀏覽量

    11942
  • 深度學習
    +關注

    關注

    73

    文章

    5510

    瀏覽量

    121329
收藏 人收藏

    評論

    相關推薦

    ASR與傳統(tǒng)語音識別的區(qū)別

    ASR(Automatic Speech Recognition,自動語音識別)與傳統(tǒng)語音識別在多個方面存在顯著的區(qū)別。以下是對這兩者的對比: 一、技術基礎 ASR : 基于深度學習
    的頭像 發(fā)表于 11-18 15:22 ?562次閱讀

    深度學習中的卷積神經網絡模型

    深度學習近年來在多個領域取得了顯著的進展,尤其是在圖像識別、語音識別和自然語言處理等方面。卷積神經網絡作為
    的頭像 發(fā)表于 11-15 14:52 ?378次閱讀

    GPU深度學習應用案例

    GPU在深度學習中的應用廣泛且重要,以下是一些GPU深度學習應用案例: 一、圖像識別 圖像識別
    的頭像 發(fā)表于 10-27 11:13 ?432次閱讀

    激光雷達技術的基于深度學習的進步

    信息。這使得激光雷達在自動駕駛、無人機、機器人等領域具有廣泛的應用前景。 二、深度學習技術的發(fā)展 深度學習是機器學習的一個分支,它通過模擬人
    的頭像 發(fā)表于 10-27 10:57 ?449次閱讀

    AI大模型與深度學習的關系

    AI大模型與深度學習之間存在著密不可分的關系,它們互為促進,相輔相成。以下是對兩者關系的介紹: 一、深度學習是AI大模型的基礎 技術支撐 :
    的頭像 發(fā)表于 10-23 15:25 ?997次閱讀

    深度識別算法包括哪些內容

    深度識別算法是深度學習領域的一個重要組成部分,它利用深度神經網絡模型對輸入數據進行高層次的理解和
    的頭像 發(fā)表于 09-10 15:28 ?427次閱讀

    深度識別人臉識別在任務中為什么有很強大的建模能力

    深度學習人臉識別技術是人工智能領域中的一個重要分支,它利用深度學習算法來識別和驗證人臉。這項技術
    的頭像 發(fā)表于 09-10 14:53 ?447次閱讀

    基于Python的深度學習人臉識別方法

    基于Python的深度學習人臉識別方法是一個涉及多個技術領域的復雜話題,包括計算機視覺、深度學習、以及圖像處理等。在這里,我將概述一個基本的
    的頭像 發(fā)表于 07-14 11:52 ?1294次閱讀

    深度學習中的無監(jiān)督學習方法綜述

    深度學習作為機器學習領域的一個重要分支,近年來在多個領域取得了顯著的成果,特別是在圖像識別、語音識別、自然語言處理等領域。然而,
    的頭像 發(fā)表于 07-09 10:50 ?846次閱讀

    深度學習與nlp的區(qū)別在哪

    深度學習和自然語言處理(NLP)是計算機科學領域中兩個非常重要的研究方向。它們之間既有聯系,也有區(qū)別。本文將介紹深度學習與NLP的區(qū)別。
    的頭像 發(fā)表于 07-05 09:47 ?992次閱讀

    深度神經網絡與基本神經網絡的區(qū)別

    在探討深度神經網絡(Deep Neural Networks, DNNs)與基本神經網絡(通常指傳統(tǒng)神經網絡或前向神經網絡)的區(qū)別時,我們需
    的頭像 發(fā)表于 07-04 13:20 ?995次閱讀

    如何設計人臉識別的神經網絡

    人臉識別技術是一種基于人臉特征信息進行身份識別的技術,廣泛應用于安全監(jiān)控、身份認證、智能門禁等領域。神經網絡是實現人臉識別的關鍵技術之一,本文將介紹
    的頭像 發(fā)表于 07-04 09:20 ?696次閱讀

    人臉檢測與識別的方法有哪些

    人臉檢測與識別是計算機視覺領域中的一個重要研究方向,具有廣泛的應用前景,如安全監(jiān)控、身份認證、智能視頻分析等。本文將詳細介紹人臉檢測與識別的方法。 引言 人臉檢測與
    的頭像 發(fā)表于 07-03 14:45 ?767次閱讀

    深度學習與卷積神經網絡的應用

    隨著人工智能技術的飛速發(fā)展,深度學習和卷積神經網絡(Convolutional Neural Network, CNN)作為其中的重要分支,已經在多個領域取得了顯著的應用成果。從圖像識別
    的頭像 發(fā)表于 07-02 18:19 ?959次閱讀

    基于深度學習的鳥類聲音識別系統(tǒng)

    具體的軟硬件實現點擊http://mcu-ai.com/MCU-AI技術網頁_MCU-AI 鳥叫聲識別在鳥類保護中具有重要意義。通過適當的聲音分類,研究可以自動預測該地區(qū)的生活質量。如今,深度學習
    發(fā)表于 05-30 20:30