0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

詳細(xì)介紹一些CNN模型的設(shè)計(jì)理論和關(guān)鍵設(shè)計(jì)點(diǎn)

冬至配餃子 ? 來(lái)源:思否AI ? 作者:徐九 ? 2022-11-17 11:51 ? 次閱讀

image.png

卷積神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)史上的主要里程碑:模塊化、多路徑、因式分解、壓縮、可擴(kuò)展

一般來(lái)說(shuō),分類問(wèn)題是計(jì)算機(jī)視覺(jué)模型的基礎(chǔ),它可以延申解決更復(fù)雜的視覺(jué)問(wèn)題,例如:目標(biāo)檢測(cè)的任務(wù)包括檢測(cè)邊界框并對(duì)其中的對(duì)象進(jìn)行分類。而分割的任務(wù)則是對(duì)圖像中的每個(gè)像素進(jìn)行分類。

卷積神經(jīng)網(wǎng)絡(luò)(CNNs)首次被用于解決圖像分類問(wèn)題,并且取得了很好的效果,所以在這個(gè)問(wèn)題上,研究人員開(kāi)始展開(kāi)競(jìng)爭(zhēng)。通過(guò)對(duì)ImageNet Challenge中更精確分類器的快速跟蹤研究,他們解決了與大容量神經(jīng)網(wǎng)絡(luò)的統(tǒng)計(jì)學(xué)習(xí)相關(guān)的更普遍的問(wèn)題,導(dǎo)致了深度學(xué)習(xí)的重大進(jìn)展。

在本文中我們將整理一些經(jīng)典的CNN模型,詳細(xì)介紹這些模型的設(shè)計(jì)理論和關(guān)鍵設(shè)計(jì)點(diǎn):

VGGNet

我們介紹的第一個(gè)CNN,命名是為VGGNet[2]。它是AlexNet[3]的直接繼承者,AlexNet[3]被認(rèn)為是第一個(gè)“深度”神經(jīng)網(wǎng)絡(luò),這兩個(gè)網(wǎng)絡(luò)有一個(gè)共同的祖先,那就是Lecun的LeNet[4]。

我們從它開(kāi)始,盡管它的年代久遠(yuǎn),但是由于VGGNet的特殊性,,直到今天仍然站得住腳(這是極少數(shù)的DL模型能夠做到的)。第一個(gè)介紹VGGNet還有一個(gè)原因是它還建立了后續(xù)cnn所采用的通用組件和結(jié)構(gòu)。

如上圖1所示,卷積神經(jīng)網(wǎng)絡(luò)從一個(gè)輸入層開(kāi)始,它與輸入圖像具有相同的尺寸,224x224x3。

然后,VGGNet堆疊第一個(gè)卷積層(CL 1),其中包括64個(gè)大小為3x3的核,輸出一個(gè)224x224x64的張量。

接下來(lái),它在具有相同配置的64個(gè)通道上堆疊使用相同大小的3x3核的CL 2,生成相同尺寸的特征映射。

然后,使用filter size為2x2、填充和步幅為2的最大池化來(lái)降低特征映射的空間分辨率,從224x224x64降低到112x112x64。最大池并不影響特性映射深度,因此通道的數(shù)量仍然是64。

這里我將這三層之上稱作module 1,一般情況下也被稱作stem,可以理解為它提取的是最基本的線條特征。我們將其稱為module 被是因?yàn)樗x為以一定分辨率操作的處理單元。所以我們可以說(shuō)VGGNet的module 1以224x224分辨率工作,并生成分辨率為112x112的特征圖,后面的module 2繼續(xù)在其上工作。

類似地,module 2也有兩個(gè)帶有3x3核的CLs,用于提取更高級(jí)別的特征,其次是最大池化,將空間分辨率減半,但核的數(shù)量乘以2,使輸出特征映射的通道數(shù)量翻倍。

每個(gè)module 處理輸入特征映射,將通道加倍,將空間分辨率除以2,以此類推。但是不可能一直這樣做,因?yàn)閙odule 6的空間分辨率已經(jīng)是7x7了。

因此,VGGNet包括一個(gè)從3D到1D的展平(flatten)操作,然后應(yīng)用一個(gè)或兩個(gè)稠密層,最后使用softmax計(jì)算分類概率(這里是1000個(gè)標(biāo)簽)。

讓我們總結(jié)一下VGGNet引入的設(shè)計(jì)模式,以在準(zhǔn)確性方面超越所有以前的研究:

模塊化架構(gòu)允許卷積層內(nèi)的對(duì)稱性和同質(zhì)性。通過(guò)構(gòu)建具有相似特征的卷積層塊,并在模塊之間執(zhí)行下采樣有助于在特征提取階段保留有價(jià)值的信息,使用小核,兩個(gè) 3x3 核的卷積的感知范圍可以等效于單個(gè) 5x5 的感知范圍。級(jí)聯(lián)的小核卷積也增強(qiáng)了非線性,并且可以獲得比具有一層更大核的更好的精度。小核還可加快 Nvidia GPU 上的計(jì)算速度。

與平均池化或跨步卷積(步幅大于 1)相比,最大池化操作是一種有效的下采樣方法。最大池化允許捕獲具有空間信息的數(shù)據(jù)中的不變性。因?yàn)閳D像分類任務(wù)需要這種空間信息減少才能達(dá)到類別分?jǐn)?shù)的輸出,而且它也被“流形假設(shè)”證明是合理的。在計(jì)算機(jī)視覺(jué)中,流形假設(shè)指出 224x224x3 維度空間中的真實(shí)圖像表示非常有限的子空間。

將整體下采樣與整個(gè)架構(gòu)中通道數(shù)量的增加相結(jié)合形成金字塔形結(jié)構(gòu)。通道的倍增補(bǔ)償了由于學(xué)習(xí)到的特征圖的空間分辨率不斷降低而導(dǎo)致的表征表達(dá)能力的損失。在整個(gè)層中,特征空間會(huì)同步變窄和變深,直到它準(zhǔn)備好被展平并作為輸入向量發(fā)送到全連接層。每個(gè)特征都可以看作一個(gè)對(duì)象,其存在將在整個(gè)推理計(jì)算過(guò)程中被量化。早期的卷積層捕獲基本形狀,因此需要的對(duì)象更少。后面的層將這些形狀組合起來(lái),創(chuàng)建具有多種組合的更復(fù)雜的對(duì)象,所以需要大量的通道來(lái)保存它們。

Inception

接下來(lái)介紹與VGGNet[2]同年出現(xiàn)但晚一點(diǎn)的第二個(gè)CNN,Inception[5]。這個(gè)名字的靈感來(lái)自克里斯托弗諾蘭的著名電影,這個(gè)網(wǎng)絡(luò)引發(fā)了關(guān)于“尋求更深層次的 CNN”的爭(zhēng)論,并很快變成了一個(gè)問(wèn)題。事實(shí)上,深度學(xué)習(xí)研究人員意識(shí)到,如果能正確訓(xùn)練更深層次的神經(jīng)網(wǎng)絡(luò),那么獲得的準(zhǔn)確性就越高,尤其是在涉及 ImageNet 等復(fù)雜分類任務(wù)時(shí)。簡(jiǎn)而言之,更多的堆疊層提高了神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力,使其能夠捕捉復(fù)雜的模式并并能在復(fù)雜的數(shù)據(jù)中進(jìn)行泛化。

但是設(shè)法訓(xùn)練更深的網(wǎng)絡(luò)是非常困難的。堆疊更多層會(huì)產(chǎn)生成本,并使訓(xùn)練神經(jīng)網(wǎng)絡(luò)變得更加困難。這是由于梯度消失問(wèn)題,當(dāng)損失梯度通過(guò)無(wú)數(shù)計(jì)算層反向傳播,并逐漸收斂到幾乎為零的微小的值時(shí),就會(huì)發(fā)生這種情況。因此訓(xùn)練網(wǎng)絡(luò)的早期層(距離輸入近的層)變得很復(fù)雜,這些層無(wú)法執(zhí)行特征提取并將提取的信息傳遞給后續(xù)層。

在Inception中,研究人員在一個(gè)深度級(jí)別上模擬了幾個(gè)層。這樣既增強(qiáng)了神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力,又?jǐn)U大了神經(jīng)網(wǎng)絡(luò)的參數(shù)空間,避免了梯度的消失。

上圖 2 是這個(gè)多尺度處理層的內(nèi)部視圖結(jié)構(gòu)。關(guān)注藍(lán)色

審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    PID設(shè)計(jì)理論

    按照傳統(tǒng)PID設(shè)計(jì)理論,首先設(shè)開(kāi)環(huán)系數(shù)為K=200,目的是提高系統(tǒng)低頻增益,減小穩(wěn)態(tài)誤差。但是K值過(guò)大會(huì)降低系統(tǒng)穩(wěn)定性,所以在低頻段處加一零點(diǎn),與積分環(huán)節(jié)構(gòu)成滯后校正。該滯后環(huán)節(jié)的作用主要有兩條
    發(fā)表于 06-15 15:53

    【好資料系列】電路設(shè)計(jì)理論大全

    `【好資料系列】電路設(shè)計(jì)理論大全`
    發(fā)表于 09-23 11:00

    大家是怎么壓榨CNN模型

    【技術(shù)綜述】為了壓榨CNN模型,這幾年大家都干了什么
    發(fā)表于 05-29 14:49

    關(guān)于樹(shù)模型一些理解

    樹(shù)模型一些理解
    發(fā)表于 05-22 09:40

    文詳解CNN

    。對(duì)應(yīng)數(shù)學(xué)模型的輸出。 多層感知器(MLP): 單層的感知器只能解決一些簡(jiǎn)單的線性問(wèn)題,面對(duì)復(fù)雜的非線性問(wèn)題束手無(wú)策,考慮到輸入信號(hào)需要經(jīng)過(guò)多個(gè)神經(jīng)元處理后,最后得到輸出,所以發(fā)展出來(lái)了多層感知器,引入
    發(fā)表于 08-18 06:56

    高質(zhì)量PCB設(shè)計(jì)理論

    高質(zhì)量PCB設(shè)計(jì)理論 本文為關(guān)于PCB圖布線的部分經(jīng)驗(yàn)總結(jié),文中內(nèi)容主要適用于高精度模擬系統(tǒng)或低頻(
    發(fā)表于 04-15 00:15 ?992次閱讀

    滿意PID控制設(shè)計(jì)理論與方法

    滿意PID控制設(shè)計(jì)理論與方法-2007-1-科學(xué)出版社-馬建偉。
    發(fā)表于 04-01 15:13 ?0次下載

    關(guān)于紅外通信的一些問(wèn)題知識(shí)點(diǎn)

    關(guān)于紅外通信的一些問(wèn)題知識(shí)點(diǎn)
    發(fā)表于 05-05 17:40 ?4次下載

    SNMP常用的一些OID詳細(xì)例表說(shuō)明

    本文檔的主要內(nèi)容詳細(xì)介紹的是SNMP常用的一些OID詳細(xì)例表說(shuō)明。SNMP常用的一些OID,比如CPU、內(nèi)存、硬盤(pán)什么的。要先了解這些,再使
    發(fā)表于 08-08 17:33 ?2次下載
    SNMP常用的<b class='flag-5'>一些</b>OID<b class='flag-5'>詳細(xì)</b>例表說(shuō)明

    變壓器的設(shè)計(jì)理論資料免費(fèi)下載

    本文檔的主要內(nèi)容詳細(xì)介紹的是變壓器的設(shè)計(jì)理論資料免費(fèi)下載主要內(nèi)容包括了:1.核心設(shè)計(jì),2.低壓繞組設(shè)計(jì),3.高壓繞組設(shè)計(jì),4.損失計(jì)算,5.阻抗百分比,6.電壓調(diào)節(jié),7.變壓器效率
    發(fā)表于 07-31 08:00 ?24次下載
    變壓器的<b class='flag-5'>設(shè)計(jì)理論</b>資料免費(fèi)下載

    DSP入門(mén)學(xué)習(xí)必看的一些知識(shí)點(diǎn)詳細(xì)概述

    本文檔的主要內(nèi)容詳細(xì)介紹的是DSP入門(mén)學(xué)習(xí)必看的一些知識(shí)點(diǎn)詳細(xì)資料概述。
    發(fā)表于 11-01 14:40 ?13次下載

    APT觸摸布局的一些建議詳細(xì)說(shuō)明

    本文檔的主要內(nèi)容詳細(xì)介紹的是APT觸摸布局的一些建議詳細(xì)說(shuō)明。
    發(fā)表于 10-27 08:00 ?0次下載
    APT觸摸布局的<b class='flag-5'>一些</b>建議<b class='flag-5'>詳細(xì)</b>說(shuō)明

    介紹一些基礎(chǔ)的電力知識(shí)點(diǎn)

    電力是現(xiàn)代社會(huì)不可或缺的能源之,了解電力知識(shí)有助于我們更好地利用和管理能源資源,為可持續(xù)發(fā)展貢獻(xiàn)力量。本文將為您介紹一些基礎(chǔ)的電力知識(shí)點(diǎn),讓我們共同探索能源的無(wú)限潛力。
    的頭像 發(fā)表于 08-15 15:01 ?1468次閱讀

    CNN模型的基本原理、結(jié)構(gòu)、訓(xùn)練過(guò)程及應(yīng)用領(lǐng)域

    卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,簡(jiǎn)稱CNN)是種深度學(xué)習(xí)模型,廣泛應(yīng)用于圖像識(shí)別、視頻分析、自然語(yǔ)言處理等領(lǐng)域。CNN
    的頭像 發(fā)表于 07-02 15:26 ?3910次閱讀

    cnn常用的幾個(gè)模型有哪些

    CNN(卷積神經(jīng)網(wǎng)絡(luò))是種深度學(xué)習(xí)模型,廣泛應(yīng)用于圖像識(shí)別、自然語(yǔ)言處理等領(lǐng)域。以下是一些常用的CNN
    的頭像 發(fā)表于 07-11 14:58 ?945次閱讀