0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

DNN解決ImageNet時的策略似乎比我們想象的要簡單得多

DPVg_AI_era ? 來源:lq ? 2019-02-16 11:12 ? 次閱讀

ICLR 2019一篇論文指出:DNN解決ImageNet時的策略似乎比我們想象的要簡單得多。這個發(fā)現(xiàn)使我們能夠構(gòu)建更具解釋性和透明度的圖像分類管道,同時也解釋了現(xiàn)代CNN中觀察到的一些現(xiàn)象。

建議收藏本文,并轉(zhuǎn)發(fā)到朋友圈,讓更多人受益

CNN非常擅長對亂序圖像進行分類,但人類并非如此。

在這篇文章中,作者展示了為什么最先進的深度神經(jīng)網(wǎng)絡(luò)仍能很好地識別亂碼圖像,探究其中原因有助于揭示DNN使用讓人意想不到的簡單策略,對自然圖像進行分類。

ICLR 2019一篇論文指出上述發(fā)現(xiàn)能夠:

解決ImageNet比許多人想象的要簡單得多

使我們能夠構(gòu)建更具解釋性和透明度的圖像分類pipeline

解釋了現(xiàn)代CNN中觀察到的一些現(xiàn)象,例如對紋理的偏見以及忽略了對象部分的空間排序

復古bag-of-features模型

深度學習出現(xiàn)之前,自然圖像中的對象識別過程相當粗暴簡單:定義一組關(guān)鍵視覺特征(“單詞”),識別每個視覺特征在圖像中的存在頻率(“包”),然后根據(jù)這些數(shù)字對圖像進行分類。 這些模型被稱為“特征包”模型(BoF模型)。

舉個例子,給定一個人眼和一個羽毛,我們想把圖像分類為“人”和“鳥”兩類。最簡單的BoF模型工作流程是這樣的:對于圖像中的每只眼睛,它將“人類”的證據(jù)增加+1。反之亦然;對于圖像中的每個羽毛,它將增加“鳥”的證據(jù)+1;無論什么類積累,圖像中的大多數(shù)證據(jù)都是預(yù)測的。

這個最簡單的BoF模型有一個很好的特性,是它的可解釋性和透明的決策制定。我們可以準確地檢查哪個圖像特征攜帶了給定的類的證據(jù),證據(jù)的空間整合是非常簡單的(與深度神經(jīng)網(wǎng)絡(luò)中的深度非線性特征整合相比),很容易理解模型如何做出決定。

傳統(tǒng)的BoF模型在深度學習開始之前一直非常先進、非常流行。但由于其分類性能過低,而很快失寵。可是,我們怎么確定深度神經(jīng)網(wǎng)絡(luò)有沒有使用與BoF模型截然不同的決策策略呢?

一個很深卻可解釋的BoF網(wǎng)絡(luò)(BagNet)

為了測試這一點,研究人員將BoF模型的可解釋性和透明度與DNN的性能結(jié)合起來。

將圖像分割成小的q x q圖像色塊

通過DNN傳遞補丁以獲取每個補丁的類證據(jù)(logits)

對所有補丁的證據(jù)求和,以達到圖像級決策

BagNets的分類策略:對于每個補丁,我們使用DNN提取類證據(jù)(logits)并總結(jié)所有補丁的總類證據(jù)

為了以最簡單和最有效的方式實現(xiàn)這一策略,我們采用標準的ResNet-50架構(gòu),用1x1卷積替換大多數(shù)(但不是全部)3x3卷積。

在這種情況下,最后一個卷積層中的隱藏單元每個只“看到”圖像的一小部分(即它們的感受野遠小于圖像的大小)。

這就避免了對圖像的顯式分區(qū),并且盡可能接近標準CNN,同時仍然實現(xiàn)概述的策略,我們稱之為模型結(jié)構(gòu)BagNet-q:其中q代表最頂層的感受域大?。ㄎ覀儨y試q=9,17和33)。BagNet-q的運行時間大約是ResNet-50的運行時間的2.5倍。

在ImageNet上具有不同貼片尺寸的BagNets的性能。

即使對于非常小的貼片尺寸,BagNet上的BagNets性能也令人印象深刻:尺寸為17 x 17像素的圖像特征足以達到AlexNet級別的性能,而尺寸為33 x 33像素的特征足以達到約87%的前5精度。通過更仔細地放置3 x 3卷積和額外的超參數(shù)調(diào)整,可以實現(xiàn)更高的性能值。

這是我們得到的第一個重要結(jié)果:只需使用一組小圖的特性即可解決ImageNet問題。對象形狀或?qū)ο蟛糠种g的關(guān)系等遠程空間關(guān)系可以完全忽略,并且不需要解決任務(wù)。

BagNets的一大特色是他們透明的決策。例如,我們現(xiàn)在可以查看哪個圖像特征對于給定的類最具預(yù)測性。

圖像功能具有最多的類證據(jù)。 我們展示了正確預(yù)測類(頂行)的功能和預(yù)測錯誤類(底行)的分散注意力的功能

上圖中,最上面的手指圖像被識別成tench(丁鱥guì,是淡水釣魚的主要魚種,也是鱸魚等獵食性魚類的飼料),因為這個類別中的大多數(shù)圖像,都有一個漁民像舉獎杯一樣舉起丁鱥。

同樣,我們還得到一個精確定義的熱圖,顯示圖像的哪些部分促使神經(jīng)網(wǎng)絡(luò)做出某個決定。

來自BagNets的熱圖顯示了確切的圖像部分對決策的貢獻。 熱圖不是近似的,而是顯示每個圖像部分的真實貢獻。

ResNet-50與BagNets驚人相似

BagNets表明,基于本地圖像特征和對象類別之間的弱統(tǒng)計相關(guān)性,可以在ImageNet上達到高精度。

如果這就夠了,為什么像ResNet-50這樣的標準深網(wǎng)會學到任何根本不同的東西? 如果豐富的本地圖像特征足以解決任務(wù),那為什么ResNet-50還需要了解復雜的大尺度關(guān)系(如對象的形狀)?

為了驗證現(xiàn)代DNN遵循與簡單的特征包網(wǎng)絡(luò)類似的策略的假設(shè),我們在BagNets的以下“簽名”上測試不同的ResNets,DenseNets和VGG:

決策對圖像特征的空間改組是不變的(只能在VGG模型上測試)

不同圖像部分的修改應(yīng)該是獨立的(就其對總類證據(jù)的影響而言)

標準CNN和BagNets產(chǎn)生的錯誤應(yīng)該類似

標準CNN和BagNets應(yīng)對類似功能敏感

在所有四個實驗中,我們發(fā)現(xiàn)CNN和BagNets之間的行為非常相似。 例如,在上一個實驗中,我們展示了BagNets最敏感的那些圖像部分(例如,如果你遮擋那些部分)與CNN最敏感的那些基本相同。

實際上,BagNets的熱圖(靈敏度的空間圖)比由DeepLift(直接為DenseNet-169計算熱圖)等歸因方法生成的熱圖,更好地預(yù)測了DenseNet-169的靈敏度。

當然,DNN并不完全類似于特征包模型,但確實顯示出一些偏差。特別是,我們發(fā)現(xiàn)網(wǎng)絡(luò)越深入,功能越來越大,遠程依賴性也越來越大。

因此,更深層的神經(jīng)網(wǎng)絡(luò)確實改進了更簡單的特征包模型,但我認為核心分類策略并沒有真正改變。

解釋CNN幾個奇怪的現(xiàn)象

將CNN的決策視為一種BoF策略,可以解釋有關(guān)CNN的幾個奇怪的觀察。首先,它將解釋為什么CNN具有如此強烈的紋理偏差;其次,它可以解釋為什么CNN對圖像部分的混亂如此不敏感;甚至可以解釋一般的對抗性貼紙和對抗性擾動的存在,比如人們在圖像中的任何地方放置誤導信號,并且無論這些信號是否適合圖像的其余部分,CNN仍然可以可靠地接收信號。

我們的成果顯示,CNN利用自然圖像中存在的許多弱統(tǒng)計規(guī)律進行分類,并且不會像人類一樣跳向圖像部分的對象級整合。其他任務(wù)和感官方式也是如此。

我們必須認真思考如何構(gòu)建架構(gòu)、任務(wù)和學習方法,以抵消這種弱統(tǒng)計相關(guān)性的趨勢。一種方式,是將CNN的歸納偏差從小的局部特征改善為更全局的特征;另一種方式,是刪除、或替換網(wǎng)絡(luò)不應(yīng)該依賴的那些特征。

然而,最大的問題之一當然是圖像分類本身的任務(wù):如果局部圖像特征足以解決任務(wù),也就不需要去學習自然界的真實“物理學”,這樣我們就必須重構(gòu)任務(wù),推著模型去學習對象的物理本質(zhì)。

這樣就很可能需要跳出純粹只通過觀察學習,獲得輸入和輸出特征之間相關(guān)性的方式,以便允許模型提取因果依賴性。

總結(jié)

總之,我們的結(jié)果表明CNN可能遵循極其簡單的分類策略。科學家認為這個發(fā)現(xiàn)可能在2019繼續(xù)成為關(guān)注的焦點,凸顯了我們對深度神經(jīng)網(wǎng)絡(luò)的內(nèi)部運作了解甚少。

缺乏理解使我們無法從根本上發(fā)展出更好的模型和架構(gòu),來縮小人與機器之間的差距。深化我們的理解,將使我們能夠找到彌合這一差距的方法。

這將帶來異常豐厚的回報:當我們試圖將CNN偏向物體的更多物理特性時,我們突然達到了接近人類的噪聲穩(wěn)健性。

我們繼續(xù)期待在2019年,在這一領(lǐng)域上會出現(xiàn)更多令人興奮的結(jié)果,獲得真正了解了真實世界中,物理和因果性質(zhì)的卷積神經(jīng)網(wǎng)絡(luò)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4772

    瀏覽量

    100845
  • 圖像分類
    +關(guān)注

    關(guān)注

    0

    文章

    90

    瀏覽量

    11932
  • 深度學習
    +關(guān)注

    關(guān)注

    73

    文章

    5504

    瀏覽量

    121229

原文標題:實際上,CNN圖像分類策略簡單到出人意料!

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    【我是電子發(fā)燒友】如何加速DNN運算?

    所接收的值的組合。此外,神經(jīng)元并不僅僅是輸入信號的加權(quán)和,如果是這樣的話,級聯(lián)的神經(jīng)元的計算將是一種簡單的線性代數(shù)運算。相反的是,神經(jīng)元組合輸入的操作似乎是一種非線性函數(shù),只有輸入達到某個閾值的時候
    發(fā)表于 06-14 21:01

    什么是DNN_如何使用硬件加速DNN運算

    深度神經(jīng)網(wǎng)絡(luò)(DNN)目前是許多現(xiàn)代AI應(yīng)用的基礎(chǔ)。自從DNN在語音識別和圖像識別任務(wù)中展現(xiàn)出突破性的成果,使用DNN的應(yīng)用數(shù)量呈爆炸式增加。這些DNN方法被大量應(yīng)用在無人駕駛汽車,癌
    的頭像 發(fā)表于 07-08 06:45 ?2.2w次閱讀
    什么是<b class='flag-5'>DNN</b>_如何使用硬件加速<b class='flag-5'>DNN</b>運算

    索尼發(fā)布新的方法,在ImageNet數(shù)據(jù)集上224秒內(nèi)成功訓練了ResNet-50

    近年來,許多研究人員提出了多種方案來解決這兩個問題(見原文參考文獻)。這些工作利用ImageNet/ResNet-50訓練來衡量訓練效果。ImageNet/ResNet-50分別是最流行的數(shù)據(jù)集和最流行的DNN模型,用于對大規(guī)模
    的頭像 發(fā)表于 11-16 10:01 ?9827次閱讀

    機器學習與人工智能的思考

    我們知道的遠比我們說出來的得多,我們不知道的遠比我們知道的
    的頭像 發(fā)表于 02-02 16:47 ?2149次閱讀

    計算機行業(yè)即將迎來一場量子革命

    我們對新技術(shù)的迷戀似乎總是遵循著同樣的軌跡:我們時而著迷,時而崇拜,時而失望,時而沮喪,最終得到的滿足比我們最初想象
    的頭像 發(fā)表于 02-25 15:38 ?2081次閱讀

    研究人員讓機器人理解和學習人類的雙手動作 不只是模仿那么簡單

    如果機器人真的可以幫助我們在房子周圍或照顧我們的受傷和老人,當然用兩只手更方便,但是使用雙手比我們想象起來困難得多。
    的頭像 發(fā)表于 05-31 09:30 ?3356次閱讀

    科普一下VR行業(yè)不僅僅只有游戲

    我們平時聽到的VR一般都是VR游戲,VR電影,VR旅游等VR的娛樂性應(yīng)用。但其實VR的應(yīng)用遠比我們想象廣泛,VR對我們的生活影響遠
    發(fā)表于 08-20 15:46 ?794次閱讀

    騰訊物聯(lián)網(wǎng)系統(tǒng)TOS內(nèi)核移植起來比你想象簡單

    騰訊物聯(lián)網(wǎng)系統(tǒng)TOS,內(nèi)核移植起來比你想象簡單
    的頭像 發(fā)表于 02-05 12:51 ?2489次閱讀

    ?VR的成長速度遠比我們想象中的要快——LUCI immers頭戴測評

    可否認的是,VR正在像高處發(fā)展,或許它成長的速度遠比我們想象中的要快。 大家看到我下面配圖的這款VR眼鏡,這是我最初體驗的一款VR產(chǎn)品,由于是內(nèi)嵌手機實現(xiàn)運算和顯示,VR眼鏡本身只是發(fā)揮了凸透鏡的作用,價格很低廉,體驗感受也是一言
    的頭像 發(fā)表于 06-01 16:51 ?3653次閱讀

    FPGA的用處比我們平時想象的用處更廣泛

    FPGA的用處比我們平時想象的用處更廣泛,原因在于其中集成的模塊種類更多,而不僅僅是原來的簡單邏輯單元(LE)。
    的頭像 發(fā)表于 07-08 11:33 ?7396次閱讀

    機器人正迅速變得比我們預(yù)期的更加熟練地使用輪子

    上找不到真正的輪子運動。當人類發(fā)現(xiàn)輪子有多有用時,我們(作者,以下簡稱我)也會嘗試把輪子綁在我們的腳上,以使我們在特定條件下的運動更有效。不過這種方法似乎并沒有持續(xù)很長時間,因為機器人
    的頭像 發(fā)表于 01-05 09:12 ?1482次閱讀

    淺析深度神經(jīng)網(wǎng)絡(luò)(DNN)反向傳播算法(BP)

    在 深度神經(jīng)網(wǎng)絡(luò)(DNN)模型與前向傳播算法 中,我們DNN的模型和前向傳播算法做了總結(jié),這里我們更進一步,對DNN的反向傳播算法(Bac
    的頭像 發(fā)表于 03-22 16:28 ?3672次閱讀
    淺析深度神經(jīng)網(wǎng)絡(luò)(<b class='flag-5'>DNN</b>)反向傳播算法(BP)

    AI芯片設(shè)計DNN加速器buffer管理策略

    如前所述,數(shù)據(jù)緩存是創(chuàng)建高效DNN加速器的關(guān)鍵組件之一。因此,除了選擇適當?shù)臄?shù)據(jù)流(控制數(shù)據(jù)緩存的位置和時間)外,DNN加速器還需要一個緩存方案
    的頭像 發(fā)表于 10-17 17:23 ?1466次閱讀
    AI芯片設(shè)計<b class='flag-5'>DNN</b>加速器buffer管理<b class='flag-5'>策略</b>

    過孔溫度,沒有我們想象那么高

    過孔溫度,沒有我們想象那么高
    的頭像 發(fā)表于 12-07 16:55 ?537次閱讀
    過孔溫度,沒有<b class='flag-5'>我們</b><b class='flag-5'>想象</b>那么高

    深度神經(jīng)網(wǎng)絡(luò)(DNN)架構(gòu)解析與優(yōu)化策略

    堆疊多個隱藏層,逐步提取和轉(zhuǎn)化輸入數(shù)據(jù)的特征,最終實現(xiàn)復雜的預(yù)測和分類任務(wù)。本文將對DNN的架構(gòu)進行詳細解析,并探討其優(yōu)化策略,以期為相關(guān)研究和應(yīng)用提供參考。
    的頭像 發(fā)表于 07-09 11:00 ?1922次閱讀