0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

ICLR-17最佳論文《理解深度學(xué)習(xí)需要重新思考泛化》

DPVg_AI_era ? 來源:lq ? 2019-02-13 10:26 ? 次閱讀

ICLR-17最佳論文《理解深度學(xué)習(xí)需要重新思考泛化》曾引發(fā)學(xué)界熱議?,F(xiàn)作者張馳原和Samy Bengio等再出新作,指出神經(jīng)網(wǎng)絡(luò)每個(gè)層并非“生而平等”,進(jìn)一步拓展對神經(jīng)網(wǎng)絡(luò)泛化的理解。

今天新智元要介紹的論文是ICLR 2017最佳論文獎(jiǎng)得主、《理解深度學(xué)習(xí)需要重新思考泛化》的作者張弛原和Samy Bengio等人的新作:

神經(jīng)網(wǎng)絡(luò)的各個(gè)層生而平等嗎?(Are All Layers Created Equal?)

張弛原、Samy Bengio等人新作:神經(jīng)網(wǎng)絡(luò)各個(gè)層生而平等嗎?

在ICLR 2017那篇“重新思考泛化”的文章中,張馳原等人得出結(jié)論認(rèn)為,只要參數(shù)的數(shù)量超過實(shí)踐中通常的數(shù)據(jù)點(diǎn)的數(shù)量,即便是簡單的層數(shù)為2的神經(jīng)網(wǎng)絡(luò),就已經(jīng)具有完美的有限樣本表現(xiàn)力(finite sample expressivity)。

而在這篇新的論文中,張弛原等人繼續(xù)探討深度神經(jīng)網(wǎng)絡(luò)的泛化能力,深入到“層”的級(jí)別,并指出在研究深度模型時(shí),僅關(guān)注參數(shù)或范數(shù)(norm)的數(shù)量是遠(yuǎn)遠(yuǎn)不夠的。

研究深度模型時(shí),只考慮參數(shù)和范數(shù)的數(shù)量是不夠的

理解深層架構(gòu)的學(xué)習(xí)和泛化能力是近年來一個(gè)重要的研究目標(biāo),《理解深度學(xué)習(xí)需要重新思考泛化》發(fā)表后在學(xué)界卷起了一股風(fēng)暴,有人甚至稱其為“勢必顛覆我們對深度學(xué)習(xí)理解”。

ICLR 2017最佳論文《理解深度學(xué)習(xí)需要重新思考泛化》

ICLR 2017那篇文章指出,傳統(tǒng)方法無法解釋大規(guī)模神經(jīng)網(wǎng)絡(luò)在實(shí)踐中泛化性能好的原因,并提出了兩個(gè)新的定義——“顯示正則化”和“隱示正則化”來討論深度學(xué)習(xí)。

作者通過在CIFAR10和ImageNet的幾個(gè)不同實(shí)驗(yàn)發(fā)現(xiàn):

神經(jīng)網(wǎng)絡(luò)的有效容量對于整個(gè)數(shù)據(jù)集的暴力記憶是足夠大的;

對隨機(jī)標(biāo)簽進(jìn)行優(yōu)化的過程很容易。與對真實(shí)標(biāo)簽的訓(xùn)練相比,隨機(jī)標(biāo)簽的訓(xùn)練時(shí)間只增加了一個(gè)小的恒定因子;

標(biāo)簽進(jìn)行隨機(jī)化只是一種數(shù)據(jù)變換,神經(jīng)網(wǎng)絡(luò)要學(xué)習(xí)的問題的所有其他屬性不變。

更準(zhǔn)確地說,當(dāng)對真實(shí)數(shù)據(jù)的完全隨機(jī)標(biāo)記進(jìn)行訓(xùn)練時(shí),神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了零訓(xùn)練誤差——當(dāng)然,測試誤差并不比隨機(jī)概率好,因?yàn)橛?xùn)練標(biāo)簽和測試標(biāo)簽之間沒有相關(guān)性。

換句話說,通過單獨(dú)使標(biāo)簽隨機(jī)化,我們可以迫使模型的泛化能力顯著提升,而不改變模型、大小、超參數(shù)或優(yōu)化器。

這一次,論文又提出了兩個(gè)新的概念——(訓(xùn)練后)“重新初始化”和“重新隨機(jī)化魯棒性”,并認(rèn)為神經(jīng)網(wǎng)絡(luò)的層可以分為“關(guān)鍵層”和“魯棒層”;與關(guān)鍵層相比,將魯棒層重置為其初始值沒有負(fù)面影響,而且在許多情況下,魯棒層在整個(gè)訓(xùn)練過程中幾乎沒有變化。

作者根據(jù)經(jīng)驗(yàn)研究了過度參數(shù)化深度模型的分層功能結(jié)構(gòu),為神經(jīng)網(wǎng)絡(luò)層的異構(gòu)特征提供了證據(jù)。

再次思考神經(jīng)網(wǎng)絡(luò)泛化:各個(gè)層并非“生而平等”

深度神經(jīng)網(wǎng)絡(luò)在現(xiàn)實(shí)世界的機(jī)器學(xué)習(xí)實(shí)例中已經(jīng)得到了非常成功的應(yīng)用。在將這一系統(tǒng)應(yīng)用于許多關(guān)鍵領(lǐng)域時(shí),對系統(tǒng)的深層理解至少與其最先進(jìn)的性能同樣重要。最近,關(guān)于理解為什么深度網(wǎng)絡(luò)在實(shí)踐中表現(xiàn)優(yōu)異的研究主要集中在網(wǎng)絡(luò)在漂移下的表現(xiàn),甚至是數(shù)據(jù)分布等問題上。

與此類研究相關(guān)的另一個(gè)有趣的研究是,我們?nèi)绾谓忉尣⒗斫馐苓^訓(xùn)練的網(wǎng)絡(luò)的決策函數(shù)。雖然本文的研究問題與此相關(guān),但采取了不同的角度,我們主要關(guān)注網(wǎng)絡(luò)層在受過訓(xùn)練的網(wǎng)絡(luò)中的作用,然后將經(jīng)驗(yàn)結(jié)果與泛化、魯棒性等屬性聯(lián)系起來。

本文對神經(jīng)網(wǎng)絡(luò)表達(dá)力的理論進(jìn)行了深入研究。眾所周知,具有足夠?qū)挼膯蝹€(gè)隱藏層的神經(jīng)網(wǎng)絡(luò)是緊湊域上的連續(xù)函數(shù)的通用逼近器。

最近的研究進(jìn)一步探討了深度網(wǎng)絡(luò)的表達(dá)能力,是否真的優(yōu)于具有相同數(shù)量的單元或邊緣的淺層網(wǎng)絡(luò)。同時(shí),也廣泛討論了用有限數(shù)量的樣本表示任意函數(shù)的能力。

然而,在上述用于構(gòu)建近似于特定功能的網(wǎng)絡(luò)的研究中,使用的網(wǎng)絡(luò)結(jié)構(gòu)通常是“人工的”,且不太可能通過基于梯度的學(xué)習(xí)算法獲得。我們重點(diǎn)關(guān)注的是實(shí)證深層網(wǎng)絡(luò)架構(gòu)中不同網(wǎng)絡(luò)層發(fā)揮的作用,網(wǎng)絡(luò)采用基于梯度的訓(xùn)練。

深度神經(jīng)網(wǎng)絡(luò)的泛化研究引起了很多人的興趣。由于大神經(jīng)網(wǎng)絡(luò)無法在訓(xùn)練集上實(shí)現(xiàn)隨機(jī)標(biāo)記,這使得在假設(shè)空間上基于均勻收斂來應(yīng)用經(jīng)典學(xué)習(xí)的理論結(jié)果變得困難。

本文提供了進(jìn)一步的經(jīng)驗(yàn)證據(jù),并進(jìn)行了可能更細(xì)致的分析。尤其是,我們憑經(jīng)驗(yàn)表明,深層網(wǎng)絡(luò)中的層在表示預(yù)測函數(shù)時(shí)所起的作用并不均等。某些層對于產(chǎn)生良好的預(yù)測結(jié)果至關(guān)重要,而其他層對于在訓(xùn)練中分配其參數(shù)則具備相當(dāng)高的魯棒性。

此外,取決于網(wǎng)絡(luò)的容量和目標(biāo)函數(shù)的不同復(fù)雜度,基于梯度的訓(xùn)練網(wǎng)絡(luò)可以不使用過剩容量來保持網(wǎng)絡(luò)的復(fù)雜度。本文討論了對“泛化“這一概念的確切定義和涵蓋范圍。

全連接層(FCN)

圖1:MNIST數(shù)據(jù)集上FCN 3×256的魯棒性結(jié)果。(a)測試錯(cuò)誤率:圖中每行對應(yīng)于網(wǎng)絡(luò)中的每一層。第一列指定每個(gè)層的魯棒性w.r.t重新隨機(jī)化,其余列指定不同檢查點(diǎn)的重新初始化魯棒性。最后一列為最終性能(在訓(xùn)練期間設(shè)置的最后一個(gè)檢查點(diǎn))作為參考。(b-c)權(quán)重距離:熱圖中的每個(gè)單元表示訓(xùn)練參數(shù)與其初始權(quán)重的標(biāo)準(zhǔn)化2范數(shù)(b)或∞范數(shù)(c)距離

圖2:MNIST數(shù)據(jù)集上FCN 5×256的層魯棒性研究。兩個(gè)子圖使用與圖1(a)相同的布局。兩個(gè)子圖分別表示在測試錯(cuò)誤(默認(rèn)值)和測試損失中評估的魯棒性

大規(guī)模卷積網(wǎng)絡(luò)(CNN)

圖3:重新初始化所有層的魯棒性,但第一次使用檢查點(diǎn)0用于不同維度的隱藏層的FCN。每個(gè)條形表示完全訓(xùn)練后的模型有具有一層重新初始化的模型之間的分類誤差的差異。誤差條表示通過使用不同的隨機(jī)初始化運(yùn)行實(shí)驗(yàn)得到的一個(gè)標(biāo)準(zhǔn)偏差。

圖4:使用CIFAR10上的VGG網(wǎng)絡(luò)進(jìn)行分層魯棒性分析。熱圖使用與圖1中相同的布局,但加以轉(zhuǎn)置,以便更有效地對更深層的架構(gòu)進(jìn)行可視化。

殘差網(wǎng)絡(luò)(ResNets)

圖5:在CIFAR10上訓(xùn)練的ResNets殘差塊的分層魯棒性分析。

圖6:在ImageNet上訓(xùn)練的ResNets殘差塊的分層魯棒性分析

圖7:采用/不采用下采樣跳過分支的殘余塊(來自ResNets V2)。C,N和R分別代表卷積、(批量)歸一化和ReLU激活

網(wǎng)絡(luò)層的聯(lián)合魯棒性

圖8:MNIST上FCN 5×256的聯(lián)合魯棒性分析。布局與圖1中的相同,但是圖層分為兩組(每個(gè)圖層中圖層名稱上的*標(biāo)記表示),對每組中的所有圖層全部應(yīng)用重新隨機(jī)化和重新初始化。

圖9:CIFAR10上ResNets的聯(lián)合魯棒性分析,基于對所有剩余階段中除第一個(gè)殘余塊之外的所有剩余塊進(jìn)行分組的方案。分組由圖層名稱上的*表示。

圖10:CIFAR10上ResNets的聯(lián)合魯棒性分析,以及其他分組方案。分組由圖層名稱上的*表示

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:ICLR-17最佳論文一作張弛原新作:神經(jīng)網(wǎng)絡(luò)層并非“生而平等”

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    ICLR 2019論文解讀:深度學(xué)習(xí)應(yīng)用于復(fù)雜系統(tǒng)控制

    的影響。最近在信息論里,深度學(xué)習(xí)也產(chǎn)生了重要影響。使用深度學(xué)習(xí)可以對不同形式編碼的信息進(jìn)行自動(dòng)解碼。如今,深度
    的頭像 發(fā)表于 01-10 14:53 ?7955次閱讀
    <b class='flag-5'>ICLR</b> 2019<b class='flag-5'>論文</b>解讀:<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>應(yīng)用于復(fù)雜系統(tǒng)控制

    谷歌工程師機(jī)器學(xué)習(xí)干貨:從表現(xiàn)力、可訓(xùn)練性和三方面詳解

    這篇文章可能是本年度最佳機(jī)器學(xué)習(xí)技術(shù)及研究總結(jié)之一,當(dāng)我閱讀機(jī)器學(xué)習(xí)論文時(shí),我會(huì)問自己,這篇論文的貢獻(xiàn)是否屬于:1)表現(xiàn)力(Expressi
    的頭像 發(fā)表于 11-26 22:02 ?5294次閱讀

    谷歌工程師淺談Bengio深度學(xué)習(xí)論文的重要性

    理解深度學(xué)習(xí)需要重新思考
    發(fā)表于 01-06 09:31 ?1033次閱讀

    深度學(xué)習(xí)如何確定最佳深度

    確定最佳深度可以降低運(yùn)算成本,同時(shí)可以進(jìn)一步提高精度。針對深度置信網(wǎng)絡(luò)深度選擇的問題,文章分析了通過設(shè)定閾值方法選擇最佳
    發(fā)表于 04-04 15:46 ?3899次閱讀
    <b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>如何確定<b class='flag-5'>最佳</b><b class='flag-5'>深度</b>?

    探索機(jī)器“視覺”演進(jìn)的無限可能性 Qualcomm AI研究人員獲得ICLR殊榮

    Qualcomm AI研究人員獲得ICLR殊榮:“球面卷積神經(jīng)網(wǎng)絡(luò)(spherical Convolutional Neural Networks,縮寫CNNs)”榮獲ICLR 2018年度最佳
    的頭像 發(fā)表于 05-10 14:08 ?5226次閱讀

    ICLR 2019在官網(wǎng)公布了最佳論文獎(jiǎng)!

    今年 ICLR 共接收 1578 篇投稿,相較去年 981 篇有了很大的增加,錄用結(jié)果如下:1.5% 錄用為 oral 論文(24 篇)、30.2% 錄用為 poster 論文(476 篇),58%
    的頭像 發(fā)表于 05-07 09:00 ?4473次閱讀
    <b class='flag-5'>ICLR</b> 2019在官網(wǎng)公布了<b class='flag-5'>最佳</b><b class='flag-5'>論文</b>獎(jiǎng)!

    ICLR 2019最佳論文日前揭曉 微軟與麻省等獲最佳論文獎(jiǎng)項(xiàng)

    ICLR 2019最佳論文日前揭曉。來自微軟研究院、加拿大蒙特利爾學(xué)習(xí)算法研究所 (MILA)和來自麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(MIT CSAIL)奪得本次大會(huì)的
    的頭像 發(fā)表于 05-11 09:10 ?2393次閱讀

    谷歌發(fā)表論文EfficientNet 重新思考CNN模型縮放

    谷歌AI研究部門華人科學(xué)家再發(fā)論文《EfficientNet:重新思考CNN模型縮放》,模型縮放的傳統(tǒng)做法是任意增加CNN的深度和寬度,或使用更大的輸入圖像分辨率進(jìn)行訓(xùn)練,而使
    的頭像 發(fā)表于 06-03 14:19 ?6194次閱讀
    谷歌發(fā)表<b class='flag-5'>論文</b>EfficientNet <b class='flag-5'>重新</b><b class='flag-5'>思考</b>CNN模型縮放

    在電力物聯(lián)網(wǎng)的發(fā)展真的需要5G嗎

    站在產(chǎn)業(yè)智能升級(jí)、電力市場帶來的新機(jī)會(huì)、在物聯(lián)技術(shù)生態(tài)配套等不同角度去理解思考
    發(fā)表于 07-12 15:28 ?989次閱讀

    自監(jiān)督學(xué)習(xí)與Transformer相關(guān)論文

    將在明年5月4日舉行,目前,本次大會(huì)投稿已經(jīng)結(jié)束,最后共有3013篇論文提交。ICLR 采用公開評審機(jī)制,任何人都可以提前看到這些論文。 為了分析最新研究動(dòng)向,我們精選了涵蓋自監(jiān)督學(xué)習(xí)
    的頭像 發(fā)表于 11-02 15:50 ?2714次閱讀
    自監(jiān)督<b class='flag-5'>學(xué)習(xí)</b>與Transformer相關(guān)<b class='flag-5'>論文</b>

    如何理解深度學(xué)習(xí)領(lǐng)域尚未解決的基礎(chǔ)問題

    如何理解深度學(xué)習(xí)領(lǐng)域尚未解決的基礎(chǔ)問題之一。為什么使用有限訓(xùn)練數(shù)據(jù)集優(yōu)化模型能使模型在預(yù)留測試集上取得良好表現(xiàn)?這一問題距今已有 50
    的頭像 發(fā)表于 04-08 17:56 ?2675次閱讀
    如何<b class='flag-5'>理解</b><b class='flag-5'>泛</b><b class='flag-5'>化</b>是<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>領(lǐng)域尚未解決的基礎(chǔ)問題

    基于深度學(xué)習(xí)的評論文本推薦方法

    傳統(tǒng)推薦系統(tǒng)依賴人工進(jìn)行規(guī)則設(shè)計(jì)和特征提取,對評論文本內(nèi)容的特征和隱信息的提取能力有限。針對該問題,融合注意力機(jī)制并基于深度學(xué)習(xí)對推薦系統(tǒng)進(jìn)行改進(jìn),提出一種對評論文
    發(fā)表于 06-09 15:39 ?5次下載

    基于評分矩陣與評論文本的深度學(xué)習(xí)模型

    基于評分矩陣與評論文本的深度學(xué)習(xí)模型
    發(fā)表于 06-24 11:20 ?58次下載

    深度學(xué)習(xí)頂級(jí)學(xué)術(shù)會(huì)議ICLR 2023錄用結(jié)果已經(jīng)公布!

    在機(jī)器學(xué)習(xí)社區(qū)中,ICLR 是較為「年輕」的學(xué)術(shù)會(huì)議,它由深度學(xué)習(xí)巨頭、圖靈獎(jiǎng)獲得者 Yoshua Bengio 和 Yann LeCun 牽頭舉辦,2013 年才剛剛舉辦第一屆。不過
    的頭像 發(fā)表于 02-07 11:10 ?1663次閱讀

    PyTorch教程5.5之深度學(xué)習(xí)中的

    電子發(fā)燒友網(wǎng)站提供《PyTorch教程5.5之深度學(xué)習(xí)中的.pdf》資料免費(fèi)下載
    發(fā)表于 06-05 15:31 ?1次下載
    PyTorch教程5.5之<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>中的<b class='flag-5'>泛</b><b class='flag-5'>化</b>