ICLR-17最佳論文《理解深度學(xué)習(xí)需要重新思考泛化》曾引發(fā)學(xué)界熱議?,F(xiàn)作者張馳原和Samy Bengio等再出新作,指出神經(jīng)網(wǎng)絡(luò)每個(gè)層并非“生而平等”,進(jìn)一步拓展對神經(jīng)網(wǎng)絡(luò)泛化的理解。
今天新智元要介紹的論文是ICLR 2017最佳論文獎(jiǎng)得主、《理解深度學(xué)習(xí)需要重新思考泛化》的作者張弛原和Samy Bengio等人的新作:
神經(jīng)網(wǎng)絡(luò)的各個(gè)層生而平等嗎?(Are All Layers Created Equal?)
張弛原、Samy Bengio等人新作:神經(jīng)網(wǎng)絡(luò)各個(gè)層生而平等嗎?
在ICLR 2017那篇“重新思考泛化”的文章中,張馳原等人得出結(jié)論認(rèn)為,只要參數(shù)的數(shù)量超過實(shí)踐中通常的數(shù)據(jù)點(diǎn)的數(shù)量,即便是簡單的層數(shù)為2的神經(jīng)網(wǎng)絡(luò),就已經(jīng)具有完美的有限樣本表現(xiàn)力(finite sample expressivity)。
而在這篇新的論文中,張弛原等人繼續(xù)探討深度神經(jīng)網(wǎng)絡(luò)的泛化能力,深入到“層”的級(jí)別,并指出在研究深度模型時(shí),僅關(guān)注參數(shù)或范數(shù)(norm)的數(shù)量是遠(yuǎn)遠(yuǎn)不夠的。
研究深度模型時(shí),只考慮參數(shù)和范數(shù)的數(shù)量是不夠的
理解深層架構(gòu)的學(xué)習(xí)和泛化能力是近年來一個(gè)重要的研究目標(biāo),《理解深度學(xué)習(xí)需要重新思考泛化》發(fā)表后在學(xué)界卷起了一股風(fēng)暴,有人甚至稱其為“勢必顛覆我們對深度學(xué)習(xí)理解”。
ICLR 2017最佳論文《理解深度學(xué)習(xí)需要重新思考泛化》
ICLR 2017那篇文章指出,傳統(tǒng)方法無法解釋大規(guī)模神經(jīng)網(wǎng)絡(luò)在實(shí)踐中泛化性能好的原因,并提出了兩個(gè)新的定義——“顯示正則化”和“隱示正則化”來討論深度學(xué)習(xí)。
作者通過在CIFAR10和ImageNet的幾個(gè)不同實(shí)驗(yàn)發(fā)現(xiàn):
神經(jīng)網(wǎng)絡(luò)的有效容量對于整個(gè)數(shù)據(jù)集的暴力記憶是足夠大的;
對隨機(jī)標(biāo)簽進(jìn)行優(yōu)化的過程很容易。與對真實(shí)標(biāo)簽的訓(xùn)練相比,隨機(jī)標(biāo)簽的訓(xùn)練時(shí)間只增加了一個(gè)小的恒定因子;
對標(biāo)簽進(jìn)行隨機(jī)化只是一種數(shù)據(jù)變換,神經(jīng)網(wǎng)絡(luò)要學(xué)習(xí)的問題的所有其他屬性不變。
更準(zhǔn)確地說,當(dāng)對真實(shí)數(shù)據(jù)的完全隨機(jī)標(biāo)記進(jìn)行訓(xùn)練時(shí),神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了零訓(xùn)練誤差——當(dāng)然,測試誤差并不比隨機(jī)概率好,因?yàn)橛?xùn)練標(biāo)簽和測試標(biāo)簽之間沒有相關(guān)性。
換句話說,通過單獨(dú)使標(biāo)簽隨機(jī)化,我們可以迫使模型的泛化能力顯著提升,而不改變模型、大小、超參數(shù)或優(yōu)化器。
這一次,論文又提出了兩個(gè)新的概念——(訓(xùn)練后)“重新初始化”和“重新隨機(jī)化魯棒性”,并認(rèn)為神經(jīng)網(wǎng)絡(luò)的層可以分為“關(guān)鍵層”和“魯棒層”;與關(guān)鍵層相比,將魯棒層重置為其初始值沒有負(fù)面影響,而且在許多情況下,魯棒層在整個(gè)訓(xùn)練過程中幾乎沒有變化。
作者根據(jù)經(jīng)驗(yàn)研究了過度參數(shù)化深度模型的分層功能結(jié)構(gòu),為神經(jīng)網(wǎng)絡(luò)層的異構(gòu)特征提供了證據(jù)。
再次思考神經(jīng)網(wǎng)絡(luò)泛化:各個(gè)層并非“生而平等”
深度神經(jīng)網(wǎng)絡(luò)在現(xiàn)實(shí)世界的機(jī)器學(xué)習(xí)實(shí)例中已經(jīng)得到了非常成功的應(yīng)用。在將這一系統(tǒng)應(yīng)用于許多關(guān)鍵領(lǐng)域時(shí),對系統(tǒng)的深層理解至少與其最先進(jìn)的性能同樣重要。最近,關(guān)于理解為什么深度網(wǎng)絡(luò)在實(shí)踐中表現(xiàn)優(yōu)異的研究主要集中在網(wǎng)絡(luò)在漂移下的表現(xiàn),甚至是數(shù)據(jù)分布等問題上。
與此類研究相關(guān)的另一個(gè)有趣的研究是,我們?nèi)绾谓忉尣⒗斫馐苓^訓(xùn)練的網(wǎng)絡(luò)的決策函數(shù)。雖然本文的研究問題與此相關(guān),但采取了不同的角度,我們主要關(guān)注網(wǎng)絡(luò)層在受過訓(xùn)練的網(wǎng)絡(luò)中的作用,然后將經(jīng)驗(yàn)結(jié)果與泛化、魯棒性等屬性聯(lián)系起來。
本文對神經(jīng)網(wǎng)絡(luò)表達(dá)力的理論進(jìn)行了深入研究。眾所周知,具有足夠?qū)挼膯蝹€(gè)隱藏層的神經(jīng)網(wǎng)絡(luò)是緊湊域上的連續(xù)函數(shù)的通用逼近器。
最近的研究進(jìn)一步探討了深度網(wǎng)絡(luò)的表達(dá)能力,是否真的優(yōu)于具有相同數(shù)量的單元或邊緣的淺層網(wǎng)絡(luò)。同時(shí),也廣泛討論了用有限數(shù)量的樣本表示任意函數(shù)的能力。
然而,在上述用于構(gòu)建近似于特定功能的網(wǎng)絡(luò)的研究中,使用的網(wǎng)絡(luò)結(jié)構(gòu)通常是“人工的”,且不太可能通過基于梯度的學(xué)習(xí)算法獲得。我們重點(diǎn)關(guān)注的是實(shí)證深層網(wǎng)絡(luò)架構(gòu)中不同網(wǎng)絡(luò)層發(fā)揮的作用,網(wǎng)絡(luò)采用基于梯度的訓(xùn)練。
深度神經(jīng)網(wǎng)絡(luò)的泛化研究引起了很多人的興趣。由于大神經(jīng)網(wǎng)絡(luò)無法在訓(xùn)練集上實(shí)現(xiàn)隨機(jī)標(biāo)記,這使得在假設(shè)空間上基于均勻收斂來應(yīng)用經(jīng)典學(xué)習(xí)的理論結(jié)果變得困難。
本文提供了進(jìn)一步的經(jīng)驗(yàn)證據(jù),并進(jìn)行了可能更細(xì)致的分析。尤其是,我們憑經(jīng)驗(yàn)表明,深層網(wǎng)絡(luò)中的層在表示預(yù)測函數(shù)時(shí)所起的作用并不均等。某些層對于產(chǎn)生良好的預(yù)測結(jié)果至關(guān)重要,而其他層對于在訓(xùn)練中分配其參數(shù)則具備相當(dāng)高的魯棒性。
此外,取決于網(wǎng)絡(luò)的容量和目標(biāo)函數(shù)的不同復(fù)雜度,基于梯度的訓(xùn)練網(wǎng)絡(luò)可以不使用過剩容量來保持網(wǎng)絡(luò)的復(fù)雜度。本文討論了對“泛化“這一概念的確切定義和涵蓋范圍。
全連接層(FCN)
圖1:MNIST數(shù)據(jù)集上FCN 3×256的魯棒性結(jié)果。(a)測試錯(cuò)誤率:圖中每行對應(yīng)于網(wǎng)絡(luò)中的每一層。第一列指定每個(gè)層的魯棒性w.r.t重新隨機(jī)化,其余列指定不同檢查點(diǎn)的重新初始化魯棒性。最后一列為最終性能(在訓(xùn)練期間設(shè)置的最后一個(gè)檢查點(diǎn))作為參考。(b-c)權(quán)重距離:熱圖中的每個(gè)單元表示訓(xùn)練參數(shù)與其初始權(quán)重的標(biāo)準(zhǔn)化2范數(shù)(b)或∞范數(shù)(c)距離
圖2:MNIST數(shù)據(jù)集上FCN 5×256的層魯棒性研究。兩個(gè)子圖使用與圖1(a)相同的布局。兩個(gè)子圖分別表示在測試錯(cuò)誤(默認(rèn)值)和測試損失中評估的魯棒性
大規(guī)模卷積網(wǎng)絡(luò)(CNN)
圖3:重新初始化所有層的魯棒性,但第一次使用檢查點(diǎn)0用于不同維度的隱藏層的FCN。每個(gè)條形表示完全訓(xùn)練后的模型有具有一層重新初始化的模型之間的分類誤差的差異。誤差條表示通過使用不同的隨機(jī)初始化運(yùn)行實(shí)驗(yàn)得到的一個(gè)標(biāo)準(zhǔn)偏差。
圖4:使用CIFAR10上的VGG網(wǎng)絡(luò)進(jìn)行分層魯棒性分析。熱圖使用與圖1中相同的布局,但加以轉(zhuǎn)置,以便更有效地對更深層的架構(gòu)進(jìn)行可視化。
殘差網(wǎng)絡(luò)(ResNets)
圖5:在CIFAR10上訓(xùn)練的ResNets殘差塊的分層魯棒性分析。
圖6:在ImageNet上訓(xùn)練的ResNets殘差塊的分層魯棒性分析
圖7:采用/不采用下采樣跳過分支的殘余塊(來自ResNets V2)。C,N和R分別代表卷積、(批量)歸一化和ReLU激活
網(wǎng)絡(luò)層的聯(lián)合魯棒性
圖8:MNIST上FCN 5×256的聯(lián)合魯棒性分析。布局與圖1中的相同,但是圖層分為兩組(每個(gè)圖層中圖層名稱上的*標(biāo)記表示),對每組中的所有圖層全部應(yīng)用重新隨機(jī)化和重新初始化。
圖9:CIFAR10上ResNets的聯(lián)合魯棒性分析,基于對所有剩余階段中除第一個(gè)殘余塊之外的所有剩余塊進(jìn)行分組的方案。分組由圖層名稱上的*表示。
圖10:CIFAR10上ResNets的聯(lián)合魯棒性分析,以及其他分組方案。分組由圖層名稱上的*表示
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4777瀏覽量
100977 -
網(wǎng)絡(luò)架構(gòu)
+關(guān)注
關(guān)注
1文章
94瀏覽量
12605 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5511瀏覽量
121362
原文標(biāo)題:ICLR-17最佳論文一作張弛原新作:神經(jīng)網(wǎng)絡(luò)層并非“生而平等”
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論