深度學(xué)習(xí)的網(wǎng)絡(luò)訓(xùn)練損失問題一直是學(xué)術(shù)界關(guān)注的熱點(diǎn)。過去,利用梯度下降法找到的一般都是局部最優(yōu)解。近日,CMU、MIT和北京大學(xué)的研究人員分別對深度全連接前饋神經(jīng)網(wǎng)絡(luò)、ResNet和卷積ResNet進(jìn)行了分析,并表明利用梯度下降可以找到全局最小值,在多項(xiàng)式時(shí)間內(nèi)實(shí)現(xiàn)零訓(xùn)練損失。
在目標(biāo)函數(shù)非凸的情況下,梯度下降在訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)中也能夠找到全局最小值。本文證明,對于具有殘差連接的超參數(shù)化的深度神經(jīng)網(wǎng)絡(luò)(ResNet),采用梯度下降可以在多項(xiàng)式時(shí)間內(nèi)實(shí)現(xiàn)零訓(xùn)練損失。
本文的分析基于由神經(jīng)網(wǎng)絡(luò)架構(gòu)建立的Gram矩陣的特定結(jié)構(gòu)。該結(jié)構(gòu)顯示在整個(gè)訓(xùn)練過程中,Gram矩陣是穩(wěn)定的,并且這種穩(wěn)定性意味著梯度下降算法的全局最優(yōu)性。使用ResNet可以獲得相對于全連接的前饋網(wǎng)絡(luò)架構(gòu)的優(yōu)勢。
對于前饋神經(jīng)網(wǎng)絡(luò),邊界要求每層網(wǎng)絡(luò)中的神經(jīng)元數(shù)量隨網(wǎng)絡(luò)深度的增加呈指數(shù)級增長。對于ResNet,只要求每層的神經(jīng)元數(shù)量隨著網(wǎng)絡(luò)深度的實(shí)現(xiàn)多項(xiàng)式縮放。我們進(jìn)一步將此類分析擴(kuò)展到深度殘余卷積神經(jīng)網(wǎng)絡(luò)上,并獲得了類似的收斂結(jié)果。
找到梯度下降全局最優(yōu)解,實(shí)現(xiàn)訓(xùn)練零損失
深度學(xué)習(xí)中的一個(gè)難題是隨機(jī)初始化的一階方法,即使目標(biāo)函數(shù)是非凸的,梯度下降也會(huì)實(shí)現(xiàn)零訓(xùn)練損失。一般認(rèn)為過參數(shù)化是這種現(xiàn)象的主要原因,因?yàn)橹挥挟?dāng)神經(jīng)網(wǎng)絡(luò)具有足夠大的容量時(shí),該神經(jīng)網(wǎng)絡(luò)才有可能適合所有訓(xùn)練數(shù)據(jù)。在實(shí)踐中,許多神經(jīng)網(wǎng)絡(luò)架構(gòu)呈現(xiàn)高度的過參數(shù)化。
訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的第二個(gè)神秘現(xiàn)象是“越深層的網(wǎng)絡(luò)越難訓(xùn)練”。為了解決這個(gè)問題,采用提出了深度殘差網(wǎng)絡(luò)(ResNet)架構(gòu),該架構(gòu)使得隨機(jī)初始化的一階方法能夠訓(xùn)練具有更多層數(shù)的數(shù)量級的神經(jīng)網(wǎng)絡(luò)。
從理論上講,線性網(wǎng)絡(luò)中的殘余鏈路可以防止大的零鄰域中的梯度消失,但對于具有非線性激活的神經(jīng)網(wǎng)絡(luò),使用殘差連接的優(yōu)勢還不是很清楚。
本文揭開了這兩個(gè)現(xiàn)象的神秘面紗。我們考慮設(shè)置n個(gè)數(shù)據(jù)點(diǎn),神經(jīng)網(wǎng)絡(luò)有H層,寬度為m。然后考慮最小二乘損失,假設(shè)激活函數(shù)是Lipschitz和平滑的。這個(gè)假設(shè)適用于許多激活函數(shù),包括soft-plus。
論文鏈接:
https://arxiv.org/pdf/1811.03804.pdf
首先考慮全連接前饋神經(jīng)網(wǎng)絡(luò),在神經(jīng)元數(shù)量m=Ω(poly(n)2O(H))的情況下,隨機(jī)初始化的梯度下降會(huì)以線性速度收斂至零訓(xùn)練損失。
接下來考慮ResNet架構(gòu)。只要神經(jīng)元數(shù)量m =Ω(poly(n,H)),那么隨機(jī)初始化的梯度下降會(huì)以線性速率收斂到零訓(xùn)練損失。與第一個(gè)結(jié)果相比,ResNet對網(wǎng)絡(luò)層數(shù)的依賴性呈指數(shù)級上升。這證明了使用殘差連接的優(yōu)勢。
最后,用相同的技術(shù)來分析卷積ResNet。結(jié)果表明,如果m = poly(n,p,H),其中p是patch數(shù)量,則隨機(jī)初始化的梯度下降也可以實(shí)現(xiàn)零訓(xùn)練損失。
本文的研究證據(jù)建立在先前關(guān)于兩層神經(jīng)網(wǎng)絡(luò)梯度下降的研究理念之上。首先,作者分析了預(yù)測的動(dòng)力學(xué)情況,其收斂性由神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)引出的Gram矩陣的最小特征值確定,為了降低其最小特征值的下限,從初始化階段限制每個(gè)權(quán)重矩陣的距離就可以了。
其次,作者使用Li和Liang[2018]的觀察結(jié)果,如果神經(jīng)網(wǎng)絡(luò)是過參數(shù)化的,那么每個(gè)權(quán)重矩陣都接近其初始化狀態(tài)。本文在分析深度神經(jīng)網(wǎng)絡(luò)時(shí),需要構(gòu)建更多深度神經(jīng)網(wǎng)絡(luò)的架構(gòu)屬性和新技術(shù)。
本文附錄中給出了詳細(xì)的數(shù)學(xué)證明過程
接下來,論文分別給出了全連接前饋神經(jīng)網(wǎng)絡(luò)、ResNet和卷積ResNet的分析過程,并在長達(dá)20余頁的附錄部分(本文含附錄共計(jì)45頁)給出了詳細(xì)的數(shù)學(xué)證明過程,對自己的數(shù)學(xué)功底有自信的讀者可以自行參看論文。這里僅就ResNet分析過程中,Gram矩陣的構(gòu)建和研究假設(shè)做簡要說明。
Gram矩陣的構(gòu)建
以上是網(wǎng)絡(luò)寬度m趨于無限時(shí)的漸進(jìn)Gram矩陣。我們特做出如下假設(shè),該假設(shè)條件決定了收斂速度和過參數(shù)化數(shù)量。
注意,這里的λ和全連接前饋神經(jīng)網(wǎng)絡(luò)中的不同,因?yàn)檫@里的λ只由K(0)決定,一般來說,除非兩個(gè)數(shù)據(jù)點(diǎn)是平行的,否則λ總是正數(shù)。
研究結(jié)論和局限:目前還不是隨機(jī)梯度下降
在本文中,我們表明深度過度參數(shù)化網(wǎng)絡(luò)上的梯度下降可以獲得零訓(xùn)練損失。其中關(guān)鍵是證明了Gram矩陣在過參數(shù)化條件下會(huì)越來越穩(wěn)定,因此梯度下降的每一步都以幾何速率減少損失。
最后列出未來的一些潛在研究方向:
1.本文主要關(guān)注訓(xùn)練損失,但沒有解決測試損失的問題。如何找到梯度下降的低測試損失的解決方案將是一個(gè)重要問題。尤其是現(xiàn)有的成果只表明梯度下降在與kernel方法和隨機(jī)特征方法相同的情況下才起作用。
2.網(wǎng)絡(luò)層的寬度m是ResNet架構(gòu)的所有參數(shù)的多項(xiàng)式,但仍然非常大。而在現(xiàn)實(shí)網(wǎng)絡(luò)中,數(shù)量較大的是參數(shù)的數(shù)量,而不是網(wǎng)絡(luò)層的寬度,數(shù)據(jù)點(diǎn)數(shù)量n是個(gè)很大的常量。如何改進(jìn)分析過程,使其涵蓋常用的網(wǎng)絡(luò),是一個(gè)重要的、有待解決的問題。
3、目前的分析只是梯度下降,不是隨機(jī)梯度下降。我們認(rèn)為這一分析可以擴(kuò)展到隨機(jī)梯度下降,同時(shí)仍然保持線性收斂速度。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4771瀏覽量
100772 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5503瀏覽量
121170
原文標(biāo)題:Reddit熱文:MIT\北大\CMU合作, 找到深度神經(jīng)網(wǎng)絡(luò)全局最優(yōu)解
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論