在密蘇里科技大學與百度大數(shù)據(jù)實驗室合作的一篇論文中,研究人員從理論視角對SGD在深度神經(jīng)網(wǎng)絡訓練過程中的行為進行了刻畫,揭示了SGD的隨機項在其選擇最終的全局極小值點的關鍵性作用。這項工作加深了對SGD優(yōu)化過程的理解,也有助于構建深度神經(jīng)網(wǎng)絡的訓練理論。
其中,隨機梯度下降 (Stochastic Gradient Descent, SGD) 由于學習速率快并且可以在線更新,常被用于訓練各種機器學習和深度學習模型,很多當前性能最優(yōu) (SOTA) 模型都使用了SGD。
然而,由于SGD 每次隨機從訓練集中選擇少量樣本進行學習,每次更新都可能不會按照正確的方向進行,因此會出現(xiàn)優(yōu)化波動。
對于非凸函數(shù)而言,SGD就只會收斂到局部最優(yōu)點。但同時,SGD所包含的這種隨機波動也可能使優(yōu)化的方向從當前的局部最優(yōu)跳到另一個更好的局部最優(yōu)點,甚至是全局最優(yōu)。
在密蘇里科技大學與百度大數(shù)據(jù)實驗室日前合作公開的一篇論文中,研究人員利用概率論中的大偏差理論對SGD在深度神經(jīng)網(wǎng)絡訓練過程中的行為進行了刻畫。
“這項工作的出發(fā)點在于試圖理解SGD的優(yōu)化過程和GD有什么不同,尤其是SGD的隨機項(也是GD所沒有的)在隱式正則化中到底起到什么作用?!闭撐牡谝蛔髡?、密蘇里科技大學數(shù)學系助理教授胡文清博士在接受新智元采訪時說。
“通過變分分析和構造勢函數(shù),我們發(fā)現(xiàn),由于有方差 (variance) 的存在,對于任何局部最優(yōu)而言,SGD都有一定逃逸的可能性?!毖芯控撠熑恕俣却髷?shù)據(jù)實驗室科學家浣軍博士告訴新智元:“如果時間足夠長,SGD會以馬氏鏈的方式遍歷所有的局部最優(yōu),最終達到一個全局最優(yōu)。”
“對于過參數(shù)化網(wǎng)絡 (over parameterized network),全局最優(yōu)的點在任何數(shù)據(jù)點的梯度都是0。SGD就會被限制在這樣的位置上。”
不同梯度下降優(yōu)化方法在損失曲面鞍點處的表現(xiàn),過參數(shù)化網(wǎng)絡的全局最優(yōu)點在任何數(shù)據(jù)點的梯度都是0,SGD就會被限制在這樣的位置上。
這項工作有助于我們更深刻地理解SGD在訓練深度神經(jīng)網(wǎng)絡過程,以及訓練其它機器學習模型中的機制和作用。
擬勢函數(shù):隨機梯度下降中損失函數(shù)的隱式正則項
人們普遍認為SGD是一種“隱式正則項”,能夠自己在模型或數(shù)據(jù)集中尋找一個局部最小點。
此前有研究從變分推斷的角度分析SGD逃離bad minima的現(xiàn)象。還有研究發(fā)現(xiàn),SGD的逃逸速率跟噪聲協(xié)方差有關,尤其是在深度神經(jīng)網(wǎng)絡模型中。
在這篇題為《將擬勢函數(shù)視為隨機梯度下降損失函數(shù)中的隱式正則項》的論文中,作者提出了一種統(tǒng)一的方法,將擬勢作為一種量化關系的橋梁,在SGD隱式正則化與SGD的隨機項的協(xié)方差結構之間建立了聯(lián)系。
“從‘擬勢’這種統(tǒng)一的觀點出發(fā),能更清楚地從數(shù)學上描述SGD的長時間動力學?!焙那宀┦空f。
具體說,他們將隨機梯度下降 (SGD) 的變分推斷看做是一個勢函數(shù)最小化的過程,他們將這個勢函數(shù)稱之為“擬勢函數(shù)”(quasi–potential),用(全局)擬勢φQP表示。
這個擬勢函數(shù)能夠表征具有小學習率的SGD的長期行為。研究人員證明,SGD最終達到的全局極小值點,既依賴于原來的損失函數(shù)f,也依賴于SGD所自帶的隨機項的協(xié)方差結構。
不僅如此,這項工作的理論預測對于一般的非凸優(yōu)化問題都成立,揭示了SGD隨機性的協(xié)方差結構在其選擇最終的全局極小值點這個動力學過程的關鍵性作用,進一步揭示了機器學習中SGD的隱式正則化的機制。
下面是新智元對論文凸損失函數(shù)相關部分的編譯,點擊“閱讀原文”查看論文了解更多。
局部擬勢:凸損失函數(shù)的情況
我們假設原來的損失函數(shù)f(x)是凸函數(shù),只允許一個最小點O,這也是它的全局最小點。設O是原點。
我們將在這一節(jié)中介紹局部準勢函數(shù),并通過哈密頓-雅可比型偏微分方程將其與SGD噪聲協(xié)方差結構聯(lián)系起來。分析的基礎是將LDT解釋為軌跡空間中的路徑積分理論。
SGD作為梯度下降(GD)的一個小隨機擾動
首先,我們給出一個假設:
假設1:假設損失函數(shù)f(x)允許梯度?f(x),即L–Lipschitz:
(1)
我們假設Σ(x)是x中的分段Lipschitz,并且SDG協(xié)方差矩陣D(x)對于所有x∈Rd是可逆的,使得:
(2)
對于ε>0,SGD過程具有接近由如下確定性方程表征的梯度下降(GD)流的軌跡:
(3)
事實上,我們可以很容易地證明有以下內(nèi)容:
引理1:基于假設1,我們有,對于任何T>0,
(4)
對一些常數(shù)C = C(T, L, M) > 0。
當上述公式成立時,我們可以很容易得出在區(qū)間0≤t≤T內(nèi),x(t)和xGD(t)收斂于。因此,在有限的時間內(nèi),SGD過程x(t)將被吸引到原點O的鄰域。
由于O是凸損失函數(shù)f(x)的唯一最小點,R中的每一點都被梯度流Rd吸引到O。
在僅有一個最小點O的情況下,也可以執(zhí)行由于小的隨機擾動而對吸引子(attractor)的逃逸特性的理解。
大偏差理論解釋為軌跡空間中的路徑積分
為了定量地描述這種逃逸特性,我們建議使用概率論中的大偏差理論(LDT)。粗略地說,這個理論給出了路徑空間中的概率權重,而權重的指數(shù)部分由一個作用量泛函S給出。
局部擬勢函數(shù)作為變分問題和哈密頓-雅可比方程的解
我們可以定義一個局部擬勢函數(shù)為:
(5)
將公式(5)和下面的公式6)進行結合
(6)
給出了平穩(wěn)測度的指數(shù)漸近:
(7)
這意味著在梯度系統(tǒng)只有一個穩(wěn)定吸引子O的情況下,擬勢φQP(x)是由局部φQPloc(x;x0)給定,這是變分問題(公式5)的解。
局部最小點的逃逸屬性(根據(jù)局部擬勢)
局部擬勢φQPloc(x;x0)的另一個顯著特征是它描述了局部最小點的逃逸性質(zhì)。從sharp極小值到flat極小值的逃逸是導致良好泛化的一個關鍵特征。
LDT估計提供了一種工具,可以獲得退出概率的指數(shù)估計值,并從吸引子獲得平均首次退出時間。
并且我們可以證明一個過程x(t)在局部最小點處的逃逸性質(zhì),如出口概率、平均逃逸時間甚至第一個出口位置,都與擬勢有關。
全局擬勢:SGD在各個局部極小值點之間的馬氏鏈動力學
現(xiàn)在再假設損失函數(shù)f(x)是非凸的,存在多個局部極小值點。這種情況下,對每個局部極小值點的吸引區(qū)域,都可數(shù)學上構造由前述所介紹的局部擬勢。
SGD在進入一個局部極小值點之后,會在其協(xié)方差結構所帶來的噪聲的作用下,逃逸這個局部極小值點,從而進入另一個局部極小值點。
按照前述的介紹,這種逃逸可以由局部擬勢給出。然而在全局情形,不同的極小值點之間的局部擬勢不一樣,而從一個極小值點到另一個極小值點之間的這種由逃逸產(chǎn)生的躍遷,會誘導一個局部極小值點之間的馬氏鏈。
我們的文章指出,SGD的長時間極限行為,正是以這種馬氏鏈的方式,遍歷可能的局部極小值點,最終達到一個全局極小值點。
值得一提的是,這個全局極小值點不一定是原來損失函數(shù)的全局極小值點,而是和SGD的隨機性的協(xié)方差結構有關,這一點可以由上節(jié)中局部擬勢的構造方式看出。
這就表明SGD的隨機性所產(chǎn)生的協(xié)方差結構,影響了其長期行為以及最終的全局極小值點的選擇。
文章中給出了一個例子,說明當損失函數(shù)f(x)有兩個完全對稱的全局極小值點,而其所對應的協(xié)方差結構不同的情況下,SGD會傾向于選擇其中一個全局極小值點,這一個極小值點對應的協(xié)方差結構更接近各向同性(isotropic)。
未來工作
研究人員希望通過這項工作,進一步理解SGD所訓練出的局部極小點的泛化性能,特別是泛化能力與協(xié)方差結構的關系。基于此,他們期待進一步的結果將不僅僅局限于overparametrized神經(jīng)網(wǎng)絡,而對一般的深度學習模型都適用。
-
神經(jīng)網(wǎng)絡
+關注
關注
42文章
4778瀏覽量
101004 -
梯度
+關注
關注
0文章
30瀏覽量
10333 -
機器學習
+關注
關注
66文章
8434瀏覽量
132879
原文標題:你真的了解隨機梯度下降中的“全局最優(yōu)”嗎?
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論