0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

SGD的隨機項在其選擇最終的全局極小值點的關鍵性作用

DPVg_AI_era ? 來源:lp ? 2019-03-06 09:15 ? 次閱讀

在密蘇里科技大學與百度大數(shù)據(jù)實驗室合作的一篇論文中,研究人員從理論視角對SGD在深度神經(jīng)網(wǎng)絡訓練過程中的行為進行了刻畫,揭示了SGD的隨機項在其選擇最終的全局極小值點的關鍵性作用。這項工作加深了對SGD優(yōu)化過程的理解,也有助于構建深度神經(jīng)網(wǎng)絡的訓練理論。

梯度下降是機器學習算法中最常用的一種優(yōu)化方法。

其中,隨機梯度下降 (Stochastic Gradient Descent, SGD) 由于學習速率快并且可以在線更新,常被用于訓練各種機器學習和深度學習模型,很多當前性能最優(yōu) (SOTA) 模型都使用了SGD。

然而,由于SGD 每次隨機從訓練集中選擇少量樣本進行學習,每次更新都可能不會按照正確的方向進行,因此會出現(xiàn)優(yōu)化波動。

對于非凸函數(shù)而言,SGD就只會收斂到局部最優(yōu)點。但同時,SGD所包含的這種隨機波動也可能使優(yōu)化的方向從當前的局部最優(yōu)跳到另一個更好的局部最優(yōu)點,甚至是全局最優(yōu)。

在密蘇里科技大學與百度大數(shù)據(jù)實驗室日前合作公開的一篇論文中,研究人員利用概率論中的大偏差理論對SGD在深度神經(jīng)網(wǎng)絡訓練過程中的行為進行了刻畫。

“這項工作的出發(fā)點在于試圖理解SGD的優(yōu)化過程和GD有什么不同,尤其是SGD的隨機項(也是GD所沒有的)在隱式正則化中到底起到什么作用?!闭撐牡谝蛔髡?、密蘇里科技大學數(shù)學系助理教授胡文清博士在接受新智元采訪時說。

“通過變分分析和構造勢函數(shù),我們發(fā)現(xiàn),由于有方差 (variance) 的存在,對于任何局部最優(yōu)而言,SGD都有一定逃逸的可能性?!毖芯控撠熑恕俣却髷?shù)據(jù)實驗室科學家浣軍博士告訴新智元:“如果時間足夠長,SGD會以馬氏鏈的方式遍歷所有的局部最優(yōu),最終達到一個全局最優(yōu)。”

“對于過參數(shù)化網(wǎng)絡 (over parameterized network),全局最優(yōu)的點在任何數(shù)據(jù)點的梯度都是0。SGD就會被限制在這樣的位置上。”

不同梯度下降優(yōu)化方法在損失曲面鞍點處的表現(xiàn),過參數(shù)化網(wǎng)絡的全局最優(yōu)點在任何數(shù)據(jù)點的梯度都是0,SGD就會被限制在這樣的位置上。

這項工作有助于我們更深刻地理解SGD在訓練深度神經(jīng)網(wǎng)絡過程,以及訓練其它機器學習模型中的機制和作用。

擬勢函數(shù):隨機梯度下降中損失函數(shù)的隱式正則項

人們普遍認為SGD是一種“隱式正則項”,能夠自己在模型或數(shù)據(jù)集中尋找一個局部最小點。

此前有研究從變分推斷的角度分析SGD逃離bad minima的現(xiàn)象。還有研究發(fā)現(xiàn),SGD的逃逸速率跟噪聲協(xié)方差有關,尤其是在深度神經(jīng)網(wǎng)絡模型中。

在這篇題為《將擬勢函數(shù)視為隨機梯度下降損失函數(shù)中的隱式正則項》的論文中,作者提出了一種統(tǒng)一的方法,將擬勢作為一種量化關系的橋梁,在SGD隱式正則化與SGD的隨機項的協(xié)方差結構之間建立了聯(lián)系。

“從‘擬勢’這種統(tǒng)一的觀點出發(fā),能更清楚地從數(shù)學上描述SGD的長時間動力學?!焙那宀┦空f。

具體說,他們將隨機梯度下降 (SGD) 的變分推斷看做是一個勢函數(shù)最小化的過程,他們將這個勢函數(shù)稱之為“擬勢函數(shù)”(quasi–potential),用(全局)擬勢φQP表示。

這個擬勢函數(shù)能夠表征具有小學習率的SGD的長期行為。研究人員證明,SGD最終達到的全局極小值點,既依賴于原來的損失函數(shù)f,也依賴于SGD所自帶的隨機項的協(xié)方差結構。

不僅如此,這項工作的理論預測對于一般的非凸優(yōu)化問題都成立,揭示了SGD隨機性的協(xié)方差結構在其選擇最終的全局極小值點這個動力學過程的關鍵性作用,進一步揭示了機器學習中SGD的隱式正則化的機制。

下面是新智元對論文凸損失函數(shù)相關部分的編譯,點擊“閱讀原文”查看論文了解更多。

局部擬勢:凸損失函數(shù)的情況

我們假設原來的損失函數(shù)f(x)是凸函數(shù),只允許一個最小點O,這也是它的全局最小點。設O是原點。

我們將在這一節(jié)中介紹局部準勢函數(shù),并通過哈密頓-雅可比型偏微分方程將其與SGD噪聲協(xié)方差結構聯(lián)系起來。分析的基礎是將LDT解釋為軌跡空間中的路徑積分理論。

SGD作為梯度下降(GD)的一個小隨機擾動

首先,我們給出一個假設:

假設1:假設損失函數(shù)f(x)允許梯度?f(x),即L–Lipschitz:

(1)

我們假設Σ(x)是x中的分段Lipschitz,并且SDG協(xié)方差矩陣D(x)對于所有x∈Rd是可逆的,使得:

(2)

對于ε>0,SGD過程具有接近由如下確定性方程表征的梯度下降(GD)流的軌跡:

(3)

事實上,我們可以很容易地證明有以下內(nèi)容:

引理1:基于假設1,我們有,對于任何T>0,

(4)

對一些常數(shù)C = C(T, L, M) > 0。

當上述公式成立時,我們可以很容易得出在區(qū)間0≤t≤T內(nèi),x(t)和xGD(t)收斂于。因此,在有限的時間內(nèi),SGD過程x(t)將被吸引到原點O的鄰域。

由于O是凸損失函數(shù)f(x)的唯一最小點,R中的每一點都被梯度流Rd吸引到O。

在僅有一個最小點O的情況下,也可以執(zhí)行由于小的隨機擾動而對吸引子(attractor)的逃逸特性的理解。

大偏差理論解釋為軌跡空間中的路徑積分

為了定量地描述這種逃逸特性,我們建議使用概率論中的大偏差理論(LDT)。粗略地說,這個理論給出了路徑空間中的概率權重,而權重的指數(shù)部分由一個作用量泛函S給出。

局部擬勢函數(shù)作為變分問題和哈密頓-雅可比方程的解

我們可以定義一個局部擬勢函數(shù)為:

(5)

將公式(5)和下面的公式6)進行結合

(6)

給出了平穩(wěn)測度的指數(shù)漸近:

(7)

這意味著在梯度系統(tǒng)只有一個穩(wěn)定吸引子O的情況下,擬勢φQP(x)是由局部φQPloc(x;x0)給定,這是變分問題(公式5)的解。

局部最小點的逃逸屬性(根據(jù)局部擬勢)

局部擬勢φQPloc(x;x0)的另一個顯著特征是它描述了局部最小點的逃逸性質(zhì)。從sharp極小值到flat極小值的逃逸是導致良好泛化的一個關鍵特征。

LDT估計提供了一種工具,可以獲得退出概率的指數(shù)估計值,并從吸引子獲得平均首次退出時間。

并且我們可以證明一個過程x(t)在局部最小點處的逃逸性質(zhì),如出口概率、平均逃逸時間甚至第一個出口位置,都與擬勢有關。

全局擬勢:SGD在各個局部極小值點之間的馬氏鏈動力學

現(xiàn)在再假設損失函數(shù)f(x)是非凸的,存在多個局部極小值點。這種情況下,對每個局部極小值點的吸引區(qū)域,都可數(shù)學上構造由前述所介紹的局部擬勢。

SGD在進入一個局部極小值點之后,會在其協(xié)方差結構所帶來的噪聲的作用下,逃逸這個局部極小值點,從而進入另一個局部極小值點。

按照前述的介紹,這種逃逸可以由局部擬勢給出。然而在全局情形,不同的極小值點之間的局部擬勢不一樣,而從一個極小值點到另一個極小值點之間的這種由逃逸產(chǎn)生的躍遷,會誘導一個局部極小值點之間的馬氏鏈。

我們的文章指出,SGD的長時間極限行為,正是以這種馬氏鏈的方式,遍歷可能的局部極小值點,最終達到一個全局極小值點。

值得一提的是,這個全局極小值點不一定是原來損失函數(shù)的全局極小值點,而是和SGD的隨機性的協(xié)方差結構有關,這一點可以由上節(jié)中局部擬勢的構造方式看出。

這就表明SGD的隨機性所產(chǎn)生的協(xié)方差結構,影響了其長期行為以及最終的全局極小值點的選擇。

文章中給出了一個例子,說明當損失函數(shù)f(x)有兩個完全對稱的全局極小值點,而其所對應的協(xié)方差結構不同的情況下,SGD會傾向于選擇其中一個全局極小值點,這一個極小值點對應的協(xié)方差結構更接近各向同性(isotropic)。

未來工作

研究人員希望通過這項工作,進一步理解SGD所訓練出的局部極小點的泛化性能,特別是泛化能力與協(xié)方差結構的關系。基于此,他們期待進一步的結果將不僅僅局限于overparametrized神經(jīng)網(wǎng)絡,而對一般的深度學習模型都適用。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經(jīng)網(wǎng)絡

    關注

    42

    文章

    4778

    瀏覽量

    101004
  • 梯度
    +關注

    關注

    0

    文章

    30

    瀏覽量

    10333
  • 機器學習
    +關注

    關注

    66

    文章

    8434

    瀏覽量

    132879

原文標題:你真的了解隨機梯度下降中的“全局最優(yōu)”嗎?

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    如何對一波形所有極大(?。?b class='flag-5'>值用三次樣條插函數(shù)擬...

    哪位大神能幫我一下,本人在做小電流接地系統(tǒng)選線,在matlab中搭建了系統(tǒng)模型后進行了單相接地故障仿真,對于仿出來的波形要進行HHT變換,其中第一步就是要對仿真圖形所有極大極小值用三次樣條插
    發(fā)表于 08-09 19:10

    SoC 多處理器混合關鍵性系統(tǒng)

    我想運用生成即保證正確(correct-by-construction)規(guī)則設計多處理器混合關鍵性系統(tǒng),請問生成即保證正確(correct-by-construction)規(guī)則可用嗎?在什么情況下可用?
    發(fā)表于 02-17 16:18

    關于檢測的離散信號求極值問題

    我現(xiàn)在收集到一些離散信號,一維數(shù)組,想找到極大極小值,然后連線用三次樣條擬合,1、請問有沒有什么好用的控件或者算法找到這些極大極小值2、由于采樣率的緣故,總會有的極大或者
    發(fā)表于 01-03 10:55

    印刷電路板的圖像分割

    灰度之間),而且靠近于波谷,所以考慮在其領域內(nèi)尋找極小值。 為了分割PCB的目標圖像,可以先確定出直方圖的目標峰,再確定極小值
    發(fā)表于 08-29 10:53

    怎么用模擬退火算法求全局最優(yōu)解?

    一種完完全全的貪心算法。這樣求出的極小值,并不一定整段函數(shù)的全局極小值,而極可能是局部極小值。例如下圖 可以看出,有三個,均是
    發(fā)表于 09-29 08:04

    LCD1602驅動程序關鍵性操作

    C51單片機LCD1602驅動程序LCD1602簡介1602的引腳操作時序寫操作時序時序參數(shù)LCD1602關鍵性操作一、初始化二、清屏指令二、進入模式設置指令三、顯示開關控制指令四、功能設定指令
    發(fā)表于 11-18 08:56

    keras內(nèi)置的7個常用的優(yōu)化器介紹

    法,隨機梯度下降,小批量梯度下降法。它們的學習率是固定的。 1.1 基礎梯度下降算法 顧名思義,梯度下降法的計算過程就是沿梯度下降的方向求解極小值(使得損失函數(shù)最小,也即準確率最高)。 假設
    發(fā)表于 08-18 06:32

    射頻電路應用設計的關鍵性培訓資料

    射頻電路應用設計的關鍵性培訓資料 1.   Implications of Grounding 2.   Possible Problems Hidden
    發(fā)表于 05-07 19:38 ?28次下載

    射頻電路應用設計的關鍵性課題

    射頻電路應用設計的關鍵性課題:1.  Interference and Isolation       o 
    發(fā)表于 05-07 19:39 ?22次下載

    基于鏈路關鍵性的流量工程路由算法徐亞峰

    基于鏈路關鍵性的流量工程路由算法_徐亞峰
    發(fā)表于 03-16 08:00 ?0次下載

    梯度下降兩大痛:陷入局部極小值和過擬合

    基于梯度下降訓練神經(jīng)網(wǎng)絡時,我們將冒網(wǎng)絡落入局部極小值的風險,網(wǎng)絡在誤差平面上停止的位置并非整個平面的最低點。這是因為誤差平面不是內(nèi)凸的,平面可能包含眾多不同于全局最小的局部極小值。
    的頭像 發(fā)表于 04-27 17:01 ?2w次閱讀
    梯度下降兩大痛<b class='flag-5'>點</b>:陷入局部<b class='flag-5'>極小值</b>和過擬合

    機器學習之感知機python是如何實現(xiàn)的

    算法選擇,最終的目標是求損失函數(shù)的最小,利用機器學習中最常用的梯度下降GD或者隨機梯度下降SGD來求解。
    發(fā)表于 03-30 09:36 ?993次閱讀
    機器學習之感知機python是如何實現(xiàn)的

    基于雙曲網(wǎng)絡空間嵌入與極小值聚類的社區(qū)劃分算法

    。根據(jù)龐加萊圓盤中的角度統(tǒng)計節(jié)點分布關系,得到θ曲線,并以最優(yōu)模塊度選擇曲線極小值作為最優(yōu)社區(qū)的劃分依據(jù)。使用中國移動用戶的真實訪問數(shù)據(jù)對算法進行有效評估,結果表明,與 Louvain、SLPA和正則化譜聚類算法相比,該算法無
    發(fā)表于 04-01 15:18 ?11次下載
    基于雙曲網(wǎng)絡空間嵌入與<b class='flag-5'>極小值</b>聚類的社區(qū)劃分算法

    基于局部熵擬合與全局信息的改進活動輪廓模型

    的中心,改變輪廓半徑的大小以確定初始輪廓的位置。使用局部熵來増強圖像邊緣處的響應,將局部熵圖像擬合能量與RSF模型共同構成局部能量,并引入圖像的
    發(fā)表于 05-26 15:31 ?5次下載

    實現(xiàn)關鍵性電流節(jié)省的其他方法是什么

    利用這些具有超低靜態(tài)電流的汽車 LDO,您將能夠顯著地改善汽車電池的使用壽命。您在系統(tǒng)中實現(xiàn)關鍵性電流節(jié)省的其他方法是什么?  
    的頭像 發(fā)表于 02-06 09:12 ?1073次閱讀