0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于權(quán)重系聯(lián)的線性自動(dòng)編碼器

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-07-02 14:26 ? 次閱讀

現(xiàn)代的深度神經(jīng)網(wǎng)絡(luò)通常具有海量參數(shù),甚至高于訓(xùn)練數(shù)據(jù)的大小。這就意味著,這些深度網(wǎng)絡(luò)有著強(qiáng)烈的過擬合傾向。緩解這一傾向的技術(shù)有很多,包括L1、L2正則、及早停止、組歸一化,以及dropout。在訓(xùn)練階段,dropout隨機(jī)丟棄隱藏神經(jīng)元及其連接,以打破神經(jīng)元間的共同適應(yīng)。盡管dropout在深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練中取得了巨大的成功,關(guān)于dropout如何在深度學(xué)習(xí)中提供正則化機(jī)制,目前這方面的理論解釋仍然很有限。

最近,約翰·霍普金斯大學(xué)的Poorya Mianjy、Raman Arora、Rene Vidal在ICML 2018提交的論文On the Implicit Bias of Dropout,重點(diǎn)研究了dropout引入的隱式偏置。

基于權(quán)重系聯(lián)的線性自動(dòng)編碼器

為了便于理解dropout的作用機(jī)制,研究人員打算在簡(jiǎn)單模型中分析dropout的表現(xiàn)。具體而言,研究人員使用的簡(jiǎn)單模型是只包含一個(gè)隱藏層的線性網(wǎng)絡(luò)。該網(wǎng)絡(luò)的目標(biāo)是找到最小化期望損失(平方損失)的權(quán)重矩陣U、V:

上式中,x為輸入,y為標(biāo)注輸出,D為輸入x的分布,h表示隱藏層。

學(xué)習(xí)算法為帶dropout的隨機(jī)梯度下降,其目標(biāo)為:

其中,dropout率為1-θ,具體的算法為:

這一算法的目標(biāo)等價(jià)于(推導(dǎo)過程見論文附錄A.1):

其中,λ = (1-θ)/θ

研究人員又令U = V,進(jìn)一步簡(jiǎn)化模型為權(quán)重系聯(lián)的單隱藏層線性自動(dòng)編碼器。相應(yīng)地,該網(wǎng)絡(luò)的目標(biāo)為:

研究人員證明了,如果矩陣U是以上目標(biāo)的全局最優(yōu)解,那么U的所有列范數(shù)相等。這意味著,dropout傾向于給所有隱藏節(jié)點(diǎn)分配相等的權(quán)重,也就是說,dropout給整個(gè)網(wǎng)絡(luò)加上了隱式的偏置,傾向于讓隱藏節(jié)點(diǎn)都具有類似的影響,而不是讓一小部分隱藏節(jié)點(diǎn)具有重要影響。

上圖可視化了參數(shù)λ的不同取值的效果。該網(wǎng)絡(luò)為單隱藏層線性自動(dòng)編碼器,搭配一維輸入、一維輸出,隱藏層寬度為2。當(dāng)λ = 0時(shí),該問題轉(zhuǎn)換為平方損失最小化問題。當(dāng)λ > 0時(shí),全局最優(yōu)值向原點(diǎn)收縮,所有局部極小值均為全局最小值(證明過程見論文第4節(jié))。當(dāng)λ增大時(shí),全局最優(yōu)值進(jìn)一步向原點(diǎn)收縮。

單隱藏層線性網(wǎng)絡(luò)

接著,研究人員將上述結(jié)果推廣到了單隱藏層線性網(wǎng)絡(luò)。回憶一下,這一網(wǎng)絡(luò)的目標(biāo)為:

和權(quán)重系聯(lián)的情形類似,研究人員證明了,如果矩陣對(duì)(U, V)是以上目標(biāo)的全局最優(yōu)解,那么,‖ui‖‖vi‖ = ‖u1‖‖v1‖,其中,i對(duì)應(yīng)隱藏層的寬度。

研究人員進(jìn)一步證明,前面提到的單隱藏層線性神經(jīng)網(wǎng)絡(luò)的目標(biāo)等價(jià)于正則化的矩陣分解(regularized matrix factorization):

利用矩陣分解這一數(shù)學(xué)工具,研究人員證明了全局最佳值可以在多項(xiàng)式時(shí)間內(nèi)找到:

試驗(yàn)

研究人員試驗(yàn)了一些模型,以印證前面提到的理論結(jié)果。

上圖可視化了dropout的收斂過程。和之前的可視化例子類似,模型為單隱藏層線性自動(dòng)編碼器,一維輸入、一維輸出,隱藏層寬度為2。輸入取樣自標(biāo)準(zhǔn)正態(tài)分布。綠點(diǎn)為初始迭代點(diǎn),紅點(diǎn)為全局最優(yōu)點(diǎn)。從圖中我們可以看到,在不同的λ取值下,dropout都能迅速收斂至全局最優(yōu)點(diǎn)。

研究人員還在一個(gè)淺層線性網(wǎng)絡(luò)上進(jìn)行了試驗(yàn)。該網(wǎng)絡(luò)的輸入x ∈ ?80,取樣自標(biāo)準(zhǔn)正態(tài)分布。網(wǎng)絡(luò)輸出y ∈ ?120,由y = Mx生成,其中M ∈ ?120x80均勻取樣自右、左奇異子空間(指數(shù)譜衰減)。下圖展示了不同參數(shù)值(λ ∈ {0.1, 0.5, 1})與不同隱藏層寬度(r ∈ {20, 80})的組合。藍(lán)色曲線為dropout不同迭代次數(shù)下對(duì)應(yīng)的目標(biāo)值,紅線為目標(biāo)的最優(yōu)值??偣策\(yùn)行了50次,取平均數(shù)。

上:r = 20;下:r = 80

上圖最后一列為“重要性評(píng)分”的方差。重要性評(píng)分的計(jì)算方法為:‖uti‖‖vti‖,其中t表示時(shí)刻(迭代),i表示隱藏層節(jié)點(diǎn)。從上圖我們看到,隨著dropout的收斂,“重要性評(píng)分”的方差單調(diào)下降,最終降至0. 且λ較大時(shí),下降較快。

結(jié)語

這項(xiàng)理論研究確認(rèn)了dropout是一個(gè)均質(zhì)地分配權(quán)重的過程,以阻止共同適應(yīng)。同時(shí)也從理論上解釋了dropout可以高效地收斂至全局最優(yōu)解的原因。

研究人員使用的是單隱藏層的線性神經(jīng)網(wǎng)絡(luò),因此,很自然地,下一步的探索方向?yàn)椋?/p>

更深的線性神經(jīng)網(wǎng)絡(luò)

使用非線性激活的淺層神經(jīng)網(wǎng)絡(luò),例如ReLU(ReLU可以加速訓(xùn)練)

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3662

    瀏覽量

    135002
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4778

    瀏覽量

    101004
  • Dropout
    +關(guān)注

    關(guān)注

    0

    文章

    13

    瀏覽量

    10058

原文標(biāo)題:dropout的隱式偏置

文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    新手 Protel 99SE 自動(dòng)編碼和電氣規(guī)則問題

    跟著視頻畫的,到自動(dòng)編碼時(shí)出現(xiàn)這個(gè)問題,哪位大神幫忙
    發(fā)表于 03-12 22:36

    什么是線性編碼器

    `線性編碼器是什么呢,首先我們要先了解一下編碼器什么,編碼器就是把數(shù)據(jù)利用一定的原理,把數(shù)據(jù)編輯整理,進(jìn)而轉(zhuǎn)換成能利用通訊采集的信號(hào)的一種設(shè)備。這里我們一般認(rèn)為
    發(fā)表于 12-17 11:22

    稀疏邊緣降噪自動(dòng)編碼器的方法

    為了提高自動(dòng)編碼器算法的學(xué)習(xí)精度,更進(jìn)一步降低分類任務(wù)的分類錯(cuò)誤率,提出一種組合稀疏自動(dòng)編碼器(SAE)和邊緣降噪自動(dòng)編碼器(mDAE)從而形成稀疏邊緣降噪自動(dòng)編碼器(SmDAE)的方
    發(fā)表于 12-21 14:41 ?3次下載
    稀疏邊緣降噪<b class='flag-5'>自動(dòng)編碼器</b>的方法

    基于動(dòng)態(tài)dropout的改進(jìn)堆疊自動(dòng)編碼機(jī)方法

    針對(duì)堆疊自動(dòng)編碼機(jī)( SA)容易產(chǎn)生過擬合而降低垃圾郵件分類精度的問題,提出了一種基于動(dòng)態(tài)dropout的改進(jìn)堆疊自動(dòng)編碼機(jī)方法。首先分析了垃圾郵件分類問題的特殊性,將dropout算法引入到堆疊
    發(fā)表于 12-26 14:37 ?0次下載
    基于動(dòng)態(tài)dropout的改進(jìn)堆疊<b class='flag-5'>自動(dòng)編碼</b>機(jī)方法

    自動(dòng)編碼器的社區(qū)發(fā)現(xiàn)算法

    準(zhǔn)確.提出一種基于深度稀疏自動(dòng)編碼器的社區(qū)發(fā)現(xiàn)算法CoDDA(a community detection algorithm based on deep sparse autoencoder),嘗試提高使用這些經(jīng)典方法處理高維鄰接矩陣進(jìn)行社區(qū)發(fā)現(xiàn)的準(zhǔn)確性.首先,提出基于跳數(shù)的處理方法,對(duì)稀疏的鄰接矩
    發(fā)表于 01-02 18:32 ?0次下載
    <b class='flag-5'>自動(dòng)編碼器</b>的社區(qū)發(fā)現(xiàn)算法

    編碼器正交編碼工作原理

    正交編碼器(又名雙通道增量式編碼器),用于將線性移位轉(zhuǎn)換為脈沖信號(hào)。
    發(fā)表于 08-02 08:50 ?3.3w次閱讀

    自動(dòng)編碼器與PCA的比較

    編碼器雖然不像 PCA 那般在教科書上隨處可見,但是在早期被拿來做深度網(wǎng)絡(luò)的逐層預(yù)訓(xùn)練,其地位可見一斑。盡管在 ReLU、Dropout 等神器出現(xiàn)之后,人們不再使用 AutoEncoders 來
    發(fā)表于 06-11 15:37 ?5940次閱讀

    如何使用深度神經(jīng)網(wǎng)絡(luò)技術(shù)實(shí)現(xiàn)機(jī)器學(xué)習(xí)的全噪聲自動(dòng)編碼器

    ,基于自動(dòng)編碼器的深度神經(jīng)網(wǎng)絡(luò)可以有效的用于數(shù)據(jù)特征提取。自動(dòng)編碼是一種無監(jiān)督學(xué)習(xí)算法,稀疏自動(dòng)編碼器、降噪自動(dòng)編碼器、收縮自動(dòng)編碼器是在原
    發(fā)表于 12-11 15:44 ?7次下載
    如何使用深度神經(jīng)網(wǎng)絡(luò)技術(shù)實(shí)現(xiàn)機(jī)器學(xué)習(xí)的全噪聲<b class='flag-5'>自動(dòng)編碼器</b>

    一種改進(jìn)的基于半自動(dòng)編碼器的協(xié)同過濾推薦算法

    為高效利用推薦系統(tǒng)中用戶和物品的交互歷史和輔助信息,提出一種改進(jìn)的協(xié)同過濾推薦算法。利用半自動(dòng)編碼器對(duì)用戶和物品的輔助信息進(jìn)行特征提取,將提取岀的特征映射到矩陣分解模型中,通過反向傳播算法實(shí)現(xiàn)半自動(dòng)編碼器
    發(fā)表于 03-23 16:35 ?4次下載
    一種改進(jìn)的基于半<b class='flag-5'>自動(dòng)編碼器</b>的協(xié)同過濾推薦算法

    一種混合自動(dòng)編碼器高斯混合模型MAGMM

    高維數(shù)據(jù)的無監(jiān)督異常檢測(cè)是機(jī)器學(xué)習(xí)的重要挑戰(zhàn)之一。雖然先前基于單一深度自動(dòng)編碼器和密度估計(jì)的方法已經(jīng)取得了顯著的進(jìn)展,但是其僅通過一個(gè)深度自編碼器來生成低維表示,這表明沒有足夠的信息來執(zhí)行后續(xù)
    發(fā)表于 04-13 15:33 ?7次下載
    一種混合<b class='flag-5'>自動(dòng)編碼器</b>高斯混合模型MAGMM

    如何使用TensorFlow構(gòu)建和訓(xùn)練變分自動(dòng)編碼器

    在本文中,我們將研究一個(gè)非常流行的 AI 用例,用于壓縮數(shù)據(jù)并使用自動(dòng)編碼器重建壓縮數(shù)據(jù)。
    的頭像 發(fā)表于 05-05 16:57 ?2168次閱讀
    如何使用TensorFlow構(gòu)建和訓(xùn)練變分<b class='flag-5'>自動(dòng)編碼器</b>

    堆疊降噪自動(dòng)編碼器(SDAE)

    自動(dòng)編碼器(Auto-Encoder,AE) 自編碼器(autoencoder)是神經(jīng)網(wǎng)絡(luò)的一種,經(jīng)過訓(xùn)練后能嘗試將輸入復(fù)制到輸出。自編碼器內(nèi)部有一個(gè)隱藏層 h,可以產(chǎn)生編碼(code
    的頭像 發(fā)表于 01-11 17:04 ?6659次閱讀
    堆疊降噪<b class='flag-5'>自動(dòng)編碼器</b>(SDAE)

    編碼器種類及型號(hào)

    編碼器種類及型號(hào):最常見的編碼器類型是旋轉(zhuǎn)編碼器線性編碼器。旋轉(zhuǎn)編碼器通常用于測(cè)量機(jī)器人的關(guān)節(jié)
    的頭像 發(fā)表于 05-18 11:15 ?5850次閱讀
    <b class='flag-5'>編碼器</b>種類及型號(hào)

    編碼器與PLC的接線方法

    編碼器分為旋轉(zhuǎn)編碼器線性編碼器兩種。旋轉(zhuǎn)編碼器用于檢測(cè)旋轉(zhuǎn)位置和速度,而線性
    發(fā)表于 12-22 09:20 ?1677次閱讀
    <b class='flag-5'>編碼器</b>與PLC的接線方法

    編碼器好壞怎么判斷,編碼器原理

    編碼器(Encoder)是將輸入數(shù)據(jù)轉(zhuǎn)化為特定編碼表示的一種技術(shù)。對(duì)于不同類型的編碼器,評(píng)判其好壞可以從多個(gè)方面進(jìn)行考量,包括編碼質(zhì)量、速度、模型結(jié)構(gòu)等。
    的頭像 發(fā)表于 01-23 10:58 ?1970次閱讀