0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一個神經(jīng)元的ResNet就是一個通用的函數(shù)逼近器

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-07-03 09:15 ? 次閱讀

MIT CSAIL的研究人員發(fā)現(xiàn),隱藏層僅有一個神經(jīng)元的ResNet就是一個通用的函數(shù)逼近器,恒等映射確實加強了深度網(wǎng)絡(luò)的表達(dá)能力。研究人員表示,這一發(fā)現(xiàn)還填補了全連接網(wǎng)絡(luò)表達(dá)能力強大原因的理論空白。

深度神經(jīng)網(wǎng)絡(luò)是當(dāng)前很多機器學(xué)習(xí)應(yīng)用成功的關(guān)鍵,而深度學(xué)習(xí)的一大趨勢,就是神經(jīng)網(wǎng)絡(luò)越來越深:以計算機視覺應(yīng)用為例,從最開始的AlexNet,到后來的VGG-Net,再到最近的ResNet,網(wǎng)絡(luò)的性能確實隨著層數(shù)的增多而提升。

研究人員的一個直觀感受是,隨著網(wǎng)絡(luò)深度的增大,網(wǎng)絡(luò)的容量也變高,更容易去逼近某個函數(shù)。

因此,從理論方面,也有越來越多的人開始關(guān)心,是不是所有的函數(shù)都能夠用一個足夠大的神經(jīng)網(wǎng)絡(luò)去逼近?

在一篇最新上傳Arxiv的論文里,MIT CSAIL的兩位研究人員從ResNet結(jié)構(gòu)入手,論證了這個問題。他們發(fā)現(xiàn),在每個隱藏層中只有一個神經(jīng)元的ResNet,就是一個通用逼近函數(shù),無論整個網(wǎng)絡(luò)的深度有多少,哪怕趨于無窮大,這一點都成立。

一個神經(jīng)元就夠了,這不是很令人興奮嗎?

從深度上理解通用逼近定理

關(guān)于神經(jīng)網(wǎng)絡(luò)的表達(dá)能力(representational power)此前已經(jīng)有很多討論。

上世紀(jì)80年代的一些研究發(fā)現(xiàn),只要有足夠多的隱藏層神經(jīng)元,擁有單個隱藏層的神經(jīng)網(wǎng)絡(luò)能以任意精度逼近任意連續(xù)函數(shù)。這也被稱為通用逼近定理(universal approximation theorem)。

但是,這是從“寬度”而非“深度”的角度去理解——不斷增加隱藏層神經(jīng)元,增加的是網(wǎng)絡(luò)的寬度——而實際經(jīng)驗告訴我們,深度網(wǎng)絡(luò)才是最適用于去學(xué)習(xí)能解決現(xiàn)實世界問題的函數(shù)的。

因此,這就自然引出了一個問題:

如果每層的神經(jīng)元數(shù)量固定,當(dāng)網(wǎng)絡(luò)深度增加到無窮大的時候,通用逼近定理還成立嗎?

北京大學(xué)Zhou Lu等人發(fā)表在NIPS 2017的文章《The Expressive Power of Neural Networks: A View from the Width》發(fā)現(xiàn),對于用ReLU作為激活函數(shù)的全連接神經(jīng)網(wǎng)絡(luò),當(dāng)每個隱藏層至少有 d+4 個神經(jīng)元(d表示輸入空間)時,通用逼近定理就成立,但至多有 d 個神經(jīng)元時,就不成立。

那么,換一種結(jié)構(gòu),這個條件還會成立嗎?究竟是什么在影響深度網(wǎng)絡(luò)的表達(dá)能力?

MIT CSAIL的這兩位研究人員便想到了ResNet。

從何愷明等人2015年提出以來,ResNet甚至被認(rèn)為是當(dāng)前性能最佳的網(wǎng)絡(luò)結(jié)構(gòu)。ResNet的成功得益于它引入了快捷連接(shortcut connection),以及在此基礎(chǔ)上的恒等映射(Identity Mapping),使數(shù)據(jù)流可以跨層流動。原問題就轉(zhuǎn)化使殘差函數(shù)(F(x)=H(x)-x)逼近0值,而不用直接去擬合一個恒等函數(shù) H’(x)。

由于恒等映射,ResNet的寬度與輸入空間相等。因此,作者構(gòu)建了這樣的結(jié)構(gòu),并不斷縮小隱藏層,看看極限在哪里:

結(jié)果就如上文所說的那樣,最少只需要一個神經(jīng)元就夠了。

作者表示,這進一步從理論上表明,ResNet的恒等映射確實增強了深度網(wǎng)絡(luò)的表達(dá)能力。

例證:完全連接網(wǎng)絡(luò)和ResNet之間的區(qū)別

作者給出了一個這樣的toy example:我們首先通過一個簡單的例子,通過實證探索一個完全連接網(wǎng)絡(luò)和ResNet之間的區(qū)別,其中完全連接網(wǎng)絡(luò)的每個隱藏層有 d 個神經(jīng)元。例子是:在平面中對單位球(unit ball)進行分類。

訓(xùn)練集由隨機生成的樣本組成,其中?

我們?nèi)藶榈卦谡龢颖竞拓?fù)樣本之間創(chuàng)建了一個邊界,以使分類任務(wù)更容易。我們用邏輯損失作為損失,其中是網(wǎng)絡(luò)在第 i 個樣本的輸出。在訓(xùn)練結(jié)束后,我們描繪了各種深度的網(wǎng)絡(luò)學(xué)習(xí)的決策邊界。理想情況下,我們希望模型的決策邊界接近真實分布。

圖2:在單位球分類問題中,訓(xùn)練每個隱藏層(上面一行)寬度 d = 2 的全連接網(wǎng)絡(luò)和每個隱藏層只有一個神經(jīng)元的 ResNet(下面一行)得到的決策邊界。全連接網(wǎng)絡(luò)無法捕獲真正的函數(shù),這與認(rèn)為寬度 d 對于通用逼近而言太窄(narrow)的理論是一致的。相反,ResNet很好地逼近了函數(shù),支持了我們的理論結(jié)果。

圖2顯示了結(jié)果。對于完全連接網(wǎng)絡(luò)(上面一行)而言,學(xué)習(xí)的決策邊界對不同的深度具有大致相同的形狀:逼近質(zhì)量似乎沒有隨著深度增加而提高。雖然人們可能傾向于認(rèn)為這是由局部最優(yōu)性引起的,但我們的結(jié)果與文獻[19]中的結(jié)果一致:

Proposition 2.1. 令為由一個具有ReLU激活的完全連接網(wǎng)絡(luò) N 定義的函數(shù)。用表示的正水平集。如果 N 的每個隱藏層至多有 d 個神經(jīng)元,那么

, 其中 λ 表示 Lebesgue measure

換句話說,“narrow”的完全連接網(wǎng)絡(luò)的水平集(level set)是無界的,或具有零測度。

因此,即使當(dāng)深度趨于無窮大時,“narrow”的完全連接網(wǎng)絡(luò)也不能逼近有界區(qū)域。這里我們只展示了 d=2 的情況,因為可以很容易地看到數(shù)據(jù);在更高的維度也可以看到同樣的觀察結(jié)果。

ResNet的決策邊界看起來明顯不同:盡管寬度更窄,但ResNet表示了一個有界區(qū)域的指標(biāo)。隨著深度的增加,決策邊界似乎趨于單位球,這意味著命題2.1不能適用于ResNet。這些觀察激發(fā)了通用逼近定理。

討論

在本文中,我們展示了每個隱藏層只有一個神經(jīng)元的ResNet結(jié)構(gòu)的通用逼近定理。這個結(jié)果與最近在全連接網(wǎng)絡(luò)上的結(jié)果形成對比,對于這些全連接網(wǎng)絡(luò),在寬度為 d 或更小時,通用逼近會失敗。

ResNet vs 全連接網(wǎng)絡(luò):

雖然我們在每個基本殘差塊(residual block)中只使用一個隱藏神經(jīng)元來實現(xiàn)通用逼近,但有人可能會說,ResNet的結(jié)構(gòu)仍然將identity傳遞到下一層。這個identity map可以算作 d 個隱藏單元,導(dǎo)致每個殘差塊共有 d+1 個隱藏單元,并且使得網(wǎng)絡(luò)被看做一個寬度為 (d + 1)的完全連接網(wǎng)絡(luò)。但是,即使從這個角度看,ResNet也相當(dāng)于一個完全連接網(wǎng)絡(luò)的壓縮或稀疏版本。特別是,寬度為 (d + 1)的完全連接網(wǎng)絡(luò)每層具有個連接,而ResNet中只有個連接,這要歸功于identity map。完全連接網(wǎng)絡(luò)的這種“過度參數(shù)化”或許可以解釋為什么dropout對這類網(wǎng)絡(luò)有用。

同樣的道理,我們的結(jié)果表明寬度(d + 1)的完全連接網(wǎng)絡(luò)是通用逼近器,這是新的發(fā)現(xiàn)。文獻[19]中的結(jié)構(gòu)要求每層d + 4個單元,在上下邊界之間留有空隙。因此,我們的結(jié)果縮小了差距:寬度為(d + 1)的完全連接網(wǎng)絡(luò)是通用逼近器,而寬度為d的完全連接網(wǎng)絡(luò)不是。

為什么通用逼近很重要?如我們在論文第2節(jié)所述,寬度為d的完全連接網(wǎng)絡(luò)永遠(yuǎn)不可能逼近一個緊湊的決策邊界,即使我們允許有無限的深度。然而,在高維空間中,很難對得到的決策邊界進行可視化和檢查。通用逼近定理提供了一種完整性檢查,并確保原則上我們能夠捕獲任何期望的決策邊界。

訓(xùn)練效率:

通用逼近定理只保證了逼近任何期望函數(shù)的可能性,但它并不能保證我們通過運行SGD或任何其他優(yōu)化算法能夠?qū)嶋H找到它。理解訓(xùn)練效率可能需要更好地理解優(yōu)化場景,這是最近受到關(guān)注的一個話題。

這里,我們試圖提出一個稍微不同的角度。根據(jù)我們的理論,帶有單個神經(jīng)元隱藏層(one-neuron hidden layers)的ResNet已經(jīng)是一個通用的逼近器。換句話說,每一層有多個單元的ResNet在某種意義上是模型的過度參數(shù)化,而過度參數(shù)化已經(jīng)被觀察到有利于優(yōu)化。這可能就是為什么訓(xùn)練一個非常深的ResNet比訓(xùn)練一個完全連接的網(wǎng)絡(luò)“更容易”的原因之一。未來的工作可以更嚴(yán)謹(jǐn)?shù)胤治鲞@一點。

泛化:

由于一個通用逼近器可以擬合任何函數(shù),人們可能會認(rèn)為它很容易過度擬合。然而,通常可以觀察到,深度網(wǎng)絡(luò)在測試集上的泛化效果非常出色。對這一現(xiàn)象的解釋與我們的論文是不相關(guān)的,但是,了解通用逼近能力是這一理論的重要組成部分。此外,我們的結(jié)果暗示了,前述的“過度參數(shù)化”也可能發(fā)揮作用。

總結(jié):

總結(jié)而言,我們給出了具有單個神經(jīng)元隱藏層的ResNet的通用逼近定理。這從理論上將ResNet和完全連接網(wǎng)絡(luò)區(qū)分開來,并且,我們的結(jié)果填補了理解完全連接網(wǎng)絡(luò)的表示能力方面的空白。在一定程度上,我們的結(jié)果在理論上激勵了對ResNet架構(gòu)進行更深入的實踐。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標(biāo)題:【一個神經(jīng)元統(tǒng)治一切】ResNet 強大的理論證明

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    通過Python實現(xiàn)神經(jīng)網(wǎng)絡(luò)的實例解析

    首先讓我們看看神經(jīng)網(wǎng)絡(luò)的基本單位,神經(jīng)元。神經(jīng)元接受輸入,對其做些數(shù)據(jù)操作,然后產(chǎn)生輸出。例如,這是
    發(fā)表于 01-29 11:52 ?2918次閱讀

    采用單神經(jīng)元自適應(yīng)控制高精度空調(diào)系統(tǒng)仿真

    具有自學(xué)習(xí)、自適應(yīng)功能的神經(jīng)元控制算法引入高精度空調(diào)控制領(lǐng)域,并通過MATLAB仿真,考察了系統(tǒng)的控制效果。仿真結(jié)果表明此控制方法具有超調(diào)小、抗干擾能力強、控溫精度高的優(yōu)點,從而為空調(diào)系統(tǒng)的高精度控制提出了新的途徑。關(guān)鍵詞:
    發(fā)表于 03-18 22:28

    如何去設(shè)計種自適應(yīng)神經(jīng)元控制?求過程

    如何去設(shè)計種自適應(yīng)神經(jīng)元控制?求過程
    發(fā)表于 05-17 06:56

    文詳解CNN

    (Fully connected dence layers),正如其名,指的是層中的每個節(jié)點都會連接它下層的所有節(jié)點。理論上講,只要神經(jīng)元足夠多(圖中綠色圈),神經(jīng)網(wǎng)絡(luò)可以逼近任意
    發(fā)表于 08-18 06:56

    Batch,是深度學(xué)習(xí)中的重要概念

    在深度學(xué)習(xí)中,采用sigmoid激活函數(shù)的隱藏層或者輸出層的神經(jīng)元通常在計算網(wǎng)絡(luò)輸入時加入偏移值,稱為Bias。對于線性輸出神經(jīng)元,偏移
    的頭像 發(fā)表于 04-18 15:44 ?9981次閱讀

    圖文詳解:神經(jīng)網(wǎng)絡(luò)的激活函數(shù)

    什么是神經(jīng)網(wǎng)絡(luò)激活函數(shù)?激活函數(shù)有助于決定我們是否需要激活神經(jīng)元。如果我們需要發(fā)射
    的頭像 發(fā)表于 07-05 11:21 ?3815次閱讀
    圖文詳解:<b class='flag-5'>神經(jīng)</b>網(wǎng)絡(luò)的激活<b class='flag-5'>函數(shù)</b>

    神經(jīng)元芯片(neuron chip)

    功能,但是任何神經(jīng)元的故障不會影響整個網(wǎng)絡(luò)的性能。 對開發(fā)者和集成商而言,神經(jīng)元芯片的優(yōu)勢在于它的完整性。它內(nèi)嵌的通信協(xié)議和處理避免了
    的頭像 發(fā)表于 10-30 13:28 ?1885次閱讀

    神經(jīng)元的基本作用是什么信息

    的作用。 、神經(jīng)元的結(jié)構(gòu) 神經(jīng)元種高度分化的細(xì)胞,具有獨特的形態(tài)和功能。神經(jīng)元的基本結(jié)構(gòu)包括細(xì)胞體、樹突和軸突。 細(xì)胞體:細(xì)胞體是
    的頭像 發(fā)表于 07-03 11:29 ?1010次閱讀

    神經(jīng)元的結(jié)構(gòu)及功能是什么

    神經(jīng)元神經(jīng)系統(tǒng)的基本結(jié)構(gòu)和功能單位,它們通過電信號和化學(xué)信號進行信息傳遞和處理。神經(jīng)元的結(jié)構(gòu)和功能非常復(fù)雜,涉及到許多不同的方面。 、神經(jīng)元
    的頭像 發(fā)表于 07-03 11:33 ?1444次閱讀

    神經(jīng)元的分類包括哪些

    神經(jīng)元神經(jīng)系統(tǒng)的基本功能單位,它們通過電信號和化學(xué)信號進行信息傳遞和處理。神經(jīng)元的分類非常復(fù)雜,可以根據(jù)不同的標(biāo)準(zhǔn)進行分類。 、神經(jīng)元
    的頭像 發(fā)表于 07-03 11:36 ?1413次閱讀

    人工神經(jīng)元模型的基本原理及應(yīng)用

    人工神經(jīng)元模型是人工智能和機器學(xué)習(xí)領(lǐng)域的重要概念,它模仿了生物神經(jīng)元的工作方式,為計算機提供了處理信息的能力。 、人工
    的頭像 發(fā)表于 07-11 11:15 ?1040次閱讀

    人工智能神經(jīng)元的基本結(jié)構(gòu)

    人工智能神經(jīng)元的基本結(jié)構(gòu)是復(fù)雜而深入的話題,涉及到計算機科學(xué)、數(shù)學(xué)、神經(jīng)科學(xué)等多個領(lǐng)域的知識。 引言 人工智能(Artificial Intelligence,簡稱AI)是計算機科
    的頭像 發(fā)表于 07-11 11:19 ?1431次閱讀

    人工神經(jīng)元模型中常見的轉(zhuǎn)移函數(shù)有哪些

    人工神經(jīng)元模型是神經(jīng)網(wǎng)絡(luò)的基礎(chǔ),它模擬了生物神經(jīng)元的工作原理。在人工神經(jīng)元模型中,轉(zhuǎn)移函數(shù)起著至關(guān)重要的作用,它決定了
    的頭像 發(fā)表于 07-11 11:22 ?1204次閱讀

    人工神經(jīng)元模型的基本構(gòu)成要素

    人工神經(jīng)元模型是人工智能領(lǐng)域中的重要概念,它模仿了生物神經(jīng)元的工作方式,為機器學(xué)習(xí)和深度學(xué)習(xí)提供了基礎(chǔ)。本文將介紹人工神經(jīng)元模型的基本構(gòu)
    的頭像 發(fā)表于 07-11 11:28 ?1396次閱讀

    神經(jīng)元模型激活函數(shù)通常有哪幾類

    神經(jīng)元模型激活函數(shù)神經(jīng)網(wǎng)絡(luò)中的關(guān)鍵組成部分,它們負(fù)責(zé)在神經(jīng)元之間引入非線性,使得神經(jīng)網(wǎng)絡(luò)能夠?qū)W習(xí)和模擬復(fù)雜的
    的頭像 發(fā)表于 07-11 11:33 ?1103次閱讀