0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

13種神經(jīng)網(wǎng)絡(luò)激活函數(shù)

zhKF_jqr_AI ? 來(lái)源:未知 ? 作者:李倩 ? 2018-05-16 11:18 ? 次閱讀

機(jī)器學(xué)習(xí)初創(chuàng)公司Mate Labs聯(lián)合創(chuàng)始人Kailash Ahirwar簡(jiǎn)要介紹了13種神經(jīng)網(wǎng)絡(luò)激活函數(shù)。

激活函數(shù)將非線性引入網(wǎng)絡(luò),因此激活函數(shù)自身也被稱為非線性。神經(jīng)網(wǎng)絡(luò)是普適的函數(shù)逼近器,而深度神經(jīng)網(wǎng)絡(luò)基于反向傳播訓(xùn)練,因此要求可微激活函數(shù)。反向傳播在這一函數(shù)上應(yīng)用梯度下降,以更新網(wǎng)絡(luò)的權(quán)重。理解激活函數(shù)非常重要,因?yàn)樗鼘?duì)深度神經(jīng)網(wǎng)絡(luò)的質(zhì)量起著關(guān)鍵的作用。本文將羅列和描述不同的激活函數(shù)。

線性激活函數(shù)

恒等函數(shù)(Identity)或線性激活(Linear activation)函數(shù)是最簡(jiǎn)單的激活函數(shù)。輸出和輸入成比例。線性激活函數(shù)的問(wèn)題在于,它的導(dǎo)數(shù)是常數(shù),梯度也是常數(shù),梯度下降無(wú)法工作。

值域:(-∞, +∞)

例子:f(2) = 2或f(-4) = -4

階躍函數(shù)

階躍函數(shù)(Heaviside step function)通常只在單層感知器上有用,單層感知器是神經(jīng)網(wǎng)絡(luò)的早期形式,可用于分類線性可分的數(shù)據(jù)。這些函數(shù)可用于二元分類任務(wù)。其輸出為A1(若輸入之和高于特定閾值)或A0(若輸入之和低于特定閾值)。感知器使用的值為A1 = 1、A0 = 0.

值域:0或1

例子:f(2) = 1、f(-4) = 0、f(0) = 0、f(1) = 1

圖片來(lái)源:維基百科

sigmoid函數(shù)

sigmoid函數(shù),也稱邏輯激活函數(shù)(Logistic activation function)最常用于二元分類問(wèn)題。它有梯度消失問(wèn)題。在一定epoch數(shù)目之后,網(wǎng)絡(luò)拒絕學(xué)習(xí),或非常緩慢地學(xué)習(xí),因?yàn)檩斎耄╔)導(dǎo)致輸出(Y)中非常小的改動(dòng)?,F(xiàn)在,sigmoid函數(shù)主要用于分類問(wèn)題。這一函數(shù)更容易碰到后續(xù)層的飽和問(wèn)題,導(dǎo)致訓(xùn)練變得困難。計(jì)算sigmoid函數(shù)的導(dǎo)數(shù)非常簡(jiǎn)單。

就神經(jīng)網(wǎng)絡(luò)的反向傳播過(guò)程而言,每層(至少)擠入四分之一的誤差。因此,網(wǎng)絡(luò)越深,越多關(guān)于數(shù)據(jù)的知識(shí)將“丟失”。某些輸出層的“較大”誤差可能不會(huì)影響相對(duì)較淺的層中的神經(jīng)元的突觸權(quán)重(“較淺”意味著接近輸入層)。

sigmoid函數(shù)定義

sigmoid函數(shù)的導(dǎo)數(shù)

值域:(0, 1)

例子:f(4) = 0.982、f(-3) = 0.0474、f(-5) = 0.0067

圖片來(lái)源:維基百科

圖片來(lái)源:deep learning nano foundation

tanh函數(shù)

tanh函數(shù)是拉伸過(guò)的sigmoid函數(shù),以零為中心,因此導(dǎo)數(shù)更陡峭。tanh比sigmoid激活函數(shù)收斂得更快。

值域:(-1, 1)

例子:tanh(2) = 0.9640、tanh(-0.567) = -0.5131、tanh(0) = 0

圖片來(lái)源:維基百科

ReLU函數(shù)

ReLU(Rectified Linear Unit,修正線性單元)訓(xùn)練速度比tanh快6倍。當(dāng)輸入值小于零時(shí),輸出值為零。當(dāng)輸入值大于等于零時(shí),輸出值等于輸入值。當(dāng)輸入值為正數(shù)時(shí),導(dǎo)數(shù)為1,因此不會(huì)出現(xiàn)sigmoid函數(shù)反向傳播時(shí)的擠壓效應(yīng)。

值域:[0, x)

例子:f(-5) = 0、f(0) = 0、f(5) = 5

圖片來(lái)源:維基百科

不幸的是,ReLU在訓(xùn)練時(shí)可能很脆弱,可能“死亡”。例如,通過(guò)ReLU神經(jīng)元的較大梯度可能導(dǎo)致權(quán)重更新過(guò)頭,導(dǎo)致神經(jīng)元再也不會(huì)因?yàn)槿魏螖?shù)據(jù)點(diǎn)激活。如果這一情況發(fā)生了,經(jīng)過(guò)這一單元的梯度從此以后將永遠(yuǎn)為零。也就是說(shuō),ReLU單元可能在訓(xùn)練中不可逆地死亡,因?yàn)樗鼈儽粡臄?shù)據(jù)流形上踢出去了。例如,你可能發(fā)現(xiàn),如果學(xué)習(xí)率設(shè)置過(guò)高,40%的網(wǎng)絡(luò)可能“死亡”(即神經(jīng)元在整個(gè)訓(xùn)練數(shù)據(jù)集上永遠(yuǎn)不會(huì)激活)。設(shè)置一個(gè)合適的學(xué)習(xí)率可以緩解這一問(wèn)題。

-- Andrej Karpathy CS231n 課程

Leaky ReLU函數(shù)

Leaky ReLU讓單元未激活時(shí)能有一個(gè)很小的非零梯度。這里,很小的非零梯度是0.01.

值域:(-∞, +∞)

PReLU函數(shù)

PReLU(Parametric Rectified Linear Unit)函數(shù)類似Leaky ReLU,只不過(guò)將系數(shù)(很小的非零梯度)作為激活函數(shù)的參數(shù),該參數(shù)和網(wǎng)絡(luò)的其他參數(shù)一樣,在訓(xùn)練過(guò)程中學(xué)習(xí)。

值域:(-∞, +∞)

RReLU函數(shù)

RReLU也類似Leaky ReLU,只不過(guò)系數(shù)(較小的非零梯度)在訓(xùn)練中取一定范圍內(nèi)的隨機(jī)值,在測(cè)試時(shí)固定。

值域:(-∞, +∞)

ELU函數(shù)

ELU(Exponential Linear Unit,指數(shù)線性單元)嘗試加快學(xué)習(xí)速度?;贓LU,有可能得到比ReLU更高的分類精確度。這里α是一個(gè)超參數(shù)(限制:α ≥ 0)。

值域:(-α, +∞)

SELU函數(shù)

SELU(Scaled Exponential Linear Unit,拉伸指數(shù)線性單元)是ELU經(jīng)過(guò)拉伸的版本。

圖片來(lái)源:Elior Cohen

SReLU函數(shù)

SReLU(S-shaped Rectified Linear Activation Unit,S型修正線性激活單元)由三個(gè)分段線性函數(shù)組成。系數(shù)作為參數(shù),將在網(wǎng)絡(luò)訓(xùn)練中學(xué)習(xí)。

值域:(-∞, +∞)

不同參數(shù)的SReLU圖像;圖片來(lái)源:arXiv:1512.07030

APL函數(shù)

APL(Adaptive Piecewise Linear,自適應(yīng)分段線性)函數(shù)

圖片來(lái)源:arXiv:1512.07030

值域:(-∞, +∞)

SoftPlus函數(shù)

SoftPlus函數(shù)的導(dǎo)數(shù)為邏輯(logistic)函數(shù)。大體上,ReLU和SoftPlus很相似,只不過(guò)SoftPlus在接近零處平滑可微。另外,計(jì)算ReLU及其導(dǎo)數(shù)要比SoftPlus容易很多。

值域:(0, ∞)

圖片來(lái)源:維基百科

bent identity函數(shù)

bent identity函數(shù),顧名思義,將恒等函數(shù)彎曲一下。

值域:(-∞, +∞)

圖片來(lái)源:維基百科

softmax函數(shù)

softmax函數(shù)將原始值轉(zhuǎn)換為后驗(yàn)分布,可用于衡量確定性。類似sigmoid,softmax將每個(gè)單元的輸出值擠壓到0和1之間。不過(guò),softmax同時(shí)確保輸出的總和等于1.

圖片來(lái)源:dataaspirant.com

softmax函數(shù)的輸出等價(jià)于類別概率分布,它告訴你任何分類為真的概率。

結(jié)語(yǔ)

選擇激活函數(shù)時(shí),優(yōu)先選擇ReLU及其變體,而不是sigmoid或tanh。同時(shí)ReLU及其變體訓(xùn)練起來(lái)更快。如果ReLU導(dǎo)致神經(jīng)元死亡,使用Leaky ReLU或者ReLU的其他變體。sigmoid和tanh受到消失梯度問(wèn)題的困擾,不應(yīng)該在隱藏層中使用。隱藏層使用ReLU及其變體較好。使用容易求導(dǎo)和訓(xùn)練的激活函數(shù)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:激活函數(shù)初學(xué)者指南

文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    神經(jīng)網(wǎng)絡(luò)基本的訓(xùn)練和工作原理是什么

    在兩層神經(jīng)網(wǎng)絡(luò)之間,必須有激活函數(shù)連接,從而加入非線性因素,提高神經(jīng)網(wǎng)絡(luò)的能力。所以,我們先從激活函數(shù)
    發(fā)表于 08-07 10:02 ?703次閱讀
    <b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>基本的訓(xùn)練和工作原理是什么

    【PYNQ-Z2試用體驗(yàn)】神經(jīng)網(wǎng)絡(luò)基礎(chǔ)知識(shí)

    學(xué)習(xí)和認(rèn)知科學(xué)領(lǐng)域,是一模仿生物神經(jīng)網(wǎng)絡(luò)(動(dòng)物的中樞神經(jīng)系統(tǒng),特別是大腦)的結(jié)構(gòu)和功能的數(shù)學(xué)模型或計(jì)算模型,用于對(duì)函數(shù)進(jìn)行估計(jì)或近似。神經(jīng)網(wǎng)絡(luò)
    發(fā)表于 03-03 22:10

    【案例分享】ART神經(jīng)網(wǎng)絡(luò)與SOM神經(jīng)網(wǎng)絡(luò)

    是一常用的無(wú)監(jiān)督學(xué)習(xí)策略,在使用改策略時(shí),網(wǎng)絡(luò)的輸出神經(jīng)元相互競(jìng)爭(zhēng),每一時(shí)刻只有一個(gè)競(jìng)爭(zhēng)獲勝的神經(jīng)激活。ART
    發(fā)表于 07-21 04:30

    神經(jīng)網(wǎng)絡(luò)移植到STM32的方法

    神經(jīng)網(wǎng)絡(luò)移植到STM32最近在做的一個(gè)項(xiàng)目需要用到網(wǎng)絡(luò)進(jìn)行擬合,并且將擬合得到的結(jié)果用作控制,就在想能不能直接在單片機(jī)上做神經(jīng)網(wǎng)絡(luò)計(jì)算,這樣就可以實(shí)時(shí)計(jì)算,不依賴于上位機(jī)。所以要解決的主要是兩個(gè)
    發(fā)表于 01-11 06:20

    ReLU到Sinc的26神經(jīng)網(wǎng)絡(luò)激活函數(shù)可視化大盤點(diǎn)

    本文介紹了26個(gè)激活函數(shù)的圖示及其一階導(dǎo)數(shù),在神經(jīng)網(wǎng)絡(luò)中,激活函數(shù)決定來(lái)自給定輸入集的節(jié)點(diǎn)的輸出,其中非線性
    發(fā)表于 01-11 17:42 ?3.1w次閱讀
    ReLU到Sinc的26<b class='flag-5'>種</b><b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b><b class='flag-5'>激活</b><b class='flag-5'>函數(shù)</b>可視化大盤點(diǎn)

    圖文詳解:神經(jīng)網(wǎng)絡(luò)激活函數(shù)

    什么是神經(jīng)網(wǎng)絡(luò)激活函數(shù)?激活函數(shù)有助于決定我們是否需要激活
    的頭像 發(fā)表于 07-05 11:21 ?3788次閱讀
    圖文詳解:<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>的<b class='flag-5'>激活</b><b class='flag-5'>函數(shù)</b>

    神經(jīng)網(wǎng)絡(luò)初學(xué)者的激活函數(shù)指南

    作者:Mouaad B. 來(lái)源:DeepHub IMBA 如果你剛剛開(kāi)始學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),激活函數(shù)的原理一開(kāi)始可能很難理解。但是如果你想開(kāi)發(fā)強(qiáng)大的神經(jīng)網(wǎng)絡(luò),理解它們是很重要的。 但在我們深
    的頭像 發(fā)表于 04-18 11:20 ?559次閱讀
    <b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>初學(xué)者的<b class='flag-5'>激活</b><b class='flag-5'>函數(shù)</b>指南

    神經(jīng)網(wǎng)絡(luò)初學(xué)者的激活函數(shù)指南

    作者:MouaadB.來(lái)源:DeepHubIMBA如果你剛剛開(kāi)始學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)激活函數(shù)的原理一開(kāi)始可能很難理解。但是如果你想開(kāi)發(fā)強(qiáng)大的神經(jīng)網(wǎng)絡(luò),理解它們是很重要的。但在我們深入研究
    的頭像 發(fā)表于 04-21 09:28 ?712次閱讀
    <b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>初學(xué)者的<b class='flag-5'>激活</b><b class='flag-5'>函數(shù)</b>指南

    神經(jīng)網(wǎng)絡(luò)中的激活函數(shù)有哪些

    神經(jīng)網(wǎng)絡(luò)中,激活函數(shù)是一個(gè)至關(guān)重要的組成部分,它決定了神經(jīng)元對(duì)于輸入信號(hào)的反應(yīng)方式,為神經(jīng)網(wǎng)絡(luò)引入了非線性因素,使得
    的頭像 發(fā)表于 07-01 11:52 ?600次閱讀

    神經(jīng)網(wǎng)絡(luò)激活函數(shù)的定義及類型

    引言 神經(jīng)網(wǎng)絡(luò)是一模擬人腦神經(jīng)元結(jié)構(gòu)的計(jì)算模型,廣泛應(yīng)用于圖像識(shí)別、自然語(yǔ)言處理、語(yǔ)音識(shí)別等領(lǐng)域。在神經(jīng)網(wǎng)絡(luò)中,激活
    的頭像 發(fā)表于 07-02 10:09 ?542次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)激活函數(shù)的作用

    卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNNs)是深度學(xué)習(xí)中一重要的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),廣泛應(yīng)用于圖像識(shí)別、語(yǔ)音識(shí)別、自然語(yǔ)言處理等領(lǐng)域。在卷積神經(jīng)網(wǎng)絡(luò)
    的頭像 發(fā)表于 07-03 09:18 ?1107次閱讀

    BP神經(jīng)網(wǎng)絡(luò)激活函數(shù)怎么選擇

    中,激活函數(shù)起著至關(guān)重要的作用,它決定了神經(jīng)元的輸出方式,進(jìn)而影響整個(gè)網(wǎng)絡(luò)的性能。 一、激活函數(shù)
    的頭像 發(fā)表于 07-03 10:02 ?713次閱讀

    bp神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)區(qū)別是什么

    結(jié)構(gòu)、原理、應(yīng)用場(chǎng)景等方面都存在一定的差異。以下是對(duì)這兩神經(jīng)網(wǎng)絡(luò)的比較: 基本結(jié)構(gòu) BP神經(jīng)網(wǎng)絡(luò)是一多層前饋神經(jīng)網(wǎng)絡(luò),由輸入層、隱藏層和
    的頭像 發(fā)表于 07-03 10:12 ?1205次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)和bp神經(jīng)網(wǎng)絡(luò)的區(qū)別在哪

    結(jié)構(gòu)、原理、應(yīng)用場(chǎng)景等方面都存在一定的差異。以下是對(duì)這兩神經(jīng)網(wǎng)絡(luò)的詳細(xì)比較: 基本結(jié)構(gòu) BP神經(jīng)網(wǎng)絡(luò)是一多層前饋神經(jīng)網(wǎng)絡(luò),由輸入層、隱藏
    的頭像 發(fā)表于 07-04 09:49 ?9305次閱讀

    前饋神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)和常見(jiàn)激活函數(shù)

    激活函數(shù)的非線性變換,能夠?qū)W習(xí)和模擬復(fù)雜的函數(shù)映射,從而解決各種監(jiān)督學(xué)習(xí)任務(wù)。本文將詳細(xì)闡述前饋神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu),包括其組成層、權(quán)重和偏置、激活
    的頭像 發(fā)表于 07-09 10:31 ?843次閱讀