0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

解決機(jī)器學(xué)習(xí)中有關(guān)學(xué)習(xí)率的常見問題

倩倩 ? 來源:不靠譜的貓 ? 2020-04-15 11:52 ? 次閱讀

什么是學(xué)習(xí)率?它的用途是什么?

神經(jīng)網(wǎng)絡(luò)計(jì)算其輸入的加權(quán)和,并通過一個(gè)激活函數(shù)得到輸出。為了獲得準(zhǔn)確的預(yù)測,一種稱為梯度下降的學(xué)習(xí)算法會(huì)在從輸出向輸入后退的同時(shí)更新權(quán)重。

梯度下降優(yōu)化器通過最小化一個(gè)損失函數(shù)(L)來估計(jì)模型權(quán)重在多次迭代中的良好值,這就是學(xué)習(xí)率發(fā)揮作用的地方。它控制模型學(xué)習(xí)的速度,換句話說,控制權(quán)重更新到l最小點(diǎn)的速度。新(更新后)和舊(更新前)權(quán)重值之間的關(guān)系如下:

學(xué)習(xí)率是否為負(fù)值?

梯度L/w是損失函數(shù)遞增方向上的向量。L/w是L遞減方向上的向量。由于η大于0,因此是正值,所以-ηL/w朝L的減小方向向其最小值邁進(jìn)。如果η為負(fù)值,則您正在遠(yuǎn)離最小值,這是它正在改變梯度下降的作用,甚至使神經(jīng)網(wǎng)絡(luò)無法學(xué)習(xí)。如果您考慮一個(gè)負(fù)學(xué)習(xí)率值,則必須對上述方程式做一個(gè)小更改,以使損失函數(shù)保持最?。?/p>

學(xué)習(xí)率的典型值是多少?

學(xué)習(xí)率的典型值范圍為10 E-6和1。

梯度學(xué)習(xí)率選擇錯(cuò)誤的問題是什么?

達(dá)到最小梯度所需的步長直接影響機(jī)器學(xué)習(xí)模型的性能:

小的學(xué)習(xí)率會(huì)消耗大量的時(shí)間來收斂,或者由于梯度的消失而無法收斂,即梯度趨近于0。

大的學(xué)習(xí)率使模型有超過最小值的風(fēng)險(xiǎn),因此它將無法收斂:這就是所謂的爆炸梯度。

梯度消失(左)和梯度爆炸(右)

因此,您的目標(biāo)是調(diào)整學(xué)習(xí)率,以使梯度下降優(yōu)化器以最少的步數(shù)達(dá)到L的最小點(diǎn)。通常,您應(yīng)該選擇理想的學(xué)習(xí)率,該速率應(yīng)足夠小,以便網(wǎng)絡(luò)能夠收斂但不會(huì)導(dǎo)致梯度消失,還應(yīng)足夠大,以便可以在合理的時(shí)間內(nèi)訓(xùn)練模型而不會(huì)引起爆炸梯度。

除了對學(xué)習(xí)率的選擇之外,損失函數(shù)的形狀以及對優(yōu)化器的選擇還決定了收斂速度和是否可以收斂到目標(biāo)最小值。

錯(cuò)誤的權(quán)重學(xué)習(xí)率有什么問題?

當(dāng)我們的輸入是圖像時(shí),低設(shè)置的學(xué)習(xí)率會(huì)導(dǎo)致如下圖所示的噪聲特征。平滑、干凈和多樣化的特征是良好調(diào)優(yōu)學(xué)習(xí)率的結(jié)果。是否適當(dāng)?shù)卦O(shè)置學(xué)習(xí)率決定了機(jī)器學(xué)習(xí)模型的預(yù)測質(zhì)量:要么是進(jìn)行良好的訓(xùn)練,要么是不收斂的網(wǎng)絡(luò)。

繪制神經(jīng)網(wǎng)絡(luò)第一層產(chǎn)生的特征:不正確(左)和正確(右)設(shè)置學(xué)習(xí)率的情況

我們可以事先計(jì)算出最佳學(xué)習(xí)率嗎?

通過理論推導(dǎo),不可能計(jì)算出導(dǎo)致最準(zhǔn)確的預(yù)測的最佳學(xué)習(xí)率。為了發(fā)現(xiàn)給定數(shù)據(jù)集上給定模型的最佳學(xué)習(xí)率值,必須進(jìn)行觀察和體驗(yàn)。

我們?nèi)绾卧O(shè)置學(xué)習(xí)率?

以下是配置η值所需了解的所有內(nèi)容。

使用固定學(xué)習(xí)率:

您確定將在所有學(xué)習(xí)過程中使用的學(xué)習(xí)率的值。這里有兩種可能的方法。第一個(gè)很簡單的。它由實(shí)踐中常用的常用值組成,即0.1或0.01。第二種方法,您必須尋找適合您的特定問題和神經(jīng)網(wǎng)絡(luò)架構(gòu)的正確學(xué)習(xí)率。如前所述,學(xué)習(xí)率的典型值范圍是10 E-6和1。因此,你粗略地在這個(gè)范圍內(nèi)搜索10的各種階數(shù),為你的學(xué)習(xí)率找到一個(gè)最優(yōu)的子范圍。然后,您可以在粗略搜索所找到的子范圍內(nèi)以較小的增量細(xì)化搜索。你在實(shí)踐中可能看到的一種啟發(fā)式方法是在訓(xùn)練時(shí)觀察損失,以找到最佳的學(xué)習(xí)率。

學(xué)習(xí)率時(shí)間schedule的使用:

與固定學(xué)習(xí)率不同,此替代方法要求根據(jù)schedule在訓(xùn)練epochs內(nèi)改變?chǔ)侵?。在這里,您將從較高的學(xué)習(xí)率開始,然后在模型訓(xùn)練期間逐漸降低學(xué)習(xí)率。在學(xué)習(xí)過程的開始,權(quán)重是隨機(jī)初始化的,遠(yuǎn)遠(yuǎn)沒有優(yōu)化,因此較大的更改就足夠了。隨著學(xué)習(xí)過程的結(jié)束,需要更完善的權(quán)重更新。通常每隔幾個(gè)epochs減少一次學(xué)習(xí)Learning step。學(xué)習(xí)率也可以在固定數(shù)量的訓(xùn)練epochs內(nèi)衰減,然后對于其余的訓(xùn)練epochs保持較小的恒定值。

常見的兩種方案。第一種方案,對于固定數(shù)量的訓(xùn)練epochs,每次損失平穩(wěn)(即停滯)時(shí),學(xué)習(xí)率都會(huì)降低。第二種方案,降低學(xué)習(xí)率,直到達(dá)到接近0的較小值為止。三種衰減學(xué)習(xí)率的方法,即階躍衰減、指數(shù)衰減和1/t衰減。

在SGD中添加Momentum:

它是在經(jīng)典的SGD方程中加入一項(xiàng):

這個(gè)附加項(xiàng)考慮了由于Vt-1而帶來的權(quán)重更新的歷史,Vt-1是過去梯度的指數(shù)移動(dòng)平均值的累積。這就平滑了SGD的進(jìn)程,減少了SGD的振蕩,從而加速了收斂。然而,這需要設(shè)置新的超參數(shù)γ。除了學(xué)習(xí)率η的挑戰(zhàn)性調(diào)整外,還必須考慮動(dòng)量γ的選擇。γ設(shè)置為大于0且小于1的值。其常用值為0.5、0.9和0.99。

自適應(yīng)學(xué)習(xí)率的使用:

與上述方法不同,不需要手動(dòng)調(diào)整學(xué)習(xí)率。根據(jù)權(quán)重的重要性,優(yōu)化器可以調(diào)整η來執(zhí)行更大或更小的更新。此外,對于模型中的每個(gè)權(quán)重值,都確保了一個(gè)學(xué)習(xí)率。Adagrad,Adadelta,RMSProp和Adam是自適應(yīng)梯度下降變體的例子。您應(yīng)該知道,沒有哪個(gè)算法可以最好地解決所有問題。

學(xué)習(xí)率配置主要方法概述

學(xué)習(xí)率的實(shí)際經(jīng)驗(yàn)法則是什么?

學(xué)習(xí)率是機(jī)器學(xué)習(xí)模型所依賴的最重要的超參數(shù)。因此,如果您不得不設(shè)置一個(gè)且只有一個(gè)超參數(shù),則必須優(yōu)先考慮學(xué)習(xí)率。

機(jī)器學(xué)習(xí)模型學(xué)習(xí)率的調(diào)整非常耗時(shí)。因此,沒有必要執(zhí)行網(wǎng)格搜索來找到最佳學(xué)習(xí)率。為了得到一個(gè)成功的模型,找到一個(gè)足夠大的學(xué)習(xí)率使梯度下降法有效收斂就足夠了,但又不能大到永遠(yuǎn)不收斂。

如果您選擇一種非自適應(yīng)學(xué)習(xí)率設(shè)置方法,則應(yīng)注意該模型將具有數(shù)百個(gè)權(quán)重(或者數(shù)千個(gè)權(quán)重),每個(gè)權(quán)重都有自己的損失曲線。因此,您必須設(shè)置一個(gè)適合所有的學(xué)習(xí)率。此外,損失函數(shù)在實(shí)際中往往不是凸的,而是清晰的u形。他們往往有更復(fù)雜的非凸形狀局部最小值。

自適應(yīng)方法極大地簡化了具有挑戰(zhàn)性的學(xué)習(xí)率配置任務(wù),這使得它們變得更加常用。此外,它的收斂速度通常更快,并且優(yōu)于通過非自適應(yīng)方法不正確地調(diào)整其學(xué)習(xí)率的模型。

SGD with Momentum,RMSProp和Adam是最常用的算法,因?yàn)樗鼈儗Χ喾N神經(jīng)網(wǎng)絡(luò)架構(gòu)和問題類型具有魯棒性。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
收藏 人收藏

    評論

    相關(guān)推薦

    嵌入式機(jī)器學(xué)習(xí)的應(yīng)用特性與軟件開發(fā)環(huán)境

    設(shè)備和智能傳感器)上,這些設(shè)備通常具有有限的計(jì)算能力、存儲(chǔ)空間和功耗。本文將您介紹嵌入式機(jī)器學(xué)習(xí)的應(yīng)用特性,以及常見機(jī)器學(xué)習(xí)開發(fā)軟件與開發(fā)
    的頭像 發(fā)表于 01-25 17:05 ?131次閱讀
    嵌入式<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>的應(yīng)用特性與軟件開發(fā)環(huán)境

    傳統(tǒng)機(jī)器學(xué)習(xí)方法和應(yīng)用指導(dǎo)

    在上一篇文章中,我們介紹了機(jī)器學(xué)習(xí)的關(guān)鍵概念術(shù)語。在本文中,我們會(huì)介紹傳統(tǒng)機(jī)器學(xué)習(xí)的基礎(chǔ)知識和多種算法特征,供各位老師選擇。 01 傳統(tǒng)機(jī)器
    的頭像 發(fā)表于 12-30 09:16 ?361次閱讀
    傳統(tǒng)<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>方法和應(yīng)用指導(dǎo)

    如何選擇云原生機(jī)器學(xué)習(xí)平臺(tái)

    當(dāng)今,云原生機(jī)器學(xué)習(xí)平臺(tái)因其彈性擴(kuò)展、高效部署、低成本運(yùn)營等優(yōu)勢,逐漸成為企業(yè)構(gòu)建和部署機(jī)器學(xué)習(xí)應(yīng)用的首選。然而,市場上的云原生機(jī)器
    的頭像 發(fā)表于 12-25 11:54 ?151次閱讀

    zeta在機(jī)器學(xué)習(xí)中的應(yīng)用 zeta的優(yōu)缺點(diǎn)分析

    的應(yīng)用(基于低功耗廣域物聯(lián)網(wǎng)技術(shù)ZETA) ZETA作為一種低功耗廣域物聯(lián)網(wǎng)(LPWAN)技術(shù),雖然其直接應(yīng)用于機(jī)器學(xué)習(xí)的場景可能并不常見,但它可以通過提供高效、穩(wěn)定的物聯(lián)網(wǎng)通信支持,間接促進(jìn)
    的頭像 發(fā)表于 12-20 09:11 ?339次閱讀

    什么是機(jī)器學(xué)習(xí)?通過機(jī)器學(xué)習(xí)方法能解決哪些問題?

    來源:Master編程樹“機(jī)器學(xué)習(xí)”最初的研究動(dòng)機(jī)是讓計(jì)算機(jī)系統(tǒng)具有人的學(xué)習(xí)能力以便實(shí)現(xiàn)人工智能。因?yàn)闆]有學(xué)習(xí)能力的系統(tǒng)很難被認(rèn)為是具有智能的。目前被廣泛采用的
    的頭像 發(fā)表于 11-16 01:07 ?492次閱讀
    什么是<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>?通過<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>方法能解決哪些問題?

    NPU與機(jī)器學(xué)習(xí)算法的關(guān)系

    在人工智能領(lǐng)域,機(jī)器學(xué)習(xí)算法是實(shí)現(xiàn)智能系統(tǒng)的核心。隨著數(shù)據(jù)量的激增和算法復(fù)雜度的提升,對計(jì)算資源的需求也在不斷增長。NPU作為一種專門為深度學(xué)習(xí)機(jī)器
    的頭像 發(fā)表于 11-15 09:19 ?581次閱讀

    電路設(shè)計(jì)常見問題解答

    電路設(shè)計(jì)充滿挑戰(zhàn),即便是最富經(jīng)驗(yàn)的工程師也難免遭遇困惑與阻礙。《電路設(shè)計(jì)常見問題解答》是ADI精心籌備的一份實(shí)用指南,力求為您鋪設(shè)一條清晰的學(xué)習(xí)與實(shí)踐之路。
    的頭像 發(fā)表于 11-05 17:02 ?550次閱讀
    電路設(shè)計(jì)<b class='flag-5'>常見問題</b>解答

    人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)存在什么區(qū)別

    人工智能指的是在某種程度上顯示出類似人類智能的設(shè)備。AI有很多技術(shù),但其中一個(gè)很大的子集是機(jī)器學(xué)習(xí)——讓算法從數(shù)據(jù)中學(xué)習(xí)
    發(fā)表于 10-24 17:22 ?2522次閱讀
    人工智能、<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>和深度<b class='flag-5'>學(xué)習(xí)</b>存在什么區(qū)別

    【「時(shí)間序列與機(jī)器學(xué)習(xí)」閱讀體驗(yàn)】+ 簡單建議

    這本書以其系統(tǒng)性的框架和深入淺出的講解,為讀者繪制了一幅時(shí)間序列分析與機(jī)器學(xué)習(xí)融合應(yīng)用的宏偉藍(lán)圖。作者不僅扎實(shí)地構(gòu)建了時(shí)間序列分析的基礎(chǔ)知識,更巧妙地展示了機(jī)器學(xué)習(xí)如何在這一領(lǐng)域發(fā)揮巨
    發(fā)表于 08-12 11:21

    機(jī)器學(xué)習(xí)中的數(shù)據(jù)分割方法

    機(jī)器學(xué)習(xí)中,數(shù)據(jù)分割是一項(xiàng)至關(guān)重要的任務(wù),它直接影響到模型的訓(xùn)練效果、泛化能力以及最終的性能評估。本文將從多個(gè)方面詳細(xì)探討機(jī)器學(xué)習(xí)中數(shù)據(jù)分割的方法,包括
    的頭像 發(fā)表于 07-10 16:10 ?2117次閱讀

    人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)是什么

    在科技日新月異的今天,人工智能(Artificial Intelligence, AI)、機(jī)器學(xué)習(xí)(Machine Learning, ML)和深度學(xué)習(xí)(Deep Learning, DL)已成為
    的頭像 發(fā)表于 07-03 18:22 ?1402次閱讀

    機(jī)器學(xué)習(xí)算法原理詳解

    機(jī)器學(xué)習(xí)作為人工智能的一個(gè)重要分支,其目標(biāo)是通過讓計(jì)算機(jī)自動(dòng)從數(shù)據(jù)中學(xué)習(xí)并改進(jìn)其性能,而無需進(jìn)行明確的編程。本文將深入解讀幾種常見機(jī)器
    的頭像 發(fā)表于 07-02 11:25 ?1306次閱讀

    深度學(xué)習(xí)與傳統(tǒng)機(jī)器學(xué)習(xí)的對比

    在人工智能的浪潮中,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)無疑是兩大核心驅(qū)動(dòng)力。它們各自以其獨(dú)特的方式推動(dòng)著技術(shù)的進(jìn)步,為眾多領(lǐng)域帶來了革命性的變化。然而,盡管它們都屬于機(jī)器
    的頭像 發(fā)表于 07-01 11:40 ?1514次閱讀

    機(jī)器學(xué)習(xí)的經(jīng)典算法與應(yīng)用

    關(guān)于數(shù)據(jù)機(jī)器學(xué)習(xí)就是喂入算法和數(shù)據(jù),讓算法從數(shù)據(jù)中尋找一種相應(yīng)的關(guān)系。Iris鳶尾花數(shù)據(jù)集是一個(gè)經(jīng)典數(shù)據(jù)集,在統(tǒng)計(jì)學(xué)習(xí)機(jī)器學(xué)習(xí)領(lǐng)域都經(jīng)常被
    的頭像 發(fā)表于 06-27 08:27 ?1716次閱讀
    <b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>的經(jīng)典算法與應(yīng)用

    傅里葉變換基本原理及在機(jī)器學(xué)習(xí)應(yīng)用

    連續(xù)傅里葉變換(CFT)和離散傅里葉變換(DFT)是兩個(gè)常見的變體。CFT用于連續(xù)信號,而DFT應(yīng)用于離散信號,使其與數(shù)字?jǐn)?shù)據(jù)和機(jī)器學(xué)習(xí)任務(wù)更加相關(guān)。
    發(fā)表于 03-20 11:15 ?1024次閱讀
    傅里葉變換基本原理及在<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>應(yīng)用