0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

神經(jīng)網(wǎng)絡(luò)的黑盒屬性,一直是困擾研究人員和開發(fā)者最頭疼的問題之一

DPVg_AI_era ? 來源:lq ? 2018-12-20 09:17 ? 次閱讀

神經(jīng)網(wǎng)絡(luò)的黑盒屬性,一直是困擾研究人員和開發(fā)者最頭疼的問題之一。以至于大家給神經(jīng)網(wǎng)絡(luò)戴了了一個煉丹術(shù)的帽子。但是OpenAI發(fā)現(xiàn),梯度噪聲量表是一種簡單的統(tǒng)計(jì)度量,可以預(yù)測神經(jīng)網(wǎng)絡(luò)訓(xùn)練在各種任務(wù)中的可并行性。

由于復(fù)雜的任務(wù)往往具有更嘈雜的梯度,因此越來越大的batch計(jì)算包,可能在將來變得有用,從而消除了AI系統(tǒng)進(jìn)一步增長的一個潛在限制。

更廣泛地說,這些結(jié)果表明神經(jīng)網(wǎng)絡(luò)訓(xùn)練不需要被認(rèn)為是一種煉丹術(shù),而是可以被量化和系統(tǒng)化。

在過去的幾年里,AI研究人員通過數(shù)據(jù)并行技術(shù),在加速神經(jīng)網(wǎng)絡(luò)訓(xùn)練方面取得了越來越大的成功,數(shù)據(jù)并行性將大batch數(shù)據(jù)分散到許多機(jī)器上。

研究人員成功地使用了成各種的batch進(jìn)行圖像分類和語言建模,甚至玩Dota 2。

這些大batch數(shù)據(jù)允許將越來越多的計(jì)算量有效地投入到單個模型的訓(xùn)練中,并且是人工智能訓(xùn)練計(jì)算快速增長的重要推動者。

但是,batch如果太大,則梯度消失。并且不清楚為什么這些限制對于某些任務(wù)影響更大而對其他任務(wù)影響較小。

我們已經(jīng)發(fā)現(xiàn),通過測量梯度噪聲標(biāo)度,一個簡單的統(tǒng)計(jì)量來量化網(wǎng)絡(luò)梯度的信噪比,我們可以近似預(yù)測最大有效batch大小。

同理,噪聲尺度可以測量模型所見的數(shù)據(jù)變化(在訓(xùn)練的給定階段)。當(dāng)噪聲規(guī)模很小時,快速并行查看大量數(shù)據(jù)變得多余;反之,我們?nèi)匀豢梢詮拇骲atch數(shù)據(jù)中學(xué)到很多東西。

這種類型的統(tǒng)計(jì)數(shù)據(jù)被廣泛用于樣本量選擇,并且已被提議用于深度學(xué)習(xí),但尚未被系統(tǒng)地測量或應(yīng)用于現(xiàn)代訓(xùn)練運(yùn)行。

我們對上圖所示的各種機(jī)器學(xué)習(xí)任務(wù)進(jìn)行了驗(yàn)證,包括圖像識別,語言建模,Atari游戲和Dota。

由于大batch通常需要仔細(xì)和昂貴的調(diào)整或特殊高效的學(xué)習(xí)率,因此提前知道上限在訓(xùn)練新模型方面提供了顯著的實(shí)際優(yōu)勢。

我們發(fā)現(xiàn),根據(jù)訓(xùn)練的現(xiàn)實(shí)時間和我們用于進(jìn)行訓(xùn)練的總體積計(jì)算(與美元成本成比例)之間的權(quán)衡,可視化這些實(shí)驗(yàn)的結(jié)果是有幫助的。

在非常小的batch的情況下,batch加倍可以讓我們在不使用額外計(jì)算的情況下減少一半的訓(xùn)練。在非常大的batch,更多的并行化不會導(dǎo)致更快的訓(xùn)練。中間的曲線中存在“彎曲”,漸變噪聲標(biāo)度預(yù)測彎曲發(fā)生的位置。

我們通過設(shè)置性能水平(比如在Beam Rider的Atari游戲中得分為1000)來制作這些曲線,并觀察在不同batch大小下訓(xùn)練到該性能所需的時間。 結(jié)果與績效目標(biāo)的許多不同值相對較緊密地匹配了我們模型的預(yù)測。

梯度噪聲尺度中的模式

我們在梯度噪聲量表中觀察到了幾種模式,這些模式提供了人工智能訓(xùn)練未來可能存在的線索。

首先,在我們的實(shí)驗(yàn)中,噪聲標(biāo)度通常在訓(xùn)練過程中增加一個數(shù)量級或更多。

直觀地,這意味著網(wǎng)絡(luò)在訓(xùn)練早期學(xué)習(xí)任務(wù)的“更明顯”的特征,并在以后學(xué)習(xí)更復(fù)雜的特征。

例如,在圖像分類器的情況下,網(wǎng)絡(luò)可能首先學(xué)習(xí)識別大多數(shù)圖像中存在的小尺度特征(例如邊緣或紋理),而稍后將這些部分組合成更一般的概念,例如貓和狗。

要查看各種各樣的邊緣或紋理,網(wǎng)絡(luò)只需要看到少量圖像,因此噪聲比例較??;一旦網(wǎng)絡(luò)更多地了解更大的對象,它就可以一次處理更多的圖像,而不會看到重復(fù)的數(shù)據(jù)。

我們看到一些初步跡象表明,在同一數(shù)據(jù)集上不同模型具有相同的效果。更強(qiáng)大的模型具有更高的梯度噪聲標(biāo)度,但這僅僅是因?yàn)樗鼈儗?shí)現(xiàn)了更低的損耗。

因此,有一些證據(jù)表明,訓(xùn)練中增加的噪聲比例不僅僅是收斂的假象,而是因?yàn)槟P妥兊酶谩H绻@是真的,那么我們期望未來的更強(qiáng)大的模型具有更高的噪聲規(guī)模,因此可以更加并行化。

在監(jiān)督學(xué)習(xí)的背景下,從MNIST到SVHN到ImageNet都有明顯的進(jìn)展。在強(qiáng)化學(xué)習(xí)的背景下,從Atari Pong到Dota 1v1到Dota 5v5有明顯的進(jìn)展,最佳batch大小相差10,000倍以上。

因此,隨著AI進(jìn)入新的和更困難的任務(wù),我們希望模型能夠容忍更高的batch。

啟示

數(shù)據(jù)并行度顯著影響AI功能的進(jìn)展速度。更快的訓(xùn)練使更強(qiáng)大的模型成為可能,并通過更快的迭代時間加速研究。

在早期研究中,我們觀察到用于訓(xùn)練最大ML模型的計(jì)算,每3.5個月翻一番。我們注意到這種趨勢是由經(jīng)濟(jì)能力和算法并行訓(xùn)練的能力共同決定的。

后一因素(算法可并行性)更難以預(yù)測,其局限性尚不清楚,但我們目前的結(jié)果代表了系統(tǒng)化和量化的一步。

特別是,我們有證據(jù)表明,在同一任務(wù)中,更困難的任務(wù)和更強(qiáng)大的模型將允許比我們迄今為止看到的更激進(jìn)的數(shù)據(jù)并行性,這為訓(xùn)練計(jì)算的持續(xù)快速指數(shù)增長提供了關(guān)鍵驅(qū)動因素。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標(biāo)題:OpenAI發(fā)現(xiàn)打破神經(jīng)網(wǎng)絡(luò)黑盒魔咒新思路:梯度噪聲量表

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    人類首創(chuàng)能生成神經(jīng)細(xì)胞的“迷你大腦”,更精確模擬神經(jīng)網(wǎng)絡(luò)!

    ”,可以為細(xì)胞提供與實(shí)際人類大腦相似的交互環(huán)境,研究人員可以在這些環(huán)境中更清晰地觀察大腦的發(fā)育和功能,研究相關(guān)大腦疾病的療法,并對有應(yīng)用前景的新藥物進(jìn)行測試。髓鞘是種覆蓋在神經(jīng)纖維上
    發(fā)表于 08-21 09:26

    【案例分享】ART神經(jīng)網(wǎng)絡(luò)與SOM神經(jīng)網(wǎng)絡(luò)

    今天學(xué)習(xí)了兩個神經(jīng)網(wǎng)絡(luò),分別是自適應(yīng)諧振(ART)神經(jīng)網(wǎng)絡(luò)與自組織映射(SOM)神經(jīng)網(wǎng)絡(luò)。整體感覺不是很難,只不過些最基礎(chǔ)的概念容易理解不清。首先ART
    發(fā)表于 07-21 04:30

    如何設(shè)計(jì)BP神經(jīng)網(wǎng)絡(luò)圖像壓縮算法?

    神經(jīng)網(wǎng)絡(luò)(Neural Networks)是人工神經(jīng)網(wǎng)絡(luò)(Ar-tificial Neural Networks)的簡稱,是當(dāng)前的研究熱點(diǎn)之一。人腦在接受視覺感官傳來的大量圖像信息后,
    發(fā)表于 08-08 06:11

    如何移植個CNN神經(jīng)網(wǎng)絡(luò)到FPGA中?

    訓(xùn)練神經(jīng)網(wǎng)絡(luò)并移植到Lattice FPGA上,通常需要開發(fā)人員既要懂軟件又要懂?dāng)?shù)字電路設(shè)計(jì),是個不容易的事。好在FPGA廠商為我們提供了許多工具和IP,我們可以在這些工具和IP的基礎(chǔ)上做
    發(fā)表于 11-26 07:46

    人工智能發(fā)展第階段

    化學(xué)會志》期刊報導(dǎo)項(xiàng)新的研究成果:研究人員開發(fā)種可用近紅外光激發(fā)的電壓熒光納米探針,并用它監(jiān)測斑馬魚和小鼠腦中
    發(fā)表于 07-28 07:51

    matlab實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò) 精選資料分享

    習(xí)神經(jīng)神經(jīng)網(wǎng)絡(luò),對于神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn)是如何一直沒有具體實(shí)現(xiàn)下:現(xiàn)看到個簡單的
    發(fā)表于 08-18 07:25

    隱藏技術(shù): 種基于前沿神經(jīng)網(wǎng)絡(luò)理論的新型人工智能處理器

    隱藏技術(shù): 種基于前沿神經(jīng)網(wǎng)絡(luò)理論的新型人工智能處理器 Copy東京理工大學(xué)的研究人員開發(fā)種名為“ Hiddenite”的新型加速器芯
    發(fā)表于 03-17 19:15

    卷積神經(jīng)網(wǎng)絡(luò)模型發(fā)展及應(yīng)用

    network,DBN)[24], 從此拉開了深度學(xué)習(xí)大幕。隨著深度學(xué)習(xí)理論的研究和發(fā)展,研究人員提 出了系列卷積神經(jīng)網(wǎng)絡(luò)模型。為了比較不同模型 的質(zhì)量,收集并整理了文獻(xiàn)中模型在分
    發(fā)表于 08-02 10:39

    機(jī)器人神經(jīng)網(wǎng)絡(luò)逆系統(tǒng)阻抗控制方法研究

    機(jī)器人動力學(xué)控制由于其數(shù)學(xué)模型的不確定性,一直是困擾該領(lǐng)域的難題之一。本文研究了通過神經(jīng)網(wǎng)絡(luò)逆系統(tǒng)方法實(shí)現(xiàn)機(jī)器人的解耦,然后在外環(huán)施加控制的
    發(fā)表于 01-11 16:54 ?11次下載

    詳細(xì)解析神經(jīng)網(wǎng)絡(luò)的含義、挑戰(zhàn)、類型、應(yīng)用

    Statsbot深度學(xué)習(xí)開發(fā)者Jay Shah帶你入門神經(jīng)網(wǎng)絡(luò),起了解自動編碼器、卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)等流行的
    的頭像 發(fā)表于 01-15 17:11 ?9385次閱讀

    研究人員開發(fā)解釋多義詞的神經(jīng)網(wǎng)絡(luò)

    艾倫人工智能研究所和華盛頓大學(xué)的研究人員正在使用可以根據(jù)上下文來確定英文單詞含義的神經(jīng)網(wǎng)絡(luò)。
    的頭像 發(fā)表于 09-12 15:52 ?2236次閱讀

    研究人員開發(fā)種新穎的機(jī)器學(xué)習(xí)管道

    研究人員通過種特殊的神經(jīng)網(wǎng)絡(luò)模型,它以“基本塊”(計(jì)算指令的基本摘要)形式訓(xùn)練標(biāo)記的數(shù)據(jù),以自動預(yù)測其持續(xù)時間使用給定的芯片執(zhí)行以前看不見的基本塊。結(jié)果表明,這種神經(jīng)網(wǎng)絡(luò)模型的性能要
    的頭像 發(fā)表于 04-15 16:42 ?1870次閱讀

    BERT是種用于自然語言處理的先進(jìn)神經(jīng)網(wǎng)絡(luò)方法

    您今天可能已經(jīng)與BERT網(wǎng)絡(luò)進(jìn)行了互動。這是Google搜索引擎的基礎(chǔ)技術(shù)之一,自Google于2018年發(fā)布BERT以來,它一直引起研究人員的興奮。BERT是
    的頭像 發(fā)表于 12-13 10:08 ?3688次閱讀

    研究人員開發(fā)“液態(tài)”神經(jīng)網(wǎng)絡(luò) 可適應(yīng)快速變化的訓(xùn)練環(huán)境

    設(shè)計(jì)出了種具有重大改進(jìn)的“液態(tài)”神經(jīng)網(wǎng)絡(luò)。其特點(diǎn)是能夠在投入訓(xùn)練階段之后,極大地?cái)U(kuò)展 AI 技術(shù)的靈活性。 通常情況下,研究人員會在訓(xùn)練階段向神經(jīng)網(wǎng)絡(luò)算法提供大量相關(guān)的目標(biāo)數(shù)據(jù),來磨
    的頭像 發(fā)表于 01-29 10:46 ?1585次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn)工具與框架

    卷積神經(jīng)網(wǎng)絡(luò)因其在圖像和視頻處理任務(wù)中的卓越性能而廣受歡迎。隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,多種實(shí)現(xiàn)工具和框架應(yīng)運(yùn)而生,為研究人員開發(fā)者提供了強(qiáng)大的支持。 TensorFlow 概述
    的頭像 發(fā)表于 11-15 15:20 ?317次閱讀