夜夜操天天摸,国产浮力第一页草草影院,日韩AV免费在线国产95在线

神經(jīng)網(wǎng)絡(luò)的黑盒屬性，一直是困擾研究人員和開發(fā)者最頭疼的問題之一。以至于大家給神經(jīng)網(wǎng)絡(luò)戴了了一個煉丹術(shù)的帽子。但是OpenAI發(fā)現(xiàn)，梯度噪聲量表是一種簡單的統(tǒng)計(jì)度量，可以預(yù)測神經(jīng)網(wǎng)絡(luò)訓(xùn)練在各種任務(wù)中的可并行性。

由于復(fù)雜的任務(wù)往往具有更嘈雜的梯度，因此越來越大的batch計(jì)算包，可能在將來變得有用，從而消除了AI系統(tǒng)進(jìn)一步增長的一個潛在限制。

更廣泛地說，這些結(jié)果表明神經(jīng)網(wǎng)絡(luò)訓(xùn)練不需要被認(rèn)為是一種煉丹術(shù)，而是可以被量化和系統(tǒng)化。

在過去的幾年里，AI研究人員通過數(shù)據(jù)并行技術(shù)，在加速神經(jīng)網(wǎng)絡(luò)訓(xùn)練方面取得了越來越大的成功，數(shù)據(jù)并行性將大batch數(shù)據(jù)分散到許多機(jī)器上。

研究人員成功地使用了成各種的batch進(jìn)行圖像分類和語言建模，甚至玩Dota 2。

這些大batch數(shù)據(jù)允許將越來越多的計(jì)算量有效地投入到單個模型的訓(xùn)練中，并且是人工智能訓(xùn)練計(jì)算快速增長的重要推動者。

但是，batch如果太大，則梯度消失。并且不清楚為什么這些限制對于某些任務(wù)影響更大而對其他任務(wù)影響較小。

我們已經(jīng)發(fā)現(xiàn)，通過測量梯度噪聲標(biāo)度，一個簡單的統(tǒng)計(jì)量來量化網(wǎng)絡(luò)梯度的信噪比，我們可以近似預(yù)測最大有效batch大小。

同理，噪聲尺度可以測量模型所見的數(shù)據(jù)變化（在訓(xùn)練的給定階段）。當(dāng)噪聲規(guī)模很小時，快速并行查看大量數(shù)據(jù)變得多余；反之，我們?nèi)匀豢梢詮拇骲atch數(shù)據(jù)中學(xué)到很多東西。

這種類型的統(tǒng)計(jì)數(shù)據(jù)被廣泛用于樣本量選擇，并且已被提議用于深度學(xué)習(xí)，但尚未被系統(tǒng)地測量或應(yīng)用于現(xiàn)代訓(xùn)練運(yùn)行。

我們對上圖所示的各種機(jī)器學(xué)習(xí)任務(wù)進(jìn)行了驗(yàn)證，包括圖像識別，語言建模，Atari游戲和Dota。

由于大batch通常需要仔細(xì)和昂貴的調(diào)整或特殊高效的學(xué)習(xí)率，因此提前知道上限在訓(xùn)練新模型方面提供了顯著的實(shí)際優(yōu)勢。

我們發(fā)現(xiàn)，根據(jù)訓(xùn)練的現(xiàn)實(shí)時間和我們用于進(jìn)行訓(xùn)練的總體積計(jì)算（與美元成本成比例）之間的權(quán)衡，可視化這些實(shí)驗(yàn)的結(jié)果是有幫助的。

在非常小的batch的情況下，batch加倍可以讓我們在不使用額外計(jì)算的情況下減少一半的訓(xùn)練。在非常大的batch，更多的并行化不會導(dǎo)致更快的訓(xùn)練。中間的曲線中存在“彎曲”，漸變噪聲標(biāo)度預(yù)測彎曲發(fā)生的位置。

我們通過設(shè)置性能水平（比如在Beam Rider的Atari游戲中得分為1000）來制作這些曲線，并觀察在不同batch大小下訓(xùn)練到該性能所需的時間。結(jié)果與績效目標(biāo)的許多不同值相對較緊密地匹配了我們模型的預(yù)測。

梯度噪聲尺度中的模式

我們在梯度噪聲量表中觀察到了幾種模式，這些模式提供了人工智能訓(xùn)練未來可能存在的線索。

首先，在我們的實(shí)驗(yàn)中，噪聲標(biāo)度通常在訓(xùn)練過程中增加一個數(shù)量級或更多。

直觀地，這意味著網(wǎng)絡(luò)在訓(xùn)練早期學(xué)習(xí)任務(wù)的“更明顯”的特征，并在以后學(xué)習(xí)更復(fù)雜的特征。

例如，在圖像分類器的情況下，網(wǎng)絡(luò)可能首先學(xué)習(xí)識別大多數(shù)圖像中存在的小尺度特征（例如邊緣或紋理），而稍后將這些部分組合成更一般的概念，例如貓和狗。

要查看各種各樣的邊緣或紋理，網(wǎng)絡(luò)只需要看到少量圖像，因此噪聲比例較??；一旦網(wǎng)絡(luò)更多地了解更大的對象，它就可以一次處理更多的圖像，而不會看到重復(fù)的數(shù)據(jù)。

我們看到一些初步跡象表明，在同一數(shù)據(jù)集上不同模型具有相同的效果。更強(qiáng)大的模型具有更高的梯度噪聲標(biāo)度，但這僅僅是因?yàn)樗鼈儗?shí)現(xiàn)了更低的損耗。

因此，有一些證據(jù)表明，訓(xùn)練中增加的噪聲比例不僅僅是收斂的假象，而是因?yàn)槟Ｐ妥兊酶谩Ｈ绻@是真的，那么我們期望未來的更強(qiáng)大的模型具有更高的噪聲規(guī)模，因此可以更加并行化。

在監(jiān)督學(xué)習(xí)的背景下，從MNIST到SVHN到ImageNet都有明顯的進(jìn)展。在強(qiáng)化學(xué)習(xí)的背景下，從Atari Pong到Dota 1v1到Dota 5v5有明顯的進(jìn)展，最佳batch大小相差10,000倍以上。

因此，隨著AI進(jìn)入新的和更困難的任務(wù)，我們希望模型能夠容忍更高的batch。

啟示

數(shù)據(jù)并行度顯著影響AI功能的進(jìn)展速度。更快的訓(xùn)練使更強(qiáng)大的模型成為可能，并通過更快的迭代時間加速研究。

在早期研究中，我們觀察到用于訓(xùn)練最大ML模型的計(jì)算，每3.5個月翻一番。我們注意到這種趨勢是由經(jīng)濟(jì)能力和算法并行訓(xùn)練的能力共同決定的。

后一因素（算法可并行性）更難以預(yù)測，其局限性尚不清楚，但我們目前的結(jié)果代表了系統(tǒng)化和量化的一步。

特別是，我們有證據(jù)表明，在同一任務(wù)中，更困難的任務(wù)和更強(qiáng)大的模型將允許比我們迄今為止看到的更激進(jìn)的數(shù)據(jù)并行性，這為訓(xùn)練計(jì)算的持續(xù)快速指數(shù)增長提供了關(guān)鍵驅(qū)動因素。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4779

瀏覽量
101080
圖像分類

圖像分類

+關(guān)注

關(guān)注
0

文章
93

瀏覽量
11945
機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8438

瀏覽量
132970

原文標(biāo)題：OpenAI發(fā)現(xiàn)打破神經(jīng)網(wǎng)絡(luò)黑盒魔咒新思路：梯度噪聲量表

文章出處：【微信號：AI_era，微信公眾號：新智元】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

搜索歷史

神經(jīng)網(wǎng)絡(luò)的黑盒屬性，一直是困擾研究人員和開發(fā)者最頭疼的問題之一

評論

人類首創(chuàng)能生成神經(jīng)細(xì)胞的“迷你大腦”，更精確模擬神經(jīng)網(wǎng)絡(luò)！

【案例分享】ART神經(jīng)網(wǎng)絡(luò)與SOM神經(jīng)網(wǎng)絡(luò)

如何設(shè)計(jì)BP神經(jīng)網(wǎng)絡(luò)圖像壓縮算法？

如何移植一個CNN神經(jīng)網(wǎng)絡(luò)到FPGA中？

人工智能發(fā)展第一階段

matlab實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò) 精選資料分享

隱藏技術(shù): 一種基于前沿神經(jīng)網(wǎng)絡(luò)理論的新型人工智能處理器

卷積神經(jīng)網(wǎng)絡(luò)模型發(fā)展及應(yīng)用

機(jī)器人神經(jīng)網(wǎng)絡(luò)逆系統(tǒng)阻抗控制方法研究

詳細(xì)解析神經(jīng)網(wǎng)絡(luò)的含義、挑戰(zhàn)、類型、應(yīng)用

研究人員開發(fā)解釋多義詞的神經(jīng)網(wǎng)絡(luò)

研究人員開發(fā)了一種新穎的機(jī)器學(xué)習(xí)管道

BERT是一種用于自然語言處理的先進(jìn)神經(jīng)網(wǎng)絡(luò)方法

研究人員開發(fā)“液態(tài)”神經(jīng)網(wǎng)絡(luò) 可適應(yīng)快速變化的訓(xùn)練環(huán)境

卷積神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn)工具與框架

搜索歷史

神經(jīng)網(wǎng)絡(luò)的黑盒屬性，一直是困擾研究人員和開發(fā)者最頭疼的問題之一

評論

神經(jīng)網(wǎng)絡(luò)的黑盒屬性，一直是困擾研究人員和開發(fā)者最頭疼的問題之一