欧美亚洲日韩中文字幕,国产精品无码在线2021,国产剧情演绎av

對(duì)神經(jīng)網(wǎng)絡(luò)而言，使用同一架構(gòu)的網(wǎng)絡(luò)，從不同初始值開(kāi)始優(yōu)化，最終的泛化效果可以完全不同。在傳統(tǒng)的機(jī)器學(xué)習(xí)中，對(duì)優(yōu)化算法和泛化性能的研究是分開(kāi)的，但對(duì)深度學(xué)習(xí)這樣的非凸問(wèn)題而言，兩者是密不可分的。本文試圖對(duì)這個(gè)問(wèn)題做出統(tǒng)一的解釋。

神經(jīng)網(wǎng)絡(luò)有很多異于傳統(tǒng)機(jī)器學(xué)習(xí)系統(tǒng)（比如決策樹(shù)和SVM）的奇特性質(zhì)。比如說(shuō)過(guò)參化（over-parameterization）時(shí)并不會(huì)產(chǎn)生過(guò)擬合，而只會(huì)讓測(cè)試集上效果變好（泛化能力變好），如果用正好的參數(shù)去擬合數(shù)據(jù)，泛化能力反而變差。比如說(shuō)有隱式正則化（implicit regularization）的能力，即同樣大小的模型，可以完全擬合正常數(shù)據(jù)，也可以完全擬合隨機(jī)數(shù)據(jù)，并且在完全擬合正常數(shù)據(jù)時(shí)自動(dòng)具有泛化能力。

近日，F(xiàn)acebook人工智能研究院研究員，卡內(nèi)基梅隆大學(xué)機(jī)器人系博士田淵棟團(tuán)隊(duì)發(fā)表新作，試圖對(duì)這類傳統(tǒng)機(jī)器學(xué)習(xí)難以解釋的問(wèn)題做出統(tǒng)一的理論解釋。

在本文預(yù)印本發(fā)布后，田淵棟博士本人在知乎上題為《求道之人，不問(wèn)寒暑（三）》的專欄文章中，對(duì)這篇論文的思想脈絡(luò)和實(shí)現(xiàn)過(guò)程做出了精彩的解讀，并和讀者進(jìn)行了深入討論。

經(jīng)作者授權(quán)，新智元全文轉(zhuǎn)載如下：

神經(jīng)網(wǎng)絡(luò)有很多異于傳統(tǒng)機(jī)器學(xué)習(xí)系統(tǒng)（比如決策樹(shù)和SVM）的奇特性質(zhì)。比如說(shuō)過(guò)參化（over-parameterization）時(shí)并不會(huì)產(chǎn)生過(guò)擬合，而只會(huì)讓測(cè)試集上效果變好（泛化能力變好），如果用正好的參數(shù)去擬合數(shù)據(jù)，泛化能力反而變差；比如說(shuō)它有隱式正則化（implicit regularization）的能力，即同樣大小的模型，可以完全擬合正常數(shù)據(jù)，也可以完全擬合隨機(jī)數(shù)據(jù)，并且在完全擬合正常數(shù)據(jù)時(shí)自動(dòng)具有泛化能力。

這些現(xiàn)象在傳統(tǒng)機(jī)器學(xué)習(xí)理論中不太能夠得到解釋，按照傳統(tǒng)理論，用大小恰好的模型去擬合數(shù)據(jù)集是最優(yōu)的，更小的模型，其復(fù)雜度不夠從而無(wú)法擬合數(shù)據(jù)，更大的模型則會(huì)過(guò)擬合數(shù)據(jù)，降低其泛化能力，要使大模型有優(yōu)秀的泛化能力，需要使用正則化方法。按照傳統(tǒng)理論，如果一個(gè)模型大到能夠擬合復(fù)雜度更高的隨機(jī)數(shù)據(jù)，那它為什么不在正常數(shù)據(jù)上過(guò)擬合？如果一個(gè)模型能在正常數(shù)據(jù)上具有泛化能力，那它不應(yīng)該能完全擬合隨機(jī)數(shù)據(jù)——在神經(jīng)網(wǎng)絡(luò)上同時(shí)看到這兩個(gè)現(xiàn)象，是非常奇怪的。

最近ICLR19的最優(yōu)論文“The Lottery Ticket Hypothesis”（網(wǎng)絡(luò)權(quán)重的彩票現(xiàn)象）又增加了傳統(tǒng)理論難以解釋的部分——對(duì)神經(jīng)網(wǎng)絡(luò)而言，使用同一架構(gòu)的網(wǎng)絡(luò)，從不同初始值開(kāi)始優(yōu)化，最終的泛化效果可以完全不同。而權(quán)重初始值在傳統(tǒng)的泛化理論中沒(méi)有什么地位。因?yàn)閭鹘y(tǒng)上“優(yōu)化算法”和“泛化性能”這兩件事情是完全分開(kāi)的。做泛化性能的文章往往假設(shè)背后的優(yōu)化算法能拿到最優(yōu)解，而不考慮優(yōu)化的細(xì)節(jié)；而做優(yōu)化算法的文章只關(guān)心在訓(xùn)練集上的權(quán)重到局部極小值的收斂速度，并不關(guān)心這個(gè)局部極小值在測(cè)試集上會(huì)有什么效果。如果模型空間有限或者模型的最優(yōu)參數(shù)可以由凸優(yōu)化得到，那這樣做理所當(dāng)然；但對(duì)深度學(xué)習(xí)這樣的非凸問(wèn)題而言，兩者是密不可分的。

這次我們做的這篇文章（arxiv.org/abs/1905.1340）試圖提出一個(gè)統(tǒng)一的理論來(lái)解釋這些現(xiàn)象，包括神經(jīng)網(wǎng)絡(luò)參數(shù)多時(shí)效果更好，有動(dòng)態(tài)適應(yīng)不同數(shù)據(jù)集的能力，還能解釋從不同初始值出發(fā)，泛化能力完全不同的網(wǎng)絡(luò)彩票現(xiàn)象。我們提出的這個(gè)理論對(duì)這些問(wèn)題都有比較好的直觀解釋，并且還有一個(gè)統(tǒng)一的數(shù)學(xué)框架來(lái)支撐。

其根本的方案，是將訓(xùn)練時(shí)的優(yōu)化過(guò)程和泛化能力結(jié)合起來(lái)，從而去分析傳統(tǒng)方法分析不了的情況。

首先我們采用了教師-學(xué)生網(wǎng)絡(luò)（student-teacher）的框架，假設(shè)數(shù)據(jù)集的標(biāo)注由一個(gè)隱藏的（多層）教師網(wǎng)絡(luò)（teacher network）生成，然后依據(jù)教師網(wǎng)絡(luò)的輸入輸出，用梯度下降法去優(yōu)化學(xué)生網(wǎng)絡(luò)（student network）。學(xué)生和教師網(wǎng)絡(luò)的層數(shù)相同，但因?yàn)閛ver-parameterization，學(xué)生的每一層可以有比教師更多的輸出結(jié)點(diǎn)（神經(jīng)元）。在這個(gè)框架下，我們證明了在一些情況下的權(quán)重復(fù)原定理，即學(xué)生網(wǎng)絡(luò)的權(quán)重可以收斂于教師網(wǎng)絡(luò)的對(duì)應(yīng)權(quán)重，以及如何靠攏，并且分析了在over-parameterization的情況下學(xué)生網(wǎng)絡(luò)可能的行為。由這些定理，可以給出一些神經(jīng)網(wǎng)絡(luò)奇特性質(zhì)的解釋。

對(duì)于結(jié)構(gòu)化的數(shù)據(jù)，其對(duì)應(yīng)生成數(shù)據(jù)的教師網(wǎng)絡(luò)較小，過(guò)參化得到的學(xué)生網(wǎng)絡(luò)中的結(jié)點(diǎn)會(huì)優(yōu)先朝著教師網(wǎng)絡(luò)的結(jié)點(diǎn)收斂過(guò)去，并且初始時(shí)和教師網(wǎng)絡(luò)結(jié)點(diǎn)重合較大的學(xué)生結(jié)點(diǎn)（也即是“幸運(yùn)神經(jīng)元”，lucky weights/nodes）會(huì)收斂得更快，這樣就會(huì)產(chǎn)生“勝者全拿”的效應(yīng)，最后每個(gè)教師結(jié)點(diǎn)可能只有幾個(gè)幸運(yùn)學(xué)生結(jié)點(diǎn)對(duì)應(yīng)。對(duì)于隨機(jī)數(shù)據(jù)，其對(duì)應(yīng)的教師網(wǎng)絡(luò)比較大，學(xué)生結(jié)點(diǎn)會(huì)各自分散向不同的教師結(jié)點(diǎn)收斂。這就是為什么同樣大小的模型可以同時(shí)擬合兩者。并且因?yàn)閯僬呷玫男?yīng)，學(xué)生傾向于用最少的結(jié)點(diǎn)去解釋教師，從而對(duì)結(jié)構(gòu)數(shù)據(jù)仍然具有泛化能力。

從這些解釋出發(fā)，大家可能猜到了，“The Lottery Ticket Hypothesis”就是因?yàn)閘ucky nodes/weights的緣故：保留lucky nodes而去除其它不必要的結(jié)點(diǎn)，不會(huì)讓泛化效果變差；但若是只保留lucky nodes，并且重新初始化它們的權(quán)重，那相當(dāng)于中彩者重買彩票，再中彩的概率就很小了。而過(guò)參化的目的就是讓更多的人去買彩票，這樣總會(huì)有幾個(gè)人中彩，最終神經(jīng)網(wǎng)絡(luò)的效果，就由它們來(lái)保證了——那自然過(guò)參化程度越好，最后泛化效果越好。

另外，對(duì)過(guò)參化的初步分析表明，一方面lucky student weights可以收斂到對(duì)應(yīng)的teacher weights，而大部分無(wú)關(guān)的student weights/nodes可能會(huì)收斂到任意的區(qū)域去——但這并不要緊，因?yàn)檫@些結(jié)點(diǎn)的上層權(quán)重會(huì)收斂到零，以減少它們對(duì)網(wǎng)絡(luò)輸出的影響。這就附帶解釋了為何神經(jīng)網(wǎng)絡(luò)訓(xùn)練后的解往往具有平坦極小值（Flat Minima）性質(zhì)：對(duì)無(wú)關(guān)的學(xué)生結(jié)點(diǎn)而言，任意改變它們的權(quán)重，對(duì)網(wǎng)絡(luò)輸出都沒(méi)有太大影響。

具體細(xì)節(jié)是怎么做的呢？如果大家有興趣的話，可以繼續(xù)看下去。

雖然學(xué)生網(wǎng)絡(luò)接收到的信號(hào)只來(lái)自于教師的最終輸出層，對(duì)教師中間層如何輸出毫無(wú)知覺(jué)，但因?yàn)榻處煹那跋騻鬟f和學(xué)生的反向傳遞算法，教師中間層和對(duì)應(yīng)的學(xué)生中間層，這兩者其實(shí)是有隱含聯(lián)系的。這篇文章首先找到了一個(gè)學(xué)生網(wǎng)絡(luò)-教師網(wǎng)絡(luò)的一個(gè)很有趣的對(duì)應(yīng)關(guān)系，即學(xué)生中間層收集到的梯度和對(duì)應(yīng)教師層輸出的關(guān)系，然后借著這個(gè)對(duì)應(yīng)關(guān)系，就可以找到學(xué)生網(wǎng)絡(luò)的權(quán)重和教師網(wǎng)絡(luò)的權(quán)重的對(duì)應(yīng)關(guān)系。在此之上，再加一些基本假設(shè)，就可以有相應(yīng)的權(quán)重復(fù)原定理。

這篇文章的基本假設(shè)很簡(jiǎn)單，即教師同層兩個(gè)神經(jīng)元同時(shí)被激活的概率遠(yuǎn)遠(yuǎn)小于各自單獨(dú)被激活的概率。這個(gè)假設(shè)相對(duì)來(lái)說(shuō)是比較實(shí)際的：如果每個(gè)神經(jīng)元只負(fù)責(zé)輸入信號(hào)的某個(gè)特性，那這些特性同時(shí)出現(xiàn)的概率相比單獨(dú)出現(xiàn)的概率要小很多。那么如何檢查這個(gè)假設(shè)呢？很簡(jiǎn)單，按照這個(gè)假設(shè)，如果輸入是零均值分布，假設(shè)激活函數(shù)是ReLU，那神經(jīng)元的bias就應(yīng)當(dāng)是負(fù)的，這樣它只對(duì)輸入的一小部分?jǐn)?shù)據(jù)有正響應(yīng)。事實(shí)似乎確實(shí)如此，我們?cè)谖恼轮袡z查了VGG11/16這兩個(gè)在ImageNet上的預(yù)訓(xùn)練網(wǎng)絡(luò)（都采用Conv-BN-ReLU架構(gòu)）的BatchNorm層的bias，發(fā)現(xiàn)絕大部分都是負(fù)的，也就是說(shuō)在訓(xùn)練后網(wǎng)絡(luò)里的那些神經(jīng)元確實(shí)每個(gè)負(fù)責(zé)不一樣的特性。

與之前平均場(chǎng)（Mean Field）的一系列文章相比，這篇文章不需要假設(shè)權(quán)重滿足獨(dú)立同分布這個(gè)非常嚴(yán)格且只在初始化時(shí)才成立的條件，可以用于分析網(wǎng)絡(luò)優(yōu)化的整個(gè)過(guò)程，事實(shí)上，我一直覺(jué)得多層神經(jīng)網(wǎng)絡(luò)的優(yōu)化過(guò)程和平均場(chǎng)或者熱力學(xué)的箭頭是相反的：熱力學(xué)里系統(tǒng)從非平衡點(diǎn)到達(dá)平衡點(diǎn)的過(guò)程是抹消結(jié)構(gòu)的過(guò)程，而神經(jīng)網(wǎng)絡(luò)的優(yōu)化是從隨機(jī)初始的權(quán)重中創(chuàng)造并且強(qiáng)化結(jié)構(gòu)的過(guò)程。這篇文章曾經(jīng)打算投去年的ICML，原本的題目叫作“潘多拉的盒子”，也就是說(shuō)，從隨機(jī)漲落的權(quán)重中，依著不同的數(shù)據(jù)集，可以收斂出任意的結(jié)構(gòu)出來(lái)，但因?yàn)镺penGo的項(xiàng)目一直拖，一直到一年半以后才有比較初步的結(jié)果。

另一個(gè)附帶的結(jié)果是，從這篇文章的分析里可以比較清楚地看到“上層調(diào)制”這種機(jī)制的作用。很多人對(duì)多層神經(jīng)網(wǎng)絡(luò)的疑問(wèn)是：既然多層神經(jīng)網(wǎng)絡(luò)號(hào)稱是對(duì)輸入特征進(jìn)行不斷組合以獲得效果更好的高層特征，那為什么不可以采用自底向上的機(jī)制，每次單獨(dú)訓(xùn)練一層，等訓(xùn)練完再建上一層？依據(jù)這篇文章，回答是如果沒(méi)有上層的監(jiān)督信號(hào)，那底層的特征組合數(shù)量會(huì)指數(shù)級(jí)增長(zhǎng)，并且生成的特征大多是對(duì)上層任務(wù)無(wú)用的。唯有優(yōu)化時(shí)不停聽(tīng)取來(lái)自上層的信號(hào)，有針對(duì)性地進(jìn)行組合，才可以以極高的效率獲得特定任務(wù)的重要特征。而對(duì)權(quán)重的隨機(jī)初始化，是賦予它們?cè)趦?yōu)化時(shí)滑向任意組合的能力。

原文鏈接：

https://zhuanlan.zhihu.com/p/67782029

以下是新智元對(duì)論文內(nèi)容的簡(jiǎn)編：

本文分析了深度ReLU網(wǎng)絡(luò)的訓(xùn)練動(dòng)態(tài)過(guò)程及其對(duì)泛化能力的影響。使用教師和學(xué)生的設(shè)置，我們發(fā)現(xiàn)隱藏學(xué)生節(jié)點(diǎn)接收的梯度，和深度ReLU網(wǎng)絡(luò)的教師節(jié)點(diǎn)激活之間存在新的關(guān)系。通過(guò)這種關(guān)系，我們證明了兩點(diǎn)：（1）權(quán)重初始化為接近教師節(jié)點(diǎn)的學(xué)生節(jié)點(diǎn)，會(huì)以更快的速度向教師節(jié)點(diǎn)收斂，（2）在過(guò)參數(shù)化的環(huán)境中，當(dāng)一小部分幸運(yùn)節(jié)點(diǎn)收斂到教師節(jié)點(diǎn)時(shí)，其他節(jié)點(diǎn)的fan-out權(quán)重收斂為零。

在本文中，我們提出了多層ReLU網(wǎng)絡(luò)的理論框架。該框架提供了對(duì)深度學(xué)習(xí)中的多種令人費(fèi)解的現(xiàn)象的觀察，如過(guò)度參數(shù)化，隱式正則化，彩票問(wèn)題等。

圖1

圖2

基于這個(gè)框架，我們?cè)噲D用統(tǒng)一的觀點(diǎn)來(lái)解釋這些令人費(fèi)解的經(jīng)驗(yàn)現(xiàn)象。本文使用師生設(shè)置，其中給過(guò)度參數(shù)化的深度學(xué)生ReLU網(wǎng)絡(luò)的標(biāo)簽，是具有相同深度和未知權(quán)重的固定教師ReLU網(wǎng)絡(luò)的輸出（圖1（a））。在這個(gè)角度來(lái)看，隱藏的學(xué)生節(jié)點(diǎn)將隨機(jī)初始化為不同的激活區(qū)域。（圖2（a））。

依托這個(gè)框架，本研究主要解決以下幾個(gè)問(wèn)題：

擬合

結(jié)構(gòu)化和隨機(jī)數(shù)據(jù)。在梯度下降動(dòng)態(tài)下，一些學(xué)生節(jié)點(diǎn)恰好與教師節(jié)點(diǎn)重疊，將進(jìn)入教師節(jié)點(diǎn)并覆蓋教師節(jié)點(diǎn)。不管對(duì)于中間節(jié)點(diǎn)數(shù)量較少的小型教師網(wǎng)絡(luò)的結(jié)構(gòu)化數(shù)據(jù)，或者對(duì)具有中間節(jié)點(diǎn)數(shù)量較多的大型教師網(wǎng)絡(luò)的隨機(jī)數(shù)據(jù)，情況都是如此。這也解釋了為什么同一個(gè)網(wǎng)絡(luò)可以同時(shí)適應(yīng)結(jié)構(gòu)化和隨機(jī)數(shù)據(jù)（圖2（a-b））。

過(guò)參數(shù)化

在過(guò)度參數(shù)化中，許多學(xué)生節(jié)點(diǎn)在每一層進(jìn)行隨機(jī)初始化。任何教師節(jié)點(diǎn)都更可能與某些學(xué)生節(jié)點(diǎn)有很大部分的重疊，這會(huì)導(dǎo)致快速收斂（圖2（a）和（c），）。這也解釋了為什么網(wǎng)絡(luò)容量恰好適合數(shù)據(jù)的訓(xùn)練模型的性能表現(xiàn)會(huì)更差。

平滑極小值問(wèn)題

深層網(wǎng)絡(luò)經(jīng)常會(huì)收斂到“平滑極小值”。此外，雖然存在爭(zhēng)議，平滑極小值似乎意味著良好的泛化能力，而尖銳的極小值往往導(dǎo)致不良的泛化能力。

而在我們的理論中，在與結(jié)構(gòu)化數(shù)據(jù)進(jìn)行擬合時(shí)，只有少數(shù)幸運(yùn)的學(xué)生節(jié)點(diǎn)收斂至教師節(jié)點(diǎn)，而對(duì)于其他節(jié)點(diǎn)，他們的fan-out權(quán)重縮小為零，使得它們與最終結(jié)果無(wú)關(guān)，產(chǎn)生平滑極小值，學(xué)生節(jié)點(diǎn)沿大多數(shù)維度上（“不幸節(jié)點(diǎn)”）的運(yùn)動(dòng)導(dǎo)致輸出變化最小。另一方面，尖銳的極小值與噪聲數(shù)據(jù)有關(guān)（圖2（d）），更多的學(xué)生節(jié)點(diǎn)能夠與教師節(jié)點(diǎn)相匹配。

隱式正則化

另一方面，捕捉行為強(qiáng)制執(zhí)行贏者通吃規(guī)則：在優(yōu)化之后，教師節(jié)點(diǎn)會(huì)被少數(shù)學(xué)生節(jié)點(diǎn)完全覆蓋（即解釋），而不是由于過(guò)度參數(shù)化而在學(xué)生節(jié)點(diǎn)之間分裂。這解釋了為什么同一網(wǎng)絡(luò)一旦經(jīng)過(guò)結(jié)構(gòu)化數(shù)據(jù)訓(xùn)練，就可以推廣到測(cè)試集。

彩票現(xiàn)象

圖3

如果我們將“顯著權(quán)重”（大幅度訓(xùn)練的權(quán)重）重置為優(yōu)化前的值，但在初始化之后，對(duì)其他權(quán)重進(jìn)行壓縮（比例通常大于總權(quán)重的90％）并重新訓(xùn)練模型，結(jié)果性能相當(dāng)或更好。如果我們重新初始化顯著權(quán)重，測(cè)試性能會(huì)更差。在我們的理論中，顯著權(quán)重是一些幸運(yùn)區(qū)域（圖3中的Ej3和Ej4），它們?cè)诔跏蓟笄『门c一些教師節(jié)點(diǎn)重疊并在優(yōu)化中收斂教師節(jié)點(diǎn)。

因此，如果我們重置顯著權(quán)重并修剪其他權(quán)重，它們?nèi)匀豢梢允諗康酵唤M教師節(jié)點(diǎn)上，并且由于與其他不相關(guān)節(jié)點(diǎn)的干擾較少，可能實(shí)現(xiàn)更好的性能。但是，如果我們重新初始化，最終這些節(jié)點(diǎn)可能會(huì)落入那些不能覆蓋教師節(jié)點(diǎn)的不利區(qū)域，從而導(dǎo)致性能不佳（圖3（c）），就像參數(shù)化不足時(shí)的表現(xiàn)一樣。

實(shí)驗(yàn)設(shè)置和方法

我們對(duì)全連接（FC）網(wǎng)絡(luò)和卷積網(wǎng)絡(luò)都進(jìn)行了評(píng)估。對(duì)于全連接網(wǎng)絡(luò)，使用大小為50-75-100-125的ReLU教師網(wǎng)絡(luò)。對(duì)于卷積網(wǎng)絡(luò)，使用大小為64-64-64-64的教師網(wǎng)絡(luò)。學(xué)生網(wǎng)絡(luò)的深度與教師網(wǎng)絡(luò)相同，但每層的節(jié)點(diǎn)/通道是前者的10倍，因此它們是過(guò)度參數(shù)化的。添加BatchNorm時(shí)，會(huì)在ReLU之后添加。

本文采用兩種量度來(lái)衡量對(duì)一些幸運(yùn)的學(xué)生節(jié)點(diǎn)收斂至教師節(jié)點(diǎn)情況的預(yù)測(cè)：

圖4：歸一化相關(guān)度ρˉ和平均排名rˉ在GAUS訓(xùn)練集上隨epoch的變化

歸一化相關(guān)度ρˉ

我們計(jì)算出在驗(yàn)證集上評(píng)估的教師和學(xué)生激活之間的歸一化相關(guān)度（或余弦相似度）ρ。在每一層中，我們對(duì)教師節(jié)點(diǎn)上的最佳相關(guān)度進(jìn)行平均得到ρˉ，ρˉ≈1表示大多數(shù)教師節(jié)點(diǎn)至少由一名學(xué)生覆蓋。

平均排名rˉ

訓(xùn)練后，每個(gè)教師節(jié)點(diǎn)j?都具備了相關(guān)度最高的學(xué)生節(jié)點(diǎn)j。這時(shí)對(duì)j的相關(guān)度等級(jí)進(jìn)行檢測(cè)，并歸一化為[0,1]（0 表示排名第一），回到初始化和不同的epoch階段，并在教師節(jié)點(diǎn)上進(jìn)行平均化，產(chǎn)生平均排名rˉ。rˉ值較小意味著最初與教師節(jié)點(diǎn)保持高相關(guān)度的學(xué)生節(jié)點(diǎn)一直將這一領(lǐng)先保持至訓(xùn)練結(jié)束。

實(shí)驗(yàn)結(jié)果

圖5：將圖4的實(shí)驗(yàn)在CIFAR-10數(shù)據(jù)集上進(jìn)行的結(jié)果

圖6：在GAUS數(shù)據(jù)集上的Ablation學(xué)習(xí)結(jié)果

關(guān)于教師網(wǎng)絡(luò)的大?。簩?duì)于小型教師網(wǎng)絡(luò)（10-15-20-25，全連接網(wǎng)絡(luò)），收斂速度要快得多，不使用BatchNorm的訓(xùn)練比使用BatchNorm訓(xùn)練要快。對(duì)于大型教師網(wǎng)絡(luò)，BatchNorm肯定會(huì)提高收斂速度和ρˉ的增長(zhǎng)。

關(guān)于有限與無(wú)限數(shù)據(jù)集：我們還在卷積神經(jīng)網(wǎng)絡(luò)的案例中使用預(yù)生成的GAUS有限數(shù)據(jù)集重復(fù)實(shí)驗(yàn)，并發(fā)現(xiàn)節(jié)點(diǎn)相似性的收斂在幾次迭代后終止。這是因?yàn)橐恍┕?jié)點(diǎn)在其激活區(qū)域中接收的數(shù)據(jù)點(diǎn)非常少，這對(duì)于無(wú)限數(shù)據(jù)集來(lái)說(shuō)不是問(wèn)題。我們懷疑這可能是CIFAR-10作為有限數(shù)據(jù)集沒(méi)有表現(xiàn)出GAUS類似行為的原因。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4773

瀏覽量
100880
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1208

瀏覽量
24730
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5506

瀏覽量
121265

原文標(biāo)題：田淵棟團(tuán)隊(duì)新作：模型優(yōu)化算法和泛化性能的統(tǒng)一解釋

文章出處：【微信號(hào)：AI_era，微信公眾號(hào)：新智元】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

AI模型部署邊緣設(shè)備的奇妙之旅：目標(biāo)檢測(cè)模型

介紹了如何使用分類任務(wù)進(jìn)行手寫數(shù)字的分類。相信大家腦海中可能會(huì)產(chǎn)生如下疑問(wèn)：數(shù)據(jù)依賴性強(qiáng)：分類模型的表現(xiàn)通常依賴于大量的標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練。獲取高質(zhì)量、大規(guī)模的數(shù)據(jù)集既耗時(shí)又昂貴。泛化能力

發(fā)表于 12-19 14:33

AI大模型與深度學(xué)習(xí)的關(guān)系

人類的學(xué)習(xí)過(guò)程，實(shí)現(xiàn)對(duì)復(fù)雜數(shù)據(jù)的學(xué)習(xí)和識(shí)別。AI大模型則是指模型的參數(shù)數(shù)量巨大，需要龐大的計(jì)算資源來(lái)進(jìn)行訓(xùn)練和推理。深度學(xué)習(xí)算法為AI大模型提供了核心的技術(shù)支撐，使得大模型能夠更好地?cái)M合數(shù)據(jù)，提高模型的準(zhǔn)確性和

發(fā)表于 10-23 15:25 ?899次閱讀

BP網(wǎng)絡(luò)的基本概念和訓(xùn)練原理

）的多層前饋神經(jīng)網(wǎng)絡(luò)。BP網(wǎng)絡(luò)自1985年提出以來(lái)，因其強(qiáng)大的學(xué)習(xí)和適應(yīng)能力，在機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、模式識(shí)別等領(lǐng)域得到了廣泛應(yīng)用。以下將對(duì)BP網(wǎng)絡(luò)的基本概念、

發(fā)表于 07-19 17:24 ?1683次閱讀

怎么對(duì)神經(jīng)網(wǎng)絡(luò)重新訓(xùn)練

發(fā)生變化，導(dǎo)致神經(jīng)網(wǎng)絡(luò)的泛化能力下降。為了保持神經(jīng)網(wǎng)絡(luò)的性能，需要對(duì)其進(jìn)行重新訓(xùn)練。本文將詳細(xì)介

發(fā)表于 07-11 10:25 ?474次閱讀

BP神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)和訓(xùn)練過(guò)程

網(wǎng)絡(luò)結(jié)構(gòu)，通過(guò)誤差反向傳播算法（Error Backpropagation Algorithm）來(lái)訓(xùn)練網(wǎng)絡(luò)，實(shí)現(xiàn)對(duì)復(fù)雜問(wèn)題的學(xué)習(xí)和解決。以下將詳細(xì)闡述BP神經(jīng)網(wǎng)絡(luò)的工作方式，涵蓋其基本

發(fā)表于 07-10 15:07 ?4710次閱讀

深度神經(jīng)網(wǎng)絡(luò)概述及其應(yīng)用

通過(guò)模仿人類大腦神經(jīng)元的連接方式和處理機(jī)制，設(shè)計(jì)多層神經(jīng)元結(jié)構(gòu)來(lái)處理復(fù)雜的數(shù)據(jù)模式，從而在各種數(shù)據(jù)驅(qū)動(dòng)的問(wèn)題中展現(xiàn)出強(qiáng)大的能力。本文將從深度神經(jīng)網(wǎng)絡(luò)的基本概念、結(jié)構(gòu)、工作原理、關(guān)鍵技術(shù)以及其

發(fā)表于 07-04 16:08 ?1341次閱讀

解讀PyTorch模型訓(xùn)練過(guò)程

PyTorch作為一個(gè)開(kāi)源的機(jī)器學(xué)習(xí)庫(kù)，以其動(dòng)態(tài)計(jì)算圖、易于使用的API和強(qiáng)大的靈活性，在深度學(xué)習(xí)領(lǐng)域得到了廣泛的應(yīng)用。本文將深入解讀PyTorch模型訓(xùn)練的全過(guò)程，包括數(shù)據(jù)準(zhǔn)備、模型

發(fā)表于 07-03 16:07 ?1094次閱讀

深度學(xué)習(xí)的典型模型和訓(xùn)練過(guò)程

深度學(xué)習(xí)作為人工智能領(lǐng)域的一個(gè)重要分支，近年來(lái)在圖像識(shí)別、語(yǔ)音識(shí)別、自然語(yǔ)言處理等多個(gè)領(lǐng)域取得了顯著進(jìn)展。其核心在于通過(guò)構(gòu)建復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型，從大規(guī)模數(shù)據(jù)中自動(dòng)學(xué)習(xí)并提取特征，進(jìn)而實(shí)現(xiàn)高效準(zhǔn)確的預(yù)測(cè)和分類。本文將深入解讀深度學(xué)

發(fā)表于 07-03 16:06 ?1550次閱讀

卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)和訓(xùn)練過(guò)程

處理具有空間層次結(jié)構(gòu)的數(shù)據(jù)時(shí)表現(xiàn)出色。本文將從卷積神經(jīng)網(wǎng)絡(luò)的歷史背景、基本原理、網(wǎng)絡(luò)結(jié)構(gòu)、訓(xùn)練過(guò)程以及應(yīng)用領(lǐng)域等方面進(jìn)行詳細(xì)闡述，以期全面解析這一重要算法。

發(fā)表于 07-02 18:27 ?916次閱讀

卷積神經(jīng)網(wǎng)絡(luò)的基本原理、結(jié)構(gòu)及訓(xùn)練過(guò)程

、訓(xùn)練過(guò)程以及應(yīng)用場(chǎng)景。一、卷積神經(jīng)網(wǎng)絡(luò)的基本原理卷積運(yùn)算卷積運(yùn)算是卷積神經(jīng)網(wǎng)絡(luò)的核心，它是一種數(shù)學(xué)運(yùn)算，用于提取圖像中的局部特征。卷積運(yùn)算的過(guò)程如下：（1）定義卷積核：卷積核

發(fā)表于 07-02 14:21 ?2678次閱讀

深度神經(jīng)網(wǎng)絡(luò)模型有哪些

模型：多層感知器（Multilayer Perceptron，MLP）：多層感知器是最基本的深度神經(jīng)網(wǎng)絡(luò)模型，由多個(gè)全連接層組成。每個(gè)隱藏層的神經(jīng)元數(shù)量可以不同，通常使用激活函數(shù)如ReLU

發(fā)表于 07-02 10:00 ?1508次閱讀

深度學(xué)習(xí)模型訓(xùn)練過(guò)程詳解

深度學(xué)習(xí)模型訓(xùn)練是一個(gè)復(fù)雜且關(guān)鍵的過(guò)程，它涉及大量的數(shù)據(jù)、計(jì)算資源和精心設(shè)計(jì)的算法。訓(xùn)練一個(gè)深度學(xué)習(xí)模型，本質(zhì)上是通過(guò)優(yōu)化算法調(diào)整模型參數(shù)，

發(fā)表于 07-01 16:13 ?1331次閱讀

【大規(guī)模語(yǔ)言模型：從理論到實(shí)踐】- 每日進(jìn)步一點(diǎn)點(diǎn)

的訓(xùn)練效率、穩(wěn)定性和泛化能力。以下是關(guān)于大模型訓(xùn)練歸一化的詳細(xì)介紹：一、歸一

發(fā)表于 05-31 19:54

利用深度循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)心電圖降噪

。可以使用深度學(xué)習(xí)的正則化技術(shù)來(lái)克服這個(gè)問(wèn)題，調(diào)整超參數(shù)可能會(huì)獲得比本文更好的性能。另一個(gè)重要的結(jié)論來(lái)自于合成訓(xùn)練數(shù) 據(jù)對(duì)網(wǎng)絡(luò)性能影響的分析。結(jié)果表明，使用人工數(shù)據(jù)

發(fā)表于 05-15 14:42

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的預(yù)訓(xùn)練

函數(shù)，位置編碼以及其他關(guān)鍵模塊。這些模塊和設(shè)計(jì)選型都是大語(yǔ)言模型在處理各種自然語(yǔ)言處理任務(wù)時(shí)的基礎(chǔ)，影響模型的學(xué)習(xí)能力，泛化性和運(yùn)行效率。大語(yǔ)言模型通過(guò)最常用的訓(xùn)練任務(wù)進(jìn)行

發(fā)表于 05-07 17:10

搜索歷史

深度ReLU網(wǎng)絡(luò)的訓(xùn)練動(dòng)態(tài)過(guò)程及其對(duì)泛化能力的影響

評(píng)論

AI模型部署邊緣設(shè)備的奇妙之旅：目標(biāo)檢測(cè)模型

AI大模型與深度學(xué)習(xí)的關(guān)系

BP網(wǎng)絡(luò)的基本概念和訓(xùn)練原理

怎么對(duì)神經(jīng)網(wǎng)絡(luò)重新訓(xùn)練

BP神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)和訓(xùn)練過(guò)程

深度神經(jīng)網(wǎng)絡(luò)概述及其應(yīng)用

解讀PyTorch模型訓(xùn)練過(guò)程

深度學(xué)習(xí)的典型模型和訓(xùn)練過(guò)程

卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)和訓(xùn)練過(guò)程

卷積神經(jīng)網(wǎng)絡(luò)的基本原理、結(jié)構(gòu)及訓(xùn)練過(guò)程

深度神經(jīng)網(wǎng)絡(luò)模型有哪些

深度學(xué)習(xí)模型訓(xùn)練過(guò)程詳解

【大規(guī)模語(yǔ)言模型：從理論到實(shí)踐】- 每日進(jìn)步一點(diǎn)點(diǎn)

利用深度循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)心電圖降噪

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的預(yù)訓(xùn)練