亚洲嫩模高潮喷白浆在线观看,最好免费观看高清在线

編者按：上篇文章中，我們提到了如何高效地訓(xùn)練ResNet。在今天的文章中，我們將對mini-batch的尺寸進行研究，同時要考慮遺忘性問題。

在上一篇文章中，我們得到了一個18層的ResNet網(wǎng)絡(luò)，測試精度達到94%需要341秒，并且經(jīng)過進一步調(diào)整后，時間縮短至297秒。

目前，訓(xùn)練使用的batch大小是128，batch更大，就支持更高效的計算，所以我們想試試當batch增大到512會發(fā)生什么。如果我們想估計之前的設(shè)置，就需要保證學(xué)習(xí)率和其他超參數(shù)都經(jīng)過合適的調(diào)整。

具有mini-batch的隨機梯度下降幾乎是每次只訓(xùn)練一個樣本，但不同的是，參數(shù)的更新會延遲到batch結(jié)束。在低學(xué)習(xí)率的限制下，你可以認為這種延遲是更高階的效應(yīng)，只要梯度只在mini-batch上求和而不是計算平均數(shù)，批處理就不會改變?nèi)魏我浑A的順序。我們還在每個batch之后應(yīng)用了權(quán)重衰減，它會通過batch size中的一個因素增加，從而抵消需要處理的batch數(shù)量。如果梯度根據(jù)mini-batch被平均，那么學(xué)習(xí)速率應(yīng)該增加到可以消除這一影響只留下權(quán)重衰減，因為權(quán)重衰減的更新對應(yīng)著學(xué)習(xí)率的因子。

所以現(xiàn)在我們將batch size定為512開始訓(xùn)練。訓(xùn)練時間為256秒，將學(xué)習(xí)速率增加10%，在128的batch size下，3/5的訓(xùn)練都能達到94%的測試精確度。如之前所料，在512的batch size下，驗證結(jié)果有更大的噪聲，這是因為批規(guī)范化的影響。

現(xiàn)在速度增加的很好，但是結(jié)果讓我們很吃驚

考慮到要用不同的mini-batch進行訓(xùn)練，我們認為這一過程中我們忽略了兩點。首先，我們認為延遲更新，直到這一mini-batch結(jié)束都是更高階的影響，這在較低的學(xué)習(xí)率中是可行的。目前配置中的快速訓(xùn)練速度很大程度上取決于高學(xué)習(xí)率的使用。在凸優(yōu)化的背景下（或僅僅是二次方的梯度下降），我們可以在某一點設(shè)置學(xué)習(xí)速率，達到最大的訓(xùn)練速度，在這一點處，二階效應(yīng)開始平衡一階效應(yīng)，并且一階步長產(chǎn)生的益處可以通過曲率效應(yīng)抵消。假設(shè)我們處于這種狀態(tài)mini-batch導(dǎo)致的延遲更新應(yīng)該產(chǎn)生相同的曲率懲罰，因為學(xué)習(xí)率的增加，訓(xùn)練會變得不穩(wěn)定。簡而言之，如果可以忽略高階效應(yīng)，就說明訓(xùn)練速度不夠快。

另外，我們發(fā)現(xiàn)訓(xùn)練步驟只有一個，但事實上，訓(xùn)練是一個很長的運行過程，要改變參數(shù)就需要好幾個步驟。所以，小的batch和大的batch訓(xùn)練之間的二階差異可以隨著時間積累，導(dǎo)致訓(xùn)練軌跡有很大不同。在之后的文章中我們會重新討論這一點。

所以，我們該如何在限制訓(xùn)練速度的情況下，還可以提高batch size，同時不用維持曲率效應(yīng)帶來的不穩(wěn)定性？答案可能是其他因素在限制學(xué)習(xí)速率，而我們并沒有考慮到曲率效應(yīng)。我們認為這一其他因素就是“災(zāi)難性遺忘（Catastrophic Forgetting）”，這也是在較小batch中限制學(xué)習(xí)率的原因。

首先，我們要對這一概念進行解釋。這一術(shù)語通常用于，當一個模型在一個任務(wù)上訓(xùn)練后，又應(yīng)用到第二第三個模型上。但是學(xué)習(xí)之后的任務(wù)會導(dǎo)致性能下降，有時這種影響是災(zāi)難性的。在我們的案例中，這些任務(wù)是來自同一個訓(xùn)練集的不同部分，所以單單在一個epoch中就會發(fā)生遺忘現(xiàn)象。學(xué)習(xí)速率越高，訓(xùn)練中參數(shù)所用的越多，在某一點時這會削弱模型吸收信息的能力，早期的batch就會更容易遺忘。

當我們提高batch size時，并沒有立即增加模型的穩(wěn)定性。如果是曲率導(dǎo)致的，穩(wěn)定性會利可增加。反之，如果是遺忘是主要原因，模型不會受batch size的影響。

之后，我們進行了實驗將曲率的效應(yīng)和遺忘性區(qū)分開。曲率效應(yīng)大多依賴于學(xué)習(xí)率，而遺忘主要受學(xué)習(xí)率和數(shù)據(jù)集大小的共同影響。我們繪制了在batch size為128時，訓(xùn)練和測試損失的折線圖，訓(xùn)練所用的是不同大小的子集。

可以看到，首先，訓(xùn)練和測試損失都在學(xué)習(xí)速率為8的地方突然變得不穩(wěn)定，這說明曲率影響在這里變得非常重要。相反，其他地方的訓(xùn)練和測試損失都很平穩(wěn)。

如我們所料，優(yōu)化學(xué)習(xí)速率因子（由測試集損失測定）和全部的訓(xùn)練數(shù)據(jù)集中的優(yōu)化學(xué)習(xí)速率因子很接近。對于更小的數(shù)據(jù)集來說，優(yōu)化學(xué)習(xí)速率因子更高。這也符合我們上面的假設(shè)：對于一個足夠小的數(shù)據(jù)及來說，遺忘就不再是問題了，學(xué)習(xí)速率才是問題。對于更大的數(shù)據(jù)集，在遺忘的影響下，優(yōu)化點會更低。

同樣，在batch size為512的情況下，曲線圖也很有趣。由于batch size比上方的大了4倍，曲線出現(xiàn)不穩(wěn)定情況的速度更快了，當學(xué)習(xí)速率為2時即出現(xiàn)。我們?nèi)匀幌Ｍ?，學(xué)習(xí)速率因子的優(yōu)化值和損失與128時的相近，因為遺忘并不對batch size產(chǎn)生影響。以下是得到的結(jié)果：

我們設(shè)置batch size=128，然后用一定學(xué)習(xí)速率訓(xùn)練，在前五個epoch中線性增加，之后達到固定的速率并繼續(xù)訓(xùn)練25個epoch。我們在兩個數(shù)據(jù)集上進行了比較：a)50%的完全訓(xùn)練集沒有經(jīng)過數(shù)據(jù)增強；b)全部數(shù)據(jù)都經(jīng)過增強的數(shù)據(jù)集。當模型在b上運行時，我們將它停止，重新計算最后幾個epoch的損失，這樣做的目的是比較模型在最近的數(shù)據(jù)上得到的損失和此前數(shù)據(jù)上計算出的損失。

以下是學(xué)習(xí)速率是原始訓(xùn)練時4倍的結(jié)果：

以下是原始訓(xùn)練是現(xiàn)在學(xué)習(xí)速率4倍的結(jié)果：

從第一組圖表中，我們發(fā)現(xiàn)，與高學(xué)習(xí)速率相對應(yīng)，測試損失幾乎和模型在a、b上訓(xùn)練時的結(jié)果一樣。這說明，訓(xùn)練無法從b和a中提取信息。右邊的圖也證明了這一結(jié)果，最近訓(xùn)練的batch表現(xiàn)出比此前的batch更低的損失，但是在半個epoch之內(nèi)，損失又恢復(fù)到模型在從未見過的測試樣本上的水平。這說明，模型忘記了在同一個epoch中它此前看到的東西，這也說明這一學(xué)習(xí)速率限制了它能吸收到的信息。

第二組圖表表現(xiàn)出了相反的結(jié)果。全部經(jīng)過數(shù)據(jù)增強的數(shù)據(jù)集導(dǎo)致了更低的測試損失，最近的訓(xùn)練batch比此前表現(xiàn)得更好。

結(jié)語

上述結(jié)果表明，如果我們想訓(xùn)練一個擁有較高學(xué)習(xí)速率的神經(jīng)網(wǎng)絡(luò)，那么就要考慮兩點。對于目前的模型和數(shù)據(jù)集來說，在128的batch size下，我們不會受到遺忘的影響，要么可以找方法降低影響（例如用更大的、伴有稀疏更新的模型或者自然梯度下降），要么可以增大batch size。當batch size達到512時，曲率就開始影響結(jié)果，我們關(guān)注的重點應(yīng)該轉(zhuǎn)移到曲率上來。

對于更大的數(shù)據(jù)集，例如ImageNet-1k，遺忘的影響會更嚴重。這就能解釋為什么在小的batch size、高學(xué)習(xí)率的訓(xùn)練中加速會失敗。

在接下來的文章中，我們會加速批規(guī)范化，加入一些正則化，同時替換另一種基準。

阅读全文

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴