0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

PyTorch教程-12.4。隨機(jī)梯度下降

jf_pJlTbmA9 ? 來(lái)源:PyTorch ? 作者:PyTorch ? 2023-06-05 15:44 ? 次閱讀

在前面的章節(jié)中,我們一直在訓(xùn)練過(guò)程中使用隨機(jī)梯度下降,但是沒有解釋它為什么有效。為了闡明它,我們剛剛在第 12.3 節(jié)中描述了梯度下降的基本原理。在本節(jié)中,我們將繼續(xù) 更詳細(xì)地討論隨機(jī)梯度下降。

%matplotlib inline
import math
import torch
from d2l import torch as d2l

%matplotlib inline
import math
from mxnet import np, npx
from d2l import mxnet as d2l

npx.set_np()

%matplotlib inline
import math
import tensorflow as tf
from d2l import tensorflow as d2l

12.4.1。隨機(jī)梯度更新

深度學(xué)習(xí)中,目標(biāo)函數(shù)通常是訓(xùn)練數(shù)據(jù)集中每個(gè)示例的損失函數(shù)的平均值。給定訓(xùn)練數(shù)據(jù)集n例子,我們假設(shè) fi(x)是關(guān)于 index 訓(xùn)練樣例的損失函數(shù)i, 在哪里x是參數(shù)向量。然后我們到達(dá)目標(biāo)函數(shù)

(12.4.1)f(x)=1n∑i=1nfi(x).

目標(biāo)函數(shù)的梯度在x被計(jì)算為

(12.4.2)?f(x)=1n∑i=1n?fi(x).

如果使用梯度下降,每次自變量迭代的計(jì)算成本為O(n), 線性增長(zhǎng) n. 因此,當(dāng)訓(xùn)練數(shù)據(jù)集較大時(shí),每次迭代的梯度下降代價(jià)會(huì)更高。

隨機(jī)梯度下降 (SGD) 減少了每次迭代的計(jì)算成本。在隨機(jī)梯度下降的每次迭代中,我們統(tǒng)一采樣一個(gè)索引i∈{1,…,n}隨機(jī)獲取數(shù)據(jù)示例,并計(jì)算梯度?fi(x)更新x:

(12.4.3)x←x?η?fi(x),

在哪里η是學(xué)習(xí)率。我們可以看到每次迭代的計(jì)算成本從O(n) 梯度下降到常數(shù)O(1). 此外,我們要強(qiáng)調(diào)的是隨機(jī)梯度 ?fi(x)是完整梯度的無(wú)偏估計(jì)?f(x)因?yàn)?/p>

(12.4.4)Ei?fi(x)=1n∑i=1n?fi(x)=?f(x).

這意味著,平均而言,隨機(jī)梯度是對(duì)梯度的良好估計(jì)。

現(xiàn)在,我們將通過(guò)向梯度添加均值為 0 和方差為 1 的隨機(jī)噪聲來(lái)模擬隨機(jī)梯度下降,將其與梯度下降進(jìn)行比較。

def f(x1, x2): # Objective function
  return x1 ** 2 + 2 * x2 ** 2

def f_grad(x1, x2): # Gradient of the objective function
  return 2 * x1, 4 * x2

def sgd(x1, x2, s1, s2, f_grad):
  g1, g2 = f_grad(x1, x2)
  # Simulate noisy gradient
  g1 += torch.normal(0.0, 1, (1,)).item()
  g2 += torch.normal(0.0, 1, (1,)).item()
  eta_t = eta * lr()
  return (x1 - eta_t * g1, x2 - eta_t * g2, 0, 0)

def constant_lr():
  return 1

eta = 0.1
lr = constant_lr # Constant learning rate
d2l.show_trace_2d(f, d2l.train_2d(sgd, steps=50, f_grad=f_grad))

epoch 50, x1: 0.014749, x2: 0.009829

poYBAGR9OS-ARqizAAD4tiLcbHE821.svg

def f(x1, x2): # Objective function
  return x1 ** 2 + 2 * x2 ** 2

def f_grad(x1, x2): # Gradient of the objective function
  return 2 * x1, 4 * x2

def sgd(x1, x2, s1, s2, f_grad):
  g1, g2 = f_grad(x1, x2)
  # Simulate noisy gradient
  g1 += np.random.normal(0.0, 1, (1,))
  g2 += np.random.normal(0.0, 1, (1,))
  eta_t = eta * lr()
  return (x1 - eta_t * g1, x2 - eta_t * g2, 0, 0)

def constant_lr():
  return 1

eta = 0.1
lr = constant_lr # Constant learning rate
d2l.show_trace_2d(f, d2l.train_2d(sgd, steps=50, f_grad=f_grad))

epoch 50, x1: -0.472513, x2: 0.110780

poYBAGR9OTKAJ2iNAAD6IEabta0377.svg

def f(x1, x2): # Objective function
  return x1 ** 2 + 2 * x2 ** 2

def f_grad(x1, x2): # Gradient of the objective function
  return 2 * x1, 4 * x2

def sgd(x1, x2, s1, s2, f_grad):
  g1, g2 = f_grad(x1, x2)
  # Simulate noisy gradient
  g1 += tf.random.normal([1], 0.0, 1)
  g2 += tf.random.normal([1], 0.0, 1)
  eta_t = eta * lr()
  return (x1 - eta_t * g1, x2 - eta_t * g2, 0, 0)

def constant_lr():
  return 1

eta = 0.1
lr = constant_lr # Constant learning rate
d2l.show_trace_2d(f, d2l.train_2d(sgd, steps=50, f_grad=f_grad))

epoch 50, x1: -0.103750, x2: 0.054715

pYYBAGR9OTSAEpZDAAD439nztSw294.svg

正如我們所見,隨機(jī)梯度下降中變量的軌跡比我們?cè)?2.3 節(jié)中觀察到的梯度下降中的軌跡噪聲大得多。這是由于梯度的隨機(jī)性。也就是說(shuō),即使我們到達(dá)最小值附近,我們?nèi)匀皇艿剿矔r(shí)梯度注入的不確定性的影響η?fi(x). 即使在 50 步之后,質(zhì)量仍然不是很好。更糟糕的是,它不會(huì)在額外的步驟后得到改善(我們鼓勵(lì)您嘗試更多的步驟來(lái)確認(rèn)這一點(diǎn))。這給我們留下了唯一的選擇:改變學(xué)習(xí)率η. 但是,如果我們選擇的太小,我們最初不會(huì)取得任何有意義的進(jìn)展。另一方面,如果我們選擇太大,我們將得不到好的解決方案,如上所示。解決這些相互沖突的目標(biāo)的唯一方法是隨著優(yōu)化的進(jìn)行動(dòng)態(tài)降低學(xué)習(xí)率。

lr這也是在step函數(shù)中加入學(xué)習(xí)率函數(shù)的原因sgd。在上面的例子中,學(xué)習(xí)率調(diào)度的任何功能都處于休眠狀態(tài),因?yàn)槲覀儗⑾嚓P(guān)lr 函數(shù)設(shè)置為常量。

12.4.2。動(dòng)態(tài)學(xué)習(xí)率

更換η具有隨時(shí)間變化的學(xué)習(xí)率 η(t)增加了控制優(yōu)化算法收斂的復(fù)雜性。特別是,我們需要弄清楚多快 η應(yīng)該腐爛。如果太快,我們將過(guò)早地停止優(yōu)化。如果我們減少它太慢,我們會(huì)在優(yōu)化??上浪費(fèi)太多時(shí)間。以下是一些用于調(diào)整的基本策略η隨著時(shí)間的推移(我們稍后會(huì)討論更高級(jí)的策略):

(12.4.5)η(t)=ηiifti≤t≤ti+1piecewise constantη(t)=η0?e?λtexponential decayη(t)=η0?(βt+1)?αpolynomial decay

在第一個(gè)分段常數(shù)場(chǎng)景中,我們降低學(xué)習(xí)率,例如,每當(dāng)優(yōu)化進(jìn)展停滯時(shí)。這是訓(xùn)練深度網(wǎng)絡(luò)的常用策略?;蛘?,我們可以通過(guò)指數(shù)衰減更積極地減少它。不幸的是,這通常會(huì)導(dǎo)致在算法收斂之前過(guò)早停止。一個(gè)流行的選擇是多項(xiàng)式衰減α=0.5. 在凸優(yōu)化的情況下,有許多證據(jù)表明該比率表現(xiàn)良好。

讓我們看看指數(shù)衰減在實(shí)踐中是什么樣子的。

def exponential_lr():
  # Global variable that is defined outside this function and updated inside
  global t
  t += 1
  return math.exp(-0.1 * t)

t = 1
lr = exponential_lr
d2l.show_trace_2d(f, d2l.train_2d(sgd, steps=1000, f_grad=f_grad))

epoch 1000, x1: -0.878960, x2: -0.023958

poYBAGR9OTqAIf3XAAxoo82lIjs506.svg

def exponential_lr():
  # Global variable that is defined outside this function and updated inside
  global t
  t += 1
  return math.exp(-0.1 * t)

t = 1
lr = exponential_lr
d2l.show_trace_2d(f, d2l.train_2d(sgd, steps=1000, f_grad=f_grad))

epoch 1000, x1: -0.820458, x2: 0.004701

pYYBAGR9OT-AYoJPAAx4USqd3aA901.svg

def exponential_lr():
  # Global variable that is defined outside this function and updated inside
  global t
  t += 1
  return math.exp(-0.1 * t)

t = 1
lr = exponential_lr
d2l.show_trace_2d(f, d2l.train_2d(sgd, steps=1000, f_grad=f_grad))

epoch 1000, x1: -0.798681, x2: -0.067649

poYBAGR9OUSAeAziAAxuZ3FWmec041.svg

正如預(yù)期的那樣,參數(shù)的方差顯著減少。然而,這是以無(wú)法收斂到最優(yōu)解為代價(jià)的x=(0,0). 即使在 1000 次迭代之后,我們?nèi)匀浑x最佳解決方案很遠(yuǎn)。實(shí)際上,該算法根本無(wú)法收斂。另一方面,如果我們使用多項(xiàng)式衰減,其中學(xué)習(xí)率隨步數(shù)的平方根反比衰減,則收斂?jī)H在 50 步后變得更好。

def polynomial_lr():
  # Global variable that is defined outside this function and updated inside
  global t
  t += 1
  return (1 + 0.1 * t) ** (-0.5)

t = 1
lr = polynomial_lr
d2l.show_trace_2d(f, d2l.train_2d(sgd, steps=50, f_grad=f_grad))

epoch 50, x1: -0.060831, x2: 0.028779

pYYBAGR9OUeAdhPHAAD4_NKbjIo763.svg

def polynomial_lr():
  # Global variable that is defined outside this function and updated inside
  global t
  t += 1
  return (1 + 0.1 * t) ** (-0.5)

t = 1
lr = polynomial_lr
d2l.show_trace_2d(f, d2l.train_2d(sgd, steps=50, f_grad=f_grad))

epoch 50, x1: 0.025029, x2: 0.115820

poYBAGR9OUmAARl4AAD6bsEooro573.svg

def polynomial_lr():
  # Global variable that is defined outside this function and updated inside
  global t
  t += 1
  return (1 + 0.1 * t) ** (-0.5)

t = 1
lr = polynomial_lr
d2l.show_trace_2d(f, d2l.train_2d(sgd, steps=50, f_grad=f_grad))

epoch 50, x1: 0.280001, x2: -0.037688

pYYBAGR9OUyAY7wFAAD5ZKNBFa8832.svg

關(guān)于如何設(shè)置學(xué)習(xí)率,還有更多選擇。例如,我們可以從一個(gè)小的速率開始,然后迅速上升,然后再次下降,盡管速度會(huì)更慢。我們甚至可以在更小和更大的學(xué)習(xí)率之間交替。存在多種此類時(shí)間表?,F(xiàn)在讓我們關(guān)注可以進(jìn)行綜合理論分析的學(xué)習(xí)率計(jì)劃,即凸設(shè)置中的學(xué)習(xí)率。對(duì)于一般的非凸問(wèn)題,很難獲得有意義的收斂保證,因?yàn)橥ǔW钚』蔷€性非凸問(wèn)題是 NP 難題。有關(guān)調(diào)查,請(qǐng)參見 Tibshirani 2015 的優(yōu)秀講義 。

12.4.3。凸目標(biāo)的收斂性分析

以下針對(duì)凸目標(biāo)函數(shù)的隨機(jī)梯度下降的收斂分析是可選的,主要用于傳達(dá)有關(guān)問(wèn)題的更多直覺。我們將自己限制在最簡(jiǎn)單的證明之一(Nesterov 和 Vial,2000)。存在顯著更高級(jí)的證明技術(shù),例如,每當(dāng)目標(biāo)函數(shù)表現(xiàn)得特別好時(shí)。

假設(shè)目標(biāo)函數(shù) f(ξ,x)是凸的x 對(duì)全部ξ. 更具體地說(shuō),我們考慮隨機(jī)梯度下降更新:

(12.4.6)xt+1=xt?ηt?xf(ξt,x),

在哪里f(ξt,x)是關(guān)于訓(xùn)練樣例的目標(biāo)函數(shù)ξt 在步驟中從一些分布中提取t和x是模型參數(shù)。表示為

(12.4.7)R(x)=Eξ[f(ξ,x)]

預(yù)期的風(fēng)險(xiǎn)和R?它的最低限度 x. 最后讓x?是最小化器(我們假設(shè)它存在于x被定義為)。在這種情況下,我們可以跟蹤當(dāng)前參數(shù)之間的距離xt在時(shí)間t和風(fēng)險(xiǎn)最小化 x?看看它是否隨著時(shí)間的推移而改善:

(12.4.8)‖xt+1?x?‖2=‖xt?ηt?xf(ξt,x)?x?‖2=‖xt?x?‖2+ηt2‖?xf(ξt,x)‖2?2ηt?xt?x?,?xf(ξt,x)?.

我們假設(shè)?2隨機(jī)梯度范數(shù) ?xf(ξt,x)受一些常數(shù)的限制L, 因此我們有

(12.4.9)ηt2‖?xf(ξt,x)‖2≤ηt2L2.

我們最感興趣的是兩者之間的距離 xt和x?預(yù)期的變化。事實(shí)上,對(duì)于任何特定的步驟序列,距離很可能會(huì)增加,具體取決于哪個(gè)ξt我們遇到。因此我們需要綁定點(diǎn)積。因?yàn)閷?duì)于任何凸函數(shù)f它認(rèn)為 f(y)≥f(x)+?f′(x),y?x? 對(duì)全部x和y, 根據(jù)凸性我們有

(12.4.10)f(ξt,x?)≥f(ξt,xt)+?x??xt,?xf(ξt,xt)?.

將不等式(12.4.9)和 (12.4.10)代入(12.4.8)我們得到了時(shí)間參數(shù)之間距離的界限t+1如下:

(12.4.11)‖xt?x?‖2?‖xt+1?x?‖2≥2ηt(f(ξt,xt)?f(ξt,x?))?ηt2L2.

這意味著只要當(dāng)前損失與最優(yōu)損失之間的差異大于ηtL2/2. 由于這種差異必然會(huì)收斂到零,因此學(xué)習(xí)率ηt也需要消失。

接下來(lái)我們對(duì)(12.4.11)進(jìn)行期望。這產(chǎn)生

(12.4.12)E[‖xt?x?‖2]?E[‖xt+1?x?‖2]≥2ηt[E[R(xt)]?R?]?ηt2L2.

最后一步涉及對(duì)不等式求和 t∈{1,…,T}. 由于總和望遠(yuǎn)鏡并且通過(guò)刪除較低的項(xiàng)我們獲得

(12.4.13)‖x1?x?‖2≥2(∑t=1Tηt)[E[R(xt)]?R?]?L2∑t=1Tηt2.

請(qǐng)注意,我們利用了x1是給定的,因此可以放棄期望。最后定義

(12.4.14)xˉ=def∑t=1Tηtxt∑t=1Tηt.

自從

(12.4.15)E(∑t=1TηtR(xt)∑t=1Tηt)=∑t=1TηtE[R(xt)]∑t=1Tηt=E[R(xt)],

由 Jensen 不等式(設(shè)置i=t, αi=ηt/∑t=1Tηt在 (12.2.3) ) 和凸性R它遵循E[R(xt)]≥E[R(xˉ)], 因此

(12.4.16)∑t=1TηtE[R(xt)]≥∑t=1TηtE[R(xˉ)].

將其代入不等式(12.4.13)得到邊界

(12.4.17)[E[xˉ]]?R?≤r2+L2∑t=1Tηt22∑t=1Tηt,

在哪里 r2=def‖x1?x?‖2 是參數(shù)的初始選擇與最終結(jié)果之間距離的界限。簡(jiǎn)而言之,收斂速度取決于隨機(jī)梯度的范數(shù)如何有界(L) 以及初始參數(shù)值離最優(yōu)性有多遠(yuǎn) (r). 請(qǐng)注意,邊界是根據(jù)xˉ而不是 xT. 這是因?yàn)閤ˉ是優(yōu)化路徑的平滑版本。每當(dāng)r,L, 和 T已知我們可以選擇學(xué)習(xí)率 η=r/(LT). 這產(chǎn)生作為上限 rL/T. 也就是說(shuō),我們收斂于 rate O(1/T)到最優(yōu)解。

12.4.4。隨機(jī)梯度和有限樣本

到目前為止,在談到隨機(jī)梯度下降時(shí),我們玩得有點(diǎn)快和松了。我們假設(shè)我們繪制實(shí)例 xi,通常帶有標(biāo)簽yi從一些分布 p(x,y)并且我們使用它以某種方式更新模型參數(shù)。特別地,對(duì)于有限的樣本量,我們簡(jiǎn)單地認(rèn)為離散分布 p(x,y)=1n∑i=1nδxi(x)δyi(y) 對(duì)于某些功能δxi和δyi允許我們對(duì)其執(zhí)行隨機(jī)梯度下降。

然而,這并不是我們所做的。在當(dāng)前部分的玩具示例中,我們只是將噪聲添加到其他非隨機(jī)梯度中,即,我們假裝有對(duì)(xi,yi). 事實(shí)證明,這是有道理的(詳細(xì)討論見習(xí)題)。更麻煩的是,在之前的所有討論中,我們顯然都沒有這樣做。相反,我們只對(duì)所有實(shí)例進(jìn)行一次迭代。要了解為什么這樣做更可取,請(qǐng)考慮相反的情況,即我們正在抽樣n從帶有替換的離散分布觀察 。選擇元素的概率i隨機(jī)是1/n. 因此至少選擇一次是

(12.4.18)P(choosei)=1?P(omiti)=1?(1?1/n)n≈1?e?1≈0.63.

類似的推理表明,恰好一次選擇某個(gè)樣本(即訓(xùn)練示例)的概率由下式給出

(12.4.19)(n1)1n(1?1n)n?1=nn?1(1?1n)n≈e?1≈0.37.

相對(duì)于無(wú)放回抽樣,放回抽樣會(huì)導(dǎo)致方差增加和數(shù)據(jù)效率降低。因此,在實(shí)踐中我們執(zhí)行后者(這是貫穿本書的默認(rèn)選擇)。最后請(qǐng)注意,重復(fù)通過(guò)訓(xùn)練數(shù)據(jù)集以不同的隨機(jī)順序遍歷它。

12.4.5。概括

對(duì)于凸問(wèn)題,我們可以證明,對(duì)于廣泛選擇的學(xué)習(xí)率,隨機(jī)梯度下降將收斂到最優(yōu)解。

對(duì)于深度學(xué)習(xí),通常情況并非如此。然而,對(duì)凸問(wèn)題的分析讓我們對(duì)如何接近優(yōu)化有了有用的認(rèn)識(shí),即逐步降低學(xué)習(xí)率,盡管不是太快。

學(xué)習(xí)率太小或太大時(shí)都會(huì)出現(xiàn)問(wèn)題。在實(shí)踐中,通常需要經(jīng)過(guò)多次實(shí)驗(yàn)才能找到合適的學(xué)習(xí)率。

當(dāng)訓(xùn)練數(shù)據(jù)集中有更多示例時(shí),梯度下降的每次迭代計(jì)算成本更高,因此在這些情況下首選隨機(jī)梯度下降。

隨機(jī)梯度下降的最優(yōu)性保證在非凸情況下通常不可用,因?yàn)樾枰獧z查的局部最小值的數(shù)量很可能是指數(shù)級(jí)的。

12.4.6。練習(xí)

試驗(yàn)隨機(jī)梯度下降的不同學(xué)習(xí)率計(jì)劃和不同的迭代次數(shù)。特別是,繪制與最佳解決方案的距離 (0,0)作為迭代次數(shù)的函數(shù)。

證明對(duì)于函數(shù)f(x1,x2)=x12+2x22 向梯度添加正常噪聲相當(dāng)于最小化損失函數(shù) f(x,w)=(x1?w1)2+2(x2?w2)2 在哪里x從正態(tài)分布中提取。

當(dāng)您從中采樣時(shí)比較隨機(jī)梯度下降的收斂性{(x1,y1),…,(xn,yn)}有更換和當(dāng)您在沒有更換的情況下取樣時(shí)。

如果某個(gè)梯度(或者與其相關(guān)的某個(gè)坐標(biāo))始終大于所有其他梯度,您將如何更改隨機(jī)梯度下降求解器?

假使,假設(shè)f(x)=x2(1+sin?x). 有多少局部最小值f有?你能改變嗎f以這樣一種方式來(lái)最小化它需要評(píng)估所有局部最小值?

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 隨機(jī)梯度下降
    +關(guān)注

    關(guān)注

    0

    文章

    4

    瀏覽量

    969
  • pytorch
    +關(guān)注

    關(guān)注

    2

    文章

    808

    瀏覽量

    13235
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    如何更新權(quán)重實(shí)現(xiàn)梯度下降

    實(shí)現(xiàn)梯度下降
    發(fā)表于 07-15 10:09

    隨機(jī)梯度估值在盲均衡算法中的影響

    該文引人隨機(jī)梯度估值,在梯度向量中加入噪聲成分,結(jié)合梯度估值引起的權(quán)偏差相關(guān)系數(shù),分析其對(duì)盲均衡算法的影響.理論研究和仿真結(jié)果表明,隨機(jī)
    發(fā)表于 03-07 14:41 ?20次下載
    <b class='flag-5'>隨機(jī)</b><b class='flag-5'>梯度</b>估值在盲均衡算法中的影響

    隨機(jī)并行梯度下降圖像匹配方法性能研究及優(yōu)化_李松洋

    隨機(jī)并行梯度下降圖像匹配方法性能研究及優(yōu)化_李松洋
    發(fā)表于 03-14 08:00 ?0次下載

    機(jī)器學(xué)習(xí):隨機(jī)梯度下降和批量梯度下降算法介紹

    隨機(jī)梯度下降(Stochastic gradient descent) 批量梯度下降(Batch gradient descent)
    發(fā)表于 11-28 04:00 ?8931次閱讀
    機(jī)器學(xué)習(xí):<b class='flag-5'>隨機(jī)</b><b class='flag-5'>梯度</b><b class='flag-5'>下降</b>和批量<b class='flag-5'>梯度</b><b class='flag-5'>下降</b>算法介紹

    一文看懂常用的梯度下降算法

    編輯:祝鑫泉 一 概述 梯度下降算法( Gradient Descent Optimization )是神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練最常用的優(yōu)化算法。對(duì)于深度學(xué)習(xí)模型,基本都是采用梯度下降算法來(lái)進(jìn)
    發(fā)表于 12-04 18:17 ?1801次閱讀

    梯度下降算法及其變種:批量梯度下降,小批量梯度下降隨機(jī)梯度下降

    現(xiàn)在我們來(lái)討論梯度下降算法的三個(gè)變種,它們之間的主要區(qū)別在于每個(gè)學(xué)習(xí)步驟中計(jì)算梯度時(shí)使用的數(shù)據(jù)量,是對(duì)每個(gè)參數(shù)更新(學(xué)習(xí)步驟)時(shí)的梯度準(zhǔn)確性與時(shí)間復(fù)雜度的折衷考慮。
    的頭像 發(fā)表于 05-03 15:55 ?2.2w次閱讀

    基于PyTorch的深度學(xué)習(xí)入門教程之PyTorch的自動(dòng)梯度計(jì)算

    本文參考PyTorch官網(wǎng)的教程,分為五個(gè)基本模塊來(lái)介紹PyTorch。為了避免文章過(guò)長(zhǎng),這五個(gè)模塊分別在五篇博文中介紹。 Part1:PyTorch簡(jiǎn)單知識(shí) Part2:PyTorch
    的頭像 發(fā)表于 02-16 15:26 ?2040次閱讀

    基于PyTorch的深度學(xué)習(xí)入門教程之PyTorch重點(diǎn)綜合實(shí)踐

    實(shí)例。該網(wǎng)絡(luò)有一個(gè)隱含層,使用梯度下降來(lái)訓(xùn)練,目標(biāo)是最小化網(wǎng)絡(luò)輸出和真實(shí)輸出之間的歐氏距離。 目錄 Tensors(張量) Warm-up:numpy PyTorch:Tensors Autograd
    的頭像 發(fā)表于 02-15 10:01 ?1801次閱讀

    基于分布式編碼的同步隨機(jī)梯度下降算法

    基于數(shù)據(jù)并行化的異步隨機(jī)梯度下降(ASGD)算法由于需要在分布式計(jì)算節(jié)點(diǎn)之間頻繁交換梯度數(shù)據(jù),從而影響算法執(zhí)行效率。提出基于分布式編碼的同步隨機(jī)
    發(fā)表于 04-27 13:56 ?2次下載
    基于分布式編碼的同步<b class='flag-5'>隨機(jī)</b><b class='flag-5'>梯度</b><b class='flag-5'>下降</b>算法

    梯度下降法在機(jī)器學(xué)習(xí)中的應(yīng)用

    梯度下降法沿著梯度的反方向進(jìn)行搜索,利用了函數(shù)的一階導(dǎo)數(shù)信息。
    的頭像 發(fā)表于 05-18 09:20 ?1392次閱讀
    <b class='flag-5'>梯度</b><b class='flag-5'>下降</b>法在機(jī)器學(xué)習(xí)中的應(yīng)用

    PyTorch教程12.4隨機(jī)梯度下降

    電子發(fā)燒友網(wǎng)站提供《PyTorch教程12.4隨機(jī)梯度下降.pdf》資料免費(fèi)下載
    發(fā)表于 06-05 14:58 ?0次下載
    <b class='flag-5'>PyTorch</b>教程<b class='flag-5'>12.4</b>之<b class='flag-5'>隨機(jī)</b><b class='flag-5'>梯度</b><b class='flag-5'>下降</b>

    PyTorch教程12.5之小批量隨機(jī)梯度下降

    電子發(fā)燒友網(wǎng)站提供《PyTorch教程12.5之小批量隨機(jī)梯度下降.pdf》資料免費(fèi)下載
    發(fā)表于 06-05 15:00 ?0次下載
    <b class='flag-5'>PyTorch</b>教程12.5之小批量<b class='flag-5'>隨機(jī)</b><b class='flag-5'>梯度</b><b class='flag-5'>下降</b>

    PyTorch教程19.3之異步隨機(jī)搜索

    電子發(fā)燒友網(wǎng)站提供《PyTorch教程19.3之異步隨機(jī)搜索.pdf》資料免費(fèi)下載
    發(fā)表于 06-05 10:43 ?0次下載
    <b class='flag-5'>PyTorch</b>教程19.3之異步<b class='flag-5'>隨機(jī)</b>搜索

    PyTorch教程22.6之隨機(jī)變量

    電子發(fā)燒友網(wǎng)站提供《PyTorch教程22.6之隨機(jī)變量.pdf》資料免費(fèi)下載
    發(fā)表于 06-06 09:24 ?0次下載
    <b class='flag-5'>PyTorch</b>教程22.6之<b class='flag-5'>隨機(jī)</b>變量

    PyTorch教程-12.5。小批量隨機(jī)梯度下降

    12.4 節(jié)一次處理一個(gè)訓(xùn)練示例以取得進(jìn)展。它們中的任何一個(gè)都有其自身的缺點(diǎn)。當(dāng)數(shù)據(jù)非常相似時(shí),梯度下降并不是特別有效。隨機(jī)梯度
    的頭像 發(fā)表于 06-05 15:44 ?772次閱讀
    <b class='flag-5'>PyTorch</b>教程-12.5。小批量<b class='flag-5'>隨機(jī)</b><b class='flag-5'>梯度</b><b class='flag-5'>下降</b>