隨機梯度下降(Stochastic gradient descent)
批量梯度下降(Batch gradient descent)
梯度下降(GD)是最小化風險函數(shù)、損失函數(shù)的一種常用方法,隨機梯度下降和批量梯度下降是兩種迭代求解思路,下面從公式和實現(xiàn)的角度對兩者進行分析,如有哪個方面寫的不對,希望網(wǎng)友糾正。
下面的h(x)是要擬合的函數(shù),J(theta)損失函數(shù),theta是參數(shù),要迭代求解的值,theta求解出來了那最終要擬合的函數(shù)h(theta)就出來了。其中m是訓練集的記錄條數(shù),j是參數(shù)的個數(shù)。
?
?
1、批量梯度下降的求解思路如下:
(1)將J(theta)對theta求偏導(dǎo),得到每個theta對應(yīng)的的梯度
?
(2)由于是要最小化風險函數(shù),所以按每個參數(shù)theta的梯度負方向,來更新每個theta
(3)從上面公式可以注意到,它得到的是一個全局最優(yōu)解,但是每迭代一步,都要用到訓練集所有的數(shù)據(jù),如果m很大,那么可想而知這種方法的迭代速度?。∷?,這就引入了另外一種方法,隨機梯度下降。
2、隨機梯度下降的求解思路如下:
(1)上面的風險函數(shù)可以寫成如下這種形式,損失函數(shù)對應(yīng)的是訓練集中每個樣本的粒度,而上面批量梯度下降對應(yīng)的是所有的訓練樣本:
?
(2)每個樣本的損失函數(shù),對theta求偏導(dǎo)得到對應(yīng)梯度,來更新theta
(3)隨機梯度下降是通過每個樣本來迭代更新一次,如果樣本量很大的情況(例如幾十萬),那么可能只用其中幾萬條或者幾千條的樣本,就已經(jīng)將theta迭代到最優(yōu)解了,對比上面的批量梯度下降,迭代一次需要用到十幾萬訓練樣本,一次迭代不可能最優(yōu),如果迭代10次的話就需要遍歷訓練樣本10次。但是,SGD伴隨的一個問題是噪音較BGD要多,使得SGD并不是每次迭代都向著整體最優(yōu)化方向。
3、對于上面的linear regression問題,與批量梯度下降對比,隨機梯度下降求解的會是最優(yōu)解嗎?
(1)批量梯度下降---最小化所有訓練樣本的損失函數(shù),使得最終求解的是全局的最優(yōu)解,即求解的參數(shù)是使得風險函數(shù)最小。
(2)隨機梯度下降---最小化每條樣本的損失函數(shù),雖然不是每次迭代得到的損失函數(shù)都向著全局最優(yōu)方向, 但是大的整體的方向是向全局最優(yōu)解的,最終的結(jié)果往往是在全局最優(yōu)解附近。
4、梯度下降用來求最優(yōu)解,哪些問題可以求得全局最優(yōu)?哪些問題可能局部最優(yōu)解?
對于上面的linear regression問題,最優(yōu)化問題對theta的分布是unimodal,即從圖形上面看只有一個peak,所以梯度下降最終求得的是全局最優(yōu)解。然而對于multimodal的問題,因為存在多個peak值,很有可能梯度下降的最終結(jié)果是局部最優(yōu)。
? ? ? 5、隨機梯度和批量梯度的實現(xiàn)差別
以前一篇博文中NMF實現(xiàn)為例,列出兩者的實現(xiàn)差別(注:其實對應(yīng)Python的代碼要直觀的多,以后要練習多寫python!
//?隨機梯度下降,更新參數(shù)??
public?void?updatePQ_stochastic(double?alpha,?double?beta)?{??
for?(int?i?=?0;?i?
ArrayList?Ri?=?this.dataset.getDataAt(i).getAllFeature();??
for?(Feature?Rij?:?Ri)?{??
//?eij=Rij.weight-PQ?for?updating?P?and?Q??
double?PQ?=?0;??
for?(int?k?=?0;?k?
PQ?+=?P[i][k]?*?Q[k][Rij.dim];??
}??
double?eij?=?Rij.weight?-?PQ; ?
//?update?Pik?and?Qkj??
for?(int?k?=?0;?k?
double?oldPik?=?P[i][k];??
P[i][k]?+=?alpha??
*?(2?*?eij?*?Q[k][Rij.dim]?-?beta?*?P[i][k]);??
Q[k][Rij.dim]?+=?alpha??
*?(2?*?eij?*?oldPik?-?beta?*?Q[k][Rij.dim]);??
}??
}??
}??
} ?
//?批量梯度下降,更新參數(shù)??
public?void?updatePQ_batch(double?alpha,?double?beta)?{ ?
for?(int?i?=?0;?i?
ArrayList?Ri?=?this.dataset.getDataAt(i).getAllFeature(); ?
for?(Feature?Rij?:?Ri)?{??
?
//?Rij.error=Rij.weight-PQ?for?updating?P?and?Q??
double?PQ?=?0;??
for?(int?k?=?0;?k?
PQ?+=?P[i][k]?*?Q[k][Rij.dim];??
}??
Rij.error?=?Rij.weight?-?PQ;??
}??
} ?
for?(int?i?=?0;?i?
ArrayList?Ri?=?this.dataset.getDataAt(i).getAllFeature();??
for?(Feature?Rij?:?Ri)?{??
for?(int?k?=?0;?k?
//?對參數(shù)更新的累積項??
double?eq_sum?=?0;??
double?ep_sum?=?0;??
?
for?(int?ki?=?0;?ki?
ArrayList?tmp?=?this.dataset.getDataAt(i).getAllFeature();??
for?(Feature?Rj?:?tmp)?{??
if?(Rj.dim?==?Rij.dim)??
ep_sum?+=?P[ki][k]?*?Rj.error;??
}??
}??
for?(Feature?Rj?:?Ri)?{//?固定k和i之后,對多有j項加和??
eq_sum?+=?Rj.error?*?Q[k][Rj.dim];??
} ?
//?對參數(shù)更新 ?
P[i][k]?+=?alpha?*?(2?*?eq_sum?-?beta?*?P[i][k]);??
Q[k][Rij.dim]?+=?alpha?*?(2?*?ep_sum?-?beta?*?Q[k][Rij.dim]);??
}??
}??
}??
評論
查看更多