常見(jiàn)算法優(yōu)缺點(diǎn)比較
機(jī)器學(xué)習(xí)算法數(shù)不勝數(shù),要想找到一個(gè)合適的算法并不是一件簡(jiǎn)單的事情。通常在對(duì)精度要求較高的情況下,最好的方法便是通過(guò)交叉驗(yàn)證來(lái)對(duì)各個(gè)算法一一嘗試,進(jìn)行比較后再調(diào)整參數(shù)以確保每個(gè)算法都能達(dá)到最優(yōu)解,并從優(yōu)中擇優(yōu)。但是每次都進(jìn)行這一操作不免過(guò)于繁瑣,下面小編來(lái)分析下各個(gè)算法的優(yōu)缺點(diǎn),以助大家有針對(duì)性地進(jìn)行選擇,解決問(wèn)題。
?
1.樸素貝葉斯
樸素貝葉斯的思想十分簡(jiǎn)單,對(duì)于給出的待分類項(xiàng),求出在此項(xiàng)出現(xiàn)的條件下各個(gè)類別出現(xiàn)的概率,以概率大小確定分類項(xiàng)屬于哪個(gè)類別。
優(yōu)點(diǎn):
1)樸素貝葉斯模型發(fā)源于古典數(shù)學(xué)理論,因此有著堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ),以及穩(wěn)定的分類效率;
2)算法較簡(jiǎn)單,常用于文本分類;
3)對(duì)小規(guī)模的數(shù)據(jù)表現(xiàn)很好,能夠處理多分類任務(wù),適合增量式訓(xùn)練。
缺點(diǎn):
1)需要計(jì)算先驗(yàn)概率;
2)對(duì)輸入數(shù)據(jù)的表達(dá)形式很敏感;
3)分類決策存在錯(cuò)誤率。
?
2.邏輯回歸
優(yōu)點(diǎn):
1)實(shí)現(xiàn)簡(jiǎn)單,廣泛地應(yīng)用于工業(yè)問(wèn)題上;
2)可以結(jié)合L2正則化解決多重共線性問(wèn)題;
3)分類時(shí)計(jì)算量非常小,速度很快,存儲(chǔ)資源低;
缺點(diǎn):
1)不能很好地處理大量多類特征或變量;
2)容易欠擬合,一般準(zhǔn)確度較低;
3)對(duì)于非線性特征,需要進(jìn)行轉(zhuǎn)換;
4)當(dāng)特征空間很大時(shí),邏輯回歸的性能不是很好;
5)只能處理兩分類問(wèn)題(在該基礎(chǔ)上衍生出來(lái)的softmax可以用于多分類),且必須線性可分。
?
3.線性回歸
線性回歸與邏輯回歸不同,它是用于回歸的,而不是用于分類。其基本思想是用梯度下降法對(duì)最小二乘法形式的誤差函數(shù)進(jìn)行優(yōu)化。
優(yōu)點(diǎn):實(shí)現(xiàn)簡(jiǎn)單,計(jì)算簡(jiǎn)單;
缺點(diǎn):不能擬合非線性數(shù)據(jù)。
4.最近鄰算法
優(yōu)點(diǎn):
1)對(duì)數(shù)據(jù)沒(méi)有假設(shè),準(zhǔn)確度高;
2)可用于非線性分類;
3)訓(xùn)練時(shí)間復(fù)雜度為O(n);
4)理論成熟,思想簡(jiǎn)單,既可以用來(lái)做分類也可以用來(lái)做回歸。
缺點(diǎn):
1)計(jì)算量大;
2)需要大量的內(nèi)存;
3)樣本不平衡問(wèn)題(即有些類別的樣本數(shù)量很多,而其它樣本的數(shù)量很少)。
?
5.決策樹(shù)
優(yōu)點(diǎn):
1)能夠處理不相關(guān)的特征;
2)在相對(duì)短的時(shí)間內(nèi)能夠?qū)Υ笮蛿?shù)據(jù)源做出可行且效果良好的分析;
3)計(jì)算簡(jiǎn)單,易于理解,可解釋性強(qiáng);
4)比較適合處理有缺失屬性的樣本。
缺點(diǎn):
1)忽略了數(shù)據(jù)之間的相關(guān)性;
2)容易發(fā)生過(guò)擬合(隨機(jī)森林可以很大程度上減少過(guò)擬合);
3)在決策樹(shù)當(dāng)中,對(duì)于各類別樣本數(shù)量不一致的數(shù)據(jù),信息增益的結(jié)果偏向于那些具有更多數(shù)值的特征。
評(píng)論
查看更多