機(jī)器學(xué)習(xí)是一個(gè)復(fù)雜的領(lǐng)域,其最大的挑戰(zhàn)之一是構(gòu)建可以預(yù)測(cè)新數(shù)據(jù)結(jié)果的模型。構(gòu)建一個(gè)完全擬合訓(xùn)練數(shù)據(jù)的模型很容易,但真正的考驗(yàn)是它是否可以準(zhǔn)確預(yù)測(cè)新數(shù)據(jù)的結(jié)果。
本文深入探討了過(guò)擬合和泛化的概念,并探討了它們與偏差與方差權(quán)衡的關(guān)系。我們還將討論避免過(guò)度擬合和在模型中找到偏差和方差之間最佳平衡的技術(shù)。
過(guò)擬合
在機(jī)器學(xué)習(xí)中,過(guò)度擬合是當(dāng)模型變得過(guò)于復(fù)雜并開(kāi)始過(guò)于接近訓(xùn)練數(shù)據(jù)時(shí)發(fā)生的常見(jiàn)問(wèn)題。這意味著該模型可能無(wú)法很好地推廣到新的、看不見(jiàn)的數(shù)據(jù),因?yàn)樗旧嫌涀×擞?xùn)練數(shù)據(jù),而不是真正學(xué)習(xí)底層模式或關(guān)系。用技術(shù)術(shù)語(yǔ)來(lái)說(shuō),考慮一個(gè)回歸模型,它需要線性關(guān)系,而是使用多項(xiàng)式表示。
當(dāng)模型太擅長(zhǎng)從訓(xùn)練數(shù)據(jù)中學(xué)習(xí),但不擅長(zhǎng)泛化到新數(shù)據(jù)時(shí),就會(huì)發(fā)生過(guò)度擬合。這可能是深度學(xué)習(xí)模型的一個(gè)特殊問(wèn)題,深度學(xué)習(xí)模型有許多參數(shù)可以調(diào)整以適應(yīng)訓(xùn)練數(shù)據(jù)。
欠擬合
欠擬合與機(jī)器學(xué)習(xí)中的過(guò)擬合相反。在欠擬合的情況下(見(jiàn)下圖最左邊的圖表),我們基本上指的是模型對(duì)于手頭的任務(wù)來(lái)說(shuō)太簡(jiǎn)單的情況。換句話說(shuō),模型沒(méi)有必要的復(fù)雜性來(lái)捕獲數(shù)據(jù)中的基礎(chǔ)模式。在技術(shù)術(shù)語(yǔ)中,考慮一個(gè)回歸模型,它需要一個(gè)多項(xiàng)式方程,而是使用線性關(guān)系表示。
考慮欠擬合的另一種方法是考慮預(yù)測(cè)房?jī)r(jià)的例子。如果我們要?jiǎng)?chuàng)建一個(gè)僅考慮房屋大小而忽略其他重要因素(如臥室數(shù)量)的模型,那么該模型可能會(huì)欠擬合數(shù)據(jù)。發(fā)生這種情況是因?yàn)槟P蜎](méi)有考慮所有相關(guān)信息,因此無(wú)法準(zhǔn)確預(yù)測(cè)房?jī)r(jià)。
欠擬合模型往往具有高偏差和低方差,這意味著它在訓(xùn)練和測(cè)試數(shù)據(jù)中都會(huì)犯很多錯(cuò)誤。這是因?yàn)槟P蜔o(wú)法捕獲數(shù)據(jù)之間的關(guān)系,因此無(wú)法做出準(zhǔn)確的預(yù)測(cè)。
金發(fā)姑娘區(qū)和最佳模型復(fù)雜性
最佳模型復(fù)雜性是機(jī)器學(xué)習(xí)模型既不太簡(jiǎn)單也不太復(fù)雜,但恰到好處地適合它正在處理的數(shù)據(jù)的最佳點(diǎn)。如果模型過(guò)于簡(jiǎn)單,它可能無(wú)法捕獲數(shù)據(jù)中的所有重要模式和關(guān)系,并可能導(dǎo)致欠擬合。另一方面,如果模型太復(fù)雜,它可能會(huì)開(kāi)始記住訓(xùn)練數(shù)據(jù),而不是學(xué)習(xí)底層模式,這可能導(dǎo)致過(guò)度擬合。
找到最佳模型復(fù)雜性的目標(biāo)是在模型擬合和模型復(fù)雜性之間取得平衡,其中模型足夠簡(jiǎn)單,可以很好地推廣到新數(shù)據(jù),但又足夠復(fù)雜,可以捕獲訓(xùn)練數(shù)據(jù)中的重要模式。
在本文的其余部分,我們將重點(diǎn)介紹可用于找到最佳模型復(fù)雜性的不同技術(shù),例如從簡(jiǎn)單模型開(kāi)始并逐漸增加其復(fù)雜叉驗(yàn)證以評(píng)估不同數(shù)據(jù)子集上的模型,以及使用正則化技術(shù)來(lái)防止過(guò)度擬合。
但首先,讓我們首先解釋機(jī)器學(xué)習(xí)中兩個(gè)非常重要的概念,即偏差和方差。
機(jī)器學(xué)習(xí)中的偏差和方差之間的差異
想象一下,嘗試創(chuàng)建一個(gè)模型來(lái)根據(jù)房屋的大小預(yù)測(cè)房屋的價(jià)格。我們有一個(gè)包含 100 間房屋及其相應(yīng)價(jià)格和大小的數(shù)據(jù)集。為了進(jìn)行預(yù)測(cè),我們決定使用僅考慮房屋大小的線性回歸模型。
現(xiàn)在,創(chuàng)建模型時(shí)可能會(huì)出現(xiàn)兩個(gè)問(wèn)題:偏差和方差。當(dāng)模型過(guò)于簡(jiǎn)單且無(wú)法準(zhǔn)確捕獲數(shù)據(jù)中的模式時(shí),就會(huì)發(fā)生偏差。在這種情況下,如果我們使用只有一個(gè)特征(大?。┑木€性模型,該模型可能無(wú)法準(zhǔn)確預(yù)測(cè)房屋的價(jià)格,從而導(dǎo)致高偏差。
另一方面,當(dāng)模型過(guò)于復(fù)雜并且過(guò)度擬合數(shù)據(jù)時(shí),就會(huì)發(fā)生方差,這意味著它與訓(xùn)練數(shù)據(jù)擬合得太近,但在新的、看不見(jiàn)的數(shù)據(jù)上表現(xiàn)不佳。在這種情況下,如果我們要使用具有許多特征(例如大小平方、大小立方等)的高階多項(xiàng)式模型,它可能會(huì)過(guò)度擬合數(shù)據(jù),從而導(dǎo)致高方差。
如上圖所示,高方差往往會(huì)分散模型的輸出,因?yàn)槟P瓦^(guò)于復(fù)雜并且與訓(xùn)練數(shù)據(jù)擬合得太近。從本質(zhì)上講,該模型捕獲了訓(xùn)練數(shù)據(jù)中的噪聲,而不是基礎(chǔ)模式。
而在高偏差的情況下,模型傾向于為幾乎所有輸入值產(chǎn)生相似的輸出,這與輸入和輸出之間的真實(shí)關(guān)系相去甚遠(yuǎn)。最佳模型復(fù)雜性在于這兩個(gè)錯(cuò)誤之間的平衡,正如我們將在權(quán)衡部分看到的那樣,模型具有足夠的靈活性來(lái)捕獲數(shù)據(jù)中的基礎(chǔ)模式,但又不會(huì)過(guò)度擬合訓(xùn)練數(shù)據(jù)的噪聲或特性。
什么是偏差-方差權(quán)衡?
偏差-方差權(quán)衡是指在偏差和方差之間建立可以很好地推廣到新數(shù)據(jù)的模型所需的平衡。過(guò)于簡(jiǎn)單的模型將具有高偏差但低方差,而過(guò)于復(fù)雜的模型將具有低偏差但高方差。目標(biāo)是找到適當(dāng)?shù)膹?fù)雜程度,以最小化偏差和方差,從而生成一個(gè)可以準(zhǔn)確地泛化到新數(shù)據(jù)的模型。
為了在偏差和方差之間取得平衡,我們希望找到模型復(fù)雜度的最佳水平,使其能夠準(zhǔn)確預(yù)測(cè)房屋價(jià)格,同時(shí)很好地推廣到新數(shù)據(jù)。這可以通過(guò)創(chuàng)建誤差與模型復(fù)雜性圖來(lái)完成,該圖顯示了模型在不同復(fù)雜度級(jí)別的性能。通過(guò)分析此圖,我們可以確定模型復(fù)雜度的最佳水平,其中偏差和方差權(quán)衡是平衡的。
繪制誤差與模型復(fù)雜性的圖形首先要構(gòu)建一系列具有不同復(fù)雜程度的模型。例如,如果我們要?jiǎng)?chuàng)建一個(gè)線性回歸模型,我們可以從一個(gè)只有一個(gè)特征的簡(jiǎn)單模型開(kāi)始,然后逐漸包含更多特征以使模型更加復(fù)雜。
然后,我們將在部分?jǐn)?shù)據(jù)上訓(xùn)練每個(gè)模型,并在單獨(dú)的測(cè)試集上評(píng)估其性能。為了測(cè)量測(cè)試集上的預(yù)測(cè)誤差,我們可以使用均方誤差(MSE)或平均絕對(duì)誤差(MAE)等指標(biāo)。
訓(xùn)練和評(píng)估每個(gè)模型后,我們可以根據(jù)模型復(fù)雜性繪制測(cè)試誤差。生成的圖形通常顯示 U 形曲線,其中誤差隨著模型復(fù)雜性的增加而減小,從而減少了偏差。但是,隨著模型變得過(guò)于復(fù)雜并開(kāi)始過(guò)度擬合數(shù)據(jù),誤差最終會(huì)再次開(kāi)始增加,從而增加方差。
要確定偏差和方差的最佳復(fù)雜度,請(qǐng)?jiān)趫D形上查找檢驗(yàn)誤差最低的點(diǎn)(如圖形中間的虛線所示)。這一點(diǎn)表示此特定問(wèn)題的偏差和方差之間的最佳平衡。
了解機(jī)器學(xué)習(xí)中的泛化
泛化是模型在新數(shù)據(jù)上表現(xiàn)良好的能力。泛化良好的模型能夠?qū)π聰?shù)據(jù)做出準(zhǔn)確的預(yù)測(cè),如果我們想在現(xiàn)實(shí)世界中使用該模型,這一點(diǎn)很重要。另一方面,泛化效果不佳的模型在訓(xùn)練的數(shù)據(jù)上可能表現(xiàn)良好,但可能無(wú)法對(duì)新數(shù)據(jù)做出準(zhǔn)確的預(yù)測(cè)。這是一個(gè)問(wèn)題,因?yàn)檫@意味著該模型在實(shí)踐中可能沒(méi)有用。
當(dāng)我們訓(xùn)練機(jī)器學(xué)習(xí)模型時(shí),我們希望它不僅能夠?qū)ξ覀冇脕?lái)訓(xùn)練它的數(shù)據(jù)做出準(zhǔn)確的預(yù)測(cè),而且能夠?qū)λ郧皬奈匆?jiàn)過(guò)的新數(shù)據(jù)做出準(zhǔn)確的預(yù)測(cè)。這是因?yàn)?,在現(xiàn)實(shí)世界中,我們并不總是可以訪問(wèn)用于訓(xùn)練模型的完全相同的數(shù)據(jù),而是新的首次看到的數(shù)據(jù)點(diǎn)。因此,訓(xùn)練模型不僅要很好地?cái)M合訓(xùn)練數(shù)據(jù),而且要很好地泛化到新數(shù)據(jù),這一點(diǎn)很重要。
解決過(guò)度擬合的正則化技術(shù)
各種正則化技術(shù)通過(guò)在損失函數(shù)中添加懲罰項(xiàng)來(lái)幫助防止過(guò)度擬合,這會(huì)阻止模型變得過(guò)于復(fù)雜。
常用的正則化有兩種類型:L1(套索)和 L2(脊)正則化。
套索回歸(L1 正則化)
雖然所有三種方法都為損失函數(shù)增加了一個(gè)懲罰項(xiàng),但在套索回歸的情況下,正則化方法向損失函數(shù)添加一個(gè)與模型參數(shù)的絕對(duì)(模塊)值成比例的懲罰項(xiàng)。
這種方法鼓勵(lì)模型對(duì)不重要的特征給予較少的權(quán)重,因?yàn)樗哂袑⒛承﹨?shù)驅(qū)動(dòng)為零的效果,這有助于特征選擇。這意味著它可以幫助確定哪些特征是最重要的,并丟棄其余特征。這在處理高維數(shù)據(jù)集時(shí)非常有用,其中有許多功能可供選擇。
套索回歸在自變量數(shù)遠(yuǎn)大于樣本數(shù)的高維數(shù)據(jù)集中特別有用。在這些情況下,套索回歸可以幫助識(shí)別最重要的變量并減少噪聲的影響。
套索回歸在自變量數(shù)遠(yuǎn)大于樣本數(shù)的高維數(shù)據(jù)集中特別有用。在這些情況下,套索回歸可以幫助識(shí)別最重要的變量并減少噪聲的影響。
嶺回歸(L2 正則化)
嶺回歸是另一種類型的線性回歸,可用于處理機(jī)器學(xué)習(xí)模型中的過(guò)擬合。它類似于套索回歸,因?yàn)樗趽p失函數(shù)中添加了一個(gè)懲罰項(xiàng)(正則化項(xiàng)),但它不是像套索回歸那樣使用系數(shù)的絕對(duì)值,而是使用系數(shù)的平方。
這具有將不太重要的變量的系數(shù)縮小到零的效果,但與套索回歸不同,嶺回歸不會(huì)將它們精確設(shè)置為零。這意味著嶺回歸不能像套索回歸那樣執(zhí)行特征選擇,但它更適合所有特征在某種程度上都很重要的情況。
嶺回歸在處理具有高度共線性(特征之間的相關(guān)性)的數(shù)據(jù)集時(shí)特別有用。在這種情況下,模型可能無(wú)法確定哪些特征重要,哪些特征不重要,從而導(dǎo)致過(guò)度擬合。通過(guò)在損失函數(shù)中添加懲罰項(xiàng),嶺回歸可以幫助減少過(guò)度擬合并使模型更加準(zhǔn)確。
彈性網(wǎng)絡(luò)回歸
彈性網(wǎng)絡(luò)回歸通過(guò)使用嶺回歸和套索回歸的技術(shù),結(jié)合了兩全其美的優(yōu)勢(shì)。通過(guò)將嶺回歸和套索回歸懲罰項(xiàng)添加到損失函數(shù)中,彈性凈回歸可以同時(shí)執(zhí)行特征選擇和特征收縮,這使得它比單獨(dú)使用任何一種技術(shù)都更加靈活和強(qiáng)大。
L1 正則化項(xiàng)嘗試將模型中的某些系數(shù)設(shè)置為零,這對(duì)于特征選擇很有用。這意味著它可以識(shí)別有助于預(yù)測(cè)目標(biāo)變量并排除不太重要的特征的最重要特征。
另一方面,L2 正則化項(xiàng)有助于控制模型中系數(shù)的大小。這對(duì)于特征收縮很有用,這意味著它可以減少不太重要的特征對(duì)模型性能的影響。
彈性網(wǎng)絡(luò)回歸在處理具有大量特征和高度多重共線性的數(shù)據(jù)集時(shí)特別有用,在這些數(shù)據(jù)集中,模型可能難以區(qū)分重要和不重要的特征。通過(guò)識(shí)別和縮小不太重要的特征,彈性凈回歸可以幫助減少過(guò)度擬合并提高模型的泛化性能。
解決過(guò)度擬合的交叉驗(yàn)證技術(shù)
交叉驗(yàn)證
是一種技術(shù),可用于通過(guò)評(píng)估機(jī)器學(xué)習(xí)模型在有限數(shù)據(jù)量上的性能來(lái)解決過(guò)度擬合問(wèn)題?;舅枷胧菍?shù)據(jù)拆分為訓(xùn)練集和測(cè)試集,然后在訓(xùn)練集上擬合模型并在測(cè)試集上評(píng)估其性能。
K 折疊交叉驗(yàn)證
一種流行的交叉驗(yàn)證技術(shù)是 k 折交叉驗(yàn)證,其中數(shù)據(jù)被分成 k 個(gè)大小相等的部分。模型在零件的 k-1 上訓(xùn)練,并在其余部分進(jìn)行測(cè)試。此過(guò)程重復(fù) k 次,每個(gè)部分用于測(cè)試一次,并且性能在所有迭代中平均。
留一交叉驗(yàn)證
留一交叉驗(yàn)證是另一種技術(shù),其中將單個(gè)數(shù)據(jù)點(diǎn)作為測(cè)試集省略,并在剩余數(shù)據(jù)點(diǎn)上訓(xùn)練模型。請(qǐng)注意,留一交叉驗(yàn)證是 k 折疊交叉驗(yàn)證的特例,其中 k 等于數(shù)據(jù)集中的數(shù)據(jù)點(diǎn)數(shù)。對(duì)于每次迭代,將省略單個(gè)數(shù)據(jù)點(diǎn)作為測(cè)試集,并在其余數(shù)據(jù)點(diǎn)上訓(xùn)練模型。對(duì)每個(gè)數(shù)據(jù)點(diǎn)重復(fù)此過(guò)程,并計(jì)算平均性能。
如何選擇合適的模型復(fù)雜性
為機(jī)器學(xué)習(xí)模型選擇正確的復(fù)雜性對(duì)其性能至關(guān)重要。過(guò)于簡(jiǎn)單的模型將無(wú)法捕獲數(shù)據(jù)的復(fù)雜性并且擬合不足,而過(guò)于復(fù)雜的模型將過(guò)度擬合數(shù)據(jù),并且在新數(shù)據(jù)上表現(xiàn)不佳。
要選擇最佳模型復(fù)雜性,請(qǐng)從簡(jiǎn)單模型開(kāi)始,逐漸增加復(fù)雜性,直到獲得滿意的結(jié)果。將數(shù)據(jù)拆分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,并使用驗(yàn)證集選擇最佳模型復(fù)雜性。使用交叉驗(yàn)證來(lái)評(píng)估模型在不同數(shù)據(jù)子集上的性能。
最后,使用 L1、L2 和彈性網(wǎng)絡(luò)等正則化技術(shù)來(lái)防止過(guò)度擬合。關(guān)鍵是平衡模型擬合和復(fù)雜性,評(píng)估性能并防止過(guò)度擬合,以便模型可以很好地泛化到新數(shù)據(jù)。
?
審核編輯:郭婷
評(píng)論
查看更多