機(jī)器學(xué)習(xí)是一種將傳統(tǒng)數(shù)學(xué)與現(xiàn)代強(qiáng)大的計(jì)算處理相結(jié)合的技術(shù),以學(xué)習(xí)數(shù)據(jù)集中固有的模式。 在機(jī)器學(xué)習(xí)中,目標(biāo)是產(chǎn)生一種可以使用這些模式執(zhí)行某些指定任務(wù)的算法。
在監(jiān)督式機(jī)器學(xué)習(xí)的情況下,目標(biāo)可能是開發(fā)一個(gè)模型,該模型可以識(shí)別一組輸入所屬的類別或類別,或預(yù)測連續(xù)值,例如房屋價(jià)格。
在本文中,我將介紹機(jī)器學(xué)習(xí)中的一些關(guān)鍵概念。 如果您是機(jī)器學(xué)習(xí)的新手,這將使您對(duì)本領(lǐng)域中使用的一些術(shù)語和技術(shù)有一個(gè)很好的了解。
1.特征
在機(jī)器學(xué)習(xí)中,我們上面討論的輸入稱為特征。 要素是分配給數(shù)據(jù)點(diǎn)的一組屬性。
以下示例數(shù)據(jù)集是著名的數(shù)據(jù)集,通常用于機(jī)器學(xué)習(xí)實(shí)踐問題(稱為"波士頓住房價(jià)格")。 它由一組與房屋相關(guān)的功能(在下圖中以紅色突出顯示)組成,例如年齡,平均房間數(shù)和物業(yè)稅值以及相應(yīng)的房價(jià)。
為了使機(jī)器學(xué)習(xí)模型成功完成其任務(wù),至少其中一些功能與房屋價(jià)格之間需要存在統(tǒng)計(jì)關(guān)系。
> Boston housing prices dataset — features are highlighted red
2.特征選擇與工程
優(yōu)化機(jī)器學(xué)習(xí)模型的重要一步是優(yōu)化。 我們開發(fā)的模型需要以最佳狀態(tài)執(zhí)行,而要確保做到這一點(diǎn)的一種方法是使用最佳功能來訓(xùn)練模型。
包括每個(gè)特征并不總是有用的。 有些特征可能與我們嘗試預(yù)測的變量沒有有意義的統(tǒng)計(jì)關(guān)系,而另一些特征可能彼此緊密相關(guān)。 這兩種情況都將噪聲引入訓(xùn)練階段,這可能會(huì)降低模型性能。 特征選擇是選擇最佳特征以包含在訓(xùn)練階段中的過程。
同樣,原始形式的特征可能無法提供足夠的有意義的數(shù)據(jù)來訓(xùn)練性能模型。 另外,某些特征根本不能以其原始形式使用,一個(gè)很好的例子就是基于日期/時(shí)間的功能。 機(jī)器學(xué)習(xí)模型不能使用日期或時(shí)間戳作為特征,我們需要首先從日期中導(dǎo)出有意義的特征,才能包含此信息。 我們可以使用整數(shù)形式的日期部分(例如月,日或星期數(shù)),或計(jì)算兩個(gè)日期之間的差,以提供算法可以理解的模式。 這就是所謂的特征工程。
3.標(biāo)簽
有監(jiān)督的機(jī)器學(xué)習(xí)需要一些被稱為標(biāo)記數(shù)據(jù)的東西。 這意味著每組要素都具有相應(yīng)標(biāo)簽的數(shù)據(jù)。 這些標(biāo)簽可以是類別或類型(例如貓或狗),也可以是連續(xù)值,例如在波士頓房屋價(jià)格數(shù)據(jù)集中以標(biāo)簽為價(jià)格的情況。
在開發(fā)機(jī)器學(xué)習(xí)模型時(shí),功能通常稱為X,標(biāo)簽稱為y。
> Boston housing prices dataset — labels are highlighted red
4.訓(xùn)練
監(jiān)督式機(jī)器學(xué)習(xí)需要標(biāo)記數(shù)據(jù),因?yàn)樗惴ㄊ褂眠@些示例特征值及其對(duì)應(yīng)的標(biāo)記來"學(xué)習(xí)"模式,如果成功,則將使模型能夠準(zhǔn)確地預(yù)測新的未標(biāo)記數(shù)據(jù)上的標(biāo)記。
在機(jī)器學(xué)習(xí)過程中,學(xué)習(xí)的這一階段稱為訓(xùn)練階段。 在此階段結(jié)束時(shí),您將擁有一個(gè)可用于預(yù)測新的未標(biāo)記數(shù)據(jù)的標(biāo)簽或值的模型。 訓(xùn)練階段通常稱為擬合模型。
5.調(diào)參
在本文前面介紹功能選擇時(shí),我曾討論過一個(gè)優(yōu)化過程。 此過程的另一部分稱為調(diào)參,涉及優(yōu)化算法參數(shù)以找到適合您特定數(shù)據(jù)集的最佳組合。
所有機(jī)器學(xué)習(xí)模型都包含具有多種選項(xiàng)的參數(shù)。 例如,隨機(jī)森林模型具有許多可調(diào)參數(shù)。 一個(gè)示例是n_estimators,它確定森林中樹木的數(shù)量。 通常,樹的數(shù)量越多,結(jié)果越好,但是在特定點(diǎn)(并且這取決于數(shù)據(jù)集),隨著您添加更多的樹,改進(jìn)會(huì)降低。 為您的數(shù)據(jù)集找到最佳樹數(shù)是一種調(diào)整隨機(jī)森林算法參數(shù)的方法。
每種算法都有許多可調(diào)參數(shù),并且每個(gè)參數(shù)都有大量潛在的選項(xiàng)。 幸運(yùn)的是,有自動(dòng)方法可以找到這些參數(shù)的最佳組合,這就是所謂的超參數(shù)優(yōu)化。
6.驗(yàn)證
建立模型后,我們需要確定其執(zhí)行給定任務(wù)的能力。 在我們的示例數(shù)據(jù)中,我們將要了解模型可以多么準(zhǔn)確地預(yù)測房屋價(jià)格。 在機(jī)器學(xué)習(xí)中,建立最佳性能指標(biāo)很重要,這將根據(jù)我們要解決的問題而有所不同。
通常,在開始機(jī)器學(xué)習(xí)項(xiàng)目時(shí),我們將首先將要使用的數(shù)據(jù)集分為兩部分。 我們一個(gè)用來訓(xùn)練模型,另一個(gè)用于測試階段。
機(jī)器學(xué)習(xí)中的測試通常稱為驗(yàn)證。 我們使用模型對(duì)保留的測試數(shù)據(jù)集進(jìn)行預(yù)測,并測量所選的性能指標(biāo),以確定模型能夠很好地執(zhí)行給定任務(wù)。
本文概述了討論機(jī)器學(xué)習(xí)時(shí)最常用的一些術(shù)語和概念。 如果您剛剛開始學(xué)習(xí),它應(yīng)該可以幫助您了解機(jī)器學(xué)習(xí)教程中使用的一些術(shù)語。 如果您想深入學(xué)習(xí)使用python創(chuàng)建您的第一個(gè)模型,可以在這里閱讀我的教程"如何創(chuàng)建您的第一個(gè)機(jī)器學(xué)習(xí)模型"。
-
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8434瀏覽量
132868
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論