本次主題是隨機(jī)森林,杰里米(講師)提供了一些基本信息以及使用Jupyter Notebook的提示和技巧。
Jeremy談到的一些重要的事情是,數(shù)據(jù)科學(xué)并不等同于軟件工程。 在數(shù)據(jù)科學(xué)中,我們做的是設(shè)計(jì)模型。 雖然軟件工程有自己的一套實(shí)踐,但數(shù)據(jù)科學(xué)也有自己的一套最佳實(shí)踐。
模型構(gòu)建和原型設(shè)計(jì)需要一個(gè)交互的環(huán)境,是一個(gè)迭代的過程。 我們建立一個(gè)模型。 然后,我們采取措施來改善它。 重復(fù)直到我們對(duì)結(jié)果滿意為止。
隨機(jī)森林
我聽說過“隨機(jī)森林”這個(gè)詞,我知道它是現(xiàn)有的機(jī)器學(xué)習(xí)技術(shù)之一,但是老實(shí)說,我從來沒有想過要去了解它。 我一直熱衷于更多地了解深度學(xué)習(xí)技術(shù)。
從這次演講中,我了解到隨機(jī)森林確實(shí)很棒。
它就像一個(gè)通用的機(jī)器學(xué)習(xí)技術(shù),既可以用于回歸,也可以用于分類。 這意味著你可以使用隨機(jī)森林來預(yù)測(cè)股票價(jià)格以及對(duì)給定的醫(yī)療數(shù)據(jù)樣本進(jìn)行分類。
一般來說,隨機(jī)森林模型不會(huì)過擬合,即使它會(huì),它也很容易阻止過擬合。
對(duì)于隨機(jī)森林模型,不需要單獨(dú)的驗(yàn)證集。
隨機(jī)森林只有一些統(tǒng)計(jì)假設(shè)。 它也不假設(shè)你的數(shù)據(jù)是正態(tài)分布的,也不假設(shè)這些關(guān)系是線性的。
它只需要很少的特征工程。
因此,如果你是機(jī)器學(xué)習(xí)的新手,它可以是一個(gè)很好的起點(diǎn)。
其他概念
維數(shù)詛咒是一個(gè)概念,意思是你擁有的數(shù)據(jù)特征越多,數(shù)據(jù)點(diǎn)就會(huì)越分散。 這意味著兩點(diǎn)之間的距離沒有意義。
Jeremy確信,在實(shí)踐中,情況并非如此,事實(shí)上,你的數(shù)據(jù)擁有的特征越多,對(duì)模型的訓(xùn)練效果就越好。
沒有免費(fèi)午餐定理是這樣一個(gè)概念:沒有一個(gè)模型可以完美地適用于任何類型的數(shù)據(jù)。
技巧和竅門
你可以在Jupyter Notebook中使用!來執(zhí)行bash命令,例如。
!ls
!mkdir new_dr
在Python 3.6中追加字符串的新方法。
name = ‘Sabina’
print(f‘Hello {name}’)no_of_new_msg = 11
print(f‘Hello {name}, you have {no_of_new_msg} new messages’)
不需要離開Jupyter notebook就可以查看python函數(shù)。在函數(shù)名前使用?獲取它的文檔。
from sklearn.ensemble import RandomForestClassifier?RandomForestClassifier.fit()
如果你想閱讀源代碼,可以使用??在函數(shù)名稱前。
from sklearn.ensemble import RandomForestClassifier??RandomForestClassifier.fit()
通過使用to_feather方法保存處理過的數(shù)據(jù)集,將數(shù)據(jù)集以存儲(chǔ)在RAM中的相同格式保存到磁盤。可以使用read_feather方法從保存的文件中讀取數(shù)據(jù)。注意,為了使用這些方法,你需要安feather-format庫。
import pandasdf = pd.DataFrame()
df.to_feather(‘filename’)saved_df= pd.read_feather(‘filename’)
-
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8423瀏覽量
132744 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5505瀏覽量
121255 -
隨機(jī)森林
+關(guān)注
關(guān)注
1文章
22瀏覽量
4275
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論