什么是sklearn
Sklearn原稱是Scikit learn,是機器學(xué)習(xí)領(lǐng)域中最知名的python模塊之一,是基于Python語言的機器學(xué)習(xí)的工具。他主要建立在NumPy,SciPy,matplotlib之上,提供簡單高效,用于數(shù)據(jù)挖掘,數(shù)據(jù)分析等的工具,最重要的是,他是開源的,基于BSD許可證,可以商業(yè)使用。這樣子,就給了我們無限的想象。
sklearn與tensorflow優(yōu)劣勢
目前,在社區(qū)中,tensorflow會比較火,很多同學(xué)會問,為什么不用tensorflow,這兩個有什么區(qū)別,我想,主要從以下這方面來做對比
1、sklearn主要定位是一種通用的機器學(xué)習(xí)的學(xué)習(xí)庫,tf主要定位還是深度學(xué)習(xí)。
2、特征工程上,sklearn提供了例如維度壓縮、特征選擇等,但是這樣子并不代表這tf就比sklearn弱。在傳統(tǒng)的機器學(xué)習(xí)中,sklearn需要使用者自行對數(shù)據(jù)進行數(shù)據(jù)處理,例如進行特征選擇,維度壓縮,轉(zhuǎn)換格式等,但是tf可以在開始進行數(shù)據(jù)訓(xùn)練的過程中,自行從數(shù)據(jù)中提取有效的特征,從而減少人為的干預(yù)。
3、易用性及封裝度上,sklearn更高,這點上,我想很多用過的人都清楚,不做累贅描述。
4、面對項目的不同,sklearn更適合中小型,特別是數(shù)據(jù)量不大的項目,此時更需要手動者對數(shù)據(jù)進行處理,并且選擇合適模型的項目,這些計算是可以在CPU直接計算的,沒有什么硬件要求。相對的,tf的應(yīng)用領(lǐng)域上,往往更加注重數(shù)據(jù)量較大,一般情況下需要GPU進行加速運算。目前很多公司并沒有很大量的數(shù)據(jù),在選擇上,可以作為參考。
機器學(xué)習(xí)有幾種方式
針對sklearn來講,經(jīng)常用到的主要有:數(shù)據(jù)預(yù)處理、分類、回歸、分監(jiān)督分類(聚類),模型選擇,數(shù)據(jù)降維
應(yīng)用領(lǐng)域有哪些
目前,sklearn在應(yīng)用中,主要有四類算法:聚類,分類,回歸,降維
聚類:即非監(jiān)督學(xué)習(xí)的方式,例如我有一堆人,這堆數(shù)據(jù)是沒有男孩或者女孩這些標(biāo)簽的,此時我需要給這堆數(shù)據(jù)進行聚類,根據(jù)一些身體特征,分成兩類,并標(biāo)記為男孩,女孩。
分類/回歸:監(jiān)督學(xué)習(xí)的方式,還是那堆人,但是已經(jīng)分好類了,男孩,女孩,此時來了一個新人,我根據(jù)這個新人的特征,給他歸類。
降維:如果按照字面意思來理解,那就有問題,當(dāng)數(shù)據(jù)集有很多屬性的時候,我們此時需要把100個屬性變成10個,并不是挑出10個,而是壓縮成10個,這10個屬性,就集合了100個屬性特征,簡單理解,就是重要的特征就拿起來,不重要的就吸收了。
至此結(jié)束,在下一章節(jié)中,我們將會介紹怎么來開發(fā)一個機器學(xué)習(xí)應(yīng)用。
-
機器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8423瀏覽量
132757 -
tensorflow
+關(guān)注
關(guān)注
13文章
329瀏覽量
60540 -
sklearn
+關(guān)注
關(guān)注
0文章
2瀏覽量
3410
發(fā)布評論請先 登錄
相關(guān)推薦
評論