本文將重點(diǎn)介紹一些數(shù)據(jù)科學(xué)領(lǐng)域的關(guān)鍵概念,掌握它們對(duì)于你今后的職業(yè)生涯大有益處。這些概念或許你已經(jīng)了解,或許你還未掌握。不論你現(xiàn)在是否清楚,筆者的目的是向你專(zhuān)業(yè)地解釋為何它們至關(guān)重要。
多重共線性、獨(dú)熱編碼、欠采樣和過(guò)采樣、誤差度量以及敘事能力,這是筆者在想到專(zhuān)業(yè)數(shù)據(jù)科學(xué)家日常工作時(shí)首先想到的關(guān)鍵概念。敘事能力或許算是技能和概念的結(jié)合,但筆者在此還是想強(qiáng)調(diào)它在數(shù)據(jù)科學(xué)家工作中的重要性。我們開(kāi)始吧!
多重共線性
多重共線性雖然看起來(lái)又長(zhǎng)又拗口,拆開(kāi)來(lái)看還是易于理解的?!岸嘀亍敝笖?shù)量多,“共線性”則意味著線性相關(guān)。多重共線性可以描述為在回歸模型中,兩個(gè)或多個(gè)解釋變量解釋相似信息或高度相關(guān)。這一概念之所以引起關(guān)注,有以下幾個(gè)原因。
對(duì)于某些建模技術(shù)來(lái)說(shuō),多重共線性可能導(dǎo)致過(guò)擬合,最終降低模型性能。冗余數(shù)據(jù)時(shí)有出現(xiàn),模型中的所有特征或?qū)傩圆⒎嵌际怯斜匾?。因此,可以采用某些方法?lái)找到應(yīng)該被刪除的特征,正是它們導(dǎo)致了多重共線性。
方差膨脹系數(shù)(VIF)
相關(guān)矩陣
數(shù)據(jù)科學(xué)家們經(jīng)常使用這兩種技術(shù),尤其是相關(guān)矩陣和相關(guān)圖——通常用某種熱圖進(jìn)行可視化,而VIF則不太為人所知。VIF值越高,該特征對(duì)回歸模型的用處就越小。
獨(dú)熱編碼
獨(dú)熱編碼是模型中的一種特征轉(zhuǎn)換形式,你可以通過(guò)編碼來(lái)數(shù)值化地體現(xiàn)類(lèi)別特征。盡管類(lèi)別特征本身有文本值,但是獨(dú)熱編碼會(huì)將這些信息轉(zhuǎn)置,以便每個(gè)值都成為特征,行中的觀察值記為0或1。例如,假設(shè)我們有分類(lèi)變量gender,獨(dú)熱編碼后的數(shù)字表示如下(之前表示為gender,之后表示為male/female):
獨(dú)熱編碼處理前后對(duì)比
如果你不僅要使用數(shù)字化的特征,還需要使用文本/類(lèi)別特征創(chuàng)建數(shù)字表示,那么此轉(zhuǎn)換非常有用。
采樣
當(dāng)你擁有的數(shù)據(jù)不足時(shí),可以使用過(guò)采樣作為一種補(bǔ)償。假設(shè)在處理一個(gè)分類(lèi)問(wèn)題時(shí),有一個(gè)如下例所示的少數(shù)類(lèi):
如你所見(jiàn),class_1的類(lèi)只有少量數(shù)據(jù),這意味著你的數(shù)據(jù)集是不平衡的,也就是所謂的少數(shù)類(lèi)。
有幾種過(guò)采樣方法。其中一種叫做SMOTE,即合成少數(shù)類(lèi)過(guò)采樣技術(shù)(Synthetic Minority Over-samplingTechnique)。SMOTE的實(shí)現(xiàn)方式之一是采用K近鄰(K-neighbor)算法來(lái)找到最近的點(diǎn)以合成樣本。也有類(lèi)似的技術(shù)反其道而行之,進(jìn)行欠采樣。
當(dāng)類(lèi)或回歸數(shù)據(jù)中有離群值時(shí),如果你希望確保模型運(yùn)行在最能體現(xiàn)數(shù)據(jù)集的采樣結(jié)果之上,那么這些技術(shù)便能派上用場(chǎng)。
誤差度量
在數(shù)據(jù)科學(xué)中,有很多用于分類(lèi)模型和回歸模型的誤差度量。以下是一些可以專(zhuān)門(mén)用于回歸模型的方法:
對(duì)回歸模型來(lái)說(shuō),上述誤差度量中最常用的兩種是MSE(均方誤差)和RMSE(均方根誤差):
MSE:平均絕對(duì)誤差回歸損失(引自sklearn)
RMSE:均方根誤差回歸損失(引自sklearn)
對(duì)于分類(lèi)模型來(lái)說(shuō),可以用精度和ROC曲線下的面積(AUC,Area Under the Curve)來(lái)評(píng)價(jià)模型的性能。
敘事能力
敘事概念的重要性怎么強(qiáng)調(diào)都不為過(guò)。它可以被定義成一種概念或技能,但定義本身并不重要。重要的是,如何在商業(yè)環(huán)境中展現(xiàn)出自己解決問(wèn)題的能力。許多數(shù)據(jù)科學(xué)家總是只關(guān)注模型的精度,但卻無(wú)法理解整個(gè)商業(yè)過(guò)程。該過(guò)程包括:
業(yè)務(wù)是什么?
問(wèn)題是什么?
為何需要數(shù)據(jù)科學(xué)?
數(shù)據(jù)科學(xué)在其中的目標(biāo)是什么?
何時(shí)能得到可用結(jié)果?
如何應(yīng)用我們的結(jié)果?
我們的結(jié)果有什么影響?
如何分享我們的結(jié)果和整個(gè)過(guò)程?
上述問(wèn)題與模型本身或提升精度無(wú)關(guān),重點(diǎn)是如何使用數(shù)據(jù)來(lái)解決公司的問(wèn)題。與利益相關(guān)者和非技術(shù)領(lǐng)域的同事相熟對(duì)此是大有助益的,在運(yùn)行基礎(chǔ)模型之前,你需要和產(chǎn)品經(jīng)理一道評(píng)估問(wèn)題,和數(shù)據(jù)工程師一起收集數(shù)據(jù)。在模型過(guò)程結(jié)束時(shí),你將向關(guān)鍵人員介紹結(jié)果,這些人最喜歡看可視化結(jié)果,因此掌握呈現(xiàn)和交流的技能也是有益的。
對(duì)于數(shù)據(jù)科學(xué)家和機(jī)器學(xué)習(xí)工程師來(lái)說(shuō),有許多需要掌握的關(guān)鍵概念。本文介紹的5點(diǎn),你了解了嗎?
責(zé)編AJX
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7035瀏覽量
89045 -
數(shù)字化
+關(guān)注
關(guān)注
8文章
8742瀏覽量
61791 -
數(shù)據(jù)科學(xué)
+關(guān)注
關(guān)注
0文章
165瀏覽量
10060
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論