對于機(jī)器學(xué)習(xí)/數(shù)據(jù)科學(xué)的初學(xué)者來說,線性回歸,或者Logistic回歸是許多人在建立預(yù)測模型時(shí)接觸的第一/第二種方法。由于這兩種算法適用性極廣,有些人甚至在走出校門當(dāng)上數(shù)據(jù)分析師后還固執(zhí)地認(rèn)為回歸只有這兩種形式,或者換句話說,至少線性回歸和Logistic回歸應(yīng)該是其中最重要兩個(gè)算法。那么事實(shí)真的是這樣嗎?
Sunil Ray是一位在印度保險(xiǎn)行業(yè)擁有豐富經(jīng)驗(yàn)的商業(yè)分析師和人工智能專家,針對這個(gè)問題,他指出其實(shí)回歸有無數(shù)種形式,每種回歸算法都有自己擅長的領(lǐng)域和各自的特色。在本文中,他將以最簡單的形式介紹7種較為常見的回歸形式,希望讀者們在耐心閱讀完畢后,可以在學(xué)習(xí)、工作中多做嘗試,而不是無論遇到什么問題都直接上“萬金油”的線性回歸和Logistic回歸。
目錄
1. 什么是回歸分析?
2. 為什么要用回歸分析?
3. 幾種常見的回歸分析方法
線性回歸
Logistic回歸
多項(xiàng)式回歸
逐步回歸
嶺回歸
Lasso回歸
ElasticNet回歸
4. 如何挑選適合的回歸模型?
什么是回歸分析?
回歸分析是一種預(yù)測建模技術(shù),它可以被用來研究因變量(目標(biāo))和自變量(預(yù)測)之間的關(guān)系,常見于預(yù)測建模、時(shí)間序列建模和查找變量間關(guān)系等應(yīng)用。舉個(gè)例子,通過回歸分析,我們能得出司機(jī)超速駕駛和發(fā)生交通事故次數(shù)之間的關(guān)系。
它是建模和分析數(shù)據(jù)的重要工具?;貧w分析在圖像上表示為一條努力擬合所有數(shù)據(jù)點(diǎn)的曲線/線段,它的目標(biāo)是使數(shù)據(jù)點(diǎn)和曲線間的距離最小化。
為什么要用回歸分析?
如上所述,回歸分析估計(jì)的是兩個(gè)或兩個(gè)以上變量間的關(guān)系。我們可以舉這樣一個(gè)例子來幫助理解:
假設(shè)A想根據(jù)公司當(dāng)前的經(jīng)濟(jì)狀況估算銷售增長率,而最近一份數(shù)據(jù)表明,公司的銷售額增長約為財(cái)務(wù)增長的2.5倍。在此基礎(chǔ)上,A就能基于各項(xiàng)數(shù)據(jù)信息預(yù)測公司未來的銷售情況。
使用回歸分析有許多優(yōu)點(diǎn),其中最突出的主要是以下兩個(gè):
它能顯示因變量和自變量之間的顯著關(guān)系;
它能表現(xiàn)多個(gè)獨(dú)立變量對因變量的不同影響程度。
除此之外,回歸分析還能揭示同一個(gè)變量帶來的不同影響,如價(jià)格變動幅度和促銷活動多少。它為市場研究人員/數(shù)據(jù)分析師/數(shù)據(jù)科學(xué)家構(gòu)建預(yù)測模型提供了評估所用的各種重要變量。
幾種常見的回歸分析方法
回歸分析的方法有很多,但其中出名的沒幾個(gè)。綜合來看,所有方法基本上都由這3個(gè)重要參數(shù)驅(qū)動:自變量的數(shù)量、因變量的類型和回歸曲線的形狀。
至于為什么是這三點(diǎn),我們會在后文作出具體解釋。當(dāng)然,對于那些有創(chuàng)意、能獨(dú)立設(shè)計(jì)參數(shù)的人,他們的模型大可不必局限于這些參數(shù)。這只是以前大多數(shù)人的做法。
1. 線性回歸
線性回歸是知名度最廣的建模方法之一。每當(dāng)提及建立一個(gè)預(yù)測模型,它總能占一個(gè)首選項(xiàng)名額。對于線性回歸,它的因變量是連續(xù)的,自變量則可以是連續(xù)的或是離散的。它的回歸線在本質(zhì)上是線性的。
在一元問題中,如果我們要用線性回歸建立因變量Y和和自變量X之間的關(guān)系,這時(shí)它的回歸線是一條直線,如下圖所示。
它的相應(yīng)表達(dá)式為:Y = a + b × X + e。其中a是y軸截距,b是回歸線斜率,e是誤差項(xiàng)。
但有時(shí)我們可能擁有不止一個(gè)自變量X,即多元問題,這時(shí)多元線性回歸的回歸方程就是一個(gè)平面或是一個(gè)超平面。
既然有了一條線,那我們?nèi)绾未_定擬合得最好的那條回歸線呢(a和b的值)?對于這個(gè)問題,最常規(guī)的方法是最小二乘法——最小化每個(gè)點(diǎn)到回歸線的歐氏距離平方和。由于做了平方,距離不存在正負(fù)差別影響。
線性回歸重點(diǎn):
自變量和因變量之間必須存在線性關(guān)系;
多元回歸受多重共線性、自相關(guān)和異方差影響;
線性回歸對異常值非常敏感。它會嚴(yán)重影響回歸線,并最終影響預(yù)測值。
多重共線性會使參數(shù)估計(jì)值的方差增大,可能會過度地影響最小二乘估計(jì)值,從而造成消極影響。
在存在多個(gè)自變量的情況下,我們可以用前進(jìn)法、后退法和逐步法選擇最顯著的自變量。
2. Logistic回歸
Logistic回歸一般用于判斷事件成功/失敗的概率,如果因變量是一個(gè)二分類(0/1,真/假,是/否),這時(shí)我們就應(yīng)該用Logistic回歸。它的Y是一個(gè)值域?yàn)閇0, 1]的值,可以用下方等式表示:
odds = p/ (1-p) = 事件發(fā)生概率 / 事件未發(fā)生概率 ln(odds) = ln(p/(1-p)) logit(p) = ln(p/(1-p)) = b0+b1×1+b2×2+b3×3....+bk×k
在上式中,p是目標(biāo)特征的概率。不同于計(jì)算平方和的最小值,這里我們用的是極大似然估計(jì),即找到一組參數(shù)θ,使得在這組參數(shù)下,樣本數(shù)據(jù)的似然度(概率)最大??紤]到對數(shù)損失函數(shù)與極大似然估計(jì)的對數(shù)似然函數(shù)在本質(zhì)上是等價(jià)的,所以Logistic回歸使用了對數(shù)函數(shù)求解參數(shù)。
Logistic回歸重點(diǎn):
Logistic回歸被廣泛用于分類問題。
Logistic回歸無需依賴自變量和因變量之間的線性關(guān)系,而是用非線性對數(shù)計(jì)算用于預(yù)測的比值比,因此可以處理各種類型的問題。
為了避免過擬合和欠擬合,Logistic回歸需要包含所有重要變量,然后用逐步回歸方法去估計(jì)邏輯回歸。
Logistic回歸對樣本大小有較高要求,因?yàn)閷τ谶^小的數(shù)據(jù)集,最大似然估計(jì)不如普通最小二乘法。
各自變量間不存在多重共線性。
如果因變量的值是序數(shù),那么它就該被稱為序數(shù)Logistic回歸。
如果因變量是多個(gè)類別,那么它就該被稱為多項(xiàng)Logistic回歸。
3. 多項(xiàng)式回歸
多項(xiàng)式回歸是對線性回歸的補(bǔ)充。線性回歸假設(shè)自變量和因變量之間存在線性關(guān)系,但這個(gè)假設(shè)并不總是成立的,所以我們需要擴(kuò)展至非線性模型。Logistic回歸采取的方法是用非線性的對數(shù)函數(shù),而多項(xiàng)式回歸則是把一次特征轉(zhuǎn)換成高次特征的線性組合多項(xiàng)式。
一元多項(xiàng)式回歸
簡而言之,如果自變量的冪大于1,那么該回歸方程是多項(xiàng)式回歸方程,即Y = A + B × X2。在這種回歸方法中,它的回歸線不是一條直線,而是一條力爭擬合所有數(shù)據(jù)點(diǎn)的曲線。
多項(xiàng)式回歸重點(diǎn):
盡管更高階的多項(xiàng)式回歸可以獲得更低的誤差,但它導(dǎo)致過擬合的可能性也更高。
要注意曲線的方向,觀察它的形狀和趨勢是否有意義,在此基礎(chǔ)上在逐步提高冪。
過擬合
4. 逐步回歸
截至目前,上述方法都需要針對因變量Y選擇一個(gè)目標(biāo)自變量X,再用線性的、非線性的方法建立“最優(yōu)”回歸方程,以便對因變量進(jìn)行預(yù)測或分類。那么當(dāng)我們在處理多個(gè)自變量時(shí),有沒有一種回歸方法能按照對Y的影響大小,自動篩選出那些重要的自變量呢?
這種方法就是本節(jié)要介紹的逐步回歸,它利用觀察統(tǒng)計(jì)值(如R方,t-stats和AIC度量)來辨別重要變量。作為一種回歸分析方法,它使用的方法是基于給定的水平指標(biāo)F一次一個(gè)地添加/丟棄變量,以下是幾種常用的做法:
標(biāo)準(zhǔn)的逐步回歸只做兩件事:根據(jù)每個(gè)步驟添加/刪除變量。
前進(jìn)法:基于模型中最重要的變量,一次一個(gè)添加剩下的變量中最重要的變量。
后退法:基于模型中所有變量,一次一個(gè)刪除最不重要的變量。
這種建模方法的目的是用盡可能小的變量預(yù)測次數(shù)來最大化預(yù)測能力,它是處理更高維數(shù)據(jù)集的方法之一。
5. 嶺回歸
在談及線性回歸重點(diǎn)時(shí),我們曾提到多重共線性會使參數(shù)估計(jì)值的方差增大,并過度地影響最小二乘估計(jì)值,從而降低預(yù)測精度。因此方差和偏差是導(dǎo)致輸出值偏離真值的罪魁禍?zhǔn)字弧?/p>
我們先來回顧一下線性回歸方程:Y = a + b × X + e。
如果涉及多個(gè)自變量,那它是:Y = a + Y = a + b1X1+ b2X2+ … + e
上式表現(xiàn)了偏差和誤差對最終預(yù)測值的明顯影響。為了找到方差和偏差的折中,一種可行的做法是在平方誤差的基礎(chǔ)上增加一個(gè)正則項(xiàng)λ,來解決多重共線性問題。請看以下公式:
這個(gè)代價(jià)函數(shù)可以被分為兩部分,第一部分是一個(gè)最小二乘項(xiàng),第二部分則是系數(shù)β的平方和,再乘以一個(gè)調(diào)節(jié)參數(shù)λ作為懲罰項(xiàng),它能有效控制方差和偏差的變化:隨著λ的增大,模型方差減小而偏差增大。
嶺回歸重點(diǎn):
嶺回歸的假設(shè)與最小二乘法回歸的假設(shè)相同,除了假設(shè)正態(tài)性。
嶺回歸可以縮小系數(shù)的值,但因?yàn)棣瞬豢赡転闊o窮大,所以它不會等于0。
這實(shí)際上是一種正則化方法,使用了l2范數(shù)。
6. Lasso回歸
同樣是解決多重共線性問題,嶺回歸是在平方誤差的基礎(chǔ)上增加一個(gè)正則項(xiàng)λ,那么Lasso回歸則把二次項(xiàng)改成了一次絕對值。它可以降低異常值對模型的影響,并提高整體準(zhǔn)確度。
一次項(xiàng)求導(dǎo)可以抹去變量本身,因此Lasso回歸的系數(shù)可以為0。這樣可以起來真正的特征篩選效果。
Lasso回歸重點(diǎn):
Lasso回歸的假設(shè)與最小二乘法回歸的假設(shè)相同,除了假設(shè)正態(tài)性。
Lasso回歸的系數(shù)可以為0。
這實(shí)際上是一種正則化方法,使用了l1范數(shù)。
如果一組變量高度相關(guān),Lasso回歸會選擇其中的一個(gè)變量,然后把其他的都變?yōu)?。
7. ElasticNet回歸
ElasticNet是Lasso和Ridge回歸技術(shù)的結(jié)合。它使用L1和L2范數(shù)作為懲罰項(xiàng),既能用于權(quán)重非零的稀疏模型,又保持了正則化屬性。簡單來說,就是當(dāng)有多個(gè)相關(guān)特征時(shí),Lasso回歸只會選擇其中的一個(gè)變量,但ElasticNet回歸會選擇兩個(gè)。
在Lasso和Ridge之間進(jìn)行權(quán)衡的一個(gè)實(shí)際優(yōu)勢是,它允許Elastic-Net繼承嶺回歸的一些穩(wěn)定性。
ElasticNet回歸重點(diǎn):
它鼓勵(lì)在高度相關(guān)變量的情況下的群體效應(yīng)。
在選擇變量的數(shù)量上沒有限制。
受雙重收縮影響。
除了這7中常用的回歸分析方法外,貝葉斯回歸、生態(tài)學(xué)回歸和魯棒回歸也是出鏡率很高的一些選擇。
如何挑選適合的回歸模型?
當(dāng)你只知道一種或兩種方法時(shí),生活通常很簡單。相信不少讀者都聽到過這種論調(diào):如果結(jié)果是連續(xù)的,用線性回歸;如果是個(gè)二分類,就用Logistic回歸。然而隨著現(xiàn)在我們的選擇越來越多,許多人不免要深受選擇恐懼癥影響,無法做出滿意的決定。
那么面對這么多的回歸分析方法,我們該怎么選擇呢?以下是一些可以考慮的關(guān)鍵因素:
數(shù)據(jù)探索是構(gòu)建預(yù)測模型不可或缺的一部,因此在選擇正確的模型前,我們可以先分析數(shù)據(jù),找到變量間的關(guān)系。
為了比較不同方法的擬合成都,我們可以分析統(tǒng)計(jì)顯著性參數(shù)、R方、調(diào)整R方、最小信息標(biāo)準(zhǔn)、BIC和誤差準(zhǔn)則等統(tǒng)計(jì)值,或者是Mallow‘s Cp準(zhǔn)則。將模型與所有可能的子模型進(jìn)行比較來檢查模型中可能存在的偏差。
交叉驗(yàn)證是評估預(yù)測模型最好的方法沒有之一。
如果你的數(shù)據(jù)集中有多個(gè)奇怪變量,你最好手動添加而不要用自動的方法。
殺雞焉用牛刀。根據(jù)你的任務(wù)選擇強(qiáng)大/不強(qiáng)大的模型。
嶺回歸、Lasso回歸和ElasticNet回歸在高維度、多重共線性情況下有較好的表現(xiàn)。
-
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8418瀏覽量
132646 -
數(shù)據(jù)科學(xué)
+關(guān)注
關(guān)注
0文章
165瀏覽量
10059
原文標(biāo)題:初學(xué)者應(yīng)該掌握的七種回歸分析方法
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論