老熟肥败视频老熟肥败,日韩一区二区三区四区

線性回歸是最簡(jiǎn)單的機(jī)器學(xué)習(xí)模型之一。它通常不僅是學(xué)習(xí)數(shù)據(jù)科學(xué)的起點(diǎn)，也是構(gòu)建快速簡(jiǎn)單的最小可行產(chǎn)品（ MVP ）的起點(diǎn)，然后作為更復(fù)雜算法的基準(zhǔn)。

一般來說，線性回歸擬合最能描述特征和目標(biāo)值之間線性關(guān)系的直線（二維）或超平面（三維及三維以上）。該算法還假設(shè)特征的概率分布表現(xiàn)良好；例如，它們遵循高斯分布。

異常值是位于預(yù)期分布之外的值。它們導(dǎo)致特征的分布表現(xiàn)較差。因此，模型可能會(huì)向異常值傾斜，正如我已經(jīng)建立的那樣，這些異常值遠(yuǎn)離觀測(cè)的中心質(zhì)量。自然，這會(huì)導(dǎo)致線性回歸發(fā)現(xiàn)更差和更有偏差的擬合，預(yù)測(cè)性能較差。

重要的是要記住，異常值可以在特征和目標(biāo)變量中找到，所有場(chǎng)景都可能惡化模型的性能。

有許多可能的方法來處理異常值：從觀察值中刪除異常值，處理異常值（例如，將極端觀察值限制在合理值），或使用非常適合自己處理此類值的算法。本文重點(diǎn)介紹了這些穩(wěn)健的方法。

安裝程序

我使用相當(dāng)標(biāo)準(zhǔn)的庫：numpy、pandas、scikit-learn。我在這里使用的所有模型都是從scikit-learn的linear_model模塊導(dǎo)入的。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns from sklearn import datasets
from sklearn.linear_model import (LinearRegression, HuberRegressor, RANSACRegressor, TheilSenRegressor)

數(shù)據(jù)

鑒于目標(biāo)是展示不同的魯棒算法如何處理異常值，第一步是創(chuàng)建定制的數(shù)據(jù)集，以清楚地顯示行為中的差異。為此，請(qǐng)使用scikit-learn中提供的功能。

首先創(chuàng)建一個(gè)包含 500 個(gè)觀察值的數(shù)據(jù)集，其中包含一個(gè)信息性特征。只有一個(gè)特征和目標(biāo)，繪制數(shù)據(jù)以及模型的擬合。此外，指定噪聲（應(yīng)用于輸出的標(biāo)準(zhǔn)差），并創(chuàng)建包含基礎(chǔ)線性模型系數(shù)的列表；也就是說，如果線性回歸模型適合生成的數(shù)據(jù)，系數(shù)會(huì)是多少。在本例中，系數(shù)的值為 64.6 。提取所有模型的系數(shù)，并使用它們來比較它們與數(shù)據(jù)的擬合程度。

接下來，用異常值替換前 25 個(gè)觀察值（占觀察值的 5% ），遠(yuǎn)遠(yuǎn)超出生成的觀察值的質(zhì)量。請(qǐng)記住，先前存儲(chǔ)的系數(shù)來自沒有異常值的數(shù)據(jù)。包括他們會(huì)有所不同。

N_SAMPLES = 500
N_OUTLIERS = 25 X, y, coef = datasets.make_regression( n_samples=N_SAMPLES, n_features=1, n_informative=1, noise=20, coef=True, random_state=42
)
coef_list = [["original_coef", float(coef)]] # add outliers np.random.seed(42)
X[:N_OUTLIERS] = 10 + 0.75 * np.random.normal(size=(N_OUTLIERS, 1))
y[:N_OUTLIERS] = -15 + 20 * np.random.normal(size=N_OUTLIERS) plt.scatter(X, y);

圖 1 。生成的數(shù)據(jù)和手動(dòng)添加的異常值

線性回歸

從良好的舊線性回歸模型開始，該模型可能受到異常值的高度影響。使用以下示例將模型與數(shù)據(jù)擬合：

lr = LinearRegression().fit(X, y)
coef_list.append(["linear_regression", lr.coef_[0]])

然后準(zhǔn)備一個(gè)用于繪制模型擬合的對(duì)象。plotline_X對(duì)象是一個(gè) 2D 數(shù)組，包含在生成的數(shù)據(jù)集指定的間隔內(nèi)均勻分布的值。使用此對(duì)象獲取模型的擬合值。它必須是 2D 數(shù)組，因?yàn)樗?code style="font-size:inherit;color:inherit;margin:0px;padding:0px;border:0px;font-style:inherit;font-variant:inherit;font-weight:inherit;line-height:inherit;vertical-align:baseline;background-color:rgb(244,244,244);">scikit-learn中模型的預(yù)期輸入。然后創(chuàng)建一個(gè)fit_df數(shù)據(jù)框，在其中存儲(chǔ)擬合值，通過將模型擬合到均勻分布的值來創(chuàng)建。

plotline_X = np.arange(X.min(), X.max()).reshape(-1, 1) fit_df = pd.DataFrame( index = plotline_X.flatten(), data={"linear_regression": lr.predict(plotline_X)}
)

準(zhǔn)備好數(shù)據(jù)框架后，繪制線性回歸模型與具有異常值的數(shù)據(jù)的擬合圖。

fix, ax = plt.subplots()
fit_df.plot(ax=ax)
plt.scatter(X, y, c="k")
plt.title("Linear regression on data with outliers");

圖 2 顯示了異常值對(duì)線性回歸模型的顯著影響。

圖 2 :線性回歸模型對(duì)含有異常值的數(shù)據(jù)的擬合

使用線性回歸獲得了基準(zhǔn)模型?，F(xiàn)在是時(shí)候轉(zhuǎn)向穩(wěn)健回歸算法了。

Huber Regression

Huber regression 是穩(wěn)健回歸算法的一個(gè)示例，該算法為被識(shí)別為異常值的觀察值分配較少的權(quán)重。為此，它在優(yōu)化例程中使用 Huber 損耗。下面讓我們更好地了解一下這個(gè)模型中實(shí)際發(fā)生了什么。

Huber 回歸最小化以下?lián)p失函數(shù)：

$\min\limits_{\omega,\sigma}\sum\limits_{i=1}^{n}(\sigma+H_{\epsilon}(\frac{X_i\omega-y_i}{\sigma})\sigma)+\alpha\|\omega\|2^2$

其中， $\sigma$ 表示標(biāo)準(zhǔn)差， $X_i$ 表示特征集， $y_i$ 是回歸的目標(biāo)變量， $\omega$ 是估計(jì)系數(shù)的向量， $\alpha$ 是正則化參數(shù)。該公式還表明，根據(jù) Huber 損失，對(duì)異常值的處理與常規(guī)觀測(cè)不同：

$H_{\epsilon}(z)=\begin{cases} z^2, & \text{if}|z|<\epsilon \\ 2\epsilon|z|-\epsilon^2, & \text{otherwise}\end{cases}$

Huber 損失通過考慮殘差來識(shí)別異常值，用z表示。如果觀察被認(rèn)為是規(guī)則的（因?yàn)闅埐畹慕^對(duì)值小于某個(gè)閾值），然后應(yīng)用平方損失函數(shù)。否則，將觀察值視為異常值，并應(yīng)用絕對(duì)損失。話雖如此，胡伯損失基本上是平方損失函數(shù)和絕對(duì)損失函數(shù)的組合。

好奇的讀者可能會(huì)注意到，第一個(gè)方程類似于 Ridge regression ，即包括 L2 正則化。 Huber 回歸和嶺回歸的區(qū)別在于異常值的處理。

通過分析兩種常用回歸評(píng)估指標(biāo)：均方誤差（ MSE ）和平均絕對(duì)誤差（ MAE ）之間的差異，您可能會(huì)認(rèn)識(shí)到這種損失函數(shù)的方法。與 Huber 損失的含義類似，我建議在處理異常值時(shí)使用 MAE ，因?yàn)樗粫?huì)像平方損失那樣嚴(yán)重地懲罰這些觀察值。

與前一點(diǎn)相關(guān)的是，優(yōu)化平方損失會(huì)導(dǎo)致均值周圍的無偏估計(jì)，而絕對(duì)差會(huì)導(dǎo)致中值周圍的無偏估計(jì)。中位數(shù)對(duì)異常值的魯棒性要比平均值強(qiáng)得多，因此預(yù)計(jì)這將提供一個(gè)偏差較小的估計(jì)。

使用默認(rèn)值 1.35 ，這決定了回歸對(duì)異常值的敏感性。 Huber （ 2004 ）表明，當(dāng)誤差服從正態(tài)分布且 $\sigma$ = 1 和= 1.35 時(shí)，相對(duì)于 OLS 回歸，效率達(dá)到 95% 。

對(duì)于您自己的用例，我建議使用網(wǎng)格搜索等方法調(diào)整超參數(shù)alpha和epsilon。

使用以下示例將 Huber 回歸擬合到數(shù)據(jù)：

huber = HuberRegressor().fit(X, y)
fit_df["huber_regression"] = huber.predict(plotline_X)
coef_list.append(["huber_regression", huber.coef_[0]])

圖 3 顯示了擬合模型的最佳擬合線。

圖 3 。 Huber 回歸模型對(duì)含異常值數(shù)據(jù)的擬合

RANSAC 回歸

隨機(jī)樣本一致性（ RANSAC ）回歸是一種非確定性算法，試圖將訓(xùn)練數(shù)據(jù)分為內(nèi)聯(lián)（可能受到噪聲影響）和異常值。然后，它僅使用內(nèi)聯(lián)線估計(jì)最終模型。

RANSAC 是一種迭代算法，其中迭代包括以下步驟：

從初始數(shù)據(jù)集中選擇一個(gè)隨機(jī)子集。

將模型擬合到選定的隨機(jī)子集。默認(rèn)情況下，該模型是線性回歸模型；但是，您可以將其更改為其他回歸模型。

使用估計(jì)模型計(jì)算初始數(shù)據(jù)集中所有數(shù)據(jù)點(diǎn)的殘差。絕對(duì)殘差小于或等于所選閾值的所有觀察值都被視為內(nèi)聯(lián)，并創(chuàng)建所謂的共識(shí)集。默認(rèn)情況下，閾值定義為目標(biāo)值的中值絕對(duì)偏差（ MAD ）。

如果足夠多的點(diǎn)被分類為共識(shí)集的一部分，則擬合模型保存為最佳模型。如果當(dāng)前估計(jì)模型與當(dāng)前最佳模型具有相同的內(nèi)聯(lián)數(shù)，則只有當(dāng)其得分更好時(shí)，才認(rèn)為它更好。

迭代執(zhí)行步驟的次數(shù)最多，或者直到滿足特殊停止標(biāo)準(zhǔn)。可以使用三個(gè)專用超參數(shù)設(shè)置這些標(biāo)準(zhǔn)。如前所述，最終模型是使用所有內(nèi)部樣本估計(jì)的。

將 RANSAC 回歸模型與數(shù)據(jù)擬合。

ransac = RANSACRegressor(random_state=42).fit(X, y)
fit_df["ransac_regression"] = ransac.predict(plotline_X)
ransac_coef = ransac.estimator_.coef_
coef_list.append(["ransac_regression", ransac.estimator_.coef_[0]])

如您所見，恢復(fù)系數(shù)的過程有點(diǎn)復(fù)雜，因?yàn)槭紫刃枰褂?code style="font-size:inherit;color:inherit;margin:0px;padding:0px;border:0px;font-style:inherit;font-variant:inherit;font-weight:inherit;line-height:inherit;vertical-align:baseline;background-color:rgb(244,244,244);">estimator_訪問模型的最終估計(jì)器（使用所有已識(shí)別的內(nèi)聯(lián)線訓(xùn)練的估計(jì)器）。由于它是一個(gè)LinearRegression對(duì)象，請(qǐng)像前面一樣繼續(xù)恢復(fù)系數(shù)。然后，繪制 RANSAC 回歸擬合圖（圖 4 ）。

Graph showing the fit of the RANSAC regression model to the data with outliers.

圖 4 。 RANSAC 回歸模型對(duì)含有異常值的數(shù)據(jù)的擬合

使用 RANSAC 回歸，您還可以檢查模型認(rèn)為是內(nèi)聯(lián)值和離群值的觀察值。首先，檢查模型總共識(shí)別了多少異常值，然后檢查手動(dòng)引入的異常值中有多少與模型的決策重疊。訓(xùn)練數(shù)據(jù)的前 25 個(gè)觀察值都是引入的異常值。

inlier_mask = ransac.inlier_mask_
outlier_mask = ~inlier_mask
print(f"Total outliers: {sum(outlier_mask)}")
print(f"Outliers you added yourself: {sum(outlier_mask[:N_OUTLIERS])} / {N_OUTLIERS}")

運(yùn)行該示例將打印以下摘要：

Total outliers: 51
Outliers you added yourself: 25 / 25

大約 10% 的數(shù)據(jù)被確定為異常值，所有引入的觀察結(jié)果都被正確歸類為異常值。然后可以快速將內(nèi)聯(lián)線與異常值進(jìn)行比較，以查看標(biāo)記為異常值的其余 26 個(gè)觀察值。

plt.scatter(X[inlier_mask], y[inlier_mask], color="blue", label="Inliers")
plt.scatter(X[outlier_mask], y[outlier_mask], color="red", label="Outliers")
plt.title("RANSAC - outliers vs inliers");

圖 5 顯示，距離原始數(shù)據(jù)的假設(shè)最佳擬合線最遠(yuǎn)的觀測(cè)值被視為異常值。

圖 5 。與 RANSAC 算法識(shí)別的異常值進(jìn)行比較的內(nèi)聯(lián)線

泰爾森回歸

scikit-learn中可用的最后一種穩(wěn)健回歸算法是 Theil-Sen regression 。這是一種非參數(shù)回歸方法，這意味著它不假設(shè)基礎(chǔ)數(shù)據(jù)分布。簡(jiǎn)而言之，它涉及在訓(xùn)練數(shù)據(jù)子集上擬合多元回歸模型，然后在最后一步聚合系數(shù)。

下面是算法的工作原理。首先，它計(jì)算從訓(xùn)練集 X 中的所有觀察值創(chuàng)建的大小為 p （超參數(shù)n_subsamples）的子集上的最小二乘解（斜率和截距）。如果計(jì)算截距（可選），則必須滿足以下條件p 》= n_features + 1。直線的最終斜率（可能還有截距）定義為所有最小二乘解的（空間）中值。

該算法的一個(gè)可能缺點(diǎn)是計(jì)算復(fù)雜度，因?yàn)樗梢钥紤]等于n_samples choose n_subsamples的最小二乘解總數(shù)，其中n_samples是 X 中的觀測(cè)數(shù)。鑒于這一數(shù)字可能迅速擴(kuò)大，可以做幾件事：

在樣本數(shù)量和特征方面，只對(duì)小問題使用該算法。然而，由于明顯的原因，這可能并不總是可行的。

調(diào)整n_subsamples超參數(shù)。值越低，對(duì)異常值的魯棒性越高，但效率越低，而值越高，魯棒性越低，效率越高。

使用max_subpopulation超參數(shù)。如果n_samples choose n_subsamples的總值大于max_subpopulation，則該算法僅考慮給定最大大小的隨機(jī)子種群。自然，僅使用所有可能組合的隨機(jī)子集會(huì)導(dǎo)致算法失去一些數(shù)學(xué)特性。

此外，請(qǐng)注意，估計(jì)器的穩(wěn)健性隨著問題的維數(shù)迅速降低。要了解這在實(shí)踐中的效果，請(qǐng)使用以下示例估計(jì)泰爾森回歸：

theilsen = TheilSenRegressor(random_state=42).fit(X, y)
fit_df["theilsen_regression"] = theilsen.predict(plotline_X)
coef_list.append(["theilsen_regression", theilsen.coef_[0]])

圖 6 。泰爾森回歸模型對(duì)含有異常值的數(shù)據(jù)的擬合

模型比較

到目前為止，已經(jīng)對(duì)包含異常值的數(shù)據(jù)擬合了三種穩(wěn)健回歸算法，并確定了各個(gè)最佳擬合線?，F(xiàn)在是進(jìn)行比較的時(shí)候了。

從圖 7 的目視檢查開始。為了顯示太多行，未打印原始數(shù)據(jù)的擬合行。然而，考慮到大多數(shù)數(shù)據(jù)點(diǎn)的方向，很容易想象它是什么樣子。顯然， RANSAC 和泰爾森回歸得到了最準(zhǔn)確的最佳擬合線。

圖 7 。所有考慮的回歸模型的比較

更準(zhǔn)確地說，請(qǐng)查看估計(jì)系數(shù)。表 1 顯示， RANSAC 回歸結(jié)果最接近原始數(shù)據(jù)之一。有趣的是， 5% 的異常值對(duì)正則線性回歸擬合的影響有多大。

你可能會(huì)問哪種穩(wěn)健回歸算法最好？通常情況下，答案是“視情況而定”以下是一些指導(dǎo)原則，可以幫助您找到適合您具體問題的正確模型：

一般來說，在高維環(huán)境中進(jìn)行穩(wěn)健擬合是困難的。

與泰爾·森和蘭薩克不同的是，休伯回歸并沒有試圖完全過濾掉異常值。相反，它會(huì)減少它們對(duì)貼合度的影響。

Huber 回歸應(yīng)該比 RANSAC 和 Theil-Sen 更快，因?yàn)楹笳哌m用于較小的數(shù)據(jù)子集。

泰爾森和 RANSAC 不太可能像使用默認(rèn)超參數(shù)的 Huber 回歸。

RANSAC 比泰爾森更快，并且隨著樣本數(shù)的增加，其擴(kuò)展性更好。

RANSAC 應(yīng)該更好地處理 y 方向上的大異常值，這是最常見的場(chǎng)景。

考慮到前面的所有信息，您還可以根據(jù)經(jīng)驗(yàn)對(duì)所有三種穩(wěn)健回歸算法進(jìn)行實(shí)驗(yàn)，看看哪一種最適合您的數(shù)據(jù)。

關(guān)于作者

Eryk Lewinson 是一位數(shù)據(jù)科學(xué)家，有定量金融方面的背景。在他的職業(yè)生涯中，他曾為兩家咨詢公司工作，一家金融科技公司，最近為荷蘭最大的在線零售商工作。在他的工作中，他使用機(jī)器學(xué)習(xí)為公司生成可操作的見解。

審核編輯：郭婷

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8420

瀏覽量
132687
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1208

瀏覽量
24713

評(píng)論

相關(guān)推薦

異常值概述及檢驗(yàn)處理

異常值的處理

發(fā)表于 04-26 13:13

回歸算法有哪些，常用回歸算法（3種）詳解

有兩個(gè)重要組成部分：自變量和因變量之間的關(guān)系，以及不同自變量對(duì)因變量影響的強(qiáng)度。以下是幾種常用的回歸方法：線性回歸：使用最廣泛的建模技術(shù)之一。已存在 200 多年，已經(jīng)從幾乎所有可能的角度進(jìn)行了研究

發(fā)表于 07-28 14:36

TensorFlow實(shí)現(xiàn)簡(jiǎn)單線性回歸

?？梢詫?duì)數(shù)據(jù)進(jìn)行歸一化處理：為訓(xùn)練數(shù)據(jù)聲明 TensorFlow 占位符：創(chuàng)建 TensorFlow 的權(quán)重和偏置變量且初始值為零：定義用于預(yù)測(cè)的線性回歸模型：定義損失函數(shù)：

發(fā)表于 08-11 19:34

TensorFlow實(shí)現(xiàn)多元線性回歸（超詳細(xì)）

初始化權(quán)重：定義要用于預(yù)測(cè)的線性回歸模型。現(xiàn)在需要矩陣乘法來完成這個(gè)任務(wù)：為了更好地求微分，定義損失函數(shù)：選擇正確的優(yōu)化器：定義初始化操作符：開始計(jì)算圖：繪制損失函數(shù)：在這里，我們發(fā)現(xiàn)損失

發(fā)表于 08-11 19:35

常用的FBAR模型有哪三種?

發(fā)表于 03-11 06:16

使用PyMC3包實(shí)現(xiàn)貝葉斯線性回歸

分布。這個(gè)方法相當(dāng)復(fù)雜，原理方面我們這里不做詳細(xì)描述，這里只說明一些簡(jiǎn)單的概念，為什么使用MCMC呢？　　頻率主義和貝葉斯回歸方法之間的關(guān)鍵區(qū)別在于他們?nèi)绾?b class='flag-5'>處理參數(shù)。在頻率統(tǒng)計(jì)中，線性回歸

發(fā)表于 10-08 15:59

使用KNN進(jìn)行分類和回歸

一般情況下k-Nearest Neighbor (KNN)都是用來解決分類的問題，其實(shí)KNN是一種可以應(yīng)用于數(shù)據(jù)分類和預(yù)測(cè)的簡(jiǎn)單算法，本文中我們將它與簡(jiǎn)單的線性回歸進(jìn)行比較。KNN模型

發(fā)表于 10-28 14:44

多響應(yīng)線性回歸模型Bayes最優(yōu)設(shè)計(jì)的等價(jià)性定理

多響應(yīng)線性回歸模型Bayes最優(yōu)設(shè)計(jì)的等價(jià)性定理:討論多響應(yīng)線性回歸模型的Bayes設(shè)計(jì)問題,給

發(fā)表于 10-25 12:23 ?15次下載

基于支持向量回歸的交易模型的穩(wěn)健性策略

交易模型的穩(wěn)健性，指的是該模型的利潤率曲線的波動(dòng)性較小，沒有大起大落。針對(duì)一個(gè)基于支持向量回歸（SVR）技術(shù)的算法交易模型的

發(fā)表于 12-05 15:30 ?0次下載

基于Weierstrass逼近定理在非線性回歸模型中應(yīng)用

基于Weierstrass逼近定理，闡釋了將一般非線性回歸模型近似為多項(xiàng)式模型來處理的數(shù)學(xué)原理，從而引入了把多元非線性回歸分析轉(zhuǎn)化為多元

發(fā)表于 01-12 09:59 ?0次下載

8種用Python實(shí)現(xiàn)線性回歸的方法對(duì)比分析_哪個(gè)方法更好？

說到如何用Python執(zhí)行線性回歸，大部分人會(huì)立刻想到用sklearn的linear_model，但事實(shí)是，Python至少有8種執(zhí)行線性回歸

發(fā)表于 06-28 09:53 ?4403次閱讀

掌握logistic regression模型，有必要先了解線性回歸模型和梯度下降法

先回想一下線性回歸，線性回歸模型幫助我們用最簡(jiǎn)單的線性方程實(shí)現(xiàn)了對(duì)數(shù)據(jù)的擬合，然而，這只能完成

發(fā)表于 06-04 11:31 ?7611次閱讀

基于低秩表示的魯棒線性回歸模型

現(xiàn)有的線性回歸方法不能有效處理噪聲和異常數(shù)據(jù)。針對(duì)這一問題，結(jié)合低秩表示和魯棒回歸方法構(gòu)建模型L

發(fā)表于 05-28 10:56 ?4次下載

數(shù)據(jù)清洗、缺失值填充和異常值處理

綜上所述，數(shù)據(jù)清洗、缺失值填充和異常值處理對(duì)數(shù)據(jù)分析非常重要，并且 MATLAB 提供了許多工具來實(shí)現(xiàn)這些步驟?？梢愿鶕?jù)具體情況選擇合適的函數(shù)和方法來處理數(shù)據(jù)。

發(fā)表于 06-21 15:30 ?2966次閱讀

靜電放電ESD三種模型及其防護(hù)設(shè)計(jì)

點(diǎn)擊關(guān)注，電磁兼容不迷路。靜電放電ESD三種模型及其防護(hù)設(shè)計(jì)ESD：ElectrostaticDischarge，即是靜電放電，每個(gè)從事硬件設(shè)計(jì)和生產(chǎn)的工程師都必須掌握ESD的相關(guān)知識(shí)。為了定量

發(fā)表于 09-15 08:02 ?3464次閱讀