0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

機(jī)器學(xué)習(xí)回歸模型相關(guān)重要知識點(diǎn)總結(jié)

穎脈Imgtec ? 2022-11-10 10:02 ? 次閱讀

來源:機(jī)器學(xué)習(xí)研習(xí)院


回歸分析為許多機(jī)器學(xué)習(xí)算法提供了堅實(shí)的基礎(chǔ)。在這篇文章中,我們將總結(jié) 10 個重要的回歸問題和5個重要的回歸問題的評價指標(biāo)。

1、線性回歸的假設(shè)是什么?

線性回歸有四個假設(shè)

  • 線性:自變量(x)和因變量(y)之間應(yīng)該存在線性關(guān)系,這意味著x值的變化也應(yīng)該在相同方向上改變y值。
  • 獨(dú)立性:特征應(yīng)該相互獨(dú)立,這意味著最小的多重共線性。
  • 正態(tài)性:殘差應(yīng)該是正態(tài)分布的。
  • 同方差性:回歸線周圍數(shù)據(jù)點(diǎn)的方差對于所有值應(yīng)該相同。

2、什么是殘差,它如何用于評估回歸模型?

殘差是指預(yù)測值與觀測值之間的誤差。它測量數(shù)據(jù)點(diǎn)與回歸線的距離。它是通過從觀察值中減去預(yù)測值的計算機(jī)。

殘差圖是評估回歸模型的好方法。它是一個圖表,在垂直軸上顯示所有殘差,在 x 軸上顯示特征。如果數(shù)據(jù)點(diǎn)隨機(jī)散布在沒有圖案的線上,那么線性回歸模型非常適合數(shù)據(jù),否則我們應(yīng)該使用非線性模型。

b86d7f22-5f80-11ed-b116-dac502259ad0.png

3、如何區(qū)分線性回歸模型和非線性回歸模型?

兩者都是回歸問題的類型。兩者的區(qū)別在于他們訓(xùn)練的數(shù)據(jù)。

線性回歸模型假設(shè)特征和標(biāo)簽之間存在線性關(guān)系,這意味著如果我們獲取所有數(shù)據(jù)點(diǎn)并將它們繪制成線性(直線)線應(yīng)該適合數(shù)據(jù)。

非線性回歸模型假設(shè)變量之間沒有線性關(guān)系。非線性(曲線)線應(yīng)該能夠正確地分離和擬合數(shù)據(jù)。b8966e6e-5f80-11ed-b116-dac502259ad0.png找出數(shù)據(jù)是線性還是非線性的三種最佳方法 -

殘差圖

  1. 散點(diǎn)圖
  2. 假設(shè)數(shù)據(jù)是線性的,訓(xùn)練一個線性模型并通過準(zhǔn)確率進(jìn)行評估。

4、什么是多重共線性,它如何影響模型性能?

當(dāng)某些特征彼此高度相關(guān)時,就會發(fā)生多重共線性。相關(guān)性是指表示一個變量如何受到另一個變量變化影響的度量。

如果特征 a 的增加導(dǎo)致特征 b 的增加,那么這兩個特征是正相關(guān)的。如果 a 的增加導(dǎo)致特征 b 的減少,那么這兩個特征是負(fù)相關(guān)的。在訓(xùn)練數(shù)據(jù)上有兩個高度相關(guān)的變量會導(dǎo)致多重共線性,因?yàn)樗哪P蜔o法在數(shù)據(jù)中找到模式,從而導(dǎo)致模型性能不佳。所以在訓(xùn)練模型之前首先要盡量消除多重共線性。

5、異常值如何影響線性回歸模型的性能?

異常值是值與數(shù)據(jù)點(diǎn)的平均值范圍不同的數(shù)據(jù)點(diǎn)。換句話說,這些點(diǎn)與數(shù)據(jù)不同或在第 3 標(biāo)準(zhǔn)之外。b8a887e8-5f80-11ed-b116-dac502259ad0.png線性回歸模型試圖找到一條可以減少殘差的最佳擬合線。如果數(shù)據(jù)包含異常值,則最佳擬合線將向異常值移動一點(diǎn),從而增加錯誤率并得出具有非常高 MSE 的模型。

6、什么是 MSE 和 MAE 有什么區(qū)別?

MSE 代表均方誤差,它是實(shí)際值和預(yù)測值之間的平方差。而 MAE 是目標(biāo)值和預(yù)測值之間的絕對差。

MSE 會懲罰大錯誤,而 MAE 不會。隨著 MSE 和 MAE 的值都降低,模型趨向于一條更好的擬合線。

7、L1 和 L2 正則化是什么,應(yīng)該在什么時候使用?

在機(jī)器學(xué)習(xí)中,我們的主要目標(biāo)是創(chuàng)建一個可以在訓(xùn)練和測試數(shù)據(jù)上表現(xiàn)更好的通用模型,但是在數(shù)據(jù)非常少的情況下,基本的線性回歸模型往往會過度擬合,因此我們會使用 l1 和l2 正則化。L1 正則化或 lasso 回歸通過在成本函數(shù)內(nèi)添加添加斜率的絕對值作為懲罰項。有助于通過刪除斜率值小于閾值的所有數(shù)據(jù)點(diǎn)來去除異常值。

L2 正則化或ridge 回歸增加了相當(dāng)于系數(shù)大小平方的懲罰項。它會懲罰具有較高斜率值的特征。

l1 和 l2 在訓(xùn)練數(shù)據(jù)較少、方差高、預(yù)測特征大于觀察值以及數(shù)據(jù)存在多重共線性的情況下都很有用。

8、異方差是什么意思?

它是指最佳擬合線周圍的數(shù)據(jù)點(diǎn)的方差在一個范圍內(nèi)不一樣的情況。它導(dǎo)致殘差的不均勻分散。如果它存在于數(shù)據(jù)中,那么模型傾向于預(yù)測無效輸出。檢驗(yàn)異方差的最好方法之一是繪制殘差圖。

數(shù)據(jù)內(nèi)部異方差的最大原因之一是范圍特征之間的巨大差異。例如,如果我們有一個從 1 到 100000 的列,那么將值增加 10% 不會改變較低的值,但在較高的值時則會產(chǎn)生非常大的差異,從而產(chǎn)生很大的方差差異的數(shù)據(jù)點(diǎn)。

9、方差膨脹因子的作用是什么的作用是什么?

方差膨脹因子(vif)用于找出使用其他自變量可預(yù)測自變量的程度。

讓我們以具有 v1、v2、v3、v4、v5 和 v6 特征的示例數(shù)據(jù)為例?,F(xiàn)在,為了計算 v1 的 vif,將其視為一個預(yù)測變量,并嘗試使用所有其他預(yù)測變量對其進(jìn)行預(yù)測。如果 VIF 的值很小,那么最好從數(shù)據(jù)中刪除該變量。因?yàn)檩^小的值表示變量之間的高相關(guān)性。

10、逐步回歸(stepwise regression)如何工作?

逐步回歸是在假設(shè)檢驗(yàn)的幫助下,通過移除或添加預(yù)測變量來創(chuàng)建回歸模型的一種方法。它通過迭代檢驗(yàn)每個自變量的顯著性來預(yù)測因變量,并在每次迭代之后刪除或添加一些特征。它運(yùn)行n次,并試圖找到最佳的參數(shù)組合,以預(yù)測因變量的觀測值和預(yù)測值之間的誤差最小。

它可以非常高效地管理大量數(shù)據(jù),并解決高維問題。

11、除了MSE 和 MAE 外回歸還有什么重要的指標(biāo)嗎?

b8b508ba-5f80-11ed-b116-dac502259ad0.png我們用一個回歸問題來介紹這些指標(biāo),我們的其中輸入是工作經(jīng)驗(yàn),輸出是薪水。下圖顯示了為預(yù)測薪水而繪制的線性回歸線。b8c34a88-5f80-11ed-b116-dac502259ad0.png

1、平均絕對誤差(MAE):

b8cf968a-5f80-11ed-b116-dac502259ad0.png平均絕對誤差 (MAE) 是最簡單的回歸度量。它將每個實(shí)際值和預(yù)測值的差值相加,最后除以觀察次數(shù)。為了使回歸模型被認(rèn)為是一個好的模型,MAE 應(yīng)該盡可能小。MAE的優(yōu)點(diǎn)是:簡單易懂。結(jié)果將具有與輸出相同的單位。例如:如果輸出列的單位是 LPA,那么如果 MAE 為 1.2,那么我們可以解釋結(jié)果是 +1.2LPA 或 -1.2LPA,MAE 對異常值相對穩(wěn)定(與其他一些回歸指標(biāo)相比,MAE 受異常值的影響較小)。MAE的缺點(diǎn)是:MAE使用的是模函數(shù),但模函數(shù)不是在所有點(diǎn)處都可微的,所以很多情況下不能作為損失函數(shù)。

2、均方誤差(MSE):

b8e1f0f0-5f80-11ed-b116-dac502259ad0.pngMSE取每個實(shí)際值和預(yù)測值之間的差值,然后將差值平方并將它們相加,最后除以觀測數(shù)量。為了使回歸模型被認(rèn)為是一個好的模型,MSE 應(yīng)該盡可能小。MSE的優(yōu)點(diǎn):平方函數(shù)在所有點(diǎn)上都是可微的,因此它可以用作損失函數(shù)。MSE的缺點(diǎn):由于 MSE 使用平方函數(shù),結(jié)果的單位是輸出的平方。因此很難解釋結(jié)果。由于它使用平方函數(shù),如果數(shù)據(jù)中有異常值,則差值也會被平方,因此,MSE 對異常值不穩(wěn)定。

3、均方根誤差 (RMSE):

b8f03a84-5f80-11ed-b116-dac502259ad0.png均方根誤差(RMSE)取每個實(shí)際值和預(yù)測值之間的差值,然后將差值平方并將它們相加,最后除以觀測數(shù)量。然后取結(jié)果的平方根。因此,RMSE 是 MSE 的平方根。為了使回歸模型被認(rèn)為是一個好的模型,RMSE 應(yīng)該盡可能小。RMSE 解決了 MSE 的問題,單位將與輸出的單位相同,因?yàn)樗∑椒礁?,但仍然對異常值不那么穩(wěn)定。

上述指標(biāo)取決于我們正在解決的問題的上下文, 我們不能在不了解實(shí)際問題的情況下,只看 MAE、MSE 和 RMSE 的值來判斷模型的好壞。

4、R2 score:

b907f3cc-5f80-11ed-b116-dac502259ad0.png如果我們沒有任何輸入數(shù)據(jù),但是想知道他在這家公司能拿到多少薪水,那么我們能做的最好的事情就是給他們所有員工薪水的平均值。b9226b1c-5f80-11ed-b116-dac502259ad0.pngR2 score 給出的值介于 0 到 1 之間,可以針對任何上下文進(jìn)行解釋。它可以理解為是擬合度的好壞。SSR 是回歸線的誤差平方和,SSM 是均線誤差的平方和。我們將回歸線與平均線進(jìn)行比較。b9315e60-5f80-11ed-b116-dac502259ad0.png

  • 如果 R2 得分為 0,則意味著我們的模型與平均線的結(jié)果是相同的,因此需要改進(jìn)我們的模型。
  • 如果 R2 得分為 1,則等式的右側(cè)部分變?yōu)?0,這只有在我們的模型適合每個數(shù)據(jù)點(diǎn)并且沒有出現(xiàn)誤差時才會發(fā)生。
  • 如果 R2 得分為負(fù),則表示等式右側(cè)大于 1,這可能發(fā)生在 SSR > SSM 時。這意味著我們的模型比平均線最差,也就是說我們的模型還不如取平均數(shù)進(jìn)行預(yù)測

如果我們模型的 R2 得分為 0.8,這意味著可以說模型能夠解釋 80% 的輸出方差。也就是說,80%的工資變化可以用輸入(工作年限)來解釋,但剩下的20%是未知的。如果我們的模型有2個特征,工作年限和面試分?jǐn)?shù),那么我們的模型能夠使用這兩個輸入特征解釋80%的工資變化。R2的缺點(diǎn):隨著輸入特征數(shù)量的增加,R2會趨于相應(yīng)的增加或者保持不變,但永遠(yuǎn)不會下降,即使輸入特征對我們的模型不重要(例如,將面試當(dāng)天的氣溫添加到我們的示例中,R2是不會下降的即使溫度對輸出不重要)。

5、Adjusted R2 score:

上式中R2為R2,n為觀測數(shù)(行),p為獨(dú)立特征數(shù)。Adjusted R2解決了R2的問題。當(dāng)我們添加對我們的模型不那么重要的特性時,比如添加溫度來預(yù)測工資.....b942e45a-5f80-11ed-b116-dac502259ad0.png當(dāng)添加對模型很重要的特性時,比如添加面試分?jǐn)?shù)來預(yù)測工資……b9592fc6-5f80-11ed-b116-dac502259ad0.png

以上就是回歸問題的重要知識點(diǎn)和解決回歸問題使用的各種重要指標(biāo)的介紹及其優(yōu)缺點(diǎn),希望對你有所幫助。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
收藏 人收藏

    評論

    相關(guān)推薦

    【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】1.全書概覽與第一章學(xué)習(xí)

    非常感謝電子發(fā)燒友提供的這次書籍測評活動!最近,我一直在學(xué)習(xí)模型和人工智能的相關(guān)知識,深刻體會到機(jī)器人技術(shù)是一個極具潛力的未來方向,甚至可
    發(fā)表于 12-27 14:50

    Kaggle知識點(diǎn):使用大模型進(jìn)行特征篩選

    方法依賴于數(shù)據(jù)集中的樣本點(diǎn)進(jìn)行統(tǒng)計推斷,而基于文本的方法需要描述性的上下文以更好地在特征和目標(biāo)變量之間建立語義關(guān)聯(lián)。這種方法利用了大型語言模型(LLMs)中豐富的語
    的頭像 發(fā)表于 12-03 01:06 ?1246次閱讀
    Kaggle<b class='flag-5'>知識點(diǎn)</b>:使用大<b class='flag-5'>模型</b>進(jìn)行特征篩選

    接口測試?yán)碚?、疑問收錄與擴(kuò)展相關(guān)知識點(diǎn)

    本文章使用王者榮耀游戲接口、企業(yè)微信接口的展示結(jié)合理論知識,講解什么是接口測試、接口測試?yán)碚?、疑問收錄與擴(kuò)展相關(guān)知識點(diǎn)知識學(xué)院,快來一起看看吧~
    的頭像 發(fā)表于 11-15 09:12 ?316次閱讀
    接口測試?yán)碚?、疑問收錄與擴(kuò)展<b class='flag-5'>相關(guān)</b><b class='flag-5'>知識點(diǎn)</b>

    【「時間序列與機(jī)器學(xué)習(xí)」閱讀體驗(yàn)】時間序列的信息提取

    重要環(huán)節(jié),目標(biāo)是從給定的時間序列數(shù)據(jù)中提取出有用的信息和特征,以支持后續(xù)的分析和預(yù)測任務(wù)。 特征工程(Feature Engineering)是將數(shù)據(jù)轉(zhuǎn)換為更好地表示潛在問題的特征,從而提高機(jī)器學(xué)習(xí)
    發(fā)表于 08-17 21:12

    【《大語言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識學(xué)習(xí)

    、機(jī)器翻譯、文本生成等領(lǐng)域具有廣泛應(yīng)用。它們能夠基于用戶的提問或描述生成相關(guān)的答案或執(zhí)行指令,極大地提升了信息檢索和利用的效率。 2. 局限性 盡管大語言模型在自然語言理解方面取得了顯著進(jìn)展,但它們?nèi)匀淮嬖?/div>
    發(fā)表于 08-02 11:03

    【《大語言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)篇

    今天開始學(xué)習(xí)《大語言模型應(yīng)用指南》第一篇——基礎(chǔ)篇,對于人工智能相關(guān)專業(yè)技術(shù)人員應(yīng)該可以輕松加愉快的完成此篇閱讀,但對于我還是有許多的知識點(diǎn)、專業(yè)術(shù)語比較陌生,需要網(wǎng)上搜索
    發(fā)表于 07-25 14:33

    【《大語言模型應(yīng)用指南》閱讀體驗(yàn)】+ 俯瞰全書

    ,了解此書的主要內(nèi)容: 書分四篇,基礎(chǔ)、入門、進(jìn)階和展望。 基礎(chǔ)篇從人工智能起源開始、之后又介紹了機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)和大語言模型的基礎(chǔ)知識,如果讀者
    發(fā)表于 07-21 13:35

    Al大模型機(jī)器

    豐富的知識儲備。它們可以涵蓋各種領(lǐng)域的知識,并能夠回答相關(guān)問題。靈活性與通用性: AI大模型機(jī)器人具有很強(qiáng)的靈活性和通用性,能夠處理各種類型
    發(fā)表于 07-05 08:52

    機(jī)器學(xué)習(xí)算法原理詳解

    機(jī)器學(xué)習(xí)作為人工智能的一個重要分支,其目標(biāo)是通過讓計算機(jī)自動從數(shù)據(jù)中學(xué)習(xí)并改進(jìn)其性能,而無需進(jìn)行明確的編程。本文將深入解讀幾種常見的機(jī)器
    的頭像 發(fā)表于 07-02 11:25 ?1044次閱讀

    名單公布!【書籍評測活動NO.35】如何用「時間序列與機(jī)器學(xué)習(xí)」解鎖未來?

    和專業(yè)知識,對這一領(lǐng)域進(jìn)行系統(tǒng)的梳理和總結(jié)。然而,將時間序列分析與機(jī)器學(xué)習(xí)技術(shù)相結(jié)合的書籍卻并不多見。 以上正是《時間序列與機(jī)器
    發(fā)表于 06-25 15:00

    模擬電子技術(shù)知識點(diǎn)問題總結(jié)概覽

    給大家分享模擬電子技術(shù)知識點(diǎn)問題總結(jié)。
    的頭像 發(fā)表于 05-08 15:16 ?1169次閱讀
    模擬電子技術(shù)<b class='flag-5'>知識點(diǎn)</b>問題<b class='flag-5'>總結(jié)</b>概覽

    一篇搞定DCS系統(tǒng)相關(guān)知識點(diǎn)

    目標(biāo)。DCS系統(tǒng)廣泛應(yīng)用于各個行業(yè),如化工、電力、制藥等。在這些行業(yè)中,DCS系統(tǒng)可以實(shí)現(xiàn)對生產(chǎn)過程的集中監(jiān)控和分散控制,提高生產(chǎn)效率和產(chǎn)品質(zhì)量,降低能耗和減少環(huán)境污染,從而保證產(chǎn)品質(zhì)量,并確保生產(chǎn)過程的安全可靠。 二.DCS系統(tǒng)知識點(diǎn)
    的頭像 發(fā)表于 03-26 18:40 ?909次閱讀
    一篇搞定DCS系統(tǒng)<b class='flag-5'>相關(guān)</b><b class='flag-5'>知識點(diǎn)</b>

    【量子計算機(jī)重構(gòu)未來 | 閱讀體驗(yàn)】第二章關(guān)鍵知識點(diǎn)

    本帖最后由 oxlm_1 于 2024-3-6 23:20 編輯 之所以將第二章單獨(dú)拿出來,是因?yàn)樵陂喿x過程中,發(fā)現(xiàn)第二章知識點(diǎn)較多,理解起來比較耗時間。 第二章的主要知識點(diǎn): 量子
    發(fā)表于 03-06 23:17

    機(jī)器視覺基礎(chǔ)知識點(diǎn)總結(jié)

    照明是影響機(jī)器視覺系統(tǒng)輸入的重要因素。光源系統(tǒng)的設(shè)計非常重要,它與輸入數(shù)據(jù)直接相關(guān),即圖像的質(zhì)量和應(yīng)用效果。
    發(fā)表于 01-16 10:08 ?1141次閱讀

    如何使用TensorFlow構(gòu)建機(jī)器學(xué)習(xí)模型

    在這篇文章中,我將逐步講解如何使用 TensorFlow 創(chuàng)建一個簡單的機(jī)器學(xué)習(xí)模型。
    的頭像 發(fā)表于 01-08 09:25 ?990次閱讀
    如何使用TensorFlow構(gòu)建<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>模型</b>