每當(dāng)我們想要預(yù)測一個數(shù)值時,就會出現(xiàn)回歸問題。常見的例子包括預(yù)測價格(房屋、股票等)、預(yù)測住院時間(對于住院患者)、預(yù)測需求(對于零售銷售)等等。并非每個預(yù)測問題都是經(jīng)典的回歸問題。稍后,我們將介紹分類問題,其目標(biāo)是預(yù)測一組類別中的成員資格。
作為一個運行示例,假設(shè)我們希望根據(jù)房屋的面積(以平方英尺為單位)和年齡(以年為單位)來估算房屋的價格(以美元為單位)。要開發(fā)預(yù)測房價的模型,我們需要掌握由銷售額組成的數(shù)據(jù),包括每個房屋的銷售價格、面積和年齡。在機器學(xué)習(xí)的術(shù)語中,數(shù)據(jù)集稱為訓(xùn)練數(shù)據(jù)集或訓(xùn)練集,每一行(包含與一次銷售對應(yīng)的數(shù)據(jù))稱為示例( 或數(shù)據(jù)點、實例、樣本)。我們試圖預(yù)測的東西(價格)稱為標(biāo)簽(或目標(biāo)). 預(yù)測所依據(jù)的變量(年齡和面積)稱為特征(或 協(xié)變量)。
%matplotlib inline
import math
import time
import numpy as np
import torch
from d2l import torch as d2l
%matplotlib inline
import math
import time
import numpy as np
import tensorflow as tf
from d2l import tensorflow as d2l
3.1.1. 基本
線性回歸可能是解決回歸問題的標(biāo)準(zhǔn)工具中最簡單和最受歡迎的。追溯到 19 世紀(jì)初(高斯,1809 年,勒讓德,1805 年),線性回歸源于一些簡單的假設(shè)。首先,我們假設(shè)特征之間的關(guān)系x和目標(biāo) y近似線性,即條件均值 E[Y∣X=x]可以表示為特征的加權(quán)和x. 由于觀察噪聲,此設(shè)置允許目標(biāo)值仍可能偏離其預(yù)期值。接下來,我們可以假設(shè)任何此類噪聲都表現(xiàn)良好,服從高斯分布。通常,我們會使用n來表示我們數(shù)據(jù)集中的示例數(shù)量。我們使用上標(biāo)來枚舉樣本和目標(biāo),并使用下標(biāo)來索引坐標(biāo)。更具體地說,x(i)表示i-th 樣品和 xj(i)表示其j-th 坐標(biāo)。
3.1.1.1. 模型
每個解決方案的核心都是一個模型,該模型描述了如何將特征轉(zhuǎn)換為對目標(biāo)的估計。線性假設(shè)意味著目標(biāo)(價格)的期望值可以表示為特征(面積和年齡)的加權(quán)和:
這里warea和wage稱為 權(quán)重,并且b稱為偏差(或偏移量或 截距)。權(quán)重決定了每個特征對我們預(yù)測的影響。當(dāng)所有特征都為零時,偏差決定了估計值。即使我們永遠(yuǎn)不會看到任何面積恰好為零的新建房屋,我們?nèi)匀恍枰?,因為它允許我們表達(dá)特征的所有線性函數(shù)(而不是將我們限制在通過原點的直線上)。嚴(yán)格來說, (3.1.1)是輸入特征的仿射變換,其特點是通過加權(quán)求和對特征進(jìn)行線性變換,結(jié)合平移通過增加偏差。給定一個數(shù)據(jù)集,我們的目標(biāo)是選擇權(quán)重 w和偏見b平均而言,使我們的模型預(yù)測盡可能接近數(shù)據(jù)中觀察到的真實價格。
在通常關(guān)注僅具有少量特征的數(shù)據(jù)集的學(xué)科中,明確表達(dá)模型的長格式,如 (3.1.1)中,是常見的。在機器學(xué)習(xí)中,我們通常使用高維數(shù)據(jù)集,在這種情況下使用緊湊的線性代數(shù)符號會更方便。當(dāng)我們的輸入包括 d特征,我們可以為每個特征分配一個索引(介于1和 d) 并表達(dá)我們的預(yù)測y^(通常,“帽子”符號表示估計值)作為
將所有特征收集到一個向量中 x∈Rd并將所有權(quán)重放入向量中 w∈Rd,我們可以通過點積來簡潔地表達(dá)我們的模型w和x:
在(3.1.3)中,向量x對應(yīng)于單個示例的特征。
評論