知識點離散數(shù)據(jù)的處理
若數(shù)據(jù)存在“序”關系則連續(xù)化,如:
離散 | 連續(xù) |
高/m | 高 |
10 | 1 |
5 | 0.5 |
1 | 0 |
否則,轉(zhuǎn)為K維向量代碼可見本實例中的Pd.get_dummies(X['state'])。但要注意虛擬變量,例如“性別”變量,可虛擬出“男”和”女”兩個變量,
男 | 1 | 0 |
女 | 0 | 1 |
這里所說的虛擬變量陷阱是兩個或多個變量高度相關的情況,簡單地說,一個變量可以從其他變量中預測出來,那么這里就有一個重復的類別,可以去掉一個變量,節(jié)約內(nèi)存計算機內(nèi)存空間,減少計算量。
本實例用的數(shù)據(jù)集是50_Startups.csv,
代碼如下:
importnumpyasnp pipinstallmatplotlib importmatplotlib.pyplotasplt importpandasaspd dataset=pd.read_csv("D:/python/50.csv") X=dataset.iloc[:,0:4]#0到3列的所有行數(shù)據(jù)(共4列) X["State"].unique() y=dataset.iloc[:,4]#第5列的所有行數(shù)據(jù) pd.get_dummies(X['State'])#離散數(shù)據(jù)轉(zhuǎn)為K維向量 statesdump=pd.get_dummies(X['State'],drop_first=True)#去掉X['State']的第一列數(shù)據(jù)(減少虛擬變量) X=X.drop('State',axis=1) X=pd.concat([X,statesdump],axis=1) from sklearn.model_selection import train_test_split x_train,x_test,y_train,y_test=train_test_split(X,y,test_size=0.3,random_state=0) x_train #引入線性回歸模型擬合訓練集 from sklearn.linear_model import LinearRegression regressor=LinearRegression() model=regressor.fit(x_train,y_train) #預測測試集的結(jié)果 y_predict=regressor.predict(x_test) from sklearn.metrics import r2_score# score1=r2_score(y_test,y_predict) model.coef_#多元函數(shù)的系數(shù) model.intercept_#函數(shù)的截距 model.score(X,y)
審核編輯:劉清
-
向量機
+關注
關注
0文章
166瀏覽量
20883 -
虛擬機
+關注
關注
1文章
917瀏覽量
28221 -
機器學習
+關注
關注
66文章
8420瀏覽量
132687 -
python
+關注
關注
56文章
4797瀏覽量
84729 -
線性回歸
+關注
關注
0文章
41瀏覽量
4308
原文標題:機器學習-多元線性回歸數(shù)據(jù)集(50_Startups.csv)及代碼實現(xiàn)
文章出處:【微信號:智行RFID,微信公眾號:智行RFID】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論