0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

梯度提升算法

深度學習自然語言處理 ? 來源:AI公園 ? 作者:AI公園 ? 2021-03-05 16:12 ? 次閱讀

簡化復雜的算法

動機

盡管大多數(shù)的Kaggle競賽的獲勝者使用了多個模型的集成,這些集成的模型中,有一個必定是各種變體的梯度提升算法。舉個例子,Kaggle競賽:Safe Driver Prediction:https://www.kaggle.com/c/porto-seguro-safe-driver-prediction/discussion/44629#250927,Michael Jahrer的方案,使用了表示學習,使用了6個模型的綜合。1個LightGBM和5個神經(jīng)網(wǎng)絡。盡管他的成功歸功他使用了結構化的數(shù)據(jù)進行了半監(jiān)督學習,梯度提升算法也實現(xiàn)了非常重要的部分。

盡管GBM使用的非常廣泛,許多使用者仍然把這個東西當做一個黑盒子算法,只是使用預編譯好的庫跑一跑。寫這篇文章的目的是簡化復雜的算法,幫助讀者可以直觀的理解算法。我會解釋原汁原味的梯度提升算法,然后分享一些變種的鏈接。我基于fast.ai的庫做了一個決策樹的代碼,然后構建了一個自己的簡單的基礎的梯度提升模型。

Ensemble, Bagging, Boosting的簡單描述

當我們使用一個機器學習技術來預測目標變量的時候,造成實際值和預測值之間的差別的原因有噪聲,方差和偏差。集成方法能夠幫助減少這些因素(除了噪聲,不可約誤差)。

Ensemble是幾個預測器在一起(比如求平均),給出一個最終的結果。使用ensemble的原因是許多不同的預測器預測同一個目標會比單個預測器的效果要好。Ensemble技術又可以分成Bagging和Boosting。

Bagging是一個簡單的ensemble的技術,我們構建許多獨立的預測器/模型/學習器,通過模型平均的方式來組合使用。(如權值的平均,投票或者歸一化平均)

我們?yōu)槊總€模型使用隨機抽樣,所以每個模型都不太一樣。每個模型的輸入使用有放回的抽樣,所以模型的訓練樣本各不相同。因為這個技術使用了許多個不相關的學習器來進行最終的預測,它通過減少方差來減小誤差。bagging的一個例子是隨機森林模型。

Boosting在對模型進行ensemble的時候,不是獨立的,而是串行的。

這個技術使用了這樣的邏輯,后面的預測器學習的是前面的預測器的誤差。因此,觀測數(shù)據(jù)出現(xiàn)在后面模型中的概率是不一樣的,誤差越大,出現(xiàn)的概率越高。(所以觀測數(shù)據(jù)不是基于隨機又放回抽樣bootstrap的方式,而是基于誤差)。預測器可以從決策樹,回歸器,分類器中選取。因為新的預測器是從前面的預測器的誤差中學習的,接近實際的預測只需要更少的時間和迭代次數(shù)。但是我們不得不選擇嚴格的停止策略,否則可能會出現(xiàn)過擬合。梯度提升算法就是提升算法的一個例子。

Fig 1.Ensembling

Fig 2.Bagging (independent models) & Boosting (sequential models).Reference:https://quantdare.com/what-is-the-difference-between-bagging-and-boosting/

梯度提升算法

梯度提升是一個機器學習技術,用來做回歸和分類的問題,通過組合弱預測模型如決策樹,來得到一個強預測模型。(維基百科定義)

監(jiān)督學習算法的目標是定義一個損失函數(shù),然后最小化它。我們來看看,數(shù)學上梯度提升算法是怎么工作的。比如我們使用均方誤差(MSE)作為損失函數(shù):

bddbdbae-7c22-11eb-8b86-12bb97331649.jpg

我們希望我們的預測讓我們的損失函數(shù)最小。通過使用梯度提升算法,基于一個學習率來更新我們的預測,我們會發(fā)現(xiàn)一個讓MSE最小的值。

be251cd8-7c22-11eb-8b86-12bb97331649.png

所以,我們基本上是在更新預測,讓殘差的和接近于0(或者最小),這樣預測的值就和實際的值足夠的接近了。

梯度提升背后的直覺

梯度提升背后的邏輯很簡單,(可以很直觀的理解,不用數(shù)據(jù)公式)。我希望讀這篇文章的人能夠熟悉一下簡單的線性回歸模型。

線性回歸模型的一個基本的假設是殘差是0,也就是說,參數(shù)應該在0的周圍分散。

be8c21b2-7c22-11eb-8b86-12bb97331649.png

現(xiàn)在,把這些殘差作為誤差提交到我們的預測模型中。盡管,基于樹的模型(將決策樹作為梯度提升的基礎模型)不是基于這個假設,但是如果我們對這個假設進行邏輯思考,我們也許能提出,如果我們能發(fā)現(xiàn)在0的周圍的殘差一些模式,我們可以利用這個模式來擬合模型。

所以,梯度提升背后的直覺就是重復的利用殘差中的模式利用弱預測器來加強模型,讓模型變得更好。一旦我們到了一個階段,殘差不具有任何的模式,無法進行建模,我們就可以停止了(否則會導致過擬合)。從算法的角度講,我們在最小化損失函數(shù),直到測試損失達到最小。

總結一下:

我們首先使用一個簡單的模型對數(shù)據(jù)進行建模,分析數(shù)據(jù)的誤差。

這些誤差表示數(shù)據(jù)點使用簡單的模型很難進行擬合。

然后對于接下來的模型,我們特別的專注于將那些難于擬合的數(shù)據(jù),把這些數(shù)據(jù)預測正確。

最后,我們將所有的預測器組合起來,對于每個預測器給定一個權重。

擬合梯度提升模型的步驟

我們來模擬一些數(shù)據(jù),如下面的散點圖所示,一個輸入,一個輸出。

beb975d6-7c22-11eb-8b86-12bb97331649.png

上面的數(shù)據(jù)是通過下面的python代碼生成的。

x = np.arange(0,50) x = pd.DataFrame({'x':x}) # just random uniform distributions in differnt range y1 = np.random.uniform(10,15,10) y2 = np.random.uniform(20,25,10) y3 = np.random.uniform(0,5,10) y4 = np.random.uniform(30,32,10) y5 = np.random.uniform(13,17,10) y = np.concatenate((y1,y2,y3,y4,y5)) y = y[:,None]

1.擬合一個簡單的線性回歸模型或者決策樹模型(在我的代碼中選擇了決策樹)[x作為輸入,y作為輸出]

xi = x # initialization of input yi = y # initialization of target # x,y --> use where no need to change original y ei = 0 # initialization of error n = len(yi) # number of rows predf = 0 # initial prediction 0 for i in range(30): # loop will make 30 trees (n_estimators). tree = DecisionTree(xi,yi) # DecisionTree scratch code can be found in shared github/kaggle link. # It just create a single decision tree with provided min. sample leaf tree.find_better_split(0) # For selected input variable, this splits (n) data so that std. deviation of # target variable in both splits is minimum as compared to all other splits r = np.where(xi == tree.split)[0][0] # finds index where this best split occurs left_idx = np.where(xi <= tree.split)[0] # index lhs of split ? ? ?right_idx = np.where(xi > tree.split)[0] # index rhs of split

2.計算誤差,實際的目標值,最小化預測目標值[e1= y - y_predicted1 ]

3.把誤差作為目標值,擬合新的模型,使用同樣的輸入數(shù)據(jù)[叫做e1_predicted]

4.將預測的誤差加到之前的預測之中[y_predicted2 = y_predicted1 + e1_predicted]

5.在剩下的殘差上擬合另一個模型,[e2 = y - y_predicted2],重復第2到第5步,直到開始過擬合,或者殘差的和開始不怎么變換。過擬合可以通過驗證數(shù)據(jù)上的準確率來發(fā)現(xiàn)。

# predictions by ith decisision tree predi = np.zeros(n) np.put(predi, left_idx, np.repeat(np.mean(yi[left_idx]), r)) # replace left side mean y np.put(predi, right_idx, np.repeat(np.mean(yi[right_idx]), n-r)) # right side mean y predi = predi[:,None] # make long vector (nx1) in compatible with y predf = predf + predi # final prediction will be previous prediction value + new prediction of residual ei = y - predf # needed originl y here as residual always from original y yi = ei # update yi as residual to reloop

為了幫助理解劃線部分的概念,這里有個鏈接,有完整的梯度提升模型的實現(xiàn) [[Link: Gradient Boosting from scratch]](https://www.kaggle.com/grroverpr/gradient-boosting-simplified/)。????????????

梯度提升樹的可視化工作

藍色的點(左邊)是輸入(x),紅色的線(左邊)是輸出(y)顯示了決策樹的預測值,綠色的點(右邊)顯示了第i次迭代的殘差vs.輸入(x),迭代表示擬合梯度提升樹的了序列的順序。

bee0a444-7c22-11eb-8b86-12bb97331649.jpg

Fig 5.Visualization of gradient boosting predictions (First 4 iterations)

bf1d7572-7c22-11eb-8b86-12bb97331649.jpg

Fig 6.Visualization of gradient boosting predictions (18th to 20th iterations)

我們發(fā)現(xiàn)過了20個迭代,殘差變成了0附近的隨機分布(我不會說是隨機正態(tài)分布),我們的預測也非常接近于實際值。這時可以停止訓練模型了,否則要開始過擬合了。

我們來看看,50個迭代之后的樣子:

bf64abcc-7c22-11eb-8b86-12bb97331649.jpg

Fig 7. Visualization of gradient boosting prediction (iteration 50th)

我們發(fā)現(xiàn),即使是50個迭代之后,殘差vs. x的圖和我們看到的20個迭代的圖也沒太大區(qū)別。但是模型正在變的越來越復雜,預測結果在訓練數(shù)據(jù)上出現(xiàn)了過擬合。所以,最好是在20個迭代的時候就停止。

用來畫圖的python代碼。

# plotting after prediction xa = np.array(x.x) # column name of x is x order = np.argsort(xa) xs = np.array(xa)[order] ys = np.array(predf)[order] #epreds = np.array(epred[:,None])[order] f, (ax1, ax2) = plt.subplots(1, 2, sharey=True, figsize = (13,2.5)) ax1.plot(x,y, 'o') ax1.plot(xs, ys, 'r') ax1.set_title(f'Prediction (Iteration {i+1})') ax1.set_xlabel('x') ax1.set_ylabel('y / y_pred') ax2.plot(x, ei, 'go') ax2.set_title(f'Residuals vs. x (Iteration {i+1})') ax2.set_xlabel('x') ax2.set_ylabel('Residuals')

我希望這個博客可以幫助你對梯度提升算法的工作有一個基本的直覺。為了理解梯度提升回歸算法的細節(jié),我強烈建議你讀一讀下面這些文章。

更多有用的資源

我的github倉庫和kaggle的kernel的鏈接,從頭開始GBM

https://www.kaggle.com/grroverpr/gradient-boosting-simplified/https://nbviewer.jupyter.org/github/groverpr/Machine-Learning/blob/master/notebooks/01_Gradient_Boosting_Scratch.ipynb

一個直觀和細致的梯度提升算法的解釋

http://explained.ai/gradient-boosting/index.html

Fast.ai的github倉庫鏈接,從頭開始做決策樹

https://github.com/fastai/fastai

Alexander Ihler的視頻,這視頻幫我理解了很多。

https://youtu.be/sRktKszFmSk

最常用的GBM算法

XGBoost || Lightgbm || Catboost || sklearn.ensemble.GradientBoostingClassifier

責任編輯:lq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經(jīng)網(wǎng)絡

    關注

    42

    文章

    4777

    瀏覽量

    100960
  • 算法
    +關注

    關注

    23

    文章

    4624

    瀏覽量

    93119
  • 機器學習
    +關注

    關注

    66

    文章

    8428

    瀏覽量

    132845

原文標題:【算法理解】從頭開始理解梯度提升算法

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    基于梯度下降算法的三元鋰電池循環(huán)壽命預測

    不同比例、范圍的訓練集與測試集劃分?;跈C器學習的梯度下降算法對訓練集進行模型訓練,以迭代后的權重值、偏置值進行結果預測并與試驗數(shù)據(jù)進行對比。結果表明:適宜參數(shù)下的梯度下降算法可以應用
    的頭像 發(fā)表于 01-16 10:19 ?89次閱讀
    基于<b class='flag-5'>梯度</b>下降<b class='flag-5'>算法</b>的三元鋰電池循環(huán)壽命預測

    梯度科技入選2024云原生企業(yè)TOP50榜單

    近日,國內(nèi)專業(yè)咨詢機構DBC德本咨詢發(fā)布“2024云原生企業(yè)TOP50”榜單。梯度科技憑借自主研發(fā)的“梯度智能云平臺”入選該榜單,彰顯公司在該領域的行業(yè)競爭力。
    的頭像 發(fā)表于 12-06 11:35 ?296次閱讀

    訓練RNN時如何避免梯度消失

    在處理長序列數(shù)據(jù)時,RNN(循環(huán)神經(jīng)網(wǎng)絡)模型可能會面臨梯度消失的問題,這是由于反向傳播過程中,由于連續(xù)的乘法操作,梯度會指數(shù)級地衰減,導致較早的時間步的輸入對較后時間步的梯度幾乎沒有影響,難以進行
    的頭像 發(fā)表于 11-15 10:01 ?393次閱讀

    梯度科技和廣西大學計算機與電子信息學院達成戰(zhàn)略合作

    日前,梯度科技與廣西大學計算機與電子信息學院戰(zhàn)略合作簽約暨信創(chuàng)實習實訓基地揭牌儀式在南寧舉行。廣西大學計算機與電子信息學院副院長兼信息安全系主任鄭嘉利、信息安全系副主任劉瀟,梯度科技聯(lián)席總裁劉井山、副總裁田正明、總經(jīng)理助理滿柏宇等共同出席簽約暨揭牌儀式。
    的頭像 發(fā)表于 09-09 16:31 ?652次閱讀

    芯片表面溫度梯度對功率循環(huán)壽命的影響

    表面的溫度分布存在溫度梯度,因此每個鍵腳承受的熱應力也存在差異,芯片的壽命是否取決于承受最高應力的鍵腳一直是研究的難點。文中將脫離有限元仿真分析應力壽命關系的研究方法,重點考慮芯片表面的溫度梯度對芯片壽命的影響,通過提取溫度
    的頭像 發(fā)表于 07-21 16:12 ?656次閱讀
    芯片表面溫度<b class='flag-5'>梯度</b>對功率循環(huán)壽命的影響

    圖像識別算法提升有哪些

    引言 圖像識別是計算機視覺領域的核心任務之一,旨在使計算機能夠自動地識別和理解圖像中的內(nèi)容。隨著計算機硬件的發(fā)展和深度學習技術的突破,圖像識別算法的性能得到了顯著提升。本文將介紹圖像識別算法
    的頭像 發(fā)表于 07-16 11:12 ?692次閱讀

    中偉視界:智能監(jiān)控和預警,靜止超時AI算法如何提升非煤礦山安全?

    本文詳細介紹了靜止超時AI算法在非煤礦山的工作原理、技術實現(xiàn)細節(jié)和應用場景,并分析了其在安全管理中的實際效果。通過智能監(jiān)控和預警,靜止超時AI算法能夠提高礦山的安全防控水平,提升管理效率,降低運營
    的頭像 發(fā)表于 07-14 11:29 ?1156次閱讀
    中偉視界:智能監(jiān)控和預警,靜止超時AI<b class='flag-5'>算法</b>如何<b class='flag-5'>提升</b>非煤礦山安全?

    神經(jīng)網(wǎng)絡反向傳播算法的優(yōu)缺點有哪些

    是一種模擬人腦神經(jīng)元網(wǎng)絡的計算模型,具有強大的非線性映射能力和泛化能力。反向傳播算法是訓練神經(jīng)網(wǎng)絡的核心算法,通過梯度下降法優(yōu)化網(wǎng)絡權重,使網(wǎng)絡輸出盡可能接近目標值。然而,反向傳播算法
    的頭像 發(fā)表于 07-03 11:24 ?1150次閱讀

    神經(jīng)網(wǎng)絡反向傳播算法的原理、數(shù)學推導及實現(xiàn)步驟

    神經(jīng)網(wǎng)絡反向傳播算法(Backpropagation Algorithm)是一種用于訓練多層神經(jīng)網(wǎng)絡的算法,其基本原理是通過梯度下降法來最小化損失函數(shù),從而找到網(wǎng)絡的最優(yōu)權重和偏置。本文將介紹反向
    的頭像 發(fā)表于 07-03 11:16 ?876次閱讀

    有源矩陣數(shù)字微流控芯片,用于生成高分辨率濃度梯度

    在生物化學研究中,樣本的濃度梯度制備對于理解復雜的生物學過程至關重要。濃度梯度在例如DNA分析、藥物篩選和免疫學分析等多種生物化學實驗中起核心作用。
    的頭像 發(fā)表于 05-19 17:40 ?1186次閱讀
    有源矩陣數(shù)字微流控芯片,用于生成高分辨率濃度<b class='flag-5'>梯度</b>

    JPEG LS算法局部梯度值計算原理

    如果同一個上下文中對少量元素進行編碼,通常無法獲得足夠的上下文編碼信息。但是如果對大量元素進行編碼又會帶來存儲空間變大的問題。因此要對局部梯度值進行量化處理。
    的頭像 發(fā)表于 04-25 10:46 ?509次閱讀
    JPEG LS<b class='flag-5'>算法</b>局部<b class='flag-5'>梯度</b>值計算原理

    功率放大器在聲波截面梯度場的重建及其在聲波場處理中的應用

      實驗名稱:電壓放大器在聲波截面梯度場的重建及其在聲波場處理中的應用   實驗內(nèi)容:水下聲信號在傳播過程中會引起介質折射率的變化,當激光穿過聲擾動介質時,介質折射率的空間變化引起激光束的偏轉,利用
    發(fā)表于 03-08 17:45

    場強是電勢的梯度如何證明

    場強與電勢之間的關系是通過電場定律來描述的。根據(jù)電場定律,電勢場中任意一點產(chǎn)生的場強是該點電勢在該點空間梯度的負號,即: (vec{E} = - nabla V) 其中,(vec{E})是電場
    的頭像 發(fā)表于 02-26 16:10 ?1468次閱讀

    電場強度相等的地方,電勢梯度一定相等嗎

    電場強度和電勢梯度是電場性質的兩個不同方面。雖然它們在某些情況下是相關的,但并不一定完全相等。 首先,我們來了解一下電場強度和電勢梯度的基本概念。 電場強度(E)是一個矢量量,定義為單位正電荷所受
    的頭像 發(fā)表于 02-26 16:07 ?2866次閱讀

    應用大模型提升研發(fā)效率的實踐與探索

    對于模型訓練,我們可以采用 3D 并行訓練的方式來實現(xiàn)。將模型參數(shù)和梯度張量劃分為多個分區(qū),分配到不同 GPU 卡上進行計算。每張卡負責自己分區(qū)的梯度和參數(shù)更新工作,間隔時同步到其他卡上。這樣可以很好地利用更多計算資源,降低單卡資源需求。
    的頭像 發(fā)表于 02-22 11:47 ?647次閱讀
    應用大模型<b class='flag-5'>提升</b>研發(fā)效率的實踐與探索