0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

詳談機(jī)器學(xué)習(xí)的決策樹(shù)模型

如意 ? 來(lái)源:逍遙埠 ? 作者:逍遙埠 ? 2020-07-06 09:49 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

決策樹(shù)模型是白盒模型的一種,其預(yù)測(cè)結(jié)果可以由人來(lái)解釋。我們把機(jī)器學(xué)習(xí)模型的這一特性稱為可解釋性,但并不是所有的機(jī)器學(xué)習(xí)模型都具有可解釋性。

作為可解釋性屬性的一部分,特征重要性是一個(gè)衡量每個(gè)輸入特征對(duì)模型預(yù)測(cè)結(jié)果貢獻(xiàn)的指標(biāo),即某個(gè)特征上的微小變化如何改變預(yù)測(cè)結(jié)果。

直覺(jué)

不同于基尼不純度或熵,沒(méi)有一個(gè)通用的數(shù)學(xué)公式來(lái)定義特征的重要性,而特征的重要性在不同的模型中是不同的。

例如,對(duì)于線性回歸模型,假設(shè)所有輸入特征具有相同的尺度(如[0,1],那么每個(gè)特征的特征重要性就是與該特征相關(guān)的權(quán)值的絕對(duì)值。從這個(gè)公式可以看出線性回歸模型的f (X) =∑i = 1 n (wixi),模型的結(jié)果是線性正比于每個(gè)組件(wixi)這是由重量決定的(wi)的組件。

對(duì)于決策樹(shù),為了度量特征的重要性,我們需要研究模型,看看每個(gè)特征是如何在模型的最終“決策”中發(fā)揮作用的。從前面的文章中我們了解到,在決策樹(shù)模型中,在每個(gè)決策節(jié)點(diǎn)上,我們選擇最佳的特征進(jìn)行分割,以便進(jìn)一步區(qū)分到達(dá)該決策節(jié)點(diǎn)的樣本。在每一次分割中,我們都更接近最終的決定(即葉節(jié)點(diǎn))。因此,我們可以說(shuō),在每個(gè)決策節(jié)點(diǎn)上,所選擇的分割特征決定了最終的預(yù)測(cè)結(jié)果。直觀地說(shuō),我們也可以說(shuō),那些被選擇的特征比那些實(shí)際上在決策過(guò)程中沒(méi)有作用的非被選擇的特征更重要?,F(xiàn)在,剩下的問(wèn)題是我們?nèi)绾瘟炕睾饬窟@種重要性。

有人可能還記得,我們使用信息增益或基尼系數(shù)來(lái)衡量分割的質(zhì)量。當(dāng)然,還可以將增益與所選擇的特性關(guān)聯(lián)起來(lái),并使用增益來(lái)量化該特性在這個(gè)特定的分裂發(fā)生時(shí)的貢獻(xiàn)。此外,我們可以累積決策樹(shù)中出現(xiàn)的每個(gè)特征的增益。

最后,每個(gè)特征的累積增益可以作為決策樹(shù)模型的特征重要性。

另一方面,作為一個(gè)可能會(huì)注意到,這一決定節(jié)點(diǎn)不是同樣重要的是,自從決定節(jié)點(diǎn)樹(shù)的根可以幫助過(guò)濾所有的輸入樣本,而決定節(jié)點(diǎn)樹(shù)的底部有助于區(qū)分總樣本的只有少數(shù)。因此,一個(gè)特征在每個(gè)決策節(jié)點(diǎn)獲得的增益的權(quán)重并不相同,即一個(gè)特征在一個(gè)決策節(jié)點(diǎn)獲得的增益應(yīng)按該決策節(jié)點(diǎn)幫助區(qū)分的樣本比例進(jìn)行加權(quán)。

基于上述直覺(jué),我們可以推導(dǎo)出以下公式來(lái)計(jì)算決策樹(shù)中每個(gè)特征的重要性I:

詳談機(jī)器學(xué)習(xí)的決策樹(shù)模型

注:我們可以用上述公式中的信息增益來(lái)代替基尼系數(shù)增益度量,只要我們對(duì)所有特征都使用相同的度量。

通過(guò)上面的公式,我們可以得到一個(gè)值來(lái)衡量決策樹(shù)中每個(gè)特征的重要性。有時(shí),可能需要對(duì)值進(jìn)行規(guī)范化,以便更直觀地比較這些值,即將所有值縮放到(0,1)的范圍內(nèi)。例如,如果有兩個(gè)特征經(jīng)過(guò)歸一化后得分相同(即0.5),我們可以說(shuō)它們?cè)跊Q策樹(shù)中同等重要。

舉個(gè)例子

讓我們看一個(gè)具體的例子,看看我們?nèi)绾螒?yīng)用上面的公式來(lái)計(jì)算決策樹(shù)中的特征重要性。首先,我們?cè)谙聢D中展示了一個(gè)實(shí)例決策樹(shù)。

詳談機(jī)器學(xué)習(xí)的決策樹(shù)模型

從圖中可以看出,該樹(shù)中共有3個(gè)決策節(jié)點(diǎn)。在每個(gè)決策節(jié)點(diǎn)中,我們指出了三條信息:

1、選擇要分割的特性。

2、特征獲得的基尼系數(shù)

3、分別分配給左子節(jié)點(diǎn)和右子節(jié)點(diǎn)的樣本數(shù)量。

此外,我們可以看出決策樹(shù)總共訓(xùn)練了100個(gè)樣本。

因此,我們可以計(jì)算出樹(shù)中涉及的兩個(gè)特征的特征重要性如下:

詳談機(jī)器學(xué)習(xí)的決策樹(shù)模型

進(jìn)一步,我們可以得到歸一化特征重要性如下:

詳談機(jī)器學(xué)習(xí)的決策樹(shù)模型

后記:路漫漫其修遠(yuǎn)兮,吾將上下而求索!

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8499

    瀏覽量

    134326
  • 決策樹(shù)
    +關(guān)注

    關(guān)注

    3

    文章

    96

    瀏覽量

    13799
  • 白盒測(cè)試
    +關(guān)注

    關(guān)注

    1

    文章

    15

    瀏覽量

    10742
收藏 0人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    十大鮮為人知卻功能強(qiáng)大的機(jī)器學(xué)習(xí)模型

    本文轉(zhuǎn)自:QuantML當(dāng)我們談?wù)?b class='flag-5'>機(jī)器學(xué)習(xí)時(shí),線性回歸、決策樹(shù)和神經(jīng)網(wǎng)絡(luò)這些常見(jiàn)的算法往往占據(jù)了主導(dǎo)地位。然而,除了這些眾所周知的模型之外,還存在一些鮮為人知但功能強(qiáng)大的算法,它們能夠
    的頭像 發(fā)表于 04-02 14:10 ?470次閱讀
    十大鮮為人知卻功能強(qiáng)大的<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>模型</b>

    機(jī)器學(xué)習(xí)模型市場(chǎng)前景如何

    當(dāng)今,隨著算法的不斷優(yōu)化、數(shù)據(jù)量的爆炸式增長(zhǎng)以及計(jì)算能力的飛速提升,機(jī)器學(xué)習(xí)模型的市場(chǎng)前景愈發(fā)廣闊。下面,AI部落小編將探討機(jī)器學(xué)習(xí)
    的頭像 發(fā)表于 02-13 09:39 ?330次閱讀

    Kaggle知識(shí)點(diǎn):7種超參數(shù)搜索方法

    問(wèn)題。一些常見(jiàn)的超參數(shù)例子包括梯度基算法中的學(xué)習(xí)率,或者決策樹(shù)算法中樹(shù)的深度,這些可以直接影響模型準(zhǔn)確擬合訓(xùn)練數(shù)據(jù)的能力。超參數(shù)調(diào)優(yōu)涉及在復(fù)雜的、高維的超參數(shù)空間中
    的頭像 發(fā)表于 02-08 14:28 ?889次閱讀
    Kaggle知識(shí)點(diǎn):7種超參數(shù)搜索方法

    樹(shù)科技在物聯(lián)網(wǎng)方面

    。 人工智能算法優(yōu)化:宇樹(shù)科技不斷優(yōu)化其機(jī)器人的人工智能算法,使其能夠在物聯(lián)網(wǎng)環(huán)境中更好地進(jìn)行智能決策。通過(guò)機(jī)器學(xué)習(xí)、深度
    發(fā)表于 02-04 06:48

    xgboost超參數(shù)調(diào)優(yōu)技巧 xgboost在圖像分類(lèi)中的應(yīng)用

    一、XGBoost超參數(shù)調(diào)優(yōu)技巧 XGBoost(eXtreme Gradient Boosting)是一種基于梯度提升決策樹(shù)(GBDT)的高效梯度提升框架,在機(jī)器學(xué)習(xí)競(jìng)賽和實(shí)際業(yè)務(wù)應(yīng)用中取得了卓越
    的頭像 發(fā)表于 01-31 15:16 ?1154次閱讀

    xgboost與LightGBM的優(yōu)勢(shì)對(duì)比

    Gradient Boosting) 是一種基于梯度提升決策樹(shù)(GBDT)的優(yōu)化分布式梯度提升庫(kù),由陳天奇等人于2014年提出。它通過(guò)優(yōu)化目標(biāo)函數(shù)的負(fù)梯度來(lái)構(gòu)建樹(shù)模型,并支持并行和GPU加速。 LightGBM
    的頭像 發(fā)表于 01-19 11:18 ?1127次閱讀

    xgboost的并行計(jì)算原理

    之一。 XGBoost簡(jiǎn)介 XGBoost是一種基于梯度提升框架的集成學(xué)習(xí)算法,它通過(guò)構(gòu)建多個(gè)決策樹(shù)來(lái)提高模型的預(yù)測(cè)性能。與傳統(tǒng)的梯度提升樹(shù)相比,XGBoost在算法上進(jìn)行了優(yōu)化,包括
    的頭像 發(fā)表于 01-19 11:17 ?959次閱讀

    xgboost在圖像分類(lèi)中的應(yīng)用

    XGBoost(eXtreme Gradient Boosting)是一種高效的機(jī)器學(xué)習(xí)算法,它基于梯度提升框架,通過(guò)構(gòu)建多個(gè)弱學(xué)習(xí)器(通常是決策樹(shù))來(lái)提高
    的頭像 發(fā)表于 01-19 11:16 ?950次閱讀

    什么是機(jī)器學(xué)習(xí)?通過(guò)機(jī)器學(xué)習(xí)方法能解決哪些問(wèn)題?

    來(lái)源:Master編程樹(shù)機(jī)器學(xué)習(xí)”最初的研究動(dòng)機(jī)是讓計(jì)算機(jī)系統(tǒng)具有人的學(xué)習(xí)能力以便實(shí)現(xiàn)人工智能。因?yàn)闆](méi)有學(xué)習(xí)能力的系統(tǒng)很難被認(rèn)為是具有智能
    的頭像 發(fā)表于 11-16 01:07 ?934次閱讀
    什么是<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>?通過(guò)<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>方法能解決哪些問(wèn)題?

    AI大模型與深度學(xué)習(xí)的關(guān)系

    AI大模型與深度學(xué)習(xí)之間存在著密不可分的關(guān)系,它們互為促進(jìn),相輔相成。以下是對(duì)兩者關(guān)系的介紹: 一、深度學(xué)習(xí)是AI大模型的基礎(chǔ) 技術(shù)支撐 :深度學(xué)習(xí)
    的頭像 發(fā)表于 10-23 15:25 ?2791次閱讀

    AI大模型與傳統(tǒng)機(jī)器學(xué)習(xí)的區(qū)別

    AI大模型與傳統(tǒng)機(jī)器學(xué)習(xí)在多個(gè)方面存在顯著的區(qū)別。以下是對(duì)這些區(qū)別的介紹: 一、模型規(guī)模與復(fù)雜度 AI大模型 :通常包含數(shù)十億甚至數(shù)萬(wàn)億的參
    的頭像 發(fā)表于 10-23 15:01 ?2499次閱讀

    pycharm如何訓(xùn)練機(jī)器學(xué)習(xí)模型

    PyCharm是一個(gè)流行的Python集成開(kāi)發(fā)環(huán)境(IDE),它提供了豐富的功能,包括代碼編輯、調(diào)試、測(cè)試等。在本文中,我們將介紹如何在PyCharm中訓(xùn)練機(jī)器學(xué)習(xí)模型。 一、安裝PyCharm
    的頭像 發(fā)表于 07-11 10:14 ?1641次閱讀

    Al大模型機(jī)器

    豐富的知識(shí)儲(chǔ)備。它們可以涵蓋各種領(lǐng)域的知識(shí),并能夠回答相關(guān)問(wèn)題。靈活性與通用性: AI大模型機(jī)器人具有很強(qiáng)的靈活性和通用性,能夠處理各種類(lèi)型的任務(wù)和問(wèn)題。持續(xù)學(xué)習(xí)和改進(jìn): 這些模型可以
    發(fā)表于 07-05 08:52

    人工神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)機(jī)器學(xué)習(xí)模型的區(qū)別

    人工神經(jīng)網(wǎng)絡(luò)(ANN)與傳統(tǒng)機(jī)器學(xué)習(xí)模型之間的不同,包括其原理、數(shù)據(jù)處理能力、學(xué)習(xí)方法、適用場(chǎng)景及未來(lái)發(fā)展趨勢(shì)等方面,以期為讀者提供一個(gè)全面的視角。
    的頭像 發(fā)表于 07-04 14:08 ?2648次閱讀

    機(jī)器學(xué)習(xí)算法原理詳解

    機(jī)器學(xué)習(xí)作為人工智能的一個(gè)重要分支,其目標(biāo)是通過(guò)讓計(jì)算機(jī)自動(dòng)從數(shù)據(jù)中學(xué)習(xí)并改進(jìn)其性能,而無(wú)需進(jìn)行明確的編程。本文將深入解讀幾種常見(jiàn)的機(jī)器學(xué)習(xí)
    的頭像 發(fā)表于 07-02 11:25 ?2264次閱讀

    電子發(fā)燒友

    中國(guó)電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會(huì)員交流學(xué)習(xí)
    • 獲取您個(gè)性化的科技前沿技術(shù)信息
    • 參加活動(dòng)獲取豐厚的禮品