0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Amro通過一個簡單的二元分類決策樹解釋信息熵和信息增益這兩個概念

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-04-17 16:30 ? 次閱讀

StackOverflow人氣答主(top 0.12%)Amro通過一個簡單的二元分類決策樹例子,簡明扼要地解釋了信息熵和信息增益這兩個概念。

為了解釋熵這個概念,讓我們想象一個分類男女名字的監(jiān)督學(xué)習(xí)任務(wù)。給定一個名字列表,每個名字標(biāo)記為m(男)或f(女),我們想要學(xué)習(xí)一個擬合數(shù)據(jù)的模型,該模型可以用來預(yù)測未見的新名字的性別。

現(xiàn)在我們想要預(yù)測“Amro”的性別(Amro是我的名字)。

第一步,我們需要判定哪些數(shù)據(jù)特征和我們想要預(yù)測的目標(biāo)分類相關(guān)。一些特征的例子包括:首/末字母、長度、元音數(shù)量、是否以元音結(jié)尾,等等。所以,提取特征之后,我們的數(shù)據(jù)是這樣的:

我們可以構(gòu)建一棵決策樹,一棵樹的例子:

長度<7

| 元音數(shù)量<3: 男

| 元音數(shù)量>=3

| | 元音結(jié)尾=1: 女

| | 元音結(jié)尾=0: 男

長度>=7

| 長度=5: 男

基本上,每個節(jié)點代表在單一屬性上進行的測試,我們根據(jù)測試的結(jié)果決定向左還是向右。我們持續(xù)沿著樹走,直到我們到達包含分類預(yù)測的葉節(jié)點(m或f)。

因此,如果我們運行這棵決策樹判定Amro,我們首次測試“長度<7?”答案為是,因此我們沿著分支往下,下一個測試是“元音數(shù)量<3?”答案同樣為真。這將我們導(dǎo)向標(biāo)簽為m的葉節(jié)點,因此預(yù)測是男性(我碰巧是男性,因此這棵決策樹的預(yù)測正確)。

決策樹以自頂向下的方式創(chuàng)建,但問題在于如何選擇分割每個節(jié)點的屬性?答案是找到能將目標(biāo)分類分割為盡可能純粹的子節(jié)點的特征(即:只包含單一分類的純粹節(jié)點優(yōu)于同時包含男名和女名的混合節(jié)點)。

這一純粹性的量度稱為信息。它表示,給定到達節(jié)點的樣本,指定一個新實例(名字)應(yīng)該被分類為男性或女性的期望的信息量。我們根據(jù)節(jié)點處的男名分類和女名分類的數(shù)量計算它。

另一方面,熵是不純粹性的量度(與信息相反)。對二元分類而言,熵的定義為:

Entropy = - p(a)*log(p(a)) - p(b)*log(p(b))

這一二元熵函數(shù)的圖像如下圖所示。當(dāng)概率為p=1/2時,該函數(shù)達到其最大值,這意味著p(X=a)=0.5或類似的p(X=b)=0.5,即50%對50%的概率為a或b(不確定性最大)。當(dāng)概率為p=1或p=0時(完全確定),熵函數(shù)達到其最小值零(p(X=a)=1或p(X=a)=0,后者意味著p(X=b)=1)。

當(dāng)然,熵的定義可以推廣到有N個離散值(超過2)的隨機變量X:

(公式中的log通常為以2為底的對數(shù))

回到我們的名字分類任務(wù)中,讓我們看一個例子。想象一下,在構(gòu)建決策樹的過程中的某一點,我們考慮如下分割:

以元音結(jié)尾

[9m,5f]

/ \

=1 =0

------- -------

[3m,4f] [6m,1f]

如你所見,在分割前,我們有9個男名、5個女名,即P(m)=9/14,P(f)=5/14。根據(jù)熵的定義,分割前的熵為:

Entropy_before = - (5/14)*log2(5/14) - (9/14)*log2(9/14) = 0.9403

接下來我們將其與分割后的熵比較。在以元音結(jié)尾為真=1的左分支中,我們有:

Entropy_left = - (3/7)*log2(3/7) - (4/7)*log2(4/7) = 0.9852

而在以元音結(jié)尾為假=0的右分支中,我們有:

Entropy_right = - (6/7)*log2(6/7) - (1/7)*log2(1/7) = 0.5917

我們以每個分支上的實例數(shù)量作為權(quán)重因子(7個實例向左,7個實例向右),得出分割后的最終權(quán)重:

Entropy_after = 7/14*Entropy_left + 7/14*Entropy_right = 0.7885

現(xiàn)在比較分割前后的權(quán)重,我們得到信息增益的這一量度,也就是說,基于特定特征進行分割后,我們獲得了多少信息:

Information_Gain = Entropy_before - Entropy_after = 0.1518

你可以如此解釋以上運算:通過以“元音結(jié)尾”特征進行分割,我們得以降低子樹預(yù)測輸出的不確定性,降幅為一個較小的數(shù)值0.1518(單位為比特,比特為信息單位)。

在樹的每一個節(jié)點,為每個特征進行這一運算,以貪婪的方式選擇可以取得最大信息增益的特征進行分割(從而偏好產(chǎn)生較低不確定性/熵的純分割)。從根節(jié)點向下遞歸應(yīng)用此過程,停止于包含的節(jié)點均屬同一分類的葉節(jié)點(不用再進一步分割了)。

注意,我省略了超出本文范圍的一些細節(jié),包含如何處理數(shù)值特征、缺失特征、過擬合、剪枝樹,等等。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 決策樹
    +關(guān)注

    關(guān)注

    3

    文章

    96

    瀏覽量

    13558
  • 信息熵
    +關(guān)注

    關(guān)注

    0

    文章

    13

    瀏覽量

    7107

原文標(biāo)題:信息論視角下的決策樹算法:信息熵和信息增益

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    關(guān)于決策樹,這些知識點不可錯過

    種算法。它既是分類算法,也是回歸算法,還可以用在隨機森林中。咱們學(xué)計算機的同學(xué)經(jīng)常敲if 、else if、else其實就已經(jīng)在用到決策樹的思想了。決策樹
    發(fā)表于 05-23 09:38

    數(shù)據(jù)挖掘十大經(jīng)典算法,你都知道哪些!

    ,ID3使用的是(shang),種不純度度量準(zhǔn)則,也就是的變化值,而C4.5用的是信息增益率。區(qū)別就在于
    發(fā)表于 11-06 17:02

    決策樹的生成資料

    在本文中,我們將討論種監(jiān)督式學(xué)習(xí)算法。最新代意法半導(dǎo)體 MEMS 傳感器內(nèi)置基于決策樹分類
    發(fā)表于 09-08 06:50

    基于粗集的決策樹規(guī)則提取算法

    基于粗集的決策樹規(guī)則提取算法:摘要:決策樹是數(shù)據(jù)挖掘任務(wù)中分類的常用方法。在構(gòu)造決策樹的過程
    發(fā)表于 10-10 15:13 ?12次下載

    改進決策樹算法的應(yīng)用研究

    該方法利用決策樹算法構(gòu)造決策樹,通過分類結(jié)果中主客觀屬性進行標(biāo)記并邏輯運算,最終得到較客觀的決策信息
    發(fā)表于 02-07 11:38 ?27次下載
    改進<b class='flag-5'>決策樹</b>算法的應(yīng)用研究

    機器學(xué)習(xí)之決策樹生成詳解

    根據(jù)給定的數(shù)據(jù)集創(chuàng)建決策樹就是機器學(xué)習(xí)的課程,創(chuàng)建決策樹可能會花費較多的時間,但是使用
    發(fā)表于 08-27 14:38 ?1.9w次閱讀
    機器學(xué)習(xí)之<b class='flag-5'>決策樹</b>生成詳解

    決策樹C4.5算法屬性取值優(yōu)化研究

    決策樹算法是種最簡單、最直接、最有效的文本分類算法。最早的決策樹算法是ID3算法,于1986年由Quinlan提出,該算法是
    發(fā)表于 12-12 11:20 ?0次下載

    決策樹的原理和決策樹構(gòu)建的準(zhǔn)備工作,機器學(xué)習(xí)決策樹的原理

    希望通過所給的訓(xùn)練數(shù)據(jù)學(xué)習(xí)貸款申請的決策樹,用于對未來的貸款申請進行分類,即當(dāng)新的客戶提出貸款申請時,根據(jù)申請人的特征利用
    的頭像 發(fā)表于 10-08 14:26 ?6015次閱讀

    什么是決策樹?決策樹算法思考總結(jié)

    C4.5算法:基于ID3算法的改進,主要包括:使用信息增益率替換了信息增益下降度作為屬性選擇的標(biāo)準(zhǔn);在決策樹構(gòu)造的同時進行剪枝操作;避免了
    的頭像 發(fā)表于 02-04 09:45 ?1.1w次閱讀
    什么是<b class='flag-5'>決策樹</b>?<b class='flag-5'>決策樹</b>算法思考總結(jié)

    如何使用最優(yōu)決策樹分類模型進行奶牛運動行為的識別

    、陡峭程度、變異程度、不確定性及夾角的 24 統(tǒng)計特征量,其次通過構(gòu)建 ROC(receiver operating characteristic,ROC)曲線獲得各統(tǒng)計特征量的最佳行為類別分組方式及最優(yōu)閾值,然后利用信息
    發(fā)表于 04-24 08:00 ?0次下載
    如何使用最優(yōu)<b class='flag-5'>二</b>叉<b class='flag-5'>決策樹</b><b class='flag-5'>分類</b>模型進行奶牛運動行為的識別

    決策樹的構(gòu)成要素及算法

    決策樹種解決分類問題的算法,決策樹算法采用樹形結(jié)構(gòu),使用層層推理來實現(xiàn)最終的分類。
    發(fā)表于 08-27 09:52 ?4382次閱讀

    決策樹的基本概念/學(xué)習(xí)步驟/算法/優(yōu)缺點

    本文將介紹決策樹的基本概念、決策樹學(xué)習(xí)的3步驟、3種典型的決策樹算法、決策樹的10
    發(fā)表于 01-27 10:03 ?2663次閱讀
    <b class='flag-5'>決策樹</b>的基本<b class='flag-5'>概念</b>/學(xué)習(xí)步驟/算法/優(yōu)缺點

    什么是決策樹模型,決策樹模型的繪制方法

    決策樹種解決分類問題的算法,本文將介紹什么是決策樹模型,常見的用途,以及如何使用“億圖圖示”軟件繪制決策樹模型。
    發(fā)表于 02-18 10:12 ?1.3w次閱讀
    什么是<b class='flag-5'>決策樹</b>模型,<b class='flag-5'>決策樹</b>模型的繪制方法

    基于非均衡數(shù)據(jù)分類的猶豫模糊決策樹

    2種不同的隸屬度函數(shù)對數(shù)據(jù)集進行模糊化處理。在此基礎(chǔ)上,根據(jù)隸屬度函數(shù)和猶豫模糊集的信息能量求得各屬性的猶豫模糊信息增益,選取最大值替代Fuκzy⑩3算法中的模糊信息
    發(fā)表于 06-09 15:51 ?5次下載

    大數(shù)據(jù)—決策樹

    認為是if-then的集合,也可以認為是定義在特征空間與類空間上的條件概率分布。 決策樹通常有三步驟:特征選擇、決策樹的生成、決策樹的修剪。 用
    的頭像 發(fā)表于 10-20 10:01 ?1221次閱讀