0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

利用SHAP實(shí)現(xiàn)機(jī)器學(xué)習(xí)模型的輸出預(yù)測

汽車玩家 ? 來源:人工智能遇見磐創(chuàng) ? 作者:人工智能遇見磐創(chuàng) ? 2020-05-04 18:09 ? 次閱讀

解釋產(chǎn)生特定NBA球員預(yù)測薪水的特征(github)

利用SHAP實(shí)現(xiàn)機(jī)器學(xué)習(xí)模型的輸出預(yù)測

我最喜歡的庫之一是SHAP,它是解釋機(jī)器學(xué)習(xí)模型生成的輸出不可或缺的工具。 SHAP是幾種不同的當(dāng)前解釋模型的頂點(diǎn),并且通過為每個(gè)特征分配重要性值來表示用于解釋模型預(yù)測的統(tǒng)一框架。反過來,可以繪制這些重要性值,并用于產(chǎn)生任何人都可以輕易解釋的漂亮可視化。在您閱讀時(shí),您會(huì)注意到主題是可解釋性,以及為什么它在機(jī)器學(xué)習(xí)中如此迫切。

在本文中,我提供了一個(gè)外行人對(duì)其作者Scott Lundberg和Su-In Lee的原始論文的評(píng)論

目的

線性模型易于解釋。 考慮用于預(yù)測NBA球員薪水的經(jīng)典線性回歸模型(假設(shè)薪水完全基于每場比賽得分):

利用SHAP實(shí)現(xiàn)機(jī)器學(xué)習(xí)模型的輸出預(yù)測

我們簡單地將其解釋為β1,即X對(duì)Y單位增加的平均影響。換句話說,如果凱文杜蘭特得到27.5分,那么我們所要做的就是乘以β1來預(yù)測他的薪水。 使用線性模型,很明顯模型如何達(dá)到預(yù)測。

但是神經(jīng)網(wǎng)絡(luò)呢,那里有重復(fù)的矩陣乘法和激活函數(shù)? 我們?nèi)绾卧谳敵龅纳舷挛闹薪忉屵@一點(diǎn)?

利用SHAP實(shí)現(xiàn)機(jī)器學(xué)習(xí)模型的輸出預(yù)測

隨著我們轉(zhuǎn)向更復(fù)雜的模型,具有更高的準(zhǔn)確性,我們發(fā)現(xiàn)越來越難以解釋這些模型如何產(chǎn)生預(yù)測。 由于以下幾個(gè)原因,這是一個(gè)岌岌可危的困境:

·模型偏差是一個(gè)重要問題,因?yàn)樗鼈冏罱K可能會(huì)對(duì)決策產(chǎn)生不公平的影響。 一些數(shù)據(jù)存在內(nèi)在偏差,特別是在涉及種族和性別偏見時(shí),這會(huì)對(duì)模型的預(yù)測產(chǎn)生負(fù)面影響。 由于沒有好的方法來解釋模型如何做出決定,因此很難確定這些固有的偏見。

·模型改進(jìn)也很困難如果您不知道要改進(jìn)什么。當(dāng)然,您可以調(diào)整超參數(shù),直到獲得最佳分?jǐn)?shù),但您擁有的數(shù)據(jù)類型更為重要。了解模型中不同特征的價(jià)值可為數(shù)據(jù)收集提供有價(jià)值的反饋,告知我們哪些類型的數(shù)據(jù)最重要.

·用戶信任對(duì)于采用人工智能系統(tǒng)非常重要。 在人工智能治理中心最近的一份報(bào)告中,作者報(bào)告說:"有更多的美國人認(rèn)為高級(jí)機(jī)器智能會(huì)比那些認(rèn)為對(duì)人類有益的人有害。"復(fù)雜模型的可解釋性有助于 更好的理解,建立模型如何做出決策的直覺,并最終產(chǎn)生用戶信任。

添加功能歸因方法

為了解釋更復(fù)雜的模型,我們需要一個(gè)更接近原始模型的簡單解釋模型。

假設(shè)我們有一個(gè)形式為f(x)的復(fù)雜模型,那么解釋模型g(z')≈f(x)。

利用SHAP實(shí)現(xiàn)機(jī)器學(xué)習(xí)模型的輸出預(yù)測

稍微分解g(z'),我們將一些效應(yīng)φ?歸因于每個(gè)特征z'。 通過總結(jié)所有這些效果及其特征,我們可以近似原始模型的輸出。 這被定義為附加特征歸屬方法。 事實(shí)證明,其他當(dāng)前的解釋模型遵循相同的解釋模型,允許它們?nèi)拷y(tǒng)一到一個(gè)單一的框架中。

附加特征歸屬方法的屬性

1.局部精度:最重要的屬性之一是解釋模型能夠匹配原始模型的輸出。

2.缺失:如果缺少特征,則該特征沒有效果,或φ?= 0。

3.一致性:如果模型發(fā)生變化,使得特征貢獻(xiàn)增加或保持不變,那么特征屬性或φ?不應(yīng)減少。

這導(dǎo)致我們SHAP值,它統(tǒng)一了以前的方法,并展示了上述屬性。

SHAP值

SHAP值(φ?)用于描述特征的重要性。 請(qǐng)考慮以下圖表:

利用SHAP實(shí)現(xiàn)機(jī)器學(xué)習(xí)模型的輸出預(yù)測

f(x)是模型預(yù)測的輸出,E[f(z)]是如果沒有特征則預(yù)測的基值。 換句話說,E[f(z)]只是平均模型輸出。

當(dāng)我們包括一個(gè)特征x 1,然后φ1,解釋我們?nèi)绾螐幕档叫碌念A(yù)測值,現(xiàn)在由E [f(z)|給出。 z 1 = x 1]。 對(duì)剩余的變量x 1,x 2,x 3重復(fù)這個(gè)過程,估計(jì)φ1,φ2和φ3的SHAP值,顯示模型最終如何到達(dá)預(yù)測輸出f(x)。

不同口味的SHAP(different favours of SHAP)

SHAP有多種實(shí)現(xiàn)方式,每種方式都適用于特定的模型類型,可以實(shí)現(xiàn)更快的逼近。

·TreeExplainer

TreeExplainer專為樹集合方法開發(fā),如XGBoost,LightGBM或CatBoost。

·DeepExplainer

DeepExplainer是為深度學(xué)習(xí)模型開發(fā)的,支持TensorFlow / Keras。

·GradientExplainer

GradientExplainer也是為深度學(xué)習(xí)模型中的SHAP值而開發(fā)的,但速度比DeepExplainer慢,并且做出了不同的假設(shè)。 此方法基于Integrated Gradient歸因方法,并支持TensorFlow / Keras / PyTorch。

·KernelExplainer

KernelExplainer使用加權(quán)線性回歸近似任何類型模型的SHAP值。

使用特定于模型類型的算法(TreeExplainer,DeepExplainer)而不是通用KernelExplainer更快更有效。

總結(jié)

作者發(fā)現(xiàn)人類解釋和SHAP解釋之間的關(guān)聯(lián)比任何其他方法更強(qiáng),這表明了SHAP的強(qiáng)大和直觀性。 計(jì)算出的SHAP值很容易在美觀,簡單的圖中顯示,這些圖解釋了特征如何影響特定預(yù)測。 這使得SHAP成為一個(gè)令人信服的工具,可以自信地解釋和解釋任何模型。

有關(guān)如何實(shí)現(xiàn)SHAP的教程,請(qǐng)查看我的筆記本,看看我們?nèi)绾谓忉対u變提升樹的預(yù)測結(jié)果。 SHAP github還提供了很多資源,可以提供有關(guān)如何實(shí)現(xiàn)DeepExplainer,KernelExplainer和其他有用功能的更多示例。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4615

    瀏覽量

    92991
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8422

    瀏覽量

    132724
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】2.具身智能機(jī)器人大模型

    中取得了令人矚目的效果。 閱讀感悟 從傳統(tǒng)的手動(dòng)編程到借助大模型實(shí)現(xiàn)智能化、自主化,從單一模態(tài)的交互到多模態(tài)信息的深度融合,再到擴(kuò)散模型的應(yīng)用,機(jī)器人控制技術(shù)正在以驚人的速度進(jìn)化。這不
    發(fā)表于 12-29 23:04

    《具身智能機(jī)器人系統(tǒng)》第7-9章閱讀心得之具身智能機(jī)器人與大模型

    醫(yī)療領(lǐng)域,手術(shù)輔助機(jī)器人需要毫米級(jí)的精確控制,書中有介紹基于視覺伺服的實(shí)時(shí)控制算法,以及如何利用模型優(yōu)化手術(shù)路徑規(guī)劃。工業(yè)場景中,協(xié)作機(jī)器人面臨的主要挑戰(zhàn)是快速適應(yīng)新工藝流程。具身智
    發(fā)表于 12-24 15:03

    AI大模型與深度學(xué)習(xí)的關(guān)系

    AI大模型與深度學(xué)習(xí)之間存在著密不可分的關(guān)系,它們互為促進(jìn),相輔相成。以下是對(duì)兩者關(guān)系的介紹: 一、深度學(xué)習(xí)是AI大模型的基礎(chǔ) 技術(shù)支撐 :深度學(xué)習(xí)
    的頭像 發(fā)表于 10-23 15:25 ?852次閱讀

    AI大模型與傳統(tǒng)機(jī)器學(xué)習(xí)的區(qū)別

    AI大模型與傳統(tǒng)機(jī)器學(xué)習(xí)在多個(gè)方面存在顯著的區(qū)別。以下是對(duì)這些區(qū)別的介紹: 一、模型規(guī)模與復(fù)雜度 AI大模型 :通常包含數(shù)十億甚至數(shù)萬億的參
    的頭像 發(fā)表于 10-23 15:01 ?680次閱讀

    【《時(shí)間序列與機(jī)器學(xué)習(xí)》閱讀體驗(yàn)】+ 時(shí)間序列的信息提取

    本人有些機(jī)器學(xué)習(xí)的基礎(chǔ),理解起來一點(diǎn)也不輕松,加油。 作者首先說明了時(shí)間序列的信息提取是時(shí)間序列分析的一個(gè)重要環(huán)節(jié),目標(biāo)是從給定的時(shí)間序列數(shù)據(jù)中提取出有用的信息和特征,以支持后續(xù)的分析和預(yù)測任務(wù),可以
    發(fā)表于 08-14 18:00

    【「時(shí)間序列與機(jī)器學(xué)習(xí)」閱讀體驗(yàn)】+ 簡單建議

    這本書以其系統(tǒng)性的框架和深入淺出的講解,為讀者繪制了一幅時(shí)間序列分析與機(jī)器學(xué)習(xí)融合應(yīng)用的宏偉藍(lán)圖。作者不僅扎實(shí)地構(gòu)建了時(shí)間序列分析的基礎(chǔ)知識(shí),更巧妙地展示了機(jī)器學(xué)習(xí)如何在這一領(lǐng)域發(fā)揮巨
    發(fā)表于 08-12 11:21

    【「時(shí)間序列與機(jī)器學(xué)習(xí)」閱讀體驗(yàn)】全書概覽與時(shí)間序列概述

    數(shù)據(jù)中提取特征并將其轉(zhuǎn)化為交易策略,以及機(jī)器學(xué)習(xí)在其他金融領(lǐng)域(包括資產(chǎn)定價(jià)、資產(chǎn)配置、波動(dòng)率預(yù)測)的應(yīng)用。 全書彩版印刷,內(nèi)容結(jié)構(gòu)嚴(yán)整,條理清晰,循序漸進(jìn),由淺入深,是很好的時(shí)間序列學(xué)習(xí)
    發(fā)表于 08-07 23:03

    【《大語言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)

    今天來學(xué)習(xí)大語言模型在自然語言理解方面的原理以及問答回復(fù)實(shí)現(xiàn)。 主要是基于深度學(xué)習(xí)和自然語言處理技術(shù)。 大語言模型涉及以下幾個(gè)過程: 數(shù)據(jù)收
    發(fā)表于 08-02 11:03

    利用Matlab函數(shù)實(shí)現(xiàn)深度學(xué)習(xí)算法

    在Matlab中實(shí)現(xiàn)深度學(xué)習(xí)算法是一個(gè)復(fù)雜但強(qiáng)大的過程,可以應(yīng)用于各種領(lǐng)域,如圖像識(shí)別、自然語言處理、時(shí)間序列預(yù)測等。這里,我將概述一個(gè)基本的流程,包括環(huán)境設(shè)置、數(shù)據(jù)準(zhǔn)備、模型設(shè)計(jì)、訓(xùn)
    的頭像 發(fā)表于 07-14 14:21 ?2270次閱讀

    MATLAB預(yù)測模型哪個(gè)好

    ,適用于預(yù)測連續(xù)型數(shù)據(jù)。它假設(shè)輸入變量(自變量)與輸出變量(因變量)之間存在線性關(guān)系。線性回歸模型的表達(dá)式為: y = β0 + β1x1 + β2x2 + ... + βnxn + ε 其中,y是
    的頭像 發(fā)表于 07-11 14:31 ?435次閱讀

    matlab預(yù)測模型有哪些

    環(huán)境,使其成為預(yù)測模型開發(fā)和實(shí)現(xiàn)的理想平臺(tái)。本文將詳細(xì)介紹MATLAB中常用的預(yù)測模型及其應(yīng)用。 線性回歸
    的頭像 發(fā)表于 07-11 14:27 ?777次閱讀

    Al大模型機(jī)器

    豐富的知識(shí)儲(chǔ)備。它們可以涵蓋各種領(lǐng)域的知識(shí),并能夠回答相關(guān)問題。靈活性與通用性: AI大模型機(jī)器人具有很強(qiáng)的靈活性和通用性,能夠處理各種類型的任務(wù)和問題。持續(xù)學(xué)習(xí)和改進(jìn): 這些模型可以
    發(fā)表于 07-05 08:52

    深度學(xué)習(xí)模型訓(xùn)練過程詳解

    深度學(xué)習(xí)模型訓(xùn)練是一個(gè)復(fù)雜且關(guān)鍵的過程,它涉及大量的數(shù)據(jù)、計(jì)算資源和精心設(shè)計(jì)的算法。訓(xùn)練一個(gè)深度學(xué)習(xí)模型,本質(zhì)上是通過優(yōu)化算法調(diào)整模型參數(shù),
    的頭像 發(fā)表于 07-01 16:13 ?1313次閱讀

    名單公布!【書籍評(píng)測活動(dòng)NO.35】如何用「時(shí)間序列與機(jī)器學(xué)習(xí)」解鎖未來?

    設(shè)備的運(yùn)行狀況,生成各種維度的報(bào)告。 同時(shí),通過大數(shù)據(jù)分析和機(jī)器學(xué)習(xí)技術(shù),可以對(duì)業(yè)務(wù)進(jìn)行預(yù)測和預(yù)警,從而協(xié)助社會(huì)和企業(yè)進(jìn)行科學(xué)決策、降低成本并創(chuàng)造新的價(jià)值。 當(dāng)今時(shí)代,數(shù)據(jù)無處不在,而時(shí)間序列數(shù)據(jù)更是
    發(fā)表于 06-25 15:00

    如何使用TensorFlow構(gòu)建機(jī)器學(xué)習(xí)模型

    在這篇文章中,我將逐步講解如何使用 TensorFlow 創(chuàng)建一個(gè)簡單的機(jī)器學(xué)習(xí)模型
    的頭像 發(fā)表于 01-08 09:25 ?1000次閱讀
    如何使用TensorFlow構(gòu)建<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>模型</b>