機(jī)器學(xué)習(xí)的可解釋性
來(lái)源:《計(jì)算機(jī)研究與發(fā)展》,作者陳珂銳等
摘 要?近年來(lái),機(jī)器學(xué)習(xí)發(fā)展迅速,尤其是深度學(xué)習(xí)在圖像、聲音、自然語(yǔ)言處理等領(lǐng)域取得卓越成效.機(jī)器學(xué)習(xí)算法的表示能力大幅度提高,但是伴隨著模型復(fù)雜度的增加,機(jī)器學(xué)習(xí)算法的可解釋性越差,至今,機(jī)器學(xué)習(xí)的可解釋性依舊是個(gè)難題.通過(guò)算法訓(xùn)練出的模型被看作成黑盒子,嚴(yán)重阻礙了機(jī)器學(xué)習(xí)在某些特定領(lǐng)域的使用,譬如醫(yī)學(xué)、金融等領(lǐng)域.目前針對(duì)機(jī)器學(xué)習(xí)的可解釋性綜述性的工作極少,因此,將現(xiàn)有的可解釋方法進(jìn)行歸類(lèi)描述和分析比較,一方面對(duì)可解釋性的定義、度量進(jìn)行闡述,另一方面針對(duì)可解釋對(duì)象的不同,從模型的解釋、預(yù)測(cè)結(jié)果的解釋和模仿者模型的解釋3個(gè)方面,總結(jié)和分析各種機(jī)器學(xué)習(xí)可解釋技術(shù),并討論了機(jī)器學(xué)習(xí)可解釋方法面臨的挑戰(zhàn)和機(jī)遇以及未來(lái)的可能發(fā)展方向.
關(guān)鍵詞?機(jī)器學(xué)習(xí);可解釋性;神經(jīng)網(wǎng)絡(luò);黑盒子;模仿者模型
縱觀機(jī)器學(xué)習(xí)的歷史發(fā)展進(jìn)程,其最初的目標(biāo)是從一系列數(shù)據(jù)中尋找出可以解釋的知識(shí),因而在追求算法性能的同時(shí),也很注重算法的可解釋性.典型的代表譬如線性感知機(jī)、決策樹(shù)、k近鄰算法等.進(jìn)入20世紀(jì)80年代之后,伴隨神經(jīng)網(wǎng)絡(luò)的復(fù)蘇,機(jī)器學(xué)習(xí)算法在設(shè)計(jì)時(shí)開(kāi)始放棄可解釋性這一要求,強(qiáng)調(diào)提高算法泛化的性能.神經(jīng)網(wǎng)絡(luò)的激活函數(shù)的選擇不再局限于線性函數(shù),而采用非線性的譬如Sigmoid,tanh,Softmax,Relu等函數(shù),一方面其表示能力大幅度提高,另一方面,隨著其模型復(fù)雜度的增加,算法的可解釋性就更差.
然而,機(jī)器學(xué)習(xí)解釋技術(shù)具有巨大的潛在應(yīng)用空間.譬如科學(xué)家在知識(shí)發(fā)現(xiàn)的過(guò)程中,可解釋的機(jī)器學(xué)習(xí)系統(tǒng)可以幫助他們更好地理解輸出的知識(shí),并尋找各種因素之間的相關(guān)性;對(duì)于一些復(fù)雜任務(wù)的端到端系統(tǒng),幾乎無(wú)法完全測(cè)試,也無(wú)法創(chuàng)建系統(tǒng)可能失敗的完整場(chǎng)景列表,人類(lèi)無(wú)法枚舉出所有可能出現(xiàn)的計(jì)算上或者邏輯上的不可行輸出,系統(tǒng)的可解釋性對(duì)于系統(tǒng)的理解則至關(guān)重要;需要防范可能產(chǎn)生某些歧視的場(chǎng)景,即使我們有意識(shí)將某些特定的受保護(hù)類(lèi)編碼到系統(tǒng)中,也仍然存在考慮欠缺的先驗(yàn)偏見(jiàn),譬如種族歧視[1-3]、性別歧視等.
對(duì)機(jī)器學(xué)習(xí)的可解釋性需求不僅僅來(lái)源于上述的需求,同時(shí)還來(lái)源于法律法規(guī).歐盟于2018年5月生效的GDPR(General Data Protection Regulation)中有條例明確規(guī)定,當(dāng)機(jī)器針對(duì)某個(gè)個(gè)體作出決定時(shí),該決定必須符合一定要求的可解釋性.
NIPS2017的工作組曾針對(duì)“可解釋性在機(jī)器學(xué)習(xí)中是否必要”這一問(wèn)題展開(kāi)激烈的討論[4].并非所有的機(jī)器學(xué)習(xí)系統(tǒng)都需要可解釋性,譬如郵政編碼分類(lèi)、航空器防撞系統(tǒng)等都是在沒(méi)有人類(lèi)干預(yù)的情況下運(yùn)行,不需要解釋.但是在醫(yī)療保健、金融等行業(yè)而言,模型的可解釋性不僅重要而且非常必要.譬如在醫(yī)療保健方面,護(hù)理人員、醫(yī)生和臨床專(zhuān)家都依賴于新的醫(yī)療技術(shù)來(lái)幫助他們監(jiān)控和決策患者護(hù)理,一個(gè)良好的可解釋性模型被證明可以提高臨床工作人員的解決問(wèn)題的能力,從而提高患者護(hù)理質(zhì)量[5-7].通常對(duì)于系統(tǒng)出現(xiàn)不可接受的結(jié)果且無(wú)法造成重大后果的情況下,或者在實(shí)際應(yīng)用中,人們已經(jīng)充分地研究和驗(yàn)證出現(xiàn)的問(wèn)題,即使系統(tǒng)表現(xiàn)不太完美,人們也愿意相信系統(tǒng)的決定.在類(lèi)似的場(chǎng)景下,對(duì)可解釋性是沒(méi)有需求的.
近幾年來(lái)針對(duì)機(jī)器學(xué)習(xí)的可解釋性綜述性的工作陸續(xù)出現(xiàn),每個(gè)學(xué)者從不同的研究角度和側(cè)重點(diǎn)進(jìn)行概述說(shuō)明.
Miller[8]從哲學(xué)、心理學(xué)和認(rèn)知科學(xué)的角度對(duì)解釋的定義、生成、選擇、評(píng)估和呈現(xiàn)給予說(shuō)明,展現(xiàn)人們?cè)谘芯繖C(jī)器學(xué)習(xí)可解釋過(guò)程中的某種認(rèn)知偏見(jiàn)和社會(huì)期望.Zhou等人[9]認(rèn)為機(jī)器學(xué)習(xí)缺乏解釋既是實(shí)際問(wèn)題也是道德問(wèn)題,根據(jù)解釋的概念和黑盒子系統(tǒng)的類(lèi)型不同,對(duì)目前的解釋技術(shù)進(jìn)行了分類(lèi)總結(jié).
Gilpin等人[10]重點(diǎn)描述了可解釋技術(shù)在人機(jī)交互領(lǐng)域(human computer interaction, HCI)、黑盒模型和其他領(lǐng)域的應(yīng)用說(shuō)明.Carvalho等人[11]闡述可解釋性問(wèn)題的重要性,并粗粒度地給出3種體系的分類(lèi)歸納:Pre-Model VS In-Model VS Post-Model、內(nèi)在(intrinsic)VS Hoc以及特異性模型(model-specific)VS不可知模型(model-agnostic).Brian等人[12]提出可解釋地預(yù)測(cè)與可解釋模型之間的區(qū)別,前者側(cè)重于解釋模型預(yù)測(cè)的結(jié)果,通常以個(gè)體特征的貢獻(xiàn)角度來(lái)詮釋?zhuān)笳邚哪P捅旧沓霭l(fā)進(jìn)行解釋.還有部分的研究者關(guān)注特定研究領(lǐng)域的可解釋性.譬如:Zhang等人[13]聚焦卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNNs)的可解釋研究工作.Tjoa等人[14]則關(guān)注醫(yī)療領(lǐng)域的可解釋性工作.紀(jì)守領(lǐng)等人[15]側(cè)重可解釋技術(shù)的應(yīng)用和安全領(lǐng)域的研究工作.
本文立足于機(jī)器學(xué)習(xí)的可解釋技術(shù),借鑒和擴(kuò)展Brian[12]提出的分類(lèi)框架,對(duì)可解釋技術(shù)的最新研究進(jìn)展進(jìn)行綜述.一方面對(duì)可解釋性的定義、度量進(jìn)行闡述,另一方面針對(duì)可解釋對(duì)象的不同,從模型的解釋、預(yù)測(cè)結(jié)果的解釋和模仿者模型3個(gè)方面,總結(jié)和分析各種機(jī)器學(xué)習(xí)可解釋技術(shù).
1 基礎(chǔ)知識(shí)
1.1 可解釋定義
目前,關(guān)于機(jī)器學(xué)習(xí)的可解釋性沒(méi)有明確的定義,Liu等人[16]給出定義為:“解釋是指解釋給人聽(tīng)的過(guò)程”.Doshi-Velez等人[17]也提出類(lèi)似的定義.解釋意味著提供可理解的術(shù)語(yǔ)來(lái)說(shuō)明一些概念.這些定義隱含地假設(shè),解釋是由一些可理解的術(shù)語(yǔ)表達(dá)概念來(lái)構(gòu)成,這些概念是自包含的,不需要進(jìn)一步解釋.
目前文獻(xiàn)中用于描述可解釋性的英文單詞有解釋(interpretation)、解釋(explanation)和理解(under-standing).Montavon等人[18]給出了區(qū)別定義:Interpretation表示將抽象概念(例如預(yù)測(cè)類(lèi))映射到人類(lèi)可以理解的領(lǐng)域中;Explanation是一個(gè)可解釋域的特征集合,用于解釋給定實(shí)例的決策(譬如分類(lèi)、回歸等)處理過(guò)程;Understanding指對(duì)模型的功能性解釋.
1.2 形式化描述
令D={x1,x2,…,xm}表示包含m個(gè)示例的數(shù)據(jù)集,(xi,yi)表示第i個(gè)樣例,yi∈y是示例xi的標(biāo)記,y表示輸出空間.給定一個(gè)數(shù)據(jù)集D={(x1,y1),(x2,y2),…,(xm,ym)}和一個(gè)預(yù)測(cè)器p.
1) 模型解釋
模型解釋的任務(wù)是從數(shù)據(jù)集D和預(yù)測(cè)器p中建立映射f:(xm→y)×(xn×m×yn)→(xm→y),解釋函數(shù)fE:(xm→y)→ε,ε表示人類(lèi)能理解的邏輯值.
2) 預(yù)測(cè)結(jié)果解釋
預(yù)測(cè)結(jié)果解釋的任務(wù)是從數(shù)據(jù)集D和預(yù)測(cè)器
p中建立映射f:(xm→y)×(xn×m×yn)→(xm→y),解釋函數(shù)fE:(xm→y)×xm→ε,解釋過(guò)程中使用數(shù)據(jù)記錄xm的特征值.
3) 模仿者模型解釋
模仿者模型解釋的任務(wù)是從數(shù)據(jù)集D和預(yù)測(cè)器p中建立映射f:xm→y,解釋模型函數(shù)fE:(xm→y)→ε,且ε≈y.
2 主要研究方向和可解釋研究框架
2.1 主要研究方向
解釋技術(shù)最早出現(xiàn)在基于上下文規(guī)則的專(zhuān)家系統(tǒng)中,早在20世紀(jì)70年代,Shortliffe等人[19]就討論了解釋專(zhuān)家系統(tǒng)決策過(guò)程的必要性.
目前,可解釋技術(shù)的研究方向主要由表1所示,包括解釋理論和機(jī)器學(xué)習(xí)的可解釋.解釋理論的研究最早可以追溯到20世紀(jì)90年代,Chajewska等人[20]在通用的概率系統(tǒng)中提出解釋的正式定義.最近則是2017年,Doshi-Velez等人[21]提出的分別以應(yīng)用為基礎(chǔ)、以人類(lèi)為基礎(chǔ)、以功能為基礎(chǔ)的3種方法的分類(lèi),從而評(píng)估機(jī)器學(xué)習(xí)的人類(lèi)可解釋性.其理論的發(fā)展伴隨應(yīng)用場(chǎng)景的變化而發(fā)生改變.
Table 1 The Main Research Directions of Interpretation and Understanding Technology
表1 解釋技術(shù)的主要研究方向
Fig. 1 The framework of interpretation and understanding in machine leaning
圖1 機(jī)器學(xué)習(xí)的可解釋研究框架
對(duì)于機(jī)器學(xué)習(xí)的可解釋技術(shù)發(fā)展而言,早期主要關(guān)注傳統(tǒng)統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法,譬如基于規(guī)則的淺層模型的解釋、決策樹(shù)等.現(xiàn)階段大部分的研究聚焦于深度學(xué)習(xí)的可解釋性,無(wú)論是學(xué)界還是業(yè)界,越來(lái)越多的學(xué)者注意到深度模型可解釋的重要性和急迫性,未來(lái)在此方向?qū)⒊霈F(xiàn)更多的研究思路和解決方案.
2.2 機(jī)器學(xué)習(xí)的可解釋研究框架
人類(lèi)認(rèn)知科學(xué)中,人類(lèi)會(huì)根據(jù)詳細(xì)的邏輯推理來(lái)做決定,于是可以通過(guò)一步一步地展示推理過(guò)程來(lái)清楚地解釋決策是如何做出.在這種情況下,決策模型是透明的.另外,人類(lèi)也會(huì)先做出直覺(jué)決策,然后尋求對(duì)決策的解釋?zhuān)@屬于事后解釋法.依據(jù)這2種建模哲學(xué)構(gòu)建機(jī)器學(xué)習(xí)的可解釋技術(shù)研究框架如圖1所示:機(jī)器學(xué)習(xí)處理流程通常將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集,訓(xùn)練數(shù)據(jù)集經(jīng)過(guò)訓(xùn)練模型得到預(yù)測(cè)模型,測(cè)試數(shù)據(jù)流入到預(yù)測(cè)模型,最終給出預(yù)測(cè)結(jié)果.圍繞機(jī)器學(xué)習(xí)的處理流程,可解釋工作主要圍繞在模型和結(jié)果解釋(result interpretation)兩個(gè)環(huán)節(jié)上,對(duì)于模型的解釋又分為模型解釋(model understanding)和模仿者模型解釋(mimic model understanding)兩種方式,因此,本文將現(xiàn)存在的可解釋技術(shù)按照上述的框架進(jìn)行研究和總結(jié)分析.
3 機(jī)器學(xué)習(xí)模型的解釋技術(shù)
3.1 基于規(guī)則的解釋
基于規(guī)則的解釋通常使用容易被人類(lèi)理解的規(guī)則模型,譬如決策樹(shù)和決策列表.Bastani等人[26]提出一種學(xué)習(xí)決策樹(shù)的模型提取算法,該算法對(duì)新輸入的數(shù)據(jù)主動(dòng)采樣,并利用復(fù)雜模型對(duì)其進(jìn)行標(biāo)記,生成新的訓(xùn)練數(shù)據(jù)集,最后使用決策樹(shù)作為全局解釋.該學(xué)習(xí)決策樹(shù)是非參數(shù)的,又高度的結(jié)構(gòu)化,因此是可解釋的.Andrews等人[27]概括總結(jié)各種基于解釋規(guī)則的方式,提供對(duì)復(fù)雜模型的理解.
除了樹(shù)模型的規(guī)則解釋之外,還有針對(duì)神經(jīng)網(wǎng)絡(luò)的規(guī)則提取.Bondarenko等人[28]總結(jié)基于神經(jīng)網(wǎng)絡(luò)規(guī)則提取的分解法(decompositional rule extraction method),為網(wǎng)絡(luò)中每一個(gè)隱藏單元都映射一條規(guī)則,最終形成復(fù)合規(guī)則庫(kù),并用于整個(gè)復(fù)雜網(wǎng)絡(luò)的解釋.
3.2 激活值最大化
激活值最大化思想主要是尋找能使一個(gè)給定的隱層單元的激活函數(shù)值最大的輸入模式,即理解哪些輸入會(huì)產(chǎn)生最大的模型響應(yīng).
Dumitru等人[29]將激活值最大化技術(shù)應(yīng)用于受限玻爾茲曼機(jī)(restricted Boltzmann machines,RBMs)進(jìn)行疊加和自編碼器去噪后所得到的網(wǎng)絡(luò)中,通過(guò)研究網(wǎng)絡(luò)中單個(gè)單元的響應(yīng),更好地深入理解該網(wǎng)絡(luò)的體系結(jié)構(gòu)和表示.
激活值最大化可看作一個(gè)優(yōu)化問(wèn)題,假設(shè)θ表示神經(jīng)網(wǎng)絡(luò)的參數(shù)(權(quán)重或者偏置),hij(θ,x)是給定層j對(duì)給定單元i的激活函數(shù),x表示輸入樣本,ε是用于解釋的輸入特征值,激活最大化的目標(biāo)變?yōu)?/p>
ε=arg max?hij(θ,x).
(1)
式(1)問(wèn)題通常是非凸優(yōu)化問(wèn)題,也就是該問(wèn)題存在諸多個(gè)局部最大值.目前最簡(jiǎn)單易行的方法是通過(guò)梯度下降法(gradient descent)來(lái)尋找一個(gè)局部最大值.最終模型解釋借助于一個(gè)或者多個(gè)最大值進(jìn)行描述解釋.
將上述的激活值最大化應(yīng)用到深度置信網(wǎng)絡(luò)(deep belief network, DBN)中,可轉(zhuǎn)化為尋找
P(hij=1|x)的問(wèn)題.進(jìn)而推廣到深度神經(jīng)網(wǎng)絡(luò)(deep neural network, DNN)框架下,假定DNN分類(lèi)器映射一系列數(shù)據(jù)x到一組類(lèi)ωc中,則轉(zhuǎn)化為求解maxx
該問(wèn)題在優(yōu)化的過(guò)程中有諸多的優(yōu)化策略,可以采取類(lèi)似于L2范數(shù)正則化或者Gaussian RBM的專(zhuān)家策略,或者進(jìn)行特定抽樣,然后在decoding函數(shù)下映射到原始輸入域.Simonyan等人[30]將該方法推廣到卷積神經(jīng)網(wǎng)絡(luò)上,構(gòu)造了一個(gè)深度卷積網(wǎng)絡(luò)ConvNets,采取L2正則化進(jìn)行優(yōu)化.
激活值最大化方法相比于基于規(guī)則的解釋?zhuān)浣忉尳Y(jié)果更準(zhǔn)確.但是該方法只適用于連續(xù)型數(shù)據(jù),無(wú)法適用于自然語(yǔ)言處理模型.
3.3 隱層神經(jīng)元分析
隱層神經(jīng)元分析方法的主要思想是借助分析與可視化神經(jīng)網(wǎng)絡(luò)模型中隱層神經(jīng)元的局部特征,從而解釋深度神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)行為.該方法常見(jiàn)于圖像處理領(lǐng)域.
對(duì)于隱層神經(jīng)元的分析工作最初見(jiàn)于AlexNet,Krizhevsky直接可視化了神經(jīng)網(wǎng)絡(luò)的第1個(gè)卷積層的卷積核,其重構(gòu)出的圖像基本是關(guān)于邊緣、條紋及顏色的信息,因此該方法局限于可視卷積核的1層卷積層[43].
Zeiler等人[31]利用反卷積的方法對(duì)隱藏層的特征進(jìn)行可視化,反卷積操作可看作卷積網(wǎng)絡(luò)的逆操作.該方法以各隱藏層得到的特征圖為輸入,進(jìn)行反卷積操作,最終得到的結(jié)果再去驗(yàn)證各個(gè)隱藏層提取到的特征圖.實(shí)驗(yàn)結(jié)果表明經(jīng)過(guò)CNN網(wǎng)絡(luò)的學(xué)習(xí),各個(gè)卷積層學(xué)習(xí)到的特征是有辨別性的.對(duì)于圖像領(lǐng)域而言,隱藏層的最初幾層主要學(xué)習(xí)到背景信息,而隨著層數(shù)的提高,其學(xué)到的特征更加抽象.Zeiler的工作真正可以可視化多層卷積層.
上述2種方法都屬于無(wú)參數(shù)化的可視技術(shù).提出的方法旨在可視化和理解具有最大池化和校正線性單元的卷積神經(jīng)網(wǎng)絡(luò)的特征,從而形成一個(gè)可視化的解釋模式.
Yosinski等人[32]在之前的可視化技術(shù)基礎(chǔ)之上提出2種解釋工具:第1種可視化實(shí)時(shí)卷積激活,可看出用戶輸入后如何實(shí)時(shí)地影響卷積層的工作;第2種利用圖像空間中正則化優(yōu)化技術(shù),從而展示DNN每層的特征.Yosinski在數(shù)據(jù)集ImageNet上進(jìn)行訓(xùn)練,首先對(duì)所有的輸入訓(xùn)練樣本減去ImageNet中每個(gè)像素的均值,得到網(wǎng)絡(luò)的輸入數(shù)據(jù)x看作以0為中心的輸入.然后構(gòu)建一個(gè)目標(biāo)函數(shù):
(2)
其中,ε是可視化的結(jié)果,ai(x)是激活函數(shù),而Rθ(x)是正則項(xiàng).為了便于求解出結(jié)果,借助于公式
(3)
進(jìn)行更新.經(jīng)過(guò)正則項(xiàng)來(lái)更新x,Yosinski等人[32]給出4種正則化方法:L2衰變、高斯模糊、小范式裁剪像素(clipping pixels with small norm)和小貢獻(xiàn)裁剪像素(clipping pixels with small contribution).
Yosinski等人[32]提出的第2種工具屬于參數(shù)化的可視工具,需要簡(jiǎn)單的配置安裝,即可對(duì)CNN模型的隱層神經(jīng)元進(jìn)行可視化.
除此之外,隱層神經(jīng)元分析解釋的方法還可以借助重構(gòu)圖像的方法來(lái)實(shí)現(xiàn),并取得較好的效果.
Dosovitskiy等人[44]針對(duì)傳統(tǒng)的計(jì)算機(jī)視覺(jué)圖像特征HOG(histograms of oriented gradient)[45],SIFT(scale invariant feature transform)[46],LBP(local binary patterns)[47]和AlexNet網(wǎng)絡(luò)的每層特征2種類(lèi)型進(jìn)行圖像重建.
類(lèi)似的工作還有Mahendran等人[48],給定一個(gè)輸入圖片x∈RC×H×W,其中C表示顏色通道,H表示圖片高度,W表示圖片的寬度,表征函數(shù)Φ:RC×H×W→Rd,特征值Φ0=Φ(x0),則重構(gòu)圖像ε即可表示為如下的目標(biāo)函數(shù):
(4)
其中,正則項(xiàng)優(yōu)化主要采用α范式和總變差(total variation, TV),該方法主要優(yōu)化了特征向量間的誤差,并且需要借助人工設(shè)置的先驗(yàn)知識(shí),比較而言,Dosovitskiy等人?[44]的工作更多地考慮圖像重建誤差,再者是根據(jù)隱型的方式學(xué)習(xí)了圖像中的先驗(yàn)知識(shí).
區(qū)別于前面幾種圖像領(lǐng)域的隱層神經(jīng)元分析方法,侯博建和周志華[33]對(duì)遞歸神經(jīng)網(wǎng)絡(luò)(recursive neural network, RNN)進(jìn)行解釋?zhuān)浠谌缦碌挠^察:如果RNN的每個(gè)隱藏層表示為一個(gè)向量或者一個(gè)點(diǎn),向RNN中輸入多個(gè)序列后,將出現(xiàn)積累大量的隱藏狀態(tài)點(diǎn),并且還傾向于構(gòu)成集群的現(xiàn)象.這個(gè)觀察假設(shè)在最小門(mén)控單元(minimal gated unit,MGU)、簡(jiǎn)版RNN(simple RNN, SRN)、門(mén)控循環(huán)單元(gated recurrent unit, GRU)和長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory, LSTM)上通過(guò)實(shí)驗(yàn)都得以驗(yàn)證.于是,他們提出在訓(xùn)練數(shù)據(jù)集上訓(xùn)練RNN,然后將驗(yàn)證數(shù)據(jù)集中所有隱藏層標(biāo)注為一個(gè)點(diǎn)并執(zhí)行聚類(lèi),最終學(xué)習(xí)到一個(gè)驗(yàn)證數(shù)據(jù)集上的有限狀態(tài)機(jī)(finite state automaton, FSA),并用FSA對(duì)RNN做出解釋?zhuān)U述RNN的性能如何受到門(mén)控?cái)?shù)量的影響,以及數(shù)值隱藏狀態(tài)轉(zhuǎn)換背后的語(yǔ)義含義.該方法借用FSA對(duì)RNN內(nèi)部機(jī)制進(jìn)行透視.
雖然隱層神經(jīng)元分析的方法提供了每個(gè)隱藏神經(jīng)元的定性分析,然而該做法并不能對(duì)每個(gè)神經(jīng)網(wǎng)絡(luò)的整體機(jī)制提供太多可操作和定量的分析.
3.4 分離式表征
Zhou等人[34-35]認(rèn)為對(duì)于大型的深度神經(jīng)網(wǎng)絡(luò)而言,人類(lèi)可理解的概念常常成為這些深度網(wǎng)絡(luò)中的個(gè)體潛在變量,而這些網(wǎng)絡(luò)可以自發(fā)學(xué)習(xí)分離式表征(disentangled representation),因而提出一種網(wǎng)路分割(network dissection)的方法來(lái)評(píng)估隱藏層和一系列語(yǔ)義概念之間的契合度,從而對(duì)深度網(wǎng)絡(luò)做出解釋.該方法處理如圖2所示:
Fig. 2 The processing of disentangled representation
圖2 分離式表征處理流程
分離式表征解釋方法大致可以分成3步:
Step1. 人工創(chuàng)建一個(gè)視覺(jué)語(yǔ)義概念數(shù)據(jù)集Broden,其中包含的每張圖片都富含像素(pixel-wise)標(biāo)簽(顏色、紋理、場(chǎng)景、物體等),即對(duì)于每種語(yǔ)義概念都有一張標(biāo)記映射(label map),圖2中Broden數(shù)據(jù)集中每張圖片標(biāo)記成貓、自行車(chē)和塔等;
Step2. 對(duì)于一個(gè)訓(xùn)練好的模型S,輸入Broden所有的圖片,收集神經(jīng)網(wǎng)絡(luò)中某個(gè)隱藏單元在Broden所有圖片上的響應(yīng)圖,這些響應(yīng)較大的區(qū)域即是該隱藏層的語(yǔ)義表征,將得到一個(gè)二值的mask值;
Step3. 利用IoU量化隱層的語(yǔ)義表征mask和概念對(duì)標(biāo)記映射之間的匹配程度,從而利用標(biāo)記映射(label map)解釋神經(jīng)網(wǎng)絡(luò)的某隱藏層所表示的含義.
分離式表征的方法和3.3節(jié)中介紹的隱層神經(jīng)元分析是一個(gè)相反的過(guò)程,前者是利用給隱藏單元計(jì)算匹配度并打標(biāo)簽的方式來(lái)正向解釋隱藏層學(xué)習(xí)的特征,而后者是通過(guò)反向機(jī)制,重構(gòu)各隱藏層的提取特征.分離式表征的解釋方法效率較高,但是其準(zhǔn)確度受限于語(yǔ)義概念數(shù)據(jù)集的大小以及其描述能力.
3.5 注意力機(jī)制
注意力機(jī)制(attention mechanism)[49]主要是在Encoder + Decoder模型框架下提出的,解決了該框架下輸入數(shù)據(jù)中的各個(gè)部分具有相同權(quán)重的問(wèn)題,為模型賦于區(qū)分辨別關(guān)鍵重要信息的能力.
目前廣泛應(yīng)用于圖像處理[50-53]、自然語(yǔ)言處理[54]、語(yǔ)音識(shí)別[55]等領(lǐng)域,并取得較好的結(jié)果.在這些應(yīng)用中依據(jù)對(duì)齊算法為每個(gè)部分賦予不同的權(quán)重,注意力機(jī)制可以很好地解釋輸入與輸出之間的對(duì)齊關(guān)系,解釋說(shuō)明模型學(xué)到的內(nèi)容,可以為我們打開(kāi)機(jī)器學(xué)習(xí)模型的黑箱提供了一種可視方法.
Xu等人[53]提出確定性軟注意力(deterministic “soft” attention)和隨機(jī)硬注意力(stochastic “hard” attention)兩種機(jī)制.確定性軟注意力是參數(shù)化的,可被嵌入到模型中直接訓(xùn)練.而隨機(jī)硬注意力不會(huì)選擇整個(gè)Encoder的輸出為其輸入,以概率采樣的形式選擇Encoder端輸出的部分?jǐn)?shù)據(jù)來(lái)進(jìn)行計(jì)算,為了實(shí)現(xiàn)梯度的反向傳播,通常需要采用蒙特卡洛采樣的方法來(lái)估計(jì)模塊的梯度.2種注意力機(jī)制各有利弊,因?yàn)榍罢呖芍苯忧髮?dǎo),進(jìn)行梯度反向傳播,因此,目前更多的研究和應(yīng)用傾向于使用確定性軟注意力.
注意力模型中采用多種對(duì)齊函數(shù)[56]:
(5)
其中,
(6)
其中,f(mt,ms)表示源端到目標(biāo)端的對(duì)齊程度,常見(jiàn)有點(diǎn)乘(dot)、權(quán)值網(wǎng)絡(luò)映射(general)和concat映射3種方式.
目前,注意力機(jī)制被用于解釋各類(lèi)任務(wù)的預(yù)測(cè).Xu等人[53],對(duì)于給定輸入數(shù)據(jù)為圖像,而輸出數(shù)據(jù)為該圖像的英文描述的任務(wù),使用注意力機(jī)制來(lái)解釋輸出的英文描述中某個(gè)詞語(yǔ)與圖片中某個(gè)區(qū)域的高度依賴關(guān)系.
Chorowski等人[55]采用基于混合注意力機(jī)制的新型端到端可訓(xùn)練語(yǔ)音識(shí)別方法,應(yīng)用于基于注意力的遞歸序列生成器(attention-based recurrent sequence generator, ARSG)之上,借助內(nèi)容和位置信息,選擇輸入系列中下一個(gè)位置用于解碼,并很好地解釋輸入端的聲音片段和輸出序列的音素之間的對(duì)應(yīng)關(guān)系.Bahdanau等人[57]利用注意力機(jī)制表示輸出序列中每個(gè)單詞與輸入序列中的某個(gè)特定單詞的關(guān)聯(lián)程度,從而解釋法語(yǔ)到英語(yǔ)單詞之間的對(duì)應(yīng)關(guān)系.
Rockt?schel等人[58]應(yīng)用長(zhǎng)短期記憶網(wǎng)絡(luò)LSTM的神經(jīng)模型,可1次讀取2個(gè)句子來(lái)確定它們之間的蘊(yùn)含關(guān)系,而非傳統(tǒng)地將每個(gè)句子獨(dú)立映射到一個(gè)語(yǔ)義空間方式.該模型利用逐詞(word-by-word)的注意力機(jī)制解釋了前提和假設(shè)中詞和詞之間的對(duì)應(yīng)關(guān)系.
Rush等人[59]設(shè)計(jì)了基于注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)用于摘要抽取工作,注意力機(jī)制解釋了輸入句子和輸出摘要之間的單詞對(duì)應(yīng)關(guān)系.
根據(jù)注意力的2種機(jī)制和對(duì)齊函數(shù)的分類(lèi)標(biāo)準(zhǔn),將各種神經(jīng)網(wǎng)絡(luò)的注意力機(jī)制整理成表2所示:
Table 2 The Summary of Attention Mechanism Explanation Methods
表2 注意力機(jī)制解釋方法總結(jié)
注意力機(jī)制能否用于模型解釋?zhuān)壳叭源嬖谝恍?zhēng)議.Jain等人[61]認(rèn)為基于梯度的機(jī)制下,注意力機(jī)制學(xué)習(xí)到的注意力權(quán)重值不總能夠正確地解釋特征的重要性,同時(shí)不同的注意力分布可能也會(huì)得到相同的預(yù)測(cè)結(jié)果,因此認(rèn)為注意力機(jī)制不能作為模型解釋的一種手段.部分學(xué)者認(rèn)為其實(shí)驗(yàn)設(shè)計(jì)有諸多不妥,例如基準(zhǔn)的注意力權(quán)重值是隨意設(shè)置的,本應(yīng)該由模型的其他圖層參數(shù)共同決定;模型預(yù)測(cè)結(jié)果的變化和注意力得分變化之間缺乏可比性等.本文認(rèn)為注意力機(jī)制是可以被用來(lái)解釋模型決策,但是該方法缺乏解釋的一致性,相似的2個(gè)數(shù)據(jù)點(diǎn),其解釋的注意力分布和注意力權(quán)重值可能會(huì)有變化.
4 預(yù)測(cè)結(jié)果和解釋技術(shù)
4.1 敏感度分析
敏感度分析[62]是研究如何將模型輸出不確定地分配給不同的模型輸入.該方法應(yīng)用在預(yù)測(cè)結(jié)果的解釋上,多數(shù)是建立在模型的局部梯度估計(jì)或者其他的一些局部變量測(cè)量的基礎(chǔ)之上[63-65].該方法的理論基礎(chǔ)來(lái)源于Sundararajan等人[66]認(rèn)為深度學(xué)習(xí)模型具有2個(gè)基本公理:敏感性和實(shí)現(xiàn)不變性.
敏感度分析常使用如下的公式來(lái)定義相關(guān)性分?jǐn)?shù):
(7)
其梯度的值在數(shù)據(jù)點(diǎn)x處估計(jì),最終輸出那些最相關(guān)的輸入特征,也即是最敏感的特征.該方法并不能解釋函數(shù)f(x)本身,僅能解釋函數(shù)f(x)的變化.
Cortez等人[63-65]使用梯度和變量等因素來(lái)衡量敏感度的程度.另外,Baehrens等人[67]引入解釋向量來(lái)解釋分類(lèi)器分類(lèi)的行為,其定義貝葉斯分類(lèi)器為
(8)
而解釋向量定義為
fE(x0)
(9)
其中,fE(x0)和x0維度相同,都是d,分類(lèi)器g*(x)將數(shù)據(jù)空間Rd至多劃分成C份,g*是常量.解 釋向量fE(x0)在每個(gè)部分上都定義了1個(gè)向量場(chǎng),該向量場(chǎng)表征是遠(yuǎn)離相應(yīng)類(lèi)的流向,從而具有最大值的fE(x0)中的實(shí)體突出顯示了影響x0的類(lèi)標(biāo)簽決策特征,然后使用高亮技術(shù)可視化高度影響決策結(jié)果的那些特征,從而很好地解釋決策結(jié)果.
為了更好地量化類(lèi)似梯度、變量等因素的影響,Datta等人[68]設(shè)計(jì)一套定量輸入影響(quantitative input influence, QII)用于衡量模型的輸入因素對(duì)預(yù)測(cè)輸出結(jié)果的影響.
4.2 泰勒分解
采用泰勒分解的方法來(lái)解釋預(yù)測(cè)結(jié)果,主要依靠分解函數(shù)值f(x)為相關(guān)分?jǐn)?shù)之和[69].簡(jiǎn)單的泰勒分解通過(guò)識(shí)別函數(shù)在某個(gè)根點(diǎn)
處的一階泰勒展開(kāi)式的項(xiàng),得到相關(guān)度的得分,該根點(diǎn)
是滿足
的點(diǎn),則一階泰勒展開(kāi)式為
?
(10)
其中,Ri(x)為相關(guān)度分?jǐn)?shù),d是輸入數(shù)據(jù)的尺寸大小,b表示二階或者更高階的多項(xiàng)式.對(duì)于多數(shù)的線性模型,譬如ReLU函數(shù),其二階或者更高階的多項(xiàng)式趨向?yàn)?,因此可以將式(10)簡(jiǎn)化為
Li等人[70]在泰勒展開(kāi)式基礎(chǔ)上,還利用表示繪圖方法對(duì)自然語(yǔ)言處理(natural language process,NLP)領(lǐng)域中的文本進(jìn)行解釋.Montavon等人[71]將其擴(kuò)展為深度泰勒展開(kāi)式,重新分配當(dāng)前層和其下一層之間的相關(guān)度值.深度泰勒展開(kāi)式為
?
(11)
其中,
表示當(dāng)前層的所有神經(jīng)元,
表示更低一層的神經(jīng)元.通過(guò)將解釋從輸出層反向傳播到輸入層,有效地利用了網(wǎng)絡(luò)結(jié)構(gòu).該方法借助空間響應(yīng)圖[72]來(lái)觀察神經(jīng)網(wǎng)絡(luò)輸出,同時(shí)在像素空間中滑動(dòng)神經(jīng)網(wǎng)絡(luò)來(lái)構(gòu)建熱圖.根據(jù)泰勒展開(kāi)式的擬合特性,深度泰勒分解[71]準(zhǔn)確度明顯高于簡(jiǎn)單的泰勒分解[69],但前者比后者的計(jì)算量和復(fù)雜度更高.泰勒分解的方法適合神經(jīng)網(wǎng)絡(luò)下的各種簡(jiǎn)單或者復(fù)雜網(wǎng)絡(luò).
4.3 相關(guān)度傳播
Bach等人[36]提出的分層優(yōu)化的相關(guān)度傳播(layer-wise relevance propagation, LRP)從模型的輸出開(kāi)始,反向移動(dòng),直到到達(dá)模型輸入為止,重新分配預(yù)測(cè)的分?jǐn)?shù)或者相關(guān)度值,該方法常用于神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果解釋.
1) 傳播定義
假設(shè)1個(gè)DNN網(wǎng)絡(luò)中具有2個(gè)神經(jīng)元j和k,j和k所在的隱藏層是連續(xù)的,Rk表示較高層的神經(jīng)元k的相關(guān)度得分,Rj←k表示神經(jīng)元k到神經(jīng)元j分享的相關(guān)度得分,則相關(guān)度的分配滿足:
(12)
Fig. 3 The sample diagram of LRP propagation mechanism
圖3 LRP傳播機(jī)制示例圖
具體傳遞流程如圖3所示.w13表示正向傳播神經(jīng)元節(jié)點(diǎn)1到神經(jīng)元節(jié)點(diǎn)3的權(quán)重,
表示神經(jīng)元節(jié)點(diǎn)3到神經(jīng)元節(jié)點(diǎn)1在1,2層之間傳播的相關(guān)得分.神經(jīng)元之間的傳遞只能是連續(xù)層,不可跨層傳遞,即不可能出現(xiàn)類(lèi)似
的情況.從傳遞機(jī)制可以看出,
(13)
(14)
(15)
(16)
2) 傳播規(guī)則
針對(duì)DNN網(wǎng)絡(luò),使用α?β原則實(shí)現(xiàn)相鄰層之間的相關(guān)度傳遞.
假設(shè)DNN網(wǎng)絡(luò)的神經(jīng)元激活函數(shù)為
(17)
其中,ak表示神經(jīng)元k的激活值,j表示神經(jīng)元k所在隱藏層的前一層的所有神經(jīng)元之一,wjk表示權(quán)重,bk為偏置項(xiàng).
則α?β原則定義為
(18)
其中,+表示正例,-表示負(fù)例,α和β滿足α-β=1,β≥0 約束.從而不同的α?β組合解釋預(yù)測(cè)結(jié)果的不同行為.
不同的任務(wù)、不同的網(wǎng)絡(luò)以及不同的數(shù)據(jù)上,各種α?β原則組合表現(xiàn)出不同的效果.Montavon等人[73]給出多種α?β組合,譬如α2β1,α1β0等,以及α?β組合選取的原則,并且在實(shí)驗(yàn)中將敏感度分析、簡(jiǎn)單泰勒分解以及相關(guān)度傳播的方法進(jìn)行比較,明顯看出其預(yù)測(cè)結(jié)果解釋的準(zhǔn)確度由大到小的排序?yàn)椋合嚓P(guān)度傳播的方法、簡(jiǎn)單泰勒展開(kāi)式、敏感度分析.
5 模仿者模型解釋技術(shù)
模仿者模型解釋方法的基本思想是通過(guò)訓(xùn)練一個(gè)可解釋的模仿者模型M來(lái)解釋復(fù)雜的原模型S.相同的輸入x1,x2,…,xN,模仿者模型M和復(fù)雜的原模型S具有相似的輸出,即
5.1 線性分類(lèi)器擬合
局部解釋法的主要思想是在一系列輸入實(shí)例中采樣獲得一組近鄰實(shí)例,然后訓(xùn)練出一個(gè)線性模型來(lái)擬合神經(jīng)網(wǎng)絡(luò)模型在該近鄰實(shí)例上的決策輸出,最后使用訓(xùn)練好的線性模型來(lái)解釋復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型.該方法典型的代表是LIME[37],訓(xùn)練出的模型可用于本地局部解釋預(yù)測(cè)結(jié)果,該方法適用于任何分類(lèi)器的預(yù)測(cè)解釋?zhuān)髡哌€通過(guò)文本處理的隨機(jī)森林模型和圖像分類(lèi)應(yīng)用的神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)集為例證明其方法的靈活性.
此類(lèi)方法其優(yōu)點(diǎn)在于模型設(shè)計(jì)訓(xùn)練過(guò)程簡(jiǎn)單,但由于近鄰實(shí)例的抽樣極具隨機(jī)性,訓(xùn)練出的線性解釋模型是不穩(wěn)定的,極易造成對(duì)于相似的輸入實(shí)例解釋不一致的問(wèn)題,以及對(duì)同一輸入實(shí)例的多次解釋不一致的問(wèn)題,同時(shí),近鄰實(shí)例的選擇也極大地影響解釋結(jié)果的準(zhǔn)確度.
Chu等人[38]研究了激活函數(shù)為分段線性函數(shù)的分段線性神經(jīng)網(wǎng)絡(luò)(piecewise linear neural network, PLNN)的解釋問(wèn)題,提出OpenBox的解釋模型.
以激活函數(shù)為PReLU的深度神經(jīng)網(wǎng)絡(luò)為例,其激活單元可分為0和1 這2種情況,因?yàn)镻ReLU激活函數(shù)的線性性質(zhì),則可推導(dǎo)出無(wú)論神經(jīng)元處于何種激活狀態(tài),其輸入和輸出始終保持線性關(guān)系.
解釋模型OpenBox的處理流程如下所示:
給定一個(gè)輸入實(shí)例x,將隱藏層中所有神經(jīng)元的激活狀態(tài)按逐層順序排列成一個(gè)向量conf(x),該向量的每一個(gè)元素為0或1,也稱為PLNN網(wǎng)中輸入實(shí)例x的配置.
那么,對(duì)于單個(gè)輸入實(shí)例的解釋使用PLNN網(wǎng)絡(luò)中輸入實(shí)例x的配置conf(x).當(dāng)conf(x)的元素排列值不變時(shí),PLNN中所有隱藏層的計(jì)算等價(jià)于一個(gè)簡(jiǎn)單的線性運(yùn)算Wx+b,即可構(gòu)造F(x)=Softmax(Wx+b)的線性分類(lèi)器.
為了解決解釋一致性的問(wèn)題,為PLNN的每個(gè)隱層神經(jīng)元的輸入z加上一組線性不等式約束r,因?yàn)檩斎離和每個(gè)隱層神經(jīng)元輸入z是線性關(guān)系,則等價(jià)于對(duì)每個(gè)輸入實(shí)例x加上一組線性不等式約束.因而,所有滿足r中線性不等式約束的實(shí)例x都具有相同的conf(x),這些實(shí)例共享著相同的線性分類(lèi)器.
對(duì)于總體的決策行為解釋依靠一個(gè)線性分類(lèi)器組來(lái)解釋?zhuān)煌碾[層神經(jīng)元激活狀態(tài)對(duì)應(yīng)不同的conf(x),因此具有多個(gè)不同的線性分類(lèi)器,這個(gè)分類(lèi)器組可作為PLNN的解釋模型.
該方法時(shí)間復(fù)雜度為線性的,具有較好的解釋性能,但是局限性太強(qiáng),僅能解釋PLNN類(lèi)的網(wǎng)絡(luò)結(jié)構(gòu),對(duì)于其他復(fù)雜的網(wǎng)絡(luò)顯得無(wú)能為力.
5.2 模型壓縮
采取模型壓縮的方式模擬深度網(wǎng)絡(luò),訓(xùn)練出一個(gè)層數(shù)較少的淺層網(wǎng)絡(luò),這個(gè)新的淺層網(wǎng)絡(luò)可以達(dá)到深度模型一樣的效果,實(shí)驗(yàn)表明淺層神經(jīng)網(wǎng)絡(luò)能夠?qū)W習(xí)與深度神經(jīng)網(wǎng)絡(luò)相同的功能[74-75].基于上述思想,研究出一系列的模仿者模型用于解釋復(fù)雜的模型.
從原復(fù)雜的深度模型S到模仿者模型M,多數(shù)是通過(guò)模型壓縮途徑獲取.模型壓縮技術(shù)的研究動(dòng)機(jī)主要是為了引入機(jī)器學(xué)習(xí)到移動(dòng)終端,但是設(shè)備處理能力有限,因而設(shè)計(jì)各種算法減少隱藏層的節(jié)點(diǎn)數(shù)量和模型層數(shù).Lei等人[76]通過(guò)減少隱藏層中節(jié)點(diǎn)的數(shù)量和輸出層中多元音素(senone)方式壓縮模型,最終在移動(dòng)設(shè)備上安裝 CD-DNN-HMM(context-dependent deep neural network hidden Markov model).Li等人[77]利用最小化模型S和模型M輸出分布之間的KL(Kullback-Leibler)偏差進(jìn)行層次壓縮,使用對(duì)數(shù)模型和高斯模型之間的等價(jià)關(guān)系對(duì)多元音素進(jìn)行壓縮.多數(shù)學(xué)者利用壓縮模型簡(jiǎn)單易解釋特性用于復(fù)雜模型的可解釋性工作.
5.3 知識(shí)蒸餾
知識(shí)蒸餾也稱為模型蒸餾或模型模擬學(xué)習(xí)方法,屬于模型壓縮方法的一種.其基本思想是從預(yù)先訓(xùn)練好的大模型,蒸餾學(xué)習(xí)出性能較好的小模型.該方法有效地減小模型大小和計(jì)算資源.
Hinton等人[39]提供一種高效的知識(shí)蒸餾的方法,蒸餾主要通過(guò)軟性的Softmax概率來(lái)實(shí)現(xiàn).對(duì)于Softmax的輸入z而言,其對(duì)于每個(gè)子類(lèi)的輸出概率為
(19)
其中,當(dāng)T=1時(shí),即為普通的Softmax變換,當(dāng)T?1時(shí),即得到軟化的Softmax的概率分布.通過(guò)式(19)生成軟標(biāo)簽,然后結(jié)合硬標(biāo)簽同時(shí)用于新網(wǎng)絡(luò)的學(xué)習(xí).
最后用KL散度來(lái)約束模仿者模型M和原模型S的概率分布較為相似,即:
(20)
其中,pM,pS分別表示模仿者模型M和原模型S的概率分布,Ak表示一組模仿者模型,q表示原模型S和模仿者模型M所包含所有類(lèi)別的最小子集的概率分布.
Frosst等人[40]在Hinton提出的知識(shí)蒸餾方法的基礎(chǔ)之上,提出利用軟決策樹(shù)來(lái)模擬和解釋復(fù)雜的原深度神經(jīng)網(wǎng)絡(luò).
Balan等人[41]利用蒙特卡洛算法實(shí)現(xiàn)從教師模型S中蒸餾出學(xué)生模型M,并使M近似S的貝葉斯預(yù)測(cè)分布.該方法可簡(jiǎn)化問(wèn)題的復(fù)雜性,但是大量的抽樣將導(dǎo)致計(jì)算量較大.
Xu等人[78]設(shè)計(jì)了DarkSight解釋方法,利用蒸餾知識(shí)壓縮黑盒分類(lèi)器成簡(jiǎn)單可解釋的低維分類(lèi)器,并借助可視化技術(shù)對(duì)提取的暗知識(shí)進(jìn)行呈現(xiàn).
5.4 其他方法
Che等人[42]利用梯度提升樹(shù)(gradient boosting trees)來(lái)學(xué)習(xí)深度模型中的可解釋特征,并構(gòu)造出GBTmimic model 對(duì)模型進(jìn)行解釋.其基本處理流程如圖4所示:
Fig. 4 The processing of GBTmimic model
圖4 GBTmimic模型處理流程
給定輸入特征x和目標(biāo)y,輸入特征x進(jìn)入原模型S后,輸出xnn和ynn.原模型S可能是多層降噪自動(dòng)編碼機(jī)(stacked denoising autoencoder, SDAE)或者LSTM,都具有幾個(gè)隱藏層和一個(gè)預(yù)測(cè)層,xnn是選擇從最高隱藏層的激活函數(shù)中提出的特征,ynn是從預(yù)測(cè)層獲得軟預(yù)測(cè)分?jǐn)?shù).接下來(lái),目標(biāo)y和xnn同時(shí)進(jìn)入Classifier,Classifier選擇Logistics回歸,在相同的分類(lèi)任務(wù)上,xnn進(jìn)入分類(lèi)器獲得軟預(yù)測(cè)分值yc.最后,選擇yc或ynn以及特征x作為模仿者模型M的輸入,通過(guò)最小均方差得到最終輸出
模仿者模型即梯度提升回歸樹(shù)(gradient boosting regression trees).
Wu等人[79]提出樹(shù)規(guī)則化的方法,使用二分類(lèi)決策樹(shù)模擬深度時(shí)間序列模型的預(yù)測(cè),該模型比深度神經(jīng)網(wǎng)絡(luò)更容易解釋?zhuān)菢?gòu)造二分類(lèi)決策樹(shù)開(kāi)銷(xiāo)較大.
然而,由于模擬模型的模型復(fù)雜度降低,將無(wú)法保證具有超大維度的深神經(jīng)網(wǎng)絡(luò)可以被更簡(jiǎn)單的淺模型成功模擬,因此,模仿者模型不適合超深層的神經(jīng)網(wǎng)路.同時(shí),由于學(xué)習(xí)到一個(gè)更加簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)模型,解釋模型的復(fù)雜度則達(dá)到某種程度的降低,而效果是以犧牲部分模型的準(zhǔn)確度為代價(jià)而取得.
6 性能評(píng)估
對(duì)于可解釋的評(píng)估因?yàn)槿蝿?wù)的不同、解釋模型的不同等諸多因素造成目前無(wú)法使用普適的方法.多數(shù)的方法都采用熱力圖[29,31-32]、錯(cuò)誤率、準(zhǔn)確率或者AUC[42]等方法進(jìn)行評(píng)估.為了考慮到可用性,Zhou等人[9,34]引入人類(lèi)評(píng)估作為基線.本文試圖從可解釋研究框架的角度給出如下的評(píng)估標(biāo)準(zhǔn):
給定數(shù)據(jù)集D={X,Y},對(duì)于任意的x∈X,得到原預(yù)測(cè)模型S的值
其解釋模型M的預(yù)測(cè)值是
6.1 解釋的一致性
一致性是指對(duì)于2個(gè)相似的數(shù)據(jù)點(diǎn)x和x′,其預(yù)測(cè)解釋M(x)和M(x′)也應(yīng)該是接近相等的.解釋的一致性可表示為:
(21)
6.2 解釋的選擇性
Bach等人?[36]和Samek等人[80]提出解釋的選擇性可由相關(guān)度最高的特征移除時(shí),激活函數(shù)f(x)降低的速度來(lái)評(píng)價(jià).該方法也稱為像素翻轉(zhuǎn)(pixel-flipping),不僅適合圖像,同樣適用于文本數(shù)據(jù).
其執(zhí)行過(guò)程循環(huán)的執(zhí)行步驟為:
Step1. 計(jì)算f(x)當(dāng)前的值;
Step2. 找到最高相關(guān)度特征Ri(x);
Step3. 從特征集合中移除該特征x←x-{xi}.
6.3 解釋的準(zhǔn)確性
準(zhǔn)確性是指預(yù)測(cè)模型的準(zhǔn)確度,可使用準(zhǔn)確度值、F1指數(shù)等來(lái)衡量,構(gòu)造一個(gè)可解釋性模型,該模型自身的準(zhǔn)確度依舊需要保持高精度,可解釋模型的準(zhǔn)確度為
6.4 解釋的保真度
解釋的保真度主要描述解釋模型在何種程度上準(zhǔn)確模仿原模型.針對(duì)黑盒子結(jié)果而言,利用其準(zhǔn)確度、F1指數(shù)進(jìn)行評(píng)價(jià).保真度即是評(píng)估
此外,除上述幾個(gè)與可解釋性嚴(yán)格相關(guān)的指標(biāo)外,機(jī)器學(xué)習(xí)的模型具有其他的重要因素,例如可靠性、魯棒性、因果關(guān)系、可擴(kuò)展性和通用性等,從而意味著模型能夠獨(dú)立于參數(shù)或者輸入數(shù)據(jù)保持一定的性能(可靠性與魯棒性),輸入的變化影響模型行為的變化(因果關(guān)系),此外要求能夠?qū)⒛P蛿U(kuò)展到更大的輸入空間(可擴(kuò)展性).最后在不同的應(yīng)用場(chǎng)景中,人們會(huì)使用相同的模型和不同的數(shù)據(jù),因此需要能夠通用的解釋模型,而非定制的受限的,這也將為性能評(píng)估方法提出巨大的挑戰(zhàn).
7 總結(jié)與展望
本文從機(jī)器學(xué)習(xí)模型的解釋技術(shù)、預(yù)測(cè)結(jié)果的解釋技術(shù)和模仿者模型技術(shù)3個(gè)方法總結(jié)了現(xiàn)有的關(guān)于機(jī)器學(xué)習(xí)的可解釋技術(shù),并總結(jié)其相關(guān)信息如表3所示.
7.1 可解釋技術(shù)的內(nèi)部問(wèn)題
縱觀當(dāng)前機(jī)器學(xué)習(xí)的可解釋技術(shù),仍然面臨著3個(gè)方面的挑戰(zhàn).
1) 準(zhǔn)確性和解釋性的均衡.伴隨著模型的愈加復(fù)雜,提高最后預(yù)測(cè)的準(zhǔn)確性,然后要求其預(yù)測(cè)的可解釋性,必將意味著模型的復(fù)雜度受到一定程度的制約,預(yù)測(cè)模型需要犧牲部分準(zhǔn)確度來(lái)滿足可解釋性,預(yù)測(cè)精度的損失是一個(gè)令人擔(dān)憂的問(wèn)題,因此,這一工作領(lǐng)域的中心重點(diǎn)是在保持可解釋性的同時(shí)將精度損失最小化.
2) 解釋一致性問(wèn)題.輸入一系列數(shù)據(jù),經(jīng)過(guò)預(yù)測(cè)模型,其解釋機(jī)制給出一個(gè)解釋.當(dāng)下次再次輸入相同或者類(lèi)似的數(shù)據(jù),解釋機(jī)制是否能給出相同或者一致的解釋是至關(guān)重要的,否則很難取得用戶的信任,并將其真正地應(yīng)用于實(shí)際項(xiàng)目中.
3) 評(píng)估問(wèn)題.如何評(píng)估機(jī)器學(xué)習(xí)的解釋質(zhì)量的評(píng)價(jià)標(biāo)準(zhǔn)對(duì)于持續(xù)提升系統(tǒng)至關(guān)重要,因?yàn)橹挥羞@樣才能更明確地有針對(duì)性地設(shè)計(jì)技術(shù)方案進(jìn)行改進(jìn).機(jī)器學(xué)習(xí)的評(píng)估指標(biāo)除了第6節(jié)中提到的之外,還有待于深入研究.
Doshi-Velez等人[17]提出如何考慮評(píng)估機(jī)器學(xué)習(xí)模型的人類(lèi)可解釋性方法.他們提出3種類(lèi)型的方法:以應(yīng)用為基礎(chǔ),以幫助人類(lèi)完成實(shí)際任務(wù)的程度來(lái)判斷解釋效果;以人類(lèi)為基礎(chǔ),以人類(lèi)偏好或根據(jù)解釋對(duì)模型進(jìn)行推理的能力來(lái)判斷解釋?zhuān)灰怨δ転榛A(chǔ),以無(wú)人類(lèi)輸入的情況下,來(lái)判斷代理模型的解釋效果.對(duì)于這3種方法,皆假設(shè)結(jié)果數(shù)據(jù)的矩陣因子法有利于識(shí)別出解釋性的常見(jiàn)潛在因素.
Mohseni等人[81]嘗試將機(jī)器學(xué)習(xí)的可解釋任務(wù)根據(jù)目標(biāo)用戶分為數(shù)據(jù)新手(data novices)、數(shù)據(jù)專(zhuān)家、機(jī)器學(xué)習(xí)專(zhuān)家3類(lèi),在每個(gè)類(lèi)別下分別給出用戶心智模型、用戶-機(jī)器任務(wù)性能、用戶解釋的滿意度、用戶信任和信賴度和計(jì)算性能4個(gè)維度的評(píng)估.Mohseni認(rèn)為機(jī)器學(xué)習(xí)的可解釋性評(píng)估需要跨學(xué)科學(xué)者的共同努力,并充分考慮到人力和計(jì)算等要素.
7.2 安全和隱私性的問(wèn)題
對(duì)模型研究得越透徹,意味著更大的風(fēng)險(xiǎn),便于攻擊者的攻擊.無(wú)論是從數(shù)據(jù)上,還是從模型上,模型的可解釋性和安全存在某種程度的相沖突.譬如模型訓(xùn)練階段的數(shù)據(jù)投毒攻擊[82]可造成模型的預(yù)測(cè)和解釋失??;推理階段根據(jù)解釋技術(shù)中的激活值最大化和隱層神經(jīng)元分析的方法,攻擊者可以依據(jù)模型的解釋機(jī)制而發(fā)起模型完整性攻擊的模型推測(cè)攻擊(model inversion attack)[83-85]和模型竊取攻擊(model extraction attack)[86].
Table 3 The Summary of Interpretation and Understanding Methods
表3 可解釋技術(shù)方法匯總表
目前,越來(lái)越多的人開(kāi)始關(guān)注深度學(xué)習(xí)的隱私保護(hù)問(wèn)題,該問(wèn)題的目標(biāo)是保護(hù)訓(xùn)練數(shù)據(jù)集和訓(xùn)練參數(shù).主流的做法是Shokri等人[87]提出的分布式訓(xùn)練方法,將噪聲注入到參數(shù)的梯度中進(jìn)行訓(xùn)練,以保護(hù)神經(jīng)網(wǎng)絡(luò)中的隱私.在該方法中,注入噪聲的大小和隱私預(yù)算與共享參數(shù)的數(shù)量都將成比例地累積.因此,它可能消耗不必要的大部分隱私預(yù)算,多方之間的訓(xùn)練時(shí)期的參數(shù)數(shù)量和共享參數(shù)的數(shù)量通常很大,可用性較差.
機(jī)器學(xué)習(xí)的可解釋方法是否可以提高深度學(xué)習(xí)的差分隱私的可用性?Phan等人[88]設(shè)計(jì)自適應(yīng)拉普拉斯擾動(dòng)機(jī)制,嘗試將“更多噪聲”注入到模型輸出“不太相關(guān)”的特征中.預(yù)測(cè)結(jié)果的解釋技術(shù)中的分層優(yōu)化的相關(guān)度傳播LRP算法是不錯(cuò)的解決方案,實(shí)驗(yàn)表明在MNIST和CIFAR-10數(shù)據(jù)集上都取得不錯(cuò)的效果.Papernot等人[89]提出的PATE(private aggregation of teacher ensembles)模型借鑒了模仿者模型解釋技術(shù)中的蒸餾知識(shí)技術(shù),包含敏感信息的教師模型不能直接被訪問(wèn),蒸餾出的學(xué)生模型可以被查詢?cè)L問(wèn),從而有效地保護(hù)模型和數(shù)據(jù)的隱私.綜上所述,將機(jī)器學(xué)習(xí)的可解釋技術(shù)和深度學(xué)習(xí)的隱私保護(hù)技術(shù)相結(jié)合,同時(shí)有效地解決機(jī)器學(xué)習(xí)的隱私和可解釋性2個(gè)問(wèn)題成為一種可能.
7.3 研究視角的拓展
當(dāng)前機(jī)器學(xué)習(xí)的可解釋框架主要從模型和結(jié)果2個(gè)角度進(jìn)行解釋?zhuān)哂幸欢ǖ木窒扌?DeepMind 團(tuán)隊(duì)的 Rabinowitz 等人[90]試圖以心智理論的視角來(lái)研究機(jī)器學(xué)習(xí)的可解釋性問(wèn)題,其研究目標(biāo)是讓觀察者在有限的數(shù)據(jù)集的基礎(chǔ)之上自動(dòng)學(xué)習(xí)如何應(yīng)對(duì)新的智能體建模,區(qū)別于以往的模仿算法,將學(xué)習(xí)如何像人理解人一樣來(lái)預(yù)測(cè)另一個(gè)智能體的行為.其團(tuán)隊(duì)提出ToMnet模型改變以往嘗試設(shè)計(jì)能表述內(nèi)在狀態(tài)的系統(tǒng)的做法,利用中轉(zhuǎn)系統(tǒng)、人機(jī)接口,縮小原系統(tǒng)的行為空間大小,從而以人類(lèi)更好理解的形式轉(zhuǎn)述.同時(shí),從訓(xùn)練數(shù)據(jù)分析的視角來(lái)解釋機(jī)器學(xué)習(xí)的預(yù)測(cè)結(jié)果,也越來(lái)越被研究者所關(guān)注.譬如,Papernot等人[91]?提出的深度k近鄰(deep?k-nearest neighbors, DkNN) 混合分類(lèi)器將k近鄰算法與DNN各層學(xué)習(xí)數(shù)據(jù)的表示形式相結(jié)合,有效地解決數(shù)據(jù)投毒攻擊和模型可解釋性2個(gè)問(wèn)題.
目前,機(jī)器學(xué)習(xí)技術(shù)已滲入到數(shù)據(jù)庫(kù)、圖像識(shí)別、自然語(yǔ)言處理等多個(gè)研究領(lǐng)域,而機(jī)器學(xué)習(xí)的可解釋技術(shù)必將影響著這些領(lǐng)域產(chǎn)品由實(shí)驗(yàn)室實(shí)驗(yàn)階段走向工業(yè)實(shí)際應(yīng)用的進(jìn)程.
在數(shù)據(jù)庫(kù)領(lǐng)域,將機(jī)器學(xué)習(xí)融入到數(shù)據(jù)庫(kù)管理的索引結(jié)構(gòu)[92]、緩沖區(qū)管理[93]和查詢優(yōu)化[94-95]等多個(gè)環(huán)節(jié)中,出現(xiàn)一種機(jī)器學(xué)習(xí)化的數(shù)據(jù)庫(kù)系統(tǒng)趨勢(shì).一方面可提高數(shù)據(jù)庫(kù)的處理速度;另一方面,數(shù)據(jù)庫(kù)系統(tǒng)可智能自動(dòng)調(diào)配數(shù)據(jù)庫(kù)系統(tǒng)模塊.然而,機(jī)器學(xué)習(xí)的其可解釋性較差的缺點(diǎn)日趨凸顯,再者機(jī)器學(xué)習(xí)化的數(shù)據(jù)庫(kù)中重要的組成模塊事務(wù)處理要求事務(wù)處理過(guò)程具有可追溯性和可解釋性[96].因此,將可解釋性引入到機(jī)器學(xué)習(xí)化的數(shù)據(jù)庫(kù)中,可有效地幫助數(shù)據(jù)庫(kù)設(shè)計(jì)者和使用者更快、更好地設(shè)計(jì)和使用數(shù)據(jù)庫(kù).
在自然語(yǔ)言理解領(lǐng)域,如何更好地利用知識(shí)和常識(shí)成為一個(gè)重要的研究課題.很多情況下,只有具備一定常識(shí)的情況下,才便于對(duì)機(jī)器做出更深入的解釋和理解.在人機(jī)交互系統(tǒng)中需要相關(guān)領(lǐng)域知識(shí),從而能更加準(zhǔn)確地完成用戶查詢理解、對(duì)話管理和回復(fù)生成等任務(wù),受益于類(lèi)似人機(jī)交互系統(tǒng)通常需要相關(guān)的領(lǐng)域知識(shí)這一特點(diǎn),提高了基于知識(shí)和常識(shí)的可解釋性NLP的可能性.
多數(shù)學(xué)者將領(lǐng)域知識(shí)引入到機(jī)器學(xué)習(xí)中,主要出于處理小數(shù)據(jù)場(chǎng)景或者提高性能的考慮,極少考慮到領(lǐng)域知識(shí)也可看作解釋技術(shù)的重要組成部分.Rueden等人[97]首次提出知情機(jī)器學(xué)習(xí)(informed ML),對(duì)知識(shí)的類(lèi)型、知識(shí)表示、知識(shí)轉(zhuǎn)換以及知識(shí)與機(jī)器學(xué)習(xí)的方法的融合做出詳細(xì)的分類(lèi)說(shuō)明.譬如知識(shí)類(lèi)型可分為:自然科學(xué)、處理流程、世界知識(shí)和專(zhuān)家直覺(jué).在該框架指導(dǎo)下,用戶可以逐步選擇合適的知識(shí)類(lèi)型、知識(shí)表示和融合算法實(shí)現(xiàn)對(duì)機(jī)器學(xué)習(xí)模型的可解釋和預(yù)測(cè)結(jié)果的可解釋.
除此之外,知識(shí)圖譜具有海量規(guī)模、結(jié)構(gòu)良好、語(yǔ)義豐富等優(yōu)點(diǎn),使其成為機(jī)器學(xué)習(xí)理解語(yǔ)言的重要背景知識(shí)成為可能.肖仰華團(tuán)隊(duì)針對(duì)詞袋[98]、概念[99]、實(shí)體集[100]和鏈接實(shí)體[101]做出一系列的解釋工作,探索性地幫助機(jī)器理解和解釋概念.然而,大規(guī)模的常識(shí)獲取以及將符號(hào)化知識(shí)植入到數(shù)值化表示的神經(jīng)網(wǎng)路都缺乏有效手段,這些問(wèn)題將得到普遍的關(guān)注和研究.
再者不同的應(yīng)用場(chǎng)景對(duì)于機(jī)器學(xué)習(xí)的可解釋性的要求不同,如果僅是作為技術(shù)安全審查而用,專(zhuān)業(yè)的解釋即可;如果當(dāng)機(jī)器解釋成為人機(jī)交互的一部分時(shí),其解釋必須通俗易懂.總之,機(jī)器學(xué)習(xí)的可解釋性解決方案源于實(shí)用性的需求.
審核編輯:符乾江
評(píng)論
查看更多