貝葉斯分類器的分類原理是通過(guò)某對(duì)象的先驗(yàn)概率,利用貝葉斯公式計(jì)算出其后驗(yàn)概率,即該對(duì)象屬于某一類的概率,選擇具有最大后驗(yàn)概率的類作為該對(duì)象所屬的類。
在具有模式的完整統(tǒng)計(jì)知識(shí)條件下,按照貝葉斯決策理論進(jìn)行設(shè)計(jì)的一種最優(yōu)分類器。分類器是對(duì)每一個(gè)輸入模式賦予一個(gè)類別名稱的軟件或硬件裝置,而貝葉斯分類器是各種分類器中分類錯(cuò)誤概率最小或者在預(yù)先給定代價(jià)的情況下平均風(fēng)險(xiǎn)最小的分類器。它的設(shè)計(jì)方法是一種最基本的統(tǒng)計(jì)分類方法。
最小錯(cuò)誤概率貝葉斯分類器
把代表模式的特征向量x分到c個(gè)類別(ω1,ω2,。。。,ωc)中某一類的最基本方法是計(jì)算在 x的條件下,該模式屬于各類的概率,用符號(hào)P(ω1|x),P(ω2|x),。。。,P(ωc|x)表示。比較這些條件概率,最大數(shù)值所對(duì)應(yīng)的類別ωi就是該模式所屬的類。例如表示某個(gè)待查細(xì)胞的特征向量 x屬于正常細(xì)胞類的概率是0.2,屬于癌變細(xì)胞類的概率是0.8,就把它歸類為癌變細(xì)胞。
貝葉斯分類器
上述定義的條件概率也稱為后驗(yàn)概率,在特征向量為一維的情況下,一般有圖中的變化關(guān)系。當(dāng) x=x*時(shí),P(ω1|x)=P(ω2|x), 對(duì)于 x》x*的區(qū)域,由于P(ω2|x)》P(ω1|x)因此x屬ω2類,對(duì)于x《x*的區(qū)域,由于P(ω1|x)》P(ω2|x),x屬ω1類,x*就相當(dāng)于區(qū)域的分界點(diǎn)。圖中的陰影面積就反映了這種方法的錯(cuò)誤分類概率,對(duì)于以任何其他的 x值作為區(qū)域分界點(diǎn)的分類方法都對(duì)應(yīng)一個(gè)更大的陰影面積,因此貝葉斯分類器是一種最小錯(cuò)誤概率的分類器
貝葉斯分類器
進(jìn)行計(jì)算
一般情況下,不能直接得到后驗(yàn)概率而是要通過(guò)貝葉斯公式進(jìn)行計(jì)算。式中的P(x│ωi)為在模式屬于ωi類的條件下出現(xiàn)x的概率密度,稱為x的類條件概率密度;P(ωi)為在所研究的識(shí)別問(wèn)題中出現(xiàn)ωi類的概率,又稱先驗(yàn)概率;P(x)是特征向量x的概率密度。分類器在比較后驗(yàn)概率時(shí),對(duì)于確定的輸入x,P(x)是常數(shù),因此在實(shí)際應(yīng)用中,通常不是直接用后驗(yàn)概率作為分類器的判決函數(shù)gi(x)(見(jiàn)線性判別函數(shù))而采用下面兩種形式:
公式
對(duì)所有的c個(gè)類計(jì)算gi(x)(i=1,2,。。。,c)。與gi(x)中最大值相對(duì)應(yīng)的類別就是x的所屬類別。
貝葉斯分類器工作原理原理
貝葉斯分類器是一種比較有潛力的數(shù)據(jù)挖掘工具,它本質(zhì)上是一種分類手段,但是它的優(yōu)勢(shì)不僅僅在于高分類準(zhǔn)確率,更重要的是,它會(huì)通過(guò)訓(xùn)練集學(xué)習(xí)一個(gè)因果關(guān)系圖(有向無(wú)環(huán)圖)。如在醫(yī)學(xué)領(lǐng)域,貝葉斯分類器可以輔助醫(yī)生判斷病情,并給出各癥狀影響關(guān)系,這樣醫(yī)生就可以有重點(diǎn)的分析病情給出更全面的診斷。
進(jìn)一步來(lái)說(shuō),在面對(duì)未知問(wèn)題的情況下,可以從該因果關(guān)系圖入手分析,而貝葉斯分類器此時(shí)充當(dāng)?shù)氖且环N輔助分析問(wèn)題領(lǐng)域的工具。如果我們能夠提出一種準(zhǔn)確率很高的分類模型,那么無(wú)論是輔助診療還是輔助分析的作用都會(huì)非常大甚至起主導(dǎo)作用,可見(jiàn)貝葉斯分類器的研究是非常有意義的。
一、知識(shí)脈絡(luò)
二、基本原理
貝葉斯決策論通過(guò)相關(guān)概率已知的情況下利用誤判損失來(lái)選擇最優(yōu)的類別分類。
“風(fēng)險(xiǎn)”(誤判損失)= 原本為cj的樣本誤分類成ci產(chǎn)生的期望損失(如下式,概率乘以損失為期望損失)
為了最小化總體風(fēng)險(xiǎn),只需在每個(gè)樣本上選擇能夠使條件風(fēng)險(xiǎn)R(c|x)最小的類別標(biāo)記。
h*稱為貝葉斯最優(yōu)分類器,與之對(duì)應(yīng)的總體風(fēng)險(xiǎn)為貝葉斯風(fēng)險(xiǎn),另lambda等于1時(shí),最優(yōu)貝葉斯分類器是使后驗(yàn)概率P(c|x)最大。
利用貝葉斯判定準(zhǔn)則來(lái)最小化決策風(fēng)險(xiǎn),首先要獲得后驗(yàn)概率P(c|x),機(jī)器學(xué)習(xí)則是基于有限的訓(xùn)練樣本集盡可能準(zhǔn)確的估計(jì)出后驗(yàn)概率P(c|x)。通常有兩種模型:1.“判別式模型”: 通過(guò)直接建模P(c|x)來(lái)預(yù)測(cè)(決策樹(shù),BP神經(jīng)網(wǎng)絡(luò),支持向量機(jī))。2.“生成式模型”:通過(guò)對(duì)聯(lián)合概率模型P(x,c)進(jìn)行建模,然后再獲得P(c|x)。
P(c)是類“先驗(yàn)”概率,P(x|c)是樣本x相對(duì)于類標(biāo)記條件概率,或稱似然。似然函數(shù)定義(對(duì)同一個(gè)似然函數(shù),如果存在一個(gè)參數(shù)值,使得它的函數(shù)值達(dá)到最大的話,那么這個(gè)值就是最為“合理”的參數(shù)值??蓞⒖糷ttp://www.cnblogs.com/kevinGaoblog/archive/2012/03/29/2424346.html)
對(duì)于P(c)而言代表樣本空間中各類樣本所占的比例,根據(jù)大數(shù)定理當(dāng)訓(xùn)練集包含充足的獨(dú)立同分布樣本時(shí),可通過(guò)各類樣本出現(xiàn)的頻率進(jìn)行估計(jì)。對(duì)于P(x|c)而言,涉及關(guān)于所有屬性的聯(lián)合概率,無(wú)法根據(jù)樣本出現(xiàn)的頻率進(jìn)行估計(jì)。
7.2極大似然估計(jì)
假設(shè)P(x|c)具有確定的形式并且被參數(shù)向量唯一確定,則我們的任務(wù)是利用訓(xùn)練集估計(jì)參數(shù)Qc,將P(x|c)記為P(x|Qc)。令Dc表示訓(xùn)練集D第c類樣本的集合,假設(shè)樣本獨(dú)立同分布,則參數(shù)Qc對(duì)于數(shù)據(jù)集Dc的似然是
連乘容易造成下溢,通常使用對(duì)數(shù)似然
注意。這種參數(shù)化的方法雖然能使類條件概率估計(jì)變得相對(duì)簡(jiǎn)單,但是估計(jì)結(jié)果的準(zhǔn)確性嚴(yán)重依賴所假設(shè)的概率分布形式是否符合潛在的真實(shí)數(shù)據(jù)分布。有限的數(shù)據(jù)集合難以直接估計(jì)其聯(lián)合概率分布。故此我們提出樸素貝葉斯分類器。
三、樸素貝葉斯分類器
為了避開(kāi)聯(lián)合概率分布這一障礙,樸素貝葉斯分類器采用了“屬性條件獨(dú)立性假設(shè)”:對(duì)已知類別,假設(shè)所有屬性相互獨(dú)立。
若存在某個(gè)屬性值在訓(xùn)練的過(guò)程中沒(méi)有與某個(gè)類同時(shí)出現(xiàn)過(guò),直接利用式子進(jìn)行概率估計(jì)將會(huì)出錯(cuò)。因?yàn)闀?huì)存在某一屬性為概率0,導(dǎo)致無(wú)論其他屬性多好都將為零。為了避免上述產(chǎn)生的將某種未出現(xiàn)的屬性值抹去,在估計(jì)概率時(shí)可進(jìn)行“平滑”(smoothing),常用“拉普拉斯修正”。具體來(lái)說(shuō)可以令N表示訓(xùn)練集D中可能的類別數(shù),Ni表示第i個(gè)屬性可能的取值數(shù)。
拉普拉斯修正避免了因訓(xùn)練集樣本不充分而導(dǎo)致概率估值為零的問(wèn)題,并且在訓(xùn)練集變大時(shí),修正過(guò)程所引入的先驗(yàn)(prior)的影響也會(huì)逐漸變得可忽略,使得估值逐漸趨于實(shí)際的概率值。
在現(xiàn)實(shí)任務(wù)中樸素貝葉斯分類器有很多種使用方式。對(duì)預(yù)測(cè)速度要求較高的,將所有概率的估計(jì)值事先計(jì)算好存儲(chǔ)起來(lái),這樣在進(jìn)行預(yù)測(cè)是只需要查表就可以進(jìn)行判別。若任務(wù)數(shù)據(jù)更替頻繁,則可采用懶惰學(xué)習(xí)(lazy learning),收到數(shù)據(jù)進(jìn)行概率估計(jì),若數(shù)據(jù)不斷增加,則可在現(xiàn)有的估值基礎(chǔ)上,僅對(duì)新增樣本屬性值所涉及的概率估值進(jìn)行技術(shù)修正即可實(shí)現(xiàn)增量學(xué)習(xí)。
四、半樸素貝葉斯分類器
樸素貝葉斯分類器采用屬性完全獨(dú)立的假設(shè),在現(xiàn)實(shí)生活中通常難以成立,對(duì)屬性條件獨(dú)立性假設(shè)進(jìn)行一定程度的放松,由此產(chǎn)生一類“半樸素被夜色分類器”(semi-naive Bayes classifiers)的學(xué)習(xí)方法,不需要進(jìn)行完全聯(lián)合概率計(jì)算,又不至于徹底忽略了比較強(qiáng)的屬性依賴關(guān)系。
“獨(dú)依賴估計(jì)”(One dependent Estimator, ODE),假設(shè)每個(gè)屬性在類別之外最多依賴一個(gè)其他的屬性
pai為屬性xi所依賴的屬性,稱為xi的父屬性。若對(duì)每個(gè)屬性xi,其父屬性已知,則可用類似如下的方法進(jìn)行估計(jì)概率
因此我們將問(wèn)題轉(zhuǎn)化成確定每個(gè)屬性的父屬性。
1. SPODE:確認(rèn)一個(gè)超父屬性,其余屬性都依賴該屬性。
2.TAN(最大帶全生成樹(shù))
評(píng)論
查看更多