這里,我們將討論兩個(gè)重要的度量指標(biāo),即精度和召回率,它們被用于度量分類模型(即分類器)的性能。特別地,我們將討論如何用這兩個(gè)指標(biāo)來(lái)評(píng)估決策樹模型。
一般來(lái)說(shuō),精確度度量針對(duì)的問題是“有多少選定的項(xiàng)目是相關(guān)的?”而召回率度量針對(duì)的問題是“有多少相關(guān)的項(xiàng)目被選中?”
精密率和召回率的定義
在定義精確度和召回率之前,我們首先需要澄清幾個(gè)概念。
假設(shè)我們有一個(gè)分類器來(lái)判斷一張圖片是否包含cat,目標(biāo)標(biāo)簽(class)有兩個(gè)值:[cat, non-cat]。分類器也會(huì)輸出兩個(gè)可能的值。例如,給定一組已標(biāo)記的圖片,我們應(yīng)用分類器為每幅圖片預(yù)測(cè)一個(gè)標(biāo)簽。如下表所示,根據(jù)圖片實(shí)際標(biāo)簽和預(yù)測(cè)標(biāo)簽,有4種可能的情況。在許多文獻(xiàn)中,該表也稱為混淆矩陣。
由于分類器的目的是預(yù)測(cè)圖片中是否有貓,所以當(dāng)分類器以“cat”的形式給出預(yù)測(cè)結(jié)果時(shí),我們稱預(yù)測(cè)結(jié)果為正,稱“not-cat”預(yù)測(cè)結(jié)果為負(fù)。我們將上表中的4種情況詳細(xì)說(shuō)明如下:
True Positive (Tp)
對(duì)于一幅圖,如果預(yù)測(cè)的類別是正的(例如cat),而該圖的實(shí)際類別碰巧也是正的,則我們稱這種情況為真正
True Negative (Tn)
對(duì)于一個(gè)圖片,如果預(yù)測(cè)的類是負(fù)的(即not-cat),而實(shí)際的類碰巧也是負(fù)的,那么我們就稱這種情況為真負(fù)。
False Positive (Fp)
對(duì)于一幅圖,如果預(yù)測(cè)的類是正的(即cat),但該圖的實(shí)際類是負(fù)的(not-cat),則我們稱這種情況為假正。
False Negative (Fn)
對(duì)于一幅圖片,如果所預(yù)測(cè)的類別是否定的(即not-cat),但該圖片的實(shí)際類別是肯定的(即cat),則我們稱這種情況為假否定。
根據(jù)上述定義,我們現(xiàn)在可以定義精確度和召回率的度量。
精度(P)定義為真正(Tp)與所有是正預(yù)測(cè)(Tp+Fp)的比值,即真正的數(shù)與假正的數(shù)的比值。
當(dāng)分類器聲稱樣本為正時(shí),我們可以將精度度量解釋為確定性。例如,一個(gè)標(biāo)識(shí)符,如果Tp = Fp = 50,那么它的精度P = 50/(50 + 50) = 0.5 即我們可以說(shuō)只要分類器聲稱,結(jié)果是正的,只有50%概率分類器實(shí)際上是正確的。
如果我們認(rèn)為實(shí)際的正的項(xiàng)(樣本)是“相關(guān)的”,聲稱的正的項(xiàng)目是“被選擇的”,那么精度度量回答了多少被選擇的項(xiàng)目是相關(guān)的問題,正如文章開始所述的那樣。
召回率(R)定義為真正性(Tp)與所有正樣本(Tp+Fn)的比值,即真正的數(shù)量與假負(fù)的數(shù)量之和。
我們可以將召回度量解釋為分類器識(shí)別出的實(shí)際正性案例的百分比。例如,一個(gè)標(biāo)識(shí)符,如果Tp = Fn = 50 ,然后召回率R = 50/(50 + 50) = 0.5,也就是說(shuō)我們只能說(shuō)分類器僅獲得50%實(shí)際正性案例的50%,而對(duì)另外50%的實(shí)際正案例進(jìn)行了錯(cuò)誤分類。
舉個(gè)例子
利用上述公式,我們可以得到每個(gè)標(biāo)簽的精度和召回率,如下:
說(shuō)明:我們以“setosa”這個(gè)標(biāo)簽為例來(lái)說(shuō)明詳細(xì)。對(duì)于“setosa”標(biāo)簽,從第0行到第3行總共有4個(gè)實(shí)際正的樣本,模型給出了3個(gè)正預(yù)測(cè)(即在第2、5、9行),對(duì)于“setosa”標(biāo)簽,只有一個(gè)真實(shí)正,位于第2行。setosa的假正位于第5行和第9行。最后,setosa的假負(fù)性為3例,分別位于第0、1、3行。
什么是準(zhǔn)確度???
除了精確率和召回率之外,還有一個(gè)眾所周知的度量標(biāo)準(zhǔn)叫做準(zhǔn)確度,它被用來(lái)衡量分類模型的性能。
準(zhǔn)確性(A)定義為對(duì)所有預(yù)測(cè)(Tp+Tn+Fp+Fn)的真實(shí)結(jié)果(包括真正(Tp)和真負(fù)(Tn))的比例。
與精確率-召回率相比,準(zhǔn)確率似乎是一種更加平衡的衡量標(biāo)準(zhǔn),因?yàn)樗瑫r(shí)考慮了真正的正因素和真正的負(fù)因素。然而,事實(shí)證明,準(zhǔn)確性實(shí)際上是一個(gè)誤導(dǎo)的度量,特別是對(duì)于不平衡的數(shù)據(jù)集。例如,對(duì)于包含5封垃圾郵件(即正樣本)和95封普通郵件(即負(fù)樣本)的數(shù)據(jù)集,簡(jiǎn)單地將所有樣本預(yù)測(cè)為負(fù)(非垃圾郵件)的低級(jí)的垃圾郵件分類器將獲得95%高精度。垃圾郵件分類器在使用精確率召回率度量時(shí),其精確度和召回率為零,這更準(zhǔn)確地反映了分類器的實(shí)際預(yù)測(cè)能力。因此,在實(shí)踐中,人們更喜歡精確率召回率來(lái)度量而不是準(zhǔn)確度作為他們分類器的基準(zhǔn)。
-
分類器
+關(guān)注
關(guān)注
0文章
152瀏覽量
13196 -
性能指標(biāo)
+關(guān)注
關(guān)注
0文章
14瀏覽量
7907 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5504瀏覽量
121227
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論