很多機(jī)器學(xué)習(xí)分類器都需要對(duì)背景或其他類別的物體進(jìn)行具體分類。這種分類器最大的難題就是在對(duì)背景進(jìn)行分類時(shí)能否達(dá)到較高的準(zhǔn)確率。它沒有可辨別特征,并且可用的訓(xùn)練數(shù)據(jù)可能不會(huì)覆蓋所有的輸入分布。在這篇文章中,我們提出了幾種解決這一問題的方法。
在這篇文章里,我們將圖像樣本分類問題看做“狗狗種類的區(qū)分”問題(總共有9種狗狗):
我們解決了三個(gè)難題:
如何讓分類器預(yù)測目標(biāo)是否為“背景”的概率
如何得到背景訓(xùn)練數(shù)據(jù)之外的、并不符合真實(shí)背景分布的數(shù)據(jù)
如何修復(fù)背景分類的不平衡性
使用背景類別數(shù)據(jù)
想創(chuàng)建這個(gè)狗狗分類器,有兩種方法可用:
得到這些狗狗圖像和背景的所有數(shù)據(jù)(將背景也看作是可識(shí)別的一類對(duì)象),共有10類
創(chuàng)建一個(gè)能辨別9種狗狗種類的模型,如果模型在9個(gè)種類上都沒有足夠高的置信度,那么就將其判定為“背景”
從我的經(jīng)驗(yàn)來看,第二種方法表現(xiàn)不佳。我發(fā)現(xiàn)這樣的模型學(xué)會(huì)了以狗狗為中心進(jìn)行嵌入(logit層和softmax之前的最后一層),并且閾值通常會(huì)將各種類別的邊界附近的嵌入映射到“背景”一類中:
但是事實(shí)上,狗狗們只是圖片的一個(gè)子空間,也許接近一個(gè)極值(與分類器需要學(xué)習(xí)的毛發(fā)特征等其他特征不同):
這樣的分類器在沒有狗狗的圖像上可以任意工作。接下來,我們會(huì)介紹只能預(yù)測背景概率的分類器。
控制背景分類的學(xué)習(xí)
假設(shè)我們現(xiàn)在已經(jīng)收集到了足夠的有關(guān)背景分類的數(shù)據(jù)了,通常,我們的背景數(shù)據(jù)都是圖片的不完全分布。下面是一些家用電器和廚房用具:
如果我們僅在這些圖片上訓(xùn)練一個(gè)模型,讓它把背景當(dāng)做另外一個(gè)類別的東西,那么嵌入示意圖看起來很不完美:
我有一種能顯著改善這種情況的方法:不讓背景類別學(xué)習(xí)特征,只讓它學(xué)習(xí)一種可訓(xùn)練變量,即它的logit。這樣一來,背景類別不會(huì)被嵌入到某個(gè)具體的區(qū)域中,給那些真正屬于背景的圖片更多的嵌入圖空間:
當(dāng)然了,這種方法仍不完美。在某種程度上,狗狗分類可以學(xué)習(xí)在電器圖片上表現(xiàn)較弱,但在實(shí)際中一定比這種更好。
我用上面的9種狗和6種電器的數(shù)據(jù)訓(xùn)練了一個(gè)模型,并完全的ImageNet驗(yàn)證集上對(duì)它們進(jìn)行驗(yàn)證。我在訓(xùn)練和驗(yàn)證時(shí)加入了權(quán)重,以減輕分類的不平衡性(下一節(jié)我們會(huì)講到如何處理真正分布的不平衡)。在下方的驗(yàn)證圖表中,綠色的折線是模型將所有類別都相同對(duì)待的結(jié)果,藍(lán)色折線是模型在學(xué)習(xí)時(shí)沒有學(xué)習(xí)背景類型的結(jié)果:
驗(yàn)證精度vs訓(xùn)練次數(shù)
沒有學(xué)習(xí)背景特征的模型在大多數(shù)訓(xùn)練中都保持領(lǐng)先,在沒有訓(xùn)練背景的情況下,精確度在15個(gè)類別的數(shù)據(jù)集上都有了提升(9種狗狗類別、6種電器類別和其中的背景類別),同時(shí)在有1000種數(shù)據(jù)集分類上也有進(jìn)步(9個(gè)狗狗類別、991種電器類別和其中一個(gè)背景類別):
注意,這一結(jié)果表明這10種類別在驗(yàn)證時(shí)都是一樣重要。
背景分類不平衡
最后,我們要考慮另一種情況,即背景類別實(shí)際上比測試時(shí)狗狗圖片的數(shù)量要多。假設(shè)測試時(shí)的分布都來源于ImageNet,我們的分類器在這些情況下表現(xiàn)較差,因?yàn)樗谟?xùn)練時(shí)認(rèn)為所有類別都是平均分布的。
解決這一問題最簡單的方法就是在每個(gè)肯定預(yù)測中加入更高的閾值,從而當(dāng)概率超過這一值并且是最高的時(shí),我們才能判斷這是某種類型的狗狗。由此,我們得到了以下的精確度與反饋曲線,如果分類器從9種狗狗中預(yù)測出了一種,那么每個(gè)樣本都都被看作是“正的”,如果預(yù)測結(jié)果為“背景”,那么就是“負(fù)的”。
例如,如果我們需要對(duì)狗狗的預(yù)測結(jié)果達(dá)到90%的置信度,我們會(huì)對(duì)85%的圖片進(jìn)行正確標(biāo)簽,大約有7%的預(yù)測是正確的。
不過,這一結(jié)果還能提高。我們可以用先驗(yàn)和下面的貝葉斯公式,將概率分布從“統(tǒng)一”改變成“shifted”,前提是假設(shè)每個(gè)類別x都符合P(image|x,shifted) = P(image|x,uniform):
這樣做的好處是,它并不需要收集更多數(shù)據(jù),甚至重新訓(xùn)練模型,只需要一個(gè)簡單的數(shù)據(jù)公式,就能得出更好地預(yù)測結(jié)果。
結(jié)語
總的來說,在這篇文章中我提出了三種能夠在有背景的圖片中提高分類器精確度的技術(shù):
在背景類別中添加一些數(shù)據(jù),讓模型對(duì)其進(jìn)行概率預(yù)測(而不是僅僅訓(xùn)練一個(gè)無背景的類別,對(duì)背景類別映射低概率)
避免模型使用任何特征了解背景類別的活動(dòng)
使用先驗(yàn)調(diào)整類別不平衡問題
這些技術(shù)能改變模型對(duì)背景圖片的預(yù)測,從此前的混亂預(yù)測,到可以推斷出大量信息。
-
分類器
+關(guān)注
關(guān)注
0文章
152瀏覽量
13195 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8420瀏覽量
132687
原文標(biāo)題:如何用機(jī)器學(xué)習(xí)精準(zhǔn)辨別“背景”和“目標(biāo)”
文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論