3. 引言
眾所周知,對比學(xué)習(xí)現(xiàn)在已經(jīng)成功地在無監(jiān)督任務(wù)中成功應(yīng)用,通過學(xué)習(xí)到泛化能力較強的visual representations。然而,如果要使用大量未標記數(shù)據(jù)進行預(yù)訓(xùn)練訓(xùn)練卻顯得有些奢侈。由于是進行無監(jiān)督的對比學(xué)習(xí),需要很長的時間收斂,所以對比學(xué)習(xí)比傳統(tǒng)的全監(jiān)督學(xué)習(xí)需要更大的模型和更長時間的訓(xùn)練。隨著數(shù)據(jù)量的增加,它也需要更多的計算資源。而計算資源有限的條件下,wild unbalanced distribution的數(shù)據(jù)很可能會抑制對相關(guān)特征的學(xué)習(xí)。
采樣的外部未標注數(shù)據(jù)通常呈現(xiàn)隱式長尾分布(因為真實世界的場景中,數(shù)據(jù)就呈現(xiàn)長尾分布,從真實世界中收集數(shù)據(jù)顯然也會服從長尾分布),加入學(xué)習(xí)的樣本很可能跟原始任務(wù)沒任何關(guān)聯(lián),這些噪聲就會比較大程度地影響表征的學(xué)習(xí)和收斂。本文就旨在設(shè)計一種算法來解決上述情景帶來的問題。
論文的問題設(shè)定還是比較特別的,首先具體介紹一下:假設(shè)我們從一個相對較小的(“種子”)未標記的訓(xùn)練數(shù)據(jù)集開始,其中數(shù)據(jù)分布可能高度biased,但未指定相應(yīng)的分布。我們的目標是在給定的采樣樣本限制下,從一些外源數(shù)據(jù)檢索額外信息,以增強針對目標分布(種子集)的自監(jiān)督representation learning。
通過對檢索到的unlabeled samples進行訓(xùn)練,本文的目標是學(xué)習(xí)“stronger and fairer”的representation。
我們可能從一個bias的sample set開始訓(xùn)練,由于不知道相應(yīng)的標注,傳統(tǒng)用來處理不平衡數(shù)據(jù)集的方法,如偽標簽、重采樣或重加權(quán)不適用。
采用預(yù)訓(xùn)練的backbone訓(xùn)練不平衡的seed data。
在缺乏label信息的情況下,探索open world中廣泛存在的irrelevant outlier samples檢測。
因此,我們的目標是尋求一個有原則的開放世界無標簽數(shù)據(jù)采樣策略。論文的出發(fā)點非常好概括,就是保證三個采樣的原則其核心:
tailness:保證采樣的樣本頻率盡可能是原任務(wù)中的長尾數(shù)據(jù),保證采樣規(guī)則盡可能服從原有的分布;
proximity:保證采樣的樣本盡可能是原任務(wù)是相關(guān)的,過濾掉分布之外的樣本,解決OOD問題。
diversity:讓采樣的數(shù)據(jù)類型更加豐富,體現(xiàn)一定的差異性,這樣能比較好的提升泛化性和魯棒性。
3. 方法
如上圖,論文的方法其實很清晰,是分多階段的。首先定義一個原始的訓(xùn)練集,以圖中情景為例,在原始數(shù)據(jù)中,狗屬于Head class,豹屬于Tail class,所以在采樣時不考慮狗的樣本,保證tailness;接著排除掉跟原始數(shù)據(jù)高度相似的樣本,保證diversity;最后刪掉跟識別中出現(xiàn)的unrelated的樣本,使得采樣具有proximity。
3.1 Tailness
初步:在對比學(xué)習(xí)中,通過強制一個樣本v與另一個正樣本相似而與負樣本不同來學(xué)習(xí)representation。在各種流行的對比學(xué)習(xí)框架中,SimCLR是最簡單容易實現(xiàn),也可以產(chǎn)生較好的表現(xiàn)。它利用相同數(shù)據(jù)的兩個增強的image作為正對,而同一批中的所有其他增強樣本被視為負樣本。SimCLR的形式是:
下面來分析下上述的loss function。其實作者主要的目的就是完成對tail classes的特殊處理。而怎么完成呢?其實作者就定義在對比學(xué)習(xí)框架下hard examples(難樣本)可以視為tail的樣本。雖然沒有更多理論上的支撐,但某種程度上來講,也是很好理解的,因為在不平衡的數(shù)據(jù)集上,尾部類別更難分類,所以說有更高的誤分率。而對于hard samples,論文直接把contrastive loss最大的樣本作為hard sample。
但由于對比損失受數(shù)據(jù)增強方式的影響,而通常增強方式都是采用隨機性,造成噪聲過大。因此作者引入了empirical contrastive loss expectation,也就是基于期望來計算SimCLR,從而來來判斷hard samples。
3.2 Proximity
很直觀,這個loss就在拉近原始數(shù)據(jù)集和外部采樣數(shù)據(jù)集特征之間的期望,期望越小,表示未標注的open set和原任務(wù)越相關(guān)。
3.3 Diversity
為了追求采樣的多樣性,利用上述策略避免采樣的樣本跟原始樣本過于相似。
最后的loss如下所示:
算法概括如下:
4. 實驗
實驗采用ImageNet-LT作為數(shù)據(jù)集:
可以大發(fā)現(xiàn),在原始數(shù)據(jù)集上通過對外部數(shù)據(jù)集采樣進行提升,可以有效地改進模型處理open world中長尾效應(yīng)的性能。
笑容實驗來看,其實Tailness和Proximity比較重要,而多樣性這種約束提升有限。個人覺得主要的原因還是,實際上還是在利用有限的close set來輔助訓(xùn)練,模型本身的diversity也沒有很豐富,所以加入這個優(yōu)化目標作用有限。
利用t_SNE可視化的效果如上圖所示。
5. 結(jié)論
開放世界的樣本數(shù)據(jù)往往呈現(xiàn)長尾分布,進一步破壞了對比學(xué)習(xí)的平衡性。論文通過提出一個統(tǒng)一的采樣框架MAK來解決這個重要的問題。它通過抽樣額外的數(shù)據(jù)顯著地提高了對比學(xué)習(xí)的平衡性和準確性。論文提出的方法有助于在實際應(yīng)用中提高長尾數(shù)據(jù)的平衡性。
審核編輯:劉清
-
Mak
+關(guān)注
關(guān)注
0文章
2瀏覽量
7163
原文標題:MAK 基于開放世界取樣提升不平衡對比學(xué)習(xí)
文章出處:【微信號:GiantPandaCV,微信公眾號:GiantPandaCV】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論