本次文章介紹我們于 TPAMI-2023 發(fā)表的一項(xiàng)用于視覺(jué)識(shí)別的相互對(duì)比學(xué)習(xí)在線知識(shí)蒸餾(Online Knowledge Distillation via Mutual Contrastive Learning for Visual Recognition)工作,該工作是我們發(fā)表在 AAAI-2022 論文 Mutual contrastive learning for visual representation learning [1] 的擴(kuò)展版本,論文講解鏈接為:
https://zhuanlan.zhihu.com/p/574701719 摘要:無(wú)需教師的在線知識(shí)蒸餾聯(lián)合地訓(xùn)練多個(gè)學(xué)生模型并且相互地蒸餾知識(shí)。雖然現(xiàn)有的在線知識(shí)蒸餾方法獲得了很好的性能,但是這些方法通常關(guān)注類(lèi)別概率作為核心知識(shí)類(lèi)型,忽略了有價(jià)值的特征表達(dá)信息。 本文展示了一個(gè)相互對(duì)比學(xué)習(xí)(Mutual Contrastive Learning,MCL)框架用于在線知識(shí)蒸餾。MCL 的核心思想是在一個(gè)網(wǎng)絡(luò)群體中利用在線的方式進(jìn)行對(duì)比分布的交互和遷移。MCL 可以聚合跨網(wǎng)絡(luò)的嵌入向量信息,同時(shí)最大化兩個(gè)網(wǎng)絡(luò)互信息的下界。這種做法可以使得每一個(gè)網(wǎng)絡(luò)可以從其他網(wǎng)絡(luò)中學(xué)習(xí)到額外的對(duì)比知識(shí),從而有利于學(xué)習(xí)到更好的特征表達(dá),提升視覺(jué)識(shí)別任務(wù)的性能。 相比于會(huì)議版本,期刊版本將 MCL 擴(kuò)展到中間特征層并且使用元優(yōu)化來(lái)訓(xùn)練自適應(yīng)的層匹配機(jī)制。除了最后一層,MCL 也在中間層進(jìn)行特征對(duì)比學(xué)習(xí),因此新方法命名為 Layer-wise MCL(L-MCL)。在圖像分類(lèi)和其他視覺(jué)識(shí)別任務(wù)上展示了 L-MCL 相比于先進(jìn)在線知識(shí)蒸餾方法獲得了一致的提升。此優(yōu)勢(shì)表明了 L-MCL 引導(dǎo)網(wǎng)絡(luò)產(chǎn)生了更好的特征表達(dá)。論文地址:
https://arxiv.org/pdf/2207.11518.pdf
代碼地址:https://github.com/winycg/L-MCL
引言
傳統(tǒng)的離線知識(shí)蒸餾需要預(yù)訓(xùn)練的教師模型對(duì)學(xué)生模型進(jìn)行監(jiān)督。在線知識(shí)蒸餾在無(wú)需教師的情況下同時(shí)聯(lián)合訓(xùn)練兩個(gè)以上的學(xué)生模型。深度相互學(xué)習(xí)(Deep Mutual Learning,DML)[2]表明了模型群體可以從相互學(xué)習(xí)類(lèi)別概率分布(圖像分類(lèi)任務(wù)最后的輸出預(yù)測(cè))中獲益。每一個(gè)模型在同伴教授的模式下相比傳統(tǒng)的單獨(dú)訓(xùn)練效果更好。 現(xiàn)有的在線知識(shí)蒸餾方法通常僅僅關(guān)注結(jié)果驅(qū)動(dòng)的蒸餾,但是忽略了在線蒸餾特征方面的應(yīng)用。雖然先前的 AFD [3]嘗試通過(guò)在線的方式在多個(gè)網(wǎng)絡(luò)間對(duì)齊中間特征圖,Zhang 等人[2]指出這種做法會(huì)減少群體多樣性,降低相互學(xué)習(xí)能力。為了學(xué)習(xí)更有意義的特征嵌入,我們認(rèn)為一個(gè)更好的方式是從視覺(jué)表征學(xué)習(xí)角度的對(duì)比學(xué)習(xí)。▲ 圖1. 相互對(duì)比學(xué)習(xí)基本思想示意圖 圖中, 和 分別表示兩個(gè)不同的網(wǎng)絡(luò), 是推理來(lái)自網(wǎng)絡(luò) 和輸入樣本 產(chǎn)生的特征向量。虛線和箭頭代表要逼近或者遠(yuǎn)離的方向。從圖中可以看出,MCL 包含了樸素對(duì)比學(xué)習(xí)(Vanilla Contrastive Learning,VCL)和交互式對(duì)比學(xué)習(xí)(Interactive Contrastive Learning,ICL)。 相比于傳統(tǒng)的 VCL,提出的 ICL 從兩個(gè)不同網(wǎng)絡(luò)間建模對(duì)比相似度分布。本文證明 ICL 的誤差函數(shù)等價(jià)于最大化兩個(gè)網(wǎng)絡(luò)互信息的下界,這可以被理解為一個(gè)網(wǎng)絡(luò)可以學(xué)習(xí)到另外網(wǎng)絡(luò)額外的知識(shí)。 MCL 主要是發(fā)表于 AAAI-2022 的方法,期刊版本將 MCL 從卷積網(wǎng)絡(luò)的最后一層擴(kuò)展到多個(gè)模型的中間特征層,命名為 Layer-wise MCL。此外,傳統(tǒng)的中間特征層蒸餾使用手工的匹配,本文則提出一個(gè)自適應(yīng)的層匹配機(jī)制,然后通過(guò)元優(yōu)化來(lái)訓(xùn)練該機(jī)制。
方法
2.1. 相互對(duì)比學(xué)習(xí)MCL(AAAI-2022)
▲ 圖2. 相互對(duì)比學(xué)習(xí)整體示意圖
2.1.1 傳統(tǒng)對(duì)比學(xué)習(xí)(Vanilla Contrastive Learning,VCL) 為了便于描述,本方法將 anchor 樣本向量表示為 , 正樣本向量表示為 和 個(gè)負(fù)樣本向量表達(dá)為。 表示向量產(chǎn)生自網(wǎng)絡(luò) 。這里,特征向量通過(guò) 標(biāo)準(zhǔn)化進(jìn)行預(yù)處理。使用基于 InfoNCE 的交叉熵作為對(duì)比誤差: ?對(duì)于總共 個(gè)網(wǎng)絡(luò)來(lái)說(shuō),所有的對(duì)比誤差表示為:
2.1.2 交互式對(duì)比學(xué)習(xí)(Interactive Contrastive Learning,ICL) VCL 不能建??缇W(wǎng)絡(luò)的關(guān)系來(lái)進(jìn)行聯(lián)合學(xué)習(xí),因?yàn)閷?duì)比分布來(lái)自于網(wǎng)絡(luò)自身的嵌入空間。ICL 的 anchor 樣本與對(duì)比樣本產(chǎn)生自不同的網(wǎng)絡(luò),但在誤差形式上依舊與傳統(tǒng)的對(duì)比學(xué)習(xí)誤差相同:
對(duì)于總共 個(gè)網(wǎng)絡(luò)來(lái)說(shuō),所有的對(duì)比誤差表示為:理論分析: 相比于誤差 ,最小化 等價(jià)于最大化網(wǎng)絡(luò) 互信息 的下界:
直覺(jué)上,當(dāng)來(lái)自 的 anchor 特征向量已知時(shí),互信息 衡量了來(lái)自 對(duì)比特征向量的不確定性,這可以理解為每一個(gè)網(wǎng)絡(luò)可以從其他網(wǎng)絡(luò)中學(xué)習(xí)到對(duì)比知識(shí),從而更有利于表征學(xué)習(xí)。
2.1.3 基于在線相互遷移的軟對(duì)比學(xué)習(xí) 收到深度相互學(xué)習(xí)(Deep Mutual Learning,DML)[1] 的啟發(fā),本方法利用 KL 散度來(lái)對(duì)齊網(wǎng)絡(luò)間的對(duì)比分布,根據(jù)本文提出的兩種對(duì)比學(xué)習(xí)方法 VCL 和 ICL 來(lái)進(jìn)行對(duì)比分布的雙向遷移:
2.1.3.1 Soft VCL: 對(duì)于產(chǎn)生 的分布 來(lái)說(shuō),其監(jiān)督信號(hào)是其他網(wǎng)絡(luò)產(chǎn)生的分布,利用 KL 散度使得 與其他分布接近:
2.1.3.2 Soft ICL 給定兩個(gè)網(wǎng)絡(luò) 和 ,可以得到兩個(gè)ICL對(duì)應(yīng)的對(duì)比分布 和 ,使用 KL 散度的形式使得兩個(gè)分布盡可能接近。對(duì)于 個(gè)網(wǎng)絡(luò)來(lái)說(shuō),每?jī)蓚€(gè)網(wǎng)絡(luò)進(jìn)行對(duì)比分布的遷移:
2.1.4 MCL的整體誤差 為了盡可能利用聯(lián)合學(xué)習(xí)的優(yōu)勢(shì),本方法將所有的對(duì)比誤差項(xiàng)作為一個(gè)整體的誤差訓(xùn)練 個(gè)網(wǎng)絡(luò):
2.2 逐層的相互對(duì)比學(xué)習(xí)(Layer-wise MCL)
▲ 圖3. 一對(duì)一匹配和加權(quán)的多對(duì)多匹配示意圖 2.2.1 基礎(chǔ)框架 給定網(wǎng)絡(luò)群體,每一個(gè)網(wǎng)絡(luò)具有 個(gè)階段,原始的 MCL 在最后的特征嵌入上進(jìn)行學(xué)習(xí)。Layer-wise MCL(L-MCL)進(jìn)一步擴(kuò)展相互對(duì)比學(xué)習(xí)到中間特征層和最后特征層,并且采用跨層的方式。下一個(gè)章節(jié),本文展示如何利用元網(wǎng)絡(luò) 來(lái)優(yōu)化匹配權(quán)重 。
2.2.2 訓(xùn)練元網(wǎng)絡(luò) 2.2.2.1 交叉熵任務(wù)誤差 使用交叉熵誤差訓(xùn)練 個(gè)網(wǎng)絡(luò): ?將基礎(chǔ)的任務(wù)誤差和 L-MCL 誤差相加作為總誤差來(lái)進(jìn)行特征層面的在線蒸餾誤差:
2.2.2.2 元優(yōu)化 受到元學(xué)習(xí)的啟發(fā),本文采用交替優(yōu)化的方式來(lái)訓(xùn)練學(xué)生網(wǎng)絡(luò)和元網(wǎng)絡(luò): (1)更新 來(lái) 次最小化 。 (2)更新 來(lái)一次最小化 。 (3)衡量 并且更新 來(lái)最小化它。
2.2.2.3 元網(wǎng)絡(luò) 結(jié)構(gòu)元網(wǎng)絡(luò)包含了兩個(gè)線性轉(zhuǎn)換層 和 ,來(lái)對(duì)輸入的特征向量 進(jìn)行轉(zhuǎn)換。轉(zhuǎn)換之后,特征向量通過(guò) 正則化 來(lái)進(jìn)行標(biāo)準(zhǔn)化。受到自注意力機(jī)制的啟發(fā),本文利用點(diǎn)乘得到匹配特征的相似性,從而衡量匹配層的相關(guān)性,然后引入 sigmoid 激活函數(shù) 來(lái)將輸出值縮放到 作為層匹配權(quán)重 。整體的過(guò)程被規(guī)則化為:
實(shí)驗(yàn)
在 ImageNet 上的實(shí)驗(yàn)結(jié)果如下所示,表 1 和表 2 分別展示了兩個(gè)同構(gòu)和異構(gòu)網(wǎng)絡(luò)利用相互對(duì)比學(xué)習(xí)的實(shí)驗(yàn)結(jié)果。
▲ 表1. 兩個(gè)同構(gòu)網(wǎng)絡(luò)利用相互對(duì)比學(xué)習(xí)的實(shí)驗(yàn)結(jié)果▲表2. 兩個(gè)異構(gòu)網(wǎng)絡(luò)利用相互對(duì)比學(xué)習(xí)的實(shí)驗(yàn)結(jié)果 實(shí)驗(yàn)結(jié)果表明本文提出的 L-MCL 相比于 baseline 以及先前流行的在線知識(shí)蒸餾方法都獲得了顯著的性能提升,表明在多個(gè)網(wǎng)絡(luò)之間使用特征層面的對(duì)比學(xué)習(xí)蒸餾相比概率分布效果更好。在下游的目標(biāo)檢測(cè)和實(shí)例分割實(shí)驗(yàn)上表明了該方法相比先前的蒸餾方法引導(dǎo)網(wǎng)絡(luò)學(xué)習(xí)到了更好的視覺(jué)表征,從而提升了視覺(jué)識(shí)別效果。
▲ 表3. 通過(guò)在線蒸餾的預(yù)訓(xùn)練網(wǎng)絡(luò)遷移到下游的目標(biāo)檢測(cè)和與實(shí)例分割的實(shí)驗(yàn)
參考文獻(xiàn)
?[1] Yang C, An Z, Cai L, et al. Mutual contrastive learning for visual representation learning[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2022, 36(3): 3045-3053.[2] Zhang Y, Xiang T, Hospedales T M, et al. Deep mutual learning[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 4320-4328.[3] Chung I, Park S U, Kim J, et al. Feature-map-level online adversarial knowledge distillation[C]//International Conference on Machine Learning. PMLR, 2020: 2006-2015. ·
原文標(biāo)題:TPAMI 2023 | 用于視覺(jué)識(shí)別的相互對(duì)比學(xué)習(xí)在線知識(shí)蒸餾
文章出處:【微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
-
物聯(lián)網(wǎng)
+關(guān)注
關(guān)注
2909文章
44671瀏覽量
373696
原文標(biāo)題:TPAMI 2023 | 用于視覺(jué)識(shí)別的相互對(duì)比學(xué)習(xí)在線知識(shí)蒸餾
文章出處:【微信號(hào):tyutcsplab,微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論