圖像分類作為計(jì)算機(jī)視覺領(lǐng)域中的重要研究方向之一,應(yīng)用領(lǐng)域非常廣泛?;?a target="_blank">深度學(xué)習(xí)的圖像分類技術(shù)取得的成功,依賴大量的已標(biāo)注數(shù)據(jù),然而數(shù)據(jù)的標(biāo)注成本往往是昂貴的。
主動(dòng)學(xué)習(xí)作為一種機(jī)器學(xué)習(xí)方法,旨在以盡可能少的高質(zhì)量標(biāo)注數(shù)據(jù)達(dá)到期望的模型性能,緩解監(jiān)督學(xué)習(xí)任務(wù)中存在的標(biāo)注成本高、標(biāo)注信息難以大量獲取的問題。主動(dòng)學(xué)習(xí)圖像分類算法根據(jù)樣本選擇策略,從未標(biāo)記樣本數(shù)據(jù)集合中選擇出信息量豐富,對(duì)分類模型訓(xùn)練貢獻(xiàn)更高的樣本進(jìn)行標(biāo)注,以更新已標(biāo)注訓(xùn)練數(shù)據(jù)池,如此循環(huán)直至滿足給定的停止條件或模型標(biāo)注預(yù)算耗盡。
本文對(duì)近年來提出的主動(dòng)學(xué)習(xí)圖像分類算法進(jìn)行了詳細(xì)綜述,并根據(jù)所用樣本數(shù)據(jù)處理及模型優(yōu)化方案,將現(xiàn)有算法分為三類:基于數(shù)據(jù)增強(qiáng)的算法,包括利用圖像增廣來擴(kuò)充訓(xùn)練數(shù)據(jù),或者根據(jù)圖像特征插值后的差異性來選擇高質(zhì)量的訓(xùn)練數(shù)據(jù);基于數(shù)據(jù)分布信息的算法,根據(jù)數(shù)據(jù)分布的特點(diǎn)來優(yōu)化樣本選擇策略;優(yōu)化模型預(yù)測(cè)的算法,包括優(yōu)化獲取和利用深度模型預(yù)測(cè)信息的方法、基于生成對(duì)抗網(wǎng)絡(luò)和強(qiáng)化學(xué)習(xí)來優(yōu)化預(yù)測(cè)模型的結(jié)構(gòu),以及基于Transformer結(jié)構(gòu)提升模型預(yù)測(cè)性能,以確保模型預(yù)測(cè)結(jié)果的可靠性。
此外,本文還對(duì)各類主動(dòng)學(xué)習(xí)圖像分類算法下的重要學(xué)術(shù)工作進(jìn)行了實(shí)驗(yàn)對(duì)比,并對(duì)各算法在不同規(guī)模數(shù)據(jù)集上的性能和適應(yīng)性進(jìn)行了分析。另外,本文探討了主動(dòng)學(xué)習(xí)圖像分類技術(shù)所面臨的挑戰(zhàn),并指出了未來研究的方向。
引言
圖像分類是計(jì)算機(jī)視覺領(lǐng)域中的一大基本任務(wù)。圖像分類任務(wù)的核心在于圖像特征提取和分類器的設(shè)計(jì)。隨著深度學(xué)習(xí)(Deep Learning,DL)[1]技術(shù)的不斷發(fā)展,基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)[2]的圖像特征提取技術(shù)取得了巨大的成就。卷積神經(jīng)網(wǎng)絡(luò)可以通過組合簡(jiǎn)單特征形成更復(fù)雜和抽象的特征,從而提高圖像分類任務(wù)的準(zhǔn)確性和魯棒性。
作為一種數(shù)據(jù)表示學(xué)習(xí)的方法,深度學(xué)習(xí)可以通過迭代更新深度網(wǎng)絡(luò)層級(jí)參數(shù)來訓(xùn)練和優(yōu)化模型,從而使結(jié)果更加接近真實(shí)值。常用于圖像分類的深度網(wǎng)絡(luò)包括LeNet[3],GoogLeNet[4],AlexNet[5],VGGNet[6],ResNet[7]等。然而,在圖像分類領(lǐng)域,為了得到高精度的分類器,深度學(xué)習(xí)模型很大程度上依賴大量已標(biāo)注數(shù)據(jù)來優(yōu)化模型參數(shù)。特別是在需要高水平專業(yè)知識(shí)的領(lǐng)域,如醫(yī)學(xué)圖像[8]、遙感圖像[9]等,獲取大量的高質(zhì)量已標(biāo)注數(shù)據(jù)集需要消耗大量的人力。
主動(dòng)學(xué)習(xí)(Active Learning,AL)[10]作為一種能夠降低樣本標(biāo)注成本的學(xué)習(xí)方法,正逐漸受到越來越多的關(guān)注。主動(dòng)學(xué)習(xí)作為監(jiān)督式機(jī)器學(xué)習(xí)中的一種范式,旨在標(biāo)注盡可能少的樣本,同時(shí)最大化模型的性能增益。具體來講,主動(dòng)學(xué)習(xí)根據(jù)樣本選擇策略從未標(biāo)記的數(shù)據(jù)集中選擇信息豐富的樣本,交由Oracle進(jìn)行標(biāo)注,以降低模型所需數(shù)據(jù)量、計(jì)算資源和存儲(chǔ)資源的需求,同時(shí)保持分類器性能。Oracle是一個(gè)能夠提供準(zhǔn)確標(biāo)簽的信息源,可以是人類專家或自動(dòng)化系統(tǒng)。樣本選擇策略決定了算法選擇哪些樣本以獲得最大的模型性能提升。目前,主動(dòng)學(xué)習(xí)已被應(yīng)用于分類與檢索[11]、圖像分割[12]、目標(biāo)檢測(cè)[13]等多種圖像處理任務(wù)。
在早期研究中,文獻(xiàn)[10]將目前主動(dòng)學(xué)習(xí)方法定義為三種基本框架:基于成員查詢的主動(dòng)學(xué)習(xí)、基于流的選擇性采樣和基于池的主動(dòng)學(xué)習(xí)?;诔蓡T查詢的主動(dòng)學(xué)習(xí)方法是指學(xué)習(xí)器可以請(qǐng)求查詢輸入空間中任何未標(biāo)記樣本的標(biāo)簽,包括學(xué)習(xí)器生成的樣本?;诹鞯倪x擇性采樣是指每次從未標(biāo)記數(shù)據(jù)源中提取一個(gè)樣本數(shù)據(jù),學(xué)習(xí)器必須決定是查詢標(biāo)簽還是丟棄該數(shù)據(jù)?;诔氐闹鲃?dòng)學(xué)習(xí)框架則維護(hù)一個(gè)未標(biāo)注數(shù)據(jù)集合,由樣本選擇策略從未標(biāo)記集合中選擇要標(biāo)注的樣本。
目前,基于池的主動(dòng)學(xué)習(xí)框架更適用于圖像分類任務(wù)中。該框架能同時(shí)處理批量數(shù)據(jù),從未標(biāo)記數(shù)據(jù)集中選出對(duì)模型訓(xùn)練最有幫助的數(shù)據(jù)進(jìn)行標(biāo)注,提高標(biāo)注數(shù)據(jù)效率,降低成本。此外,該框架適用于數(shù)據(jù)集規(guī)模較大、標(biāo)注數(shù)據(jù)較少的情況,符合多數(shù)圖像分類技術(shù)場(chǎng)景。相比之下,基于成員查詢的主動(dòng)學(xué)習(xí)算法需要逐個(gè)查詢成員并進(jìn)行標(biāo)注,不適用于大規(guī)模的數(shù)據(jù)集?;诹鞯倪x擇性采樣在處理流數(shù)據(jù)時(shí),對(duì)每個(gè)數(shù)據(jù)點(diǎn)進(jìn)行快速分類來實(shí)現(xiàn)快速標(biāo)注,從而處理大量的數(shù)據(jù)流。但在圖像分類中,每個(gè)數(shù)據(jù)點(diǎn)都是一個(gè)獨(dú)立的圖像,對(duì)每個(gè)圖像進(jìn)行分類和標(biāo)注可能會(huì)帶來更多的標(biāo)注成本,因此該方法在圖像分類中使用較少。該方法主要適用于需要時(shí)效性的小型移動(dòng)設(shè)備的應(yīng)用場(chǎng)景,因?yàn)檫@些小型設(shè)備通常具有有限的存儲(chǔ)和計(jì)算能力。圖1展示了基于池的主動(dòng)學(xué)習(xí)的基本框架。
圖1基于池的主動(dòng)學(xué)習(xí)框架[10]
在初始狀態(tài)下,從未標(biāo)記數(shù)據(jù)池 U中隨機(jī)選擇樣本,交由Oracle查詢標(biāo)簽以獲得標(biāo)記的數(shù)據(jù)集。然后,使用監(jiān)督學(xué)習(xí)算法在上訓(xùn)練模型。隨后,根據(jù)新樣本中獲取的信息選擇要查詢的樣本,由Oracle標(biāo)注后添加到中,并進(jìn)行下一步模型訓(xùn)練。如此循環(huán)迭代,直到標(biāo)簽預(yù)算耗盡或達(dá)到預(yù)定義終止條件。
近年來,在主動(dòng)學(xué)習(xí)圖像分類領(lǐng)域中,一些研究者探索了如何將深度模型和主動(dòng)學(xué)習(xí)策略結(jié)合起來,以提高圖像分類的效率和準(zhǔn)確性,如基于核心集[14]、基于貝葉斯卷積神經(jīng)網(wǎng)絡(luò)[15]等,利用模型的代表性或不確定性來指導(dǎo)樣本的選擇。此外,部分研究者探索了如何利用強(qiáng)化學(xué)習(xí)來優(yōu)化主動(dòng)學(xué)習(xí)的過程,以提高圖像分類的性能和穩(wěn)定性[16],使模型快速適應(yīng)不同的數(shù)據(jù)分布和任務(wù)。部分研究者則利用生成對(duì)抗網(wǎng)絡(luò)來增強(qiáng)主動(dòng)學(xué)習(xí)的能力,以提高圖像分類的泛化性和魯棒性。如基于生成對(duì)抗網(wǎng)絡(luò)[17]、基于條件生成對(duì)抗網(wǎng)絡(luò)[18]等,利用生成器產(chǎn)生新的樣本,并使用判別器作為主動(dòng)學(xué)習(xí)策略來選擇最有信息量或多樣性的樣本進(jìn)行標(biāo)注。最近,部分研究者針對(duì)數(shù)據(jù)分布情況,探索了數(shù)據(jù)不平衡問題對(duì)主動(dòng)學(xué)習(xí)的影響,以提高圖像分類的魯棒性,如基于類平衡[19],利用類平衡因素避免偏向于某些類別的樣本。
盡管已有的綜述工作總結(jié)了近年來主動(dòng)學(xué)習(xí)算法在算法改進(jìn)、計(jì)算機(jī)視覺任務(wù)(目標(biāo)檢測(cè)、圖像分割、視頻處理)和自然語言處理等領(lǐng)域中的應(yīng)用[20~22],但尚未對(duì)圖像分類這一特定任務(wù)展開更詳細(xì)深入的介紹。鑒于此,本文基于近十年來國(guó)內(nèi)外公開發(fā)表的重要學(xué)術(shù)工作,對(duì)現(xiàn)有的主動(dòng)學(xué)習(xí)圖像分類算法進(jìn)行了詳細(xì)綜述。此外,考慮到當(dāng)前研究工作中,一些研究者在評(píng)估算法性能時(shí)使用不同的模型標(biāo)注預(yù)算,本文通過實(shí)驗(yàn)比較和分析了不同類別代表性算法在相同標(biāo)注預(yù)算下的性能,并對(duì)算法的優(yōu)缺點(diǎn)進(jìn)行了探討。此外,針對(duì)目前主動(dòng)學(xué)習(xí)圖像分類算法所面臨的挑戰(zhàn),本文提出了幾個(gè)具有潛力的研究方向。
如何有效利用數(shù)據(jù)進(jìn)行模型訓(xùn)練,以及如何優(yōu)化主動(dòng)學(xué)習(xí)圖像分類算法架構(gòu),是影響主動(dòng)學(xué)習(xí)圖像分類算法性能的關(guān)鍵因素。因此,本文從兩個(gè)方面詳細(xì)總結(jié)近年來提出的主動(dòng)學(xué)習(xí)圖像分類算法。
一方面,鑒于主動(dòng)學(xué)習(xí)圖像分類算法基于有限的已標(biāo)注數(shù)據(jù)來進(jìn)行模型訓(xùn)練,本文首先從最直觀的數(shù)據(jù)處理角度出發(fā),來總結(jié)近年來基于數(shù)據(jù)增強(qiáng)的主動(dòng)學(xué)習(xí)圖像分類算法。通過數(shù)據(jù)增強(qiáng)的手段,算法能夠擴(kuò)充有限的標(biāo)注數(shù)據(jù),從而提高算法的性能。此外,在數(shù)據(jù)處理的過程中,考慮到數(shù)據(jù)分布情況對(duì)主動(dòng)學(xué)習(xí)樣本選擇策略的影響,本文詳細(xì)總結(jié)了基于數(shù)據(jù)分布信息的主動(dòng)學(xué)習(xí)圖像分類算法。利用數(shù)據(jù)分布的特征,針對(duì)不同的數(shù)據(jù)分布情況來設(shè)計(jì)相應(yīng)的主動(dòng)學(xué)習(xí)樣本選擇策略,以實(shí)現(xiàn)更加高效和準(zhǔn)確的樣本選擇。
另一方面,隨著近年來深度學(xué)習(xí)與主動(dòng)學(xué)習(xí)圖像分類算法的逐步融合,眾多研究者通過優(yōu)化模型架構(gòu)以及對(duì)模型訓(xùn)練過程的改進(jìn),來提升深度模型預(yù)測(cè)性能。例如,優(yōu)化深度模型的預(yù)測(cè)信息、基于生成對(duì)抗網(wǎng)絡(luò)、基于強(qiáng)化學(xué)習(xí)策略和基于Transformer結(jié)構(gòu)來提升主動(dòng)學(xué)習(xí)模型的預(yù)測(cè)效果。故本文還對(duì)優(yōu)化模型預(yù)測(cè)的主動(dòng)學(xué)習(xí)圖像分類算法進(jìn)行了詳盡的總結(jié)。綜上,本文根據(jù)主動(dòng)學(xué)習(xí)圖像分類算法所用樣本數(shù)據(jù)處理及模型優(yōu)化方案,將現(xiàn)有算法分為三大類:基于數(shù)據(jù)增強(qiáng)的主動(dòng)學(xué)習(xí)圖像分類算法、基于數(shù)據(jù)分布信息的主動(dòng)學(xué)習(xí)圖像分類算法以及優(yōu)化模型預(yù)測(cè)的主動(dòng)學(xué)習(xí)圖像分類算法。
本文的結(jié)構(gòu)如下:第2節(jié)介紹了基于主動(dòng)學(xué)習(xí)圖像分類算法的基本框架;第3節(jié)根據(jù)所用樣本數(shù)據(jù)處理及模型優(yōu)化方案,將現(xiàn)有主動(dòng)學(xué)習(xí)圖像分類算法分為基于數(shù)據(jù)增強(qiáng)、基于數(shù)據(jù)分布信息以及優(yōu)化模型預(yù)測(cè)三大類,并進(jìn)行詳細(xì)介紹;第4節(jié)通過實(shí)驗(yàn)數(shù)據(jù)對(duì)比分析了各類典型算法的性能;第5節(jié)討論了主動(dòng)學(xué)習(xí)圖像分類技術(shù)所面臨的技術(shù)挑戰(zhàn),并指出了未來研究趨勢(shì)。第6節(jié)對(duì)本文工作進(jìn)行了總結(jié)。
主動(dòng)學(xué)習(xí)圖像分類介紹
2.1 主動(dòng)學(xué)習(xí)圖像分類算法框架
主動(dòng)學(xué)習(xí)圖像分類方法根據(jù)樣本選擇策略,從未標(biāo)記的樣本數(shù)據(jù)集合中選擇出對(duì)模型訓(xùn)練貢獻(xiàn)更大的樣本數(shù)據(jù),以更新已標(biāo)注訓(xùn)練數(shù)據(jù)集。具體工作模式是抽樣迭代訓(xùn)練的過程[21]。首先,使用初始已標(biāo)注數(shù)據(jù)集訓(xùn)練分類器模型。然后,通過樣本選擇策略從未標(biāo)注數(shù)據(jù)集中選擇部分高質(zhì)量數(shù)據(jù),并由Oracle對(duì)這些選中的樣本進(jìn)行標(biāo)注。標(biāo)注的新樣本將被添加到標(biāo)注樣本集中,形成新的訓(xùn)練集,以參與下一次分類器訓(xùn)練。該步驟為循環(huán)過程,迭代進(jìn)行分類器訓(xùn)練和樣本選擇標(biāo)注。算法流程如圖2所示。
圖2主動(dòng)學(xué)習(xí)圖像分類算法流程
2.1.1 數(shù)據(jù)預(yù)處理
對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,可提高模型的魯棒性和泛化能力,使模型更好地適應(yīng)不同的輸入數(shù)據(jù)。本文將主動(dòng)學(xué)習(xí)圖像分類算法的數(shù)據(jù)預(yù)處理方式分為以下2種。
一是對(duì)數(shù)據(jù)集的量級(jí)和數(shù)據(jù)集模式進(jìn)行擴(kuò)增,使經(jīng)過樣本查詢函數(shù)選擇出的少量標(biāo)注圖像數(shù)據(jù)包含更多的語義信息。在早期研究中,數(shù)據(jù)增強(qiáng)主要采用傳統(tǒng)的方法,如旋轉(zhuǎn)、平移、縮放等操作,但是這些方法存在局限性,不能滿足復(fù)雜場(chǎng)景下的需求。目前,基于深度學(xué)習(xí)的方法已經(jīng)成為數(shù)據(jù)增強(qiáng)的主流技術(shù),例如使用生成網(wǎng)絡(luò)和變分自編碼器進(jìn)行數(shù)據(jù)擴(kuò)充和樣本合成等操作。隨著深度學(xué)習(xí)與主動(dòng)學(xué)習(xí)的深度融合,數(shù)據(jù)處理的方式也愈加復(fù)雜,在本文的后續(xù)內(nèi)容中將進(jìn)行更深入的介紹。
二是對(duì)數(shù)據(jù)集進(jìn)行處理,使主動(dòng)學(xué)習(xí)模型適應(yīng)不同的數(shù)據(jù)分布情況,進(jìn)而樣本選擇策略能夠選擇更有價(jià)值的樣本[23]。例如樣本難度評(píng)估和樣本平衡處理等。在某些應(yīng)用場(chǎng)景下,數(shù)據(jù)集往往是不均衡的,一些樣本可能比其他樣本更具有代表性和難度。因此,樣本難度評(píng)估可以幫助選擇具有代表性的樣本來增強(qiáng)模型的泛化能力。早期樣本難度評(píng)估方法主要基于樣本的統(tǒng)計(jì)信息和特征分布,如使用歐氏距離等測(cè)量方法來判斷樣本之間的相似性,從而進(jìn)行樣本選擇和樣本加權(quán)等操作。隨著深度學(xué)習(xí)和主動(dòng)學(xué)習(xí)等技術(shù)的發(fā)展,目前的方法主要基于模型輸出的置信度、熵、梯度等方法來度量樣本的不確定性和難度,以及基于生成模型的樣本難度評(píng)估方法等。此外,在樣本平衡處理方面,除了傳統(tǒng)的欠采樣和過采樣方法,為了更有效地平衡數(shù)據(jù)集中類別之間的數(shù)量和質(zhì)量差異,目前學(xué)者們采用了基于生成對(duì)抗網(wǎng)絡(luò)的樣本生成方法和基于輔助任務(wù)的樣本擴(kuò)增等方法。
2.1.2 常見樣本選擇策略
如前所述,深度學(xué)習(xí)基于大量的已標(biāo)注數(shù)據(jù)來訓(xùn)練模型。與深度學(xué)習(xí)不同,主動(dòng)學(xué)習(xí)從數(shù)據(jù)集開始,主要通過設(shè)計(jì)復(fù)雜的樣本選擇策略,從未標(biāo)記的數(shù)據(jù)集中選擇最佳樣本并查詢其標(biāo)簽。因此,樣本選擇策略的設(shè)計(jì)對(duì)主動(dòng)學(xué)習(xí)的性能至關(guān)重要,相關(guān)研究也相當(dāng)豐富。例如,在一組給定的未標(biāo)記數(shù)據(jù)集中,主要的選擇策略包括基于不確定性的方法[24]、基于代表性的方法[14]以及基于多樣性的方法[25]等。
基于不確定性的方法根據(jù)模型預(yù)測(cè)的概率分布或分類邊界等指標(biāo),選擇模型預(yù)測(cè)結(jié)果最不確定的樣本作為下一輪的訓(xùn)練數(shù)據(jù)?;诖硇缘姆椒ǜ鶕?jù)當(dāng)前已有的樣本分布或特征分布等指標(biāo),選擇出能夠代表未標(biāo)記數(shù)據(jù)分布的樣本作為下一輪的訓(xùn)練數(shù)據(jù)?;诙鄻有缘姆椒ㄍǔ?huì)優(yōu)先選擇距離已有標(biāo)注樣本最遠(yuǎn)的樣本或者選擇與已有標(biāo)注樣本差異性最大的樣本,以保證被選擇出的樣本的多樣性。由于基于不確定性的抽樣方法通常會(huì)導(dǎo)致抽樣偏差,因此當(dāng)前選擇的樣本難以更好地代表未標(biāo)記數(shù)據(jù)集的分布。另外,只考慮促進(jìn)抽樣多樣性的策略可能會(huì)導(dǎo)致標(biāo)注成本增加,因?yàn)榭赡軙?huì)選擇大量信息含量較低的樣本。因此,近年來許多研究者還研究了混合選擇策略[26,27],并試圖在多種選擇策略之間找到平衡。
在早期的主動(dòng)學(xué)習(xí)圖像分類任務(wù)中,常見的樣本選擇方法如表1所示。近年來,越來越多的工作利用深度模型來學(xué)習(xí)如何評(píng)估樣本的重要性,以改進(jìn)樣本選擇策略。該深度模型可以是一個(gè)分類模型或一個(gè)生成模型等。例如,利用深度卷積神經(jīng)網(wǎng)絡(luò)的特征表達(dá)能力和預(yù)測(cè)概率來評(píng)估樣本的不確定性、多樣性和代表性等指標(biāo),從而選擇最有利于模型學(xué)習(xí)的樣本;或者將主動(dòng)學(xué)習(xí)的樣本選擇策略與生成模型結(jié)合,可以實(shí)現(xiàn)從數(shù)據(jù)空間中合成最有信息量的樣本;或者從已有的樣本中提取最有信息量的部分,從而提高標(biāo)注效率和模型性能。利用深度模型的強(qiáng)大表達(dá)能力,可使樣本選擇策略獲得更高的精度和魯棒性,從而適應(yīng)復(fù)雜場(chǎng)景下應(yīng)用。
表1 樣本選擇策略函數(shù)總結(jié)
此外,在主動(dòng)學(xué)習(xí)圖像分類中,選擇合適的樣本選擇策略需考慮多方面因素,如任務(wù)特點(diǎn)、分類器性能、標(biāo)注成本等。例如,對(duì)于大規(guī)模數(shù)據(jù)集,可使用不確定性采樣策略最小化標(biāo)注成本,確保分類器性能;對(duì)于具有復(fù)雜結(jié)構(gòu)的數(shù)據(jù)集,可采用多樣性策略提高樣本多樣性,避免選擇相似樣本;還可結(jié)合分類器進(jìn)行樣本選擇,如使用置信度度量、邊緣度量等方法選擇最具信息量的樣本。綜合考慮任務(wù)特點(diǎn)和分類器性能,選擇合適的樣本選擇策略是主動(dòng)學(xué)習(xí)圖像分類中關(guān)鍵一步。第3節(jié)將詳細(xì)介紹不同算法中樣本選擇策略的工作原理。
2.1.3 分類器
分類器根據(jù)數(shù)據(jù)的特征度量進(jìn)行數(shù)據(jù)分類。傳統(tǒng)的機(jī)器學(xué)習(xí)圖像分類算法已被廣泛應(yīng)用于主動(dòng)學(xué)習(xí)模型中。在主動(dòng)學(xué)習(xí)任務(wù)中,常用一些分類算法包括支持向量機(jī)[35]、K近鄰算法[36,37]和余弦相似度[38]等。
近年來,深度學(xué)習(xí)圖像分類算法表現(xiàn)優(yōu)異,但仍面臨訓(xùn)練數(shù)據(jù)標(biāo)注困難和高維數(shù)據(jù)分類復(fù)雜度高等挑戰(zhàn)。為解決這些問題,一些學(xué)者嘗試將深度分類模型與主動(dòng)學(xué)習(xí)相結(jié)合。例如,2017年Feng等人[39]在主動(dòng)學(xué)習(xí)框架下,將深度殘差網(wǎng)絡(luò)用于圖像缺陷檢測(cè)和分類。2018年Ahmed等[40]使用VGG16模型實(shí)現(xiàn)了一個(gè)用于人臉表情識(shí)別分類的增量式主動(dòng)學(xué)習(xí)框架。2018年Haut等[41]將貝葉斯卷積神經(jīng)網(wǎng)絡(luò)與主動(dòng)學(xué)習(xí)樣本選擇策略相結(jié)合,提出了一種用于高光譜圖像分類的算法,取得了良好的分類性能。在醫(yī)學(xué)圖像分類領(lǐng)域,2018年Sayantan等[42]基于深度置信網(wǎng)絡(luò)來學(xué)習(xí)圖像的特征表示,有效提升了模型的分類性能。這些研究表明,將深度分類網(wǎng)絡(luò)與主動(dòng)學(xué)習(xí)相結(jié)合能夠有效地提高分類性能,為后續(xù)研究提供了有益的參考。
主動(dòng)學(xué)習(xí)圖像分類算法
基于主動(dòng)學(xué)習(xí)的圖像分類方法旨在通過一定的樣本選擇策略,選擇對(duì)模型訓(xùn)練提供更多貢獻(xiàn)的樣本,在節(jié)省大量數(shù)據(jù)標(biāo)注成本的情況下,得到較高性能的分類器。在標(biāo)注數(shù)據(jù)有限的背景下,對(duì)圖像數(shù)據(jù)進(jìn)行處理,以充分利用選擇出的高質(zhì)量樣本或直接生成高質(zhì)量的訓(xùn)練樣本,以及針對(duì)數(shù)據(jù)的分布信息來提高主動(dòng)學(xué)習(xí)算法中樣本選擇策略的適應(yīng)性,是提高主動(dòng)學(xué)習(xí)圖像分類模型性能的一種直觀方法。此外,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,如何有效利用深度模型的信息來評(píng)估樣本的價(jià)值,并優(yōu)化主動(dòng)學(xué)習(xí)算法的模型結(jié)構(gòu),已成為一個(gè)研究熱點(diǎn)。早期的主動(dòng)學(xué)習(xí)圖像分類算法通過結(jié)合熵、置信度等來設(shè)計(jì)樣本選擇策略。這些方法易于適應(yīng)各種任務(wù),且大多只涉及數(shù)據(jù)選擇過程,較少優(yōu)化網(wǎng)絡(luò)訓(xùn)練過程;并且樣本選擇過程可能會(huì)引入選擇偏差,導(dǎo)致算法選擇某些易于分類的數(shù)據(jù)而忽略了一些重要的難以分類的數(shù)據(jù)。因此,更好的主動(dòng)學(xué)習(xí)方法需要綜合考慮數(shù)據(jù)選擇和模型訓(xùn)練過程的改進(jìn),以提高其性能和魯棒性。
因此,在目前的主動(dòng)學(xué)習(xí)圖像分類任務(wù)中,算法的改進(jìn)主要分為數(shù)據(jù)驅(qū)動(dòng)和模型驅(qū)動(dòng)兩方面[22]。在現(xiàn)有算法中,數(shù)據(jù)驅(qū)動(dòng)方面主要包括圖像增廣以及對(duì)圖像特征插值處理等,以及在算法改進(jìn)的過程中將數(shù)據(jù)的分布信息考慮其中。模型驅(qū)動(dòng)方面主要包括附加額外網(wǎng)絡(luò)、修改損失函數(shù)、集成生成對(duì)抗網(wǎng)絡(luò)、集成強(qiáng)化學(xué)習(xí)方法和基于Transformer結(jié)構(gòu)等。本節(jié)旨在從基于數(shù)據(jù)增強(qiáng)、基于數(shù)據(jù)的分布信息以及優(yōu)化模型預(yù)測(cè)的角度出發(fā),介紹近年來主動(dòng)學(xué)習(xí)圖像分類領(lǐng)域的研究成果?,F(xiàn)有算法分類歸納如圖3所示。
圖3主動(dòng)學(xué)習(xí)圖像分類算法分類
3.1 基于數(shù)據(jù)增強(qiáng)的主動(dòng)學(xué)習(xí)圖像分類算法
基于主動(dòng)學(xué)習(xí)的圖像分類算法依賴少量信息量豐富的已標(biāo)注數(shù)據(jù)來進(jìn)行模型訓(xùn)練,同時(shí)包含大量的未標(biāo)注數(shù)據(jù)。本節(jié)從數(shù)據(jù)增強(qiáng)的角度出發(fā),介紹現(xiàn)有的主動(dòng)學(xué)習(xí)圖像分類方法。例如,通過圖像增廣來擴(kuò)充訓(xùn)練數(shù)據(jù),或通過對(duì)圖像特征進(jìn)行插值來判斷圖像數(shù)據(jù)的信息豐富性,從而選擇需要標(biāo)注的數(shù)據(jù)等。
3.1.1 基于圖像增廣
由于數(shù)據(jù)標(biāo)注的成本較高或標(biāo)注數(shù)據(jù)不足,采用圖像增廣[43]處理技術(shù)可最大限度地利用已有的標(biāo)注數(shù)據(jù)。圖像增廣通過隨機(jī)改變訓(xùn)練樣本,可以降低模型對(duì)某些屬性的依賴,從而提高模型的泛化能力。例如,簡(jiǎn)單的圖像增廣方法包括對(duì)圖像進(jìn)行不同方式的旋轉(zhuǎn)和裁剪,使感興趣的物體出現(xiàn)在不同位置,從而減輕模型對(duì)物體出現(xiàn)位置的依賴性,也可通過調(diào)整亮度、色彩等因素來降低模型對(duì)色彩的敏感度,如圖4所示的處理過程。
圖4利用圖像增廣方法處理圖像數(shù)據(jù)
然而,傳統(tǒng)的圖像增廣技術(shù)處理圖像方式有限,且擴(kuò)充后的圖像質(zhì)量難以保證。部分研究者考慮通過利用生產(chǎn)對(duì)抗性網(wǎng)絡(luò)(GenerativeAdversarial Net,GAN)[44]來生成可靠性更強(qiáng)的訓(xùn)練數(shù)據(jù)。2017年,Zhu等[17]提出的生成對(duì)抗主動(dòng)學(xué)習(xí)(Generative Adversarial Active Learning,GAAL)首次將GAN引入樣本查詢方法中。GAAL的目標(biāo)是使用生成學(xué)習(xí)來生成比原始數(shù)據(jù)集包含更多信息的樣本。GAAL通過GAN構(gòu)造出靠近分類邊界的樣本,使生成的新樣本具有較高不確定性。然而,隨機(jī)數(shù)據(jù)擴(kuò)增并不能保證生成的樣本比原始數(shù)據(jù)中包含更多的信息,從而造成計(jì)算資源的浪費(fèi)[21]。2019年,TRAN等[45]基于貝葉斯數(shù)據(jù)增強(qiáng)提出了貝葉斯生成主動(dòng)深度學(xué)習(xí)算法(Bayesian Generative Active Deep Learning,BGADL)。該算法在GAAL上進(jìn)行了進(jìn)一步的擴(kuò)展,結(jié)合輔助分類器生成對(duì)抗網(wǎng)絡(luò)和變分自編碼器(Variational Auto Encoder,VAE)[46]等方法,目的是生成屬于不同類別的不同區(qū)域的樣本。該方法通過輔助分類器生成對(duì)抗網(wǎng)絡(luò)和貝葉斯數(shù)據(jù)增強(qiáng)來產(chǎn)生與所選樣本信息豐富程度一樣的新樣本。
此外,2019年提出的變分對(duì)抗主動(dòng)學(xué)習(xí)(Variational Adversarial Active Learning,VAAL)[47]和對(duì)抗表示主動(dòng)學(xué)習(xí)(Adversarial Representation Active Learning,ARAL)[48]不僅將生成性對(duì)抗學(xué)習(xí)引入網(wǎng)絡(luò)體系結(jié)構(gòu)實(shí)現(xiàn)數(shù)據(jù)增強(qiáng),而且使用已標(biāo)記和未標(biāo)記的數(shù)據(jù)集來訓(xùn)練分類網(wǎng)絡(luò)。在此過程中,鑒別器嘗試區(qū)分重構(gòu)圖像和原始圖像之間的差異,從而幫助選擇最具信息量的未標(biāo)記圖像進(jìn)行標(biāo)記。VAAL通過減少基于不確定性的批量查詢策略的依賴來解決批量查詢策略容易受到離群值干擾的問題。ARAL對(duì)VAAL進(jìn)行了擴(kuò)展,以盡量減少使用人工標(biāo)注樣本,在充分利用現(xiàn)有或生成的數(shù)據(jù)信息的同時(shí)提高模型學(xué)習(xí)能力。ARAL額外使用深度生成網(wǎng)絡(luò)產(chǎn)生的樣本來聯(lián)合訓(xùn)練整個(gè)模型,并通過共享鑒別器的特征來訓(xùn)練分類器。這種方法不僅可以提高學(xué)習(xí)到的表示的質(zhì)量,而且可以進(jìn)一步提高分類性能。
為了進(jìn)一步保證生成數(shù)據(jù)擁有豐富的信息量。2021年,Kim等[49]提出了一種“前瞻數(shù)據(jù)采集”(Look-Ahead Data Acquisition,LADA)的算法,旨在集成數(shù)據(jù)選擇和數(shù)據(jù)增強(qiáng)。該算法在進(jìn)行數(shù)據(jù)選擇之前考慮數(shù)據(jù)增強(qiáng)的效果,并綜合考慮數(shù)據(jù)增強(qiáng)所產(chǎn)生的非標(biāo)記數(shù)據(jù)和虛擬數(shù)據(jù)以進(jìn)行數(shù)據(jù)選擇。傳統(tǒng)的樣本選擇策略不考慮數(shù)據(jù)增強(qiáng)的潛在增益,而LADA則通過將數(shù)據(jù)增強(qiáng)集成到采集過程中,來考慮虛擬數(shù)據(jù)的信息量。此外,LADA還通過優(yōu)化數(shù)據(jù)增強(qiáng)策略,以最大化預(yù)測(cè)獲取分?jǐn)?shù)來增強(qiáng)虛擬數(shù)據(jù)實(shí)例的信息量。
然而,以上方法在對(duì)樣本圖像進(jìn)行增強(qiáng)時(shí),并未充分考慮原始圖像關(guān)鍵特征的完整性。針對(duì)這一問題,Gong等人[50]結(jié)合KeepAugment數(shù)據(jù)增強(qiáng)方法對(duì)每個(gè)循環(huán)過程中所選擇出的高質(zhì)量樣本進(jìn)行數(shù)據(jù)增強(qiáng)。該算法首先基于顯著圖來檢測(cè)原始圖像上的重要區(qū)域,并在數(shù)據(jù)增強(qiáng)期間保留這些重要的信息區(qū)域,這種信息保留策略允許生成更可靠的訓(xùn)練樣本,并將一種低計(jì)算量SpinalNet[51]的深度網(wǎng)絡(luò)模型改進(jìn)分類網(wǎng)絡(luò),算法框架如圖5所示。該算法進(jìn)一步提升了基線算法的性能,尤其在分類類別數(shù)較少的數(shù)據(jù)集上,顯示出了更先進(jìn)的性能。
圖5結(jié)合數(shù)據(jù)增強(qiáng)和SpinalNet的主動(dòng)學(xué)習(xí)圖像分類算法[50]
數(shù)據(jù)增強(qiáng)技術(shù)在提高數(shù)據(jù)多樣性和改善模型泛化性能方面具有明顯優(yōu)勢(shì)。但在應(yīng)用數(shù)據(jù)增強(qiáng)時(shí),需考慮現(xiàn)實(shí)世界任務(wù)可能存在的問題。例如,僅生成未標(biāo)記樣本可能會(huì)導(dǎo)致數(shù)據(jù)增強(qiáng)生成不自然或人類難以解釋的實(shí)例,從而降低模型的可解釋性[50]。此外,生成對(duì)抗網(wǎng)絡(luò)可能會(huì)生成與原始數(shù)據(jù)集中的樣本不同的樣本,給模型訓(xùn)練帶來挑戰(zhàn)[52]??傮w而言,數(shù)據(jù)增強(qiáng)為近年的研究提供了有效的方法,且這種對(duì)數(shù)據(jù)利用技巧的探索也是必不可少的。
3.1.2 基于特征插值
與傳統(tǒng)的圖像增強(qiáng)和生成網(wǎng)絡(luò)不同,通過對(duì)圖像特征進(jìn)行插值處理以實(shí)現(xiàn)數(shù)據(jù)增強(qiáng),而無需生成額外數(shù)據(jù),在目前的主動(dòng)學(xué)習(xí)圖像分領(lǐng)域中取得了顯著的成果。特別是,Zhang等人[53]在2017年提出的Mixup算法,近年來受到一些主動(dòng)學(xué)習(xí)算法研究者的重視[54]。
Mixup是一種通過線性內(nèi)插構(gòu)造新的訓(xùn)練樣本及其對(duì)應(yīng)的標(biāo)簽的方法。該方法首先從原始訓(xùn)練集中隨機(jī)選取兩個(gè)樣本-標(biāo)注對(duì),然后對(duì)這兩個(gè)樣本-標(biāo)注對(duì)的特征向量進(jìn)行線性內(nèi)插。最后,獲得一個(gè)新的樣本-標(biāo)簽對(duì),數(shù)學(xué)定義如式(1)所示。
其中,表示服從參數(shù)為的Beta分布。內(nèi)插后的圖像示例如圖6所示。這種線性建模減少了在預(yù)測(cè)訓(xùn)練樣本之外的數(shù)據(jù)時(shí)的不兼容性,提升了模型的泛化性。
圖6 Mixup增強(qiáng)示例
2020年,Ma等人[55]基于Mixup數(shù)據(jù)增強(qiáng)方法,首先提出了一種結(jié)合數(shù)據(jù)增強(qiáng)的主動(dòng)學(xué)習(xí)圖像分類算法。該算法在每輪的迭代過程中,根據(jù)主動(dòng)學(xué)習(xí)的樣本選擇策略進(jìn)行樣本選擇,由Oracle對(duì)待標(biāo)記的樣本進(jìn)行標(biāo)記,以更新標(biāo)記數(shù)據(jù)集,并對(duì)更新后的已標(biāo)記數(shù)據(jù)集進(jìn)行Mixup數(shù)據(jù)增強(qiáng),隨后訓(xùn)練分類模型。
進(jìn)一步地,2020年Wang等人[56]基于知識(shí)蒸餾模型提出了一種與Mixup結(jié)合的主動(dòng)學(xué)習(xí)算法。該算法首先使用Mixup合成一批圖像,然后使用主動(dòng)學(xué)習(xí)算法從中選擇最有價(jià)值的子集來查詢教師模型。查詢到教師模型的輸出后,將其視為查詢圖像的真實(shí)標(biāo)簽信息,并使用這些標(biāo)簽來訓(xùn)練學(xué)生神經(jīng)網(wǎng)絡(luò),以減少對(duì)大規(guī)模數(shù)據(jù)集的依賴,從而訓(xùn)練出高性能的分類模型。
此外,2022年P(guān)arvaneh等人[57]提出的ALFA-Mix算法通過結(jié)合Mixup尋找對(duì)其表示信息進(jìn)行干擾而導(dǎo)致的預(yù)測(cè)不一致,來判定未標(biāo)記樣本的信息豐富性,以進(jìn)一步提升未標(biāo)記樣本的信息利用率。在有標(biāo)注和無標(biāo)注樣本的特征表示之間構(gòu)造內(nèi)插以形成樣本的擾動(dòng)版本,然后檢驗(yàn)預(yù)測(cè)的標(biāo)簽。通過評(píng)估樣本擾動(dòng)版本預(yù)測(cè)的標(biāo)簽的可變性來識(shí)別信息量最大的未標(biāo)記樣本。
具體來講,將未標(biāo)記的樣本集合劃分為多個(gè)子集,每個(gè)子集對(duì)應(yīng)一個(gè)特征空間的子空間。對(duì)于每個(gè)子空間,使用K-Means算法將其內(nèi)部的樣本聚類成若干個(gè)簇。對(duì)于每個(gè)簇,選擇距離其質(zhì)心最近的樣本進(jìn)行標(biāo)記,這些樣本被稱為代表性樣本。將所有代表性樣本標(biāo)記后,與已標(biāo)記的樣本特征構(gòu)建內(nèi)插,重新訓(xùn)練模型并預(yù)測(cè)未標(biāo)記樣本的標(biāo)簽。通過將未標(biāo)記樣本的特征與已標(biāo)記樣本相結(jié)合,有效地探索其周圍鄰域,從而選擇最有價(jià)值的樣本進(jìn)行標(biāo)注。該算法基本框架如圖7所示。
圖7 ALFA-Mix算法基本框架[57]
與基于圖像增廣的算法相比,該方法在不生成新數(shù)據(jù)的情況下,只在原始數(shù)據(jù)之間衡量樣本信息豐富性,能夠有效地判斷樣本信息豐富性。然而在進(jìn)行特征插值融合時(shí),若融合的樣本之間存在很大的差異,可能會(huì)導(dǎo)致融合后的樣本信息不準(zhǔn)確[58],且現(xiàn)有方法沒有充分利用訓(xùn)練數(shù)據(jù)中豐富的信息,如目標(biāo)顯著性、相對(duì)排列等方面的信息。此外,在高維空間中進(jìn)行插值操作,可能會(huì)產(chǎn)生異常值。
3.2 基于數(shù)據(jù)分布信息的主動(dòng)學(xué)習(xí)圖像分類
數(shù)據(jù)樣本的分布是數(shù)據(jù)集的內(nèi)在特征。樣本在幾何分布中的位置及其與鄰域樣本的關(guān)系,決定了該樣本在模型訓(xùn)練中的重要性。
為了使模型更好地適應(yīng)數(shù)據(jù)分布,部分研究者在早期的研究中提出了一些自適應(yīng)樣本分布的主動(dòng)學(xué)習(xí)方法。2013年,Li等人[59]提出了一種結(jié)合信息密度和不確定性策略的主動(dòng)學(xué)習(xí)方法,用于主動(dòng)學(xué)習(xí)圖像分類。該方法通過監(jiān)測(cè)訓(xùn)練數(shù)據(jù)的分布,動(dòng)態(tài)地調(diào)整選擇策略,以選擇更能代表數(shù)據(jù)分布情況的樣本。正如前文所述,基于代表性的算法通常會(huì)考慮樣本的分布信息和特征分布情況等,且數(shù)據(jù)通常具有冗余性,故使用更具代表性的樣本來訓(xùn)練深度分類模型在直觀上是很好的選擇。Liu等人[60]使用字典學(xué)習(xí)的稀疏表示來搜索代表性樣本。該算法旨在選擇訓(xùn)練集中最具代表性和不確定性的樣本,并在遙感圖像和高光譜圖像分類任務(wù)中獲得了良好的性能。此外,Yang等人[61]提出了使用偽注釋器的單次主動(dòng)學(xué)習(xí),其中偽注釋器可以作為一種尋找最具代表性樣本的特殊方法。
在基于代表性方法的研究中,2017年Sener等人[14]首次提出一種基于CoreSet的算法,通過使用全局訓(xùn)練集的代表性替代子集的局部幾何特征來提高學(xué)習(xí)效果。該方法將K-Center-Greedy引入主動(dòng)學(xué)習(xí)框架,以選擇核心集進(jìn)行訓(xùn)練。選擇中心點(diǎn)的過程是通過最小化數(shù)據(jù)重復(fù)點(diǎn)與其最近中心之間的最大距離來實(shí)現(xiàn)的。類似于聚類算法,該方法對(duì)遠(yuǎn)點(diǎn)和離散點(diǎn)不太敏感。然而,基于CoreSet的方法往往只是查詢數(shù)據(jù)點(diǎn),以盡量覆蓋數(shù)據(jù)流上的所有點(diǎn),而不考慮樣本的密度。這導(dǎo)致查詢的數(shù)據(jù)點(diǎn)過度代表稀疏區(qū)域的樣本點(diǎn)。針對(duì)這一問題,2019年Gissin等人[62]提出的判別式主動(dòng)學(xué)習(xí)(Discriminative Active Learning,DAL)將主動(dòng)學(xué)習(xí)圖像分類任務(wù)視為一個(gè)二進(jìn)制分類任務(wù),目的是使進(jìn)一步使查詢到的標(biāo)記數(shù)據(jù)集與未標(biāo)記數(shù)據(jù)集難以區(qū)分。DAL的關(guān)鍵優(yōu)勢(shì)在于,可以按照數(shù)據(jù)密度的比例從未標(biāo)記的數(shù)據(jù)集中采樣,而不會(huì)使稀疏域中的樣本點(diǎn)產(chǎn)生偏差。此外,DAL不限于分類任務(wù),能夠容易地應(yīng)用于到其他任務(wù)中。進(jìn)一步,2021年Caramalau等人[63]基于CoreSet算法和圖卷積網(wǎng)絡(luò)(GraphConvolutional Network,GCN)[64]提出了CoreGCN算法。該算法利用GCN學(xué)習(xí)圖像特征之間的關(guān)系并結(jié)合CoreSet算法來選擇最具代表性的未標(biāo)記示例。
從空域分布角度出發(fā),2020年Agarwal等人[65]根據(jù)不同類的圖像在同一空域分布的差異性,提出了一種用于主動(dòng)學(xué)習(xí)的語義多樣性方法(ContextualDiversity for Active Learning,CDAL)。該方法有助于在不同的上下文和背景中選擇具有不同示例對(duì)象的樣本。語義多樣性取決于一個(gè)重要的觀察結(jié)果,即CNN預(yù)測(cè)的感興趣區(qū)域的概率向量通常包含來自更大感受野的信息。基于此,作者在CoreSet基礎(chǔ)上提出了CDAL-CS算法,該算法不會(huì)受到維度詛咒的影響。進(jìn)一步作者基于強(qiáng)化學(xué)習(xí)策略(ReinforcementLearning,RL)[66]提出了CDAL-RL算法,采用了特定任務(wù)的狀態(tài)表示,并使用了基于上下文多樣性的激勵(lì),該激勵(lì)以無監(jiān)督的方式結(jié)合不確定性和多樣性來優(yōu)化樣本選擇策略。
一方面,若已標(biāo)記樣本與未標(biāo)記樣本的分布存在顯著偏差,則可能會(huì)影響選擇策略的性能。特別是,大多數(shù)基于不確定性/多樣性的方法通常基于Softmax分類器的預(yù)測(cè)來計(jì)算。然而,這僅在訓(xùn)練的特征和分類器能推廣到未標(biāo)記數(shù)據(jù)集的前提下才成立[67]。2021年,Wan等人[67]針對(duì)以上問題提出了鄰近分類器嵌入式網(wǎng)絡(luò)(Neighbor Classifier Embedded Network,NCE-Net)。NCE-Net利用一個(gè)Soft鄰近分類器[68],在“拒絕”或“混淆”置信度的指導(dǎo)下進(jìn)行樣本選擇,選擇出遠(yuǎn)離分類決策邊界且具有豐富信息性的樣本進(jìn)行標(biāo)注,進(jìn)行下一步訓(xùn)練。
另一方面,為了進(jìn)一步探索已標(biāo)記樣本與未標(biāo)記樣本的分布差異性,以更好地適應(yīng)現(xiàn)實(shí)應(yīng)用場(chǎng)景下的數(shù)據(jù)分布情況,一些研究者開始關(guān)注現(xiàn)實(shí)世界中存在的數(shù)據(jù)集不平衡問題,即數(shù)據(jù)的長(zhǎng)尾分布[69]。2021年Choi等人[70]提出結(jié)合變分貝葉斯的類不平衡和難度的算法,該算法基于貝葉斯規(guī)則,將類不平衡性納入主動(dòng)學(xué)習(xí)框架,如圖8所示。當(dāng)評(píng)估分類器在給定樣本上出錯(cuò)的概率時(shí),同時(shí)考慮三個(gè)方面;(1)錯(cuò)誤標(biāo)記類別的概率,(2)給定預(yù)測(cè)類別的數(shù)據(jù)的可能性,(3)預(yù)測(cè)類別豐度的先驗(yàn)概率。通過訓(xùn)練VAE并將其與分類器聯(lián)系,使用分類器的深度特征表示作為VAE的輸入,促進(jìn)VAE訓(xùn)練。該算法通過考慮所有三種概率,特別是數(shù)據(jù)的不平衡性,在數(shù)據(jù)不平衡數(shù)據(jù)集上顯示出優(yōu)異性能。此外,2022年Javad等人[19]提出了用于圖像分類的類平衡主動(dòng)學(xué)習(xí)算法(Class-Balanced Active Learning,CBAL),目標(biāo)是使選擇的樣本更偏向于均勻分布。該算法糾正了未標(biāo)記數(shù)據(jù)池中出現(xiàn)的類不平衡問題,以緩解采樣偏差和數(shù)據(jù)集不平衡帶來的問題。該方法具有較強(qiáng)通用性,可與常用的不確定性和代表性方法結(jié)合。
圖8結(jié)合變分貝葉斯的類不平衡算法框架[70]
通過充分利用數(shù)據(jù)分布信息,可以設(shè)計(jì)更加準(zhǔn)確和具有針對(duì)性的樣本選擇策略,以提高主動(dòng)學(xué)習(xí)的效率和選擇樣本的準(zhǔn)確性。結(jié)合數(shù)據(jù)分布信息可以有效改善模型的魯棒性,使其能夠更好地應(yīng)對(duì)數(shù)據(jù)集中的偏差、噪聲和離群點(diǎn)。此外,數(shù)據(jù)分布信息的應(yīng)用還能夠有效解決類別不平衡問題,從而使模型能夠更好地適用于現(xiàn)實(shí)應(yīng)用場(chǎng)景。
然而,需要注意的是,在不同規(guī)模的數(shù)據(jù)集上,基于數(shù)據(jù)分布信息的算法可能呈現(xiàn)出不同的性能表現(xiàn),且模型的穩(wěn)定性難以得到充分保證。此外在實(shí)際應(yīng)用中,若數(shù)據(jù)分布與真實(shí)分布存在較大差異,模型可能會(huì)出現(xiàn)過擬合或欠擬合等問題[71]。
3.3 優(yōu)化模型預(yù)測(cè)的主動(dòng)學(xué)習(xí)圖像分類算法
主動(dòng)學(xué)習(xí)圖像分類算法旨在通過少量已標(biāo)注數(shù)據(jù)獲取高性能分類器,這需要充分優(yōu)化獲取和利用模型信息的途徑或優(yōu)化模型結(jié)構(gòu)來保證模型預(yù)測(cè)結(jié)果的可靠性。例如,可通過結(jié)合深度學(xué)習(xí)模型的學(xué)習(xí)能力來提高算法的性能;利用深度模型在不同層和不同時(shí)間輸出之間的差異作為選擇需標(biāo)記數(shù)據(jù)的依據(jù),或者利用圖卷積神經(jīng)網(wǎng)絡(luò)生成更高階的特征表示;結(jié)合生成對(duì)抗網(wǎng)絡(luò)來進(jìn)一步優(yōu)化算法架構(gòu),提高樣本選擇策略的可靠性;在算法結(jié)構(gòu)中引入強(qiáng)化學(xué)習(xí)策略,以動(dòng)態(tài)優(yōu)化分類器的訓(xùn)練過程,并根據(jù)不同的任務(wù)環(huán)境優(yōu)化樣本選擇策略;基于最新提出的視覺Transformer結(jié)構(gòu)來提升模型的預(yù)測(cè)性能。
3.3.1 優(yōu)化深度模型預(yù)測(cè)信息
深度學(xué)習(xí)在高維數(shù)據(jù)處理和自動(dòng)特征提取的背景下具有較強(qiáng)的學(xué)習(xí)能力,而主動(dòng)學(xué)習(xí)在降低標(biāo)注成本方面具有顯著的潛力。因此,將深度學(xué)習(xí)和主動(dòng)學(xué)習(xí)的結(jié)合是一個(gè)直接的方法,有利更好地?cái)U(kuò)大兩者的應(yīng)用潛力。通過結(jié)合兩者的優(yōu)勢(shì),部分研究者提出了DeepAL[21]方法。
圖9展示了DeepAL圖像分類算法框架。深度模型在標(biāo)記的訓(xùn)練集上初始化或預(yù)訓(xùn)練,而未標(biāo)記的池的樣本用于通過深度模型提取特征。接下來,根據(jù)相應(yīng)的選擇策略選擇樣本,并由Oracle進(jìn)行標(biāo)注,形成新的已標(biāo)注訓(xùn)練集,然后在上訓(xùn)練深度模型,同時(shí)更新。重復(fù)此過程,直到標(biāo)簽預(yù)算耗盡或達(dá)到預(yù)定義的終止條件。從圖9中的DeepAL框架示例中,可大致將DeepAL框架分為兩部分:在未標(biāo)記數(shù)據(jù)集上施行主動(dòng)學(xué)習(xí)算法的樣本選擇策略和在深度學(xué)習(xí)模型上的訓(xùn)練。
圖9 DeepAL圖像分類算法結(jié)構(gòu)[21]
主動(dòng)學(xué)習(xí)算法和深度學(xué)習(xí)算法之間存在處理通道不一致的問題,即大多數(shù)主動(dòng)學(xué)習(xí)圖像分類算法主要關(guān)注分類器的訓(xùn)練,主要使用基于固定特征表示的查詢策略[21]。然而,在深度學(xué)習(xí)中,特征學(xué)習(xí)和分類器訓(xùn)練共同優(yōu)化。簡(jiǎn)言之,簡(jiǎn)單地將主動(dòng)學(xué)習(xí)和深度學(xué)習(xí)結(jié)合起來作為兩個(gè)獨(dú)立的問題來處理,可能會(huì)導(dǎo)致一定的歧義[72]。2017年Wang等人[73]提出的具有成本效益的主動(dòng)學(xué)習(xí)(Cost-Effective Active Learning,CEAL)算法是首批將主動(dòng)學(xué)習(xí)和深度學(xué)習(xí)結(jié)合解決深度圖像分類問題的工作之一。該算法將少量不確定性樣本由Oracle標(biāo)記,而大量高置信度樣本則由CNN自動(dòng)分配偽標(biāo)簽,從而有效降低標(biāo)注成本。兩種類型的樣本隨后用于微調(diào)CNN,并重復(fù)更新過程。
另一問題在于深度模型和淺層模型的學(xué)習(xí)模式不同,即深度模型由特征提取階段和任務(wù)學(xué)習(xí)階段組成,傳統(tǒng)的基于不確定性的選擇策略難以直接應(yīng)用于深度模型。僅使用深度模型最后一層的輸出來評(píng)估樣本預(yù)測(cè)的不確定性是不準(zhǔn)確的,因?yàn)樯疃饶P偷牟淮_定性實(shí)際上由兩個(gè)階段的不確定性信息組成。
針對(duì)以上問題,2019年Yoo等人[74]提出了用于主動(dòng)學(xué)習(xí)的學(xué)習(xí)損失(Learning Loss for Active Learning,LLAL)框架。該框架將深度模型中間不同隱藏層的特征視為多視圖數(shù)據(jù),考慮了目標(biāo)模型不同網(wǎng)絡(luò)層之間的不確定性,使不確定度的評(píng)估更加準(zhǔn)確,如圖10所示。學(xué)習(xí)損失預(yù)測(cè)模塊預(yù)測(cè)無標(biāo)記數(shù)據(jù)集的目標(biāo)損失,使用TOP-K策略選擇查詢樣本。LLAL方法已適用于當(dāng)前任務(wù)范圍較廣的深度網(wǎng)絡(luò)。
除了通過附加網(wǎng)絡(luò)模塊來獲取深度模型的各層信息之外,2021年Huang等人[75]通過模型在不同時(shí)間段輸出的差異性來利用深度模型的各階段信息,并提出了一種新的DeepAL方法。該方法的核心是測(cè)量不同時(shí)間輸出的差異性(Temporal Output Discrepancy,TOD)[76],評(píng)估模型在不同優(yōu)化步驟給出的輸出差異來估計(jì)樣本損失,即較高的差異對(duì)應(yīng)較高的樣本損失,如圖11所示。具體來講,在每次迭代中,訓(xùn)練模型會(huì)根據(jù)每個(gè)樣本的損失向后傳播誤差,而具有高損失的樣本通常會(huì)給訓(xùn)練模型的參數(shù)帶來信息更新。當(dāng)真實(shí)標(biāo)注樣本不可用時(shí),TOD可以測(cè)量?jī)H依賴訓(xùn)練模型的樣本的潛在損失,從而降低了累積樣本損失。
圖10用于主動(dòng)學(xué)習(xí)的學(xué)習(xí)損失預(yù)測(cè)模塊[74]
圖11基于TOD的單次迭代步驟[75]
為了進(jìn)一步解決深度模型末層輸出信息無法有效且準(zhǔn)確地評(píng)估樣本的信息豐富性的問題,2022年P(guān)atrick等人[77]提出了深度證據(jù)主動(dòng)學(xué)習(xí)算法(Deep Evidential Active Learning,DEAL)。該算法通過將CNN的Softmax標(biāo)準(zhǔn)輸出替換為Dirichlet密度[78]的參數(shù),這使模型的輸出是Dirichlet分布而不是概率分布。該算法使用CNN作為模型,并使用貝葉斯框架中的證據(jù)理論來計(jì)算預(yù)測(cè)的不確定性。在每次迭代中,DEAL算法選擇最小邊緣作為度量標(biāo)準(zhǔn),并使用該度量標(biāo)準(zhǔn)選擇最具信息量和代表性的未標(biāo)記數(shù)據(jù)實(shí)例進(jìn)行標(biāo)注。
此外,面對(duì)深度模型使用的大規(guī)模數(shù)據(jù)集,為了保證從大型數(shù)據(jù)集中選擇出的訓(xùn)練數(shù)據(jù)的質(zhì)量,2021年Caramalau等人[63]基于GCN來獲取更高階的特征表示,并提出了一種用于主動(dòng)學(xué)習(xí)的順續(xù)圖卷積網(wǎng)絡(luò)(Sequential GraphConvolutional Network,SGCN),如圖12所示。圖網(wǎng)絡(luò)中的節(jié)點(diǎn)代表數(shù)據(jù)池中的圖像的特征,圖網(wǎng)絡(luò)中的邊來編碼特征之間的相似性。作者基于不確定性選擇策略提出了UncertainGCN,該算法利用GCN模型對(duì)未標(biāo)記節(jié)點(diǎn)進(jìn)行預(yù)測(cè),根據(jù)置信度得分選擇不確定性最高的節(jié)點(diǎn)進(jìn)行標(biāo)注。圖卷積神經(jīng)網(wǎng)絡(luò)在面對(duì)大規(guī)模數(shù)據(jù)集時(shí),需建立更多的圖節(jié)點(diǎn)來更好地學(xué)習(xí)圖像特征之間的相似性,這無疑會(huì)消耗更多的計(jì)算資源,提高標(biāo)注成本[79]。鑒于此,2022年Ili?等人通過結(jié)合CNN和自校正神經(jīng)網(wǎng)絡(luò)(Self-CorrectingNeural Network,SCN)[80],提出了一種基于自我修正神經(jīng)網(wǎng)絡(luò)的主動(dòng)學(xué)習(xí)算法(Active Learning Using a Self-CorrectingNeural Network,ALSCN)[81]。該算法中,CNN僅使用手動(dòng)標(biāo)記的數(shù)據(jù)進(jìn)行訓(xùn)練,并對(duì)未標(biāo)記的數(shù)據(jù)進(jìn)行預(yù)測(cè)。而SCN使用所有可用數(shù)據(jù)進(jìn)行訓(xùn)練,其中部分由手動(dòng)標(biāo)記,其余使用網(wǎng)絡(luò)自動(dòng)標(biāo)記。ALSCN算法的特性使其在處理大規(guī)模數(shù)據(jù)集時(shí),能夠通過僅標(biāo)記數(shù)據(jù)集的一部分樣本,從而顯著降低樣本標(biāo)注的成本。同時(shí),該算法將有差異的樣本選出進(jìn)行手動(dòng)標(biāo)記,從而提高訓(xùn)練數(shù)據(jù)集的質(zhì)量。
圖12用于主動(dòng)學(xué)習(xí)的順續(xù)圖卷積網(wǎng)絡(luò)(SGCN)基本架構(gòu)[63]
在深度學(xué)習(xí)和主動(dòng)學(xué)習(xí)融合中,深度學(xué)習(xí)主要負(fù)責(zé)特征信息提取處理,主動(dòng)學(xué)習(xí)負(fù)責(zé)樣本選擇查詢。深度網(wǎng)絡(luò)模型的各個(gè)隱含層和階段信息為高價(jià)值樣本選擇提供了更多依據(jù),深度模型強(qiáng)大的特征表示能力能夠有效提高主動(dòng)學(xué)習(xí)圖像分類算法性能。然而,主動(dòng)學(xué)習(xí)與深度學(xué)習(xí)處理流程不一致,使兩者難以有效結(jié)合;且深度學(xué)習(xí)需要大量標(biāo)注數(shù)據(jù),而主動(dòng)學(xué)習(xí)的標(biāo)注數(shù)據(jù)較少,容易引起樣本分布偏差;在確定哪些樣本需要進(jìn)行標(biāo)注時(shí),大多基于不確定性的樣本策略可能僅僅基于樣本的不確定性排名來選擇樣本,因此在考慮多個(gè)樣本屬性時(shí)可能會(huì)忽略樣本之間的相關(guān)性,從而使更新后的已標(biāo)注訓(xùn)練集具有冗余性[21]。
3.3.2 基于生成對(duì)抗網(wǎng)絡(luò)
如前所述,在3.1.1節(jié)中,GAN網(wǎng)絡(luò)已被應(yīng)用于數(shù)據(jù)增強(qiáng)領(lǐng)域來減少標(biāo)注圖像過程中的成本。進(jìn)一步,本節(jié)將從優(yōu)化模型結(jié)構(gòu)的角度來總結(jié)近年來的研究成果。
2019年,Sinha等人[47]依據(jù)VAE學(xué)習(xí)隱空間的強(qiáng)大能力提出了變分對(duì)抗式主動(dòng)學(xué)習(xí)(VariationalAdversarial Active Learning,VAAL)。在此方法中,樣本選擇由對(duì)抗性網(wǎng)絡(luò)執(zhí)行,該網(wǎng)絡(luò)判別樣本屬于已標(biāo)記池或未標(biāo)記池,如圖13所示。VAE和對(duì)抗性網(wǎng)絡(luò)中的鑒別器被構(gòu)建為類似于GAN的Mini-Max博弈[82],使VAE被訓(xùn)練來學(xué)習(xí)特征空間,而鑒別器學(xué)習(xí)如何選擇不確定較高的樣本來進(jìn)行標(biāo)注。進(jìn)一步,在2021年Kim等人[83]對(duì)VAAL算法進(jìn)行了改進(jìn),并提出了基于任務(wù)感知的變分對(duì)抗性主動(dòng)學(xué)習(xí)網(wǎng)絡(luò)(Task-AwareVariational Adversarial Active Learning,TA-VAAL)。該算法考慮已標(biāo)注和未標(biāo)記數(shù)據(jù)分布,并使用排序條件生成對(duì)抗網(wǎng)絡(luò)在VAAL上嵌入歸一化排序損失信息,去除預(yù)測(cè)輸入樣本間相對(duì)距離。通過對(duì)真實(shí)損失信息排序來重塑隱空間,來選擇具有較高真實(shí)損失值的樣本。
圖13基于任務(wù)感知的變分對(duì)抗性主動(dòng)學(xué)習(xí)網(wǎng)絡(luò)基本結(jié)構(gòu)[47]
另外,已標(biāo)注數(shù)據(jù)池處于持續(xù)更新過程中,且早期訓(xùn)練中已標(biāo)注數(shù)據(jù)池通常很小,這限制了對(duì)抗式訓(xùn)練模型的性能。因此,一些研究者使用樣本的狀態(tài)信息來指示樣本是否被標(biāo)記,該狀態(tài)信息可直接用作主動(dòng)學(xué)習(xí)算法的監(jiān)督信息。未標(biāo)記數(shù)據(jù)池中不同樣本對(duì)目標(biāo)任務(wù)具有不同重要性,且未標(biāo)記樣本與標(biāo)記池中樣本越相似,其被標(biāo)記的優(yōu)先級(jí)越低。2020年,Zhang等人[84]結(jié)合樣本的狀態(tài)信息提出了一種狀態(tài)重新標(biāo)記的對(duì)抗式主動(dòng)學(xué)習(xí)模型(State Relabeling Adversarial ActiveLearning,SRAAL),其由表示生成器和狀態(tài)鑒別器組成。該生成器利用標(biāo)注信息生成樣本的統(tǒng)一表示,將語義嵌入整個(gè)數(shù)據(jù)表示中。鑒別器中設(shè)計(jì)了一個(gè)在線不確定度指示器,指示器計(jì)算每個(gè)未標(biāo)記樣本的不確定性得分,作為其新的狀態(tài)標(biāo)簽。因此,可以根據(jù)鑒別器的預(yù)測(cè)狀態(tài)選擇信息量最大的樣本。
進(jìn)一步,2020年Wang等人[85]在基于單一GAN算法的基礎(chǔ)上提出了一種創(chuàng)新性的算法——用于深度主動(dòng)學(xué)習(xí)的雙重對(duì)抗網(wǎng)絡(luò)(Dual Adversarial network for deep Active Learning,DAAL)。該算法同時(shí)考慮了不確定性和代表性兩種基本的樣本選擇策略。與以往需要多階段數(shù)據(jù)選擇的混合主動(dòng)學(xué)習(xí)方法不同,DAAL算法使用不同的采集函數(shù)逐步評(píng)估不確定性和代表性。這種結(jié)構(gòu)能夠在一個(gè)主動(dòng)學(xué)習(xí)階段中選擇不確定性度最高和最具代表性的數(shù)據(jù)點(diǎn),從而在未標(biāo)記池中準(zhǔn)確地選擇信息量最大的數(shù)據(jù)點(diǎn)。
然而,由于GAN模型高度復(fù)雜和計(jì)算規(guī)模較大,現(xiàn)有大多數(shù)基于GAN的算法需更高的訓(xùn)練成本。為此,在2020年Mayer等人[86]提出一種新的對(duì)抗式主動(dòng)學(xué)習(xí)方法——對(duì)抗性抽樣(AdversarialSampling for Active Learning,ASAL)。該算法使用GAN生成高熵樣本,并使用特征提取器和最近鄰模型從池中檢索相似的真實(shí)樣本。該方法避免了在整個(gè)數(shù)據(jù)集上進(jìn)行不確定性采樣所需的昂貴計(jì)算,并且可以在較短的時(shí)間內(nèi)找到最相關(guān)的真實(shí)樣本。因此,ASAL具有比傳統(tǒng)不確定性采樣方法更低的運(yùn)行復(fù)雜度。
將GAN與主動(dòng)學(xué)習(xí)算法結(jié)合,不僅可以通過數(shù)據(jù)增強(qiáng)解決標(biāo)注不足的問題,而且對(duì)抗式的學(xué)習(xí)方法能夠有效提升樣本選擇策略判別樣本信息豐富性的能力。然而,GAN的訓(xùn)練過程可能不穩(wěn)定,特別是主動(dòng)學(xué)習(xí)算法初始迭代階段,生成器和判別器之間的動(dòng)態(tài)平衡可能很難實(shí)現(xiàn),導(dǎo)致模型難以收斂或難以獲得良好的分類性能[87]。此外,GAN的訓(xùn)練通常需要更多的計(jì)算資源和時(shí)間成本。
3.3.3 基于強(qiáng)化學(xué)習(xí)
傳統(tǒng)的DeepAL算法由深度學(xué)習(xí)和主動(dòng)學(xué)習(xí)兩部分組成,手工設(shè)計(jì)這兩部分需要大量成本,而且受限于研究人員的經(jīng)驗(yàn)。并且在傳統(tǒng)主動(dòng)學(xué)習(xí)流程中,樣本選擇策略通常被視為固定先驗(yàn),只有在標(biāo)簽預(yù)算耗盡后才能評(píng)估其適用性。這使研究者難以動(dòng)態(tài)地調(diào)整樣本選擇策略。因此,一種合理的選擇是利用強(qiáng)化學(xué)習(xí)方法來實(shí)現(xiàn)對(duì)樣本選擇策略的動(dòng)態(tài)調(diào)整。
鑒于此,2017年Fang等人[88]將啟發(fā)式主動(dòng)學(xué)習(xí)算法重新定義為一個(gè)強(qiáng)化學(xué)習(xí)問題。隨后,2019年Haussmann等人[89]提出強(qiáng)化主動(dòng)學(xué)習(xí)(Reinforced Active Learning,RAL)算法,該算法使用貝葉斯神經(jīng)網(wǎng)絡(luò)作為樣本選擇策略的學(xué)習(xí)預(yù)測(cè)器。貝葉斯神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)器綜合考慮了提供的所有概率信息,并形成一個(gè)全面的概率分布。隨后,該概率分布將被傳遞給貝葉斯神經(jīng)網(wǎng)絡(luò)概率策略網(wǎng)絡(luò)。在每一輪的標(biāo)注中,貝葉斯神經(jīng)網(wǎng)絡(luò)通過接受來自O(shè)racle的反饋進(jìn)行強(qiáng)化學(xué)習(xí)。這種反饋被用于微調(diào)樣本選擇策略,以持續(xù)提升其性能。2019年,Liu等人[90]提出的深度強(qiáng)化主動(dòng)學(xué)習(xí)(Deep Reinforcement Active Learning,DRAL)采用了類似的思想。對(duì)于每個(gè)查詢錨點(diǎn)(探針),代理(強(qiáng)化主動(dòng)學(xué)習(xí)器)在主動(dòng)學(xué)習(xí)算法流程中從數(shù)據(jù)池中順序選擇實(shí)例,并將其交給Oracle以獲得帶有二進(jìn)制反饋(正/負(fù))的手動(dòng)標(biāo)注信息。狀態(tài)評(píng)估所有實(shí)例之間的相似性關(guān)系,并根據(jù)Oracle反饋計(jì)算激勵(lì)以調(diào)整代理查詢。
在深度強(qiáng)化主動(dòng)學(xué)習(xí)基礎(chǔ)上,2019年Sun等人[16]將深度卷積神經(jīng)網(wǎng)絡(luò)提取圖像的特征作為強(qiáng)化學(xué)習(xí)算法的“狀態(tài)”,并使用深度Q-learning算法來訓(xùn)練一個(gè)Q-網(wǎng)絡(luò),根據(jù)Q網(wǎng)絡(luò)的輸出來決定是否對(duì)數(shù)據(jù)進(jìn)行標(biāo)注。同時(shí),為了進(jìn)一步優(yōu)化強(qiáng)化主動(dòng)學(xué)習(xí)算法中分類器的動(dòng)態(tài)訓(xùn)練過程,2020年Wang等人[91]將主動(dòng)學(xué)習(xí)建模為馬爾可夫決策過程,并基于Actor-Critic架構(gòu)的強(qiáng)化學(xué)習(xí)算法,使用深度確定性策略梯度算法來訓(xùn)練模型。此外,2022年Cui等人[92]通過使用一個(gè)持續(xù)更新的基礎(chǔ)分類器和一個(gè)激勵(lì)函數(shù),并使用分類器的后驗(yàn)概率作為其置信度,來決定應(yīng)該為哪些數(shù)據(jù)樣本進(jìn)行標(biāo)注,有效地提升了分類器的性能。進(jìn)一步,針對(duì)深度強(qiáng)化主動(dòng)學(xué)習(xí)面臨的大規(guī)模數(shù)據(jù)集問題,2022年Zhang等人[93]通過將批量主動(dòng)學(xué)習(xí)問題定義為一種協(xié)作的多代理強(qiáng)化學(xué)習(xí)問題,提出了一種新穎的批量模式的強(qiáng)化主動(dòng)學(xué)習(xí)算法框架。該算法基于圖神經(jīng)網(wǎng)絡(luò)的批量主動(dòng)學(xué)習(xí)設(shè)置,其中學(xué)習(xí)代理可以一次獲取多個(gè)樣本的標(biāo)簽;同時(shí)引入了一種值分解方法,將總的Q值分解為單個(gè)Q值的平均值,以避免多代理機(jī)制可能引發(fā)的組合爆炸問題。此外,2023年Chen等人[94]基于元框架,將自注意力機(jī)制與激勵(lì)函數(shù)整合到深度強(qiáng)化學(xué)習(xí)結(jié)構(gòu)中,以解決主動(dòng)學(xué)習(xí)算法面臨的數(shù)據(jù)相關(guān)性高和數(shù)據(jù)不平衡的問題。
強(qiáng)化學(xué)習(xí)可以使主動(dòng)學(xué)習(xí)圖像分類算法更具自主決策能力。學(xué)習(xí)代理可以通過與環(huán)境的交互,根據(jù)不同的學(xué)習(xí)任務(wù)和環(huán)境的反饋,自適應(yīng)地調(diào)整其標(biāo)注樣本選擇策略以及動(dòng)態(tài)優(yōu)化分類器的訓(xùn)練過程。這種自主決策能力使主動(dòng)學(xué)習(xí)圖像分類算法可以更好地探索標(biāo)注樣本的空間,找到對(duì)學(xué)習(xí)任務(wù)更有益的樣本。
3.3.4 基于Transformer結(jié)構(gòu)
Transformer最早應(yīng)被用于自然語言處理領(lǐng)域,是一種主要基于自注意機(jī)制的深度神經(jīng)網(wǎng)絡(luò)。其由于強(qiáng)大的表示能力,目前已被廣泛應(yīng)用于計(jì)算機(jī)視覺任務(wù)中[95, 96]。在各種視覺基準(zhǔn)測(cè)試中,基于Transformer的模型能夠表現(xiàn)出比卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)等其他類型的網(wǎng)絡(luò)相當(dāng)或更好的性能。尤其,2020年Google提出的VisionTransformer模型在圖像分類任務(wù)顯示出的卓越性能,引起了更多的研究者的關(guān)注。目前,部分研究者已將Transformer應(yīng)用于主動(dòng)學(xué)習(xí)圖像分類任務(wù)中。
2021年,Xie等人[97]提出了一種通用和高效的主動(dòng)學(xué)習(xí)算法(General and Efficient Active Learning,GEAL),該算法基于預(yù)訓(xùn)練Transformer模型來進(jìn)行數(shù)據(jù)選擇?;赥ransformer模型的強(qiáng)大表示能力和可遷移性,該算法可以在不需要額外訓(xùn)練或監(jiān)督的情況下,使用單次推理從不同數(shù)據(jù)集中選擇數(shù)據(jù)。該方法具有較高的通用性和效率,能有效提升樣本選策略的效率。然而該方法僅使用一般預(yù)訓(xùn)練的VisualTransformer來提取圖像的特征。為了進(jìn)一步利用Transformer來提取主動(dòng)學(xué)習(xí)模型中的信息,2021年Caramalau等人[98]將Visual Transformer作為主動(dòng)學(xué)習(xí)流程中的采樣器。VisualTransformer模擬了標(biāo)記和未標(biāo)記樣本之間的非局部視覺概念依賴關(guān)系,這對(duì)識(shí)別具有影響力的未標(biāo)記樣本至關(guān)重要。此外,2022年Khan等人[99]通過引入代理模型提出了一種代理模式主動(dòng)學(xué)習(xí)(Proxy Model Active Learning,PMAL),使VisionTransformer在主動(dòng)學(xué)習(xí)算法中具備更好的適應(yīng)性。具體來講,該算法使用未標(biāo)記的數(shù)據(jù)對(duì)VisionTransformer進(jìn)行預(yù)訓(xùn)練,以使其能夠更好地理解數(shù)據(jù);并使用代理模型對(duì)未標(biāo)記數(shù)據(jù)進(jìn)行分類,選擇不確定性最高的樣本進(jìn)行標(biāo)記;使用已標(biāo)記數(shù)據(jù)對(duì)VisionTransformer進(jìn)行微調(diào),以使其能夠更好地適應(yīng)主動(dòng)學(xué)習(xí)任務(wù)。
主動(dòng)學(xué)習(xí)圖像分類算法基于少量的已標(biāo)注數(shù)據(jù)進(jìn)行模型訓(xùn)練,而基于卷積神經(jīng)網(wǎng)絡(luò)的主動(dòng)學(xué)習(xí)圖像分類模型在處理相似性較高的圖像時(shí),其分類性能受到一定限制。針對(duì)以上問題,2023年Tang等人[100]提出一種具有學(xué)習(xí)全局特征的Transformer,該方法能夠結(jié)合卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)局部特征的優(yōu)勢(shì),從而實(shí)現(xiàn)更準(zhǔn)確的預(yù)測(cè)。尤其是在與主動(dòng)學(xué)習(xí)算法相結(jié)合的情況下,該模型甚至在僅使用初始訓(xùn)練集的30%的情況下,顯示出了與大多數(shù)同類模型在完整訓(xùn)練集上相當(dāng)?shù)男阅芩健?/p>
對(duì)于主動(dòng)學(xué)習(xí)圖像分類任務(wù),Transformer可以有效地捕捉圖像中的關(guān)鍵信息和特征,并將其編碼成高質(zhì)量的表示向量。這種強(qiáng)大的表示學(xué)習(xí)能力使Transformer能夠更好地捕捉樣本之間的特征依賴關(guān)系,以及圖像中的上下文信息,從而提高主動(dòng)學(xué)習(xí)圖像分類算法的性能。此外,Transformer的預(yù)訓(xùn)練和微調(diào)機(jī)制使其能夠充分利用大規(guī)模數(shù)據(jù)的信息,并應(yīng)用到主動(dòng)學(xué)習(xí)圖像分類任務(wù)中,提升了算法的性能。
3.4 分析與總結(jié)
為了更好地訓(xùn)練分類模型,樣本選擇策略需確定哪些未標(biāo)記樣本應(yīng)被選擇以獲最大信息增益。因此,本節(jié)總結(jié)了各算法采用的樣本選擇策略,并對(duì)這些算法使用的分類器和圖像分類數(shù)據(jù)集進(jìn)行了總結(jié),如表2所示。
表2 主動(dòng)學(xué)習(xí)圖像分類算法總結(jié)
如前文所述,主動(dòng)學(xué)習(xí)圖像分類算法是基于少量信息量大的已標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練的。數(shù)據(jù)集的規(guī)模和復(fù)雜性限制了該方法的有效性。為了克服這些限制,數(shù)據(jù)增強(qiáng)技術(shù)被廣泛應(yīng)用于圖像分類算法中,以擴(kuò)展數(shù)據(jù)集并減少標(biāo)注的數(shù)據(jù)樣本數(shù)量。尤其是生成性網(wǎng)絡(luò)可用于生成更多高質(zhì)量的訓(xùn)練數(shù)據(jù)。此外,Mixup提供了一種不同模式的圖像增廣方法。Mixup不僅可以合成新的訓(xùn)練樣本,還可利用未標(biāo)注樣本和已標(biāo)注樣本之間的特征信息差異來評(píng)估樣本信息豐富性,且無需產(chǎn)生額外的計(jì)算成本。
在樣本選擇策略的設(shè)計(jì)中,評(píng)估樣本數(shù)據(jù)的分布情況可有效計(jì)算樣本的信息量。可以根據(jù)數(shù)據(jù)分布情況調(diào)整選擇策略,使算法更關(guān)注具有代表性的樣本。例如,在處理長(zhǎng)尾分布數(shù)據(jù)時(shí),采用類平衡的選擇方法可使待標(biāo)記數(shù)據(jù)集包含來自各類別的數(shù)據(jù)。此外,在一些基于難度的策略中,與不確定性采樣、信息熵采樣等方面的結(jié)合,可使算法更關(guān)注更難以分類的樣本,從而提高算法性能。
深度學(xué)習(xí)模型與主動(dòng)學(xué)習(xí)算法的融合為圖像分類任務(wù)中的主動(dòng)學(xué)習(xí)提供了新的優(yōu)化方向。在這種融合中,采用附加的網(wǎng)絡(luò)模塊學(xué)習(xí)深度模型各層之間的損失,進(jìn)一步優(yōu)化深度模型的輸出結(jié)構(gòu),以評(píng)估樣本的不確定性。此外,采用圖卷積網(wǎng)絡(luò)學(xué)習(xí)標(biāo)注和未標(biāo)注樣本特征之間的關(guān)系,可更好地優(yōu)化模型的預(yù)測(cè)結(jié)構(gòu)。特別地,基于GAN的主動(dòng)學(xué)習(xí)算法通過生成器的生成能力和判別器的鑒別能力,不僅可對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行擴(kuò)充,還可有效地預(yù)測(cè)待標(biāo)記樣本的信息量。進(jìn)一步,基于強(qiáng)化學(xué)習(xí)的主動(dòng)學(xué)習(xí)算法可以通過與環(huán)境交互,選擇最具信息量的樣本進(jìn)行標(biāo)記,實(shí)現(xiàn)算法在不同環(huán)境下的動(dòng)態(tài)適應(yīng)性,從而降低標(biāo)記數(shù)據(jù)的需求量。另外,視覺Transformer的提出,使主動(dòng)學(xué)習(xí)圖像分類模型能夠憑借其強(qiáng)大的表示能力來有效地提升模型的預(yù)測(cè)效果。這些方法為主動(dòng)學(xué)習(xí)圖像分類算法的進(jìn)一步研究提供了重要的理論支持。
實(shí)驗(yàn)對(duì)比分析
當(dāng)前研究工作中,對(duì)于算法性能評(píng)價(jià)呈現(xiàn)多樣性,即不同的研究者采用不同的模型標(biāo)注預(yù)算。且現(xiàn)有的總結(jié)性工作中尚未對(duì)算法性能進(jìn)行實(shí)驗(yàn)測(cè)試和分析。故本節(jié)選取了不同類別下的重要學(xué)術(shù)工作來進(jìn)行實(shí)驗(yàn)對(duì)比分析,共在四種公共數(shù)據(jù)集上測(cè)試了算法的性能。此外,實(shí)驗(yàn)?zāi)M了現(xiàn)實(shí)應(yīng)用場(chǎng)景下類別數(shù)據(jù)分布不平衡的情況,構(gòu)造出類別數(shù)據(jù)分布不平衡數(shù)據(jù)集,并在該數(shù)據(jù)集上進(jìn)行了測(cè)試和分析。
4.1 實(shí)驗(yàn)設(shè)置
為確保實(shí)驗(yàn)設(shè)置的普適性,本節(jié)實(shí)驗(yàn)參考了在主動(dòng)學(xué)習(xí)圖像分類領(lǐng)域具有重要影響力的學(xué)術(shù)論文中所描述的對(duì)比實(shí)驗(yàn)方法[14,47,63,74,83]。這些論文的實(shí)驗(yàn)設(shè)置得到了廣泛的認(rèn)可,為其他研究人員提供了可復(fù)現(xiàn)實(shí)驗(yàn)和可比較結(jié)果的基準(zhǔn)?;诒?的數(shù)據(jù)集統(tǒng)計(jì)信息,本文在四個(gè)具有廣泛代表性的公共數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),包括三個(gè)RGB圖像數(shù)據(jù)集(CIFAR10,CIFAR100,SVHN),以及一個(gè)灰度數(shù)據(jù)集(FashionMNIST)。本文測(cè)試的主動(dòng)學(xué)習(xí)圖像分類算法包括基于樣本隨機(jī)采樣的主動(dòng)學(xué)習(xí)算法(Random)、基于數(shù)據(jù)增強(qiáng)和生成對(duì)抗式網(wǎng)絡(luò)的VAAL[47]算法、基于數(shù)據(jù)分布信息的CoreSet[14]和CoreGCN[63]算法以及優(yōu)化模型預(yù)測(cè)信息的LLAL[74]和UncertainGCN[63]算法。
對(duì)于各算法,將整個(gè)訓(xùn)練集視為一個(gè)未標(biāo)記池。隨機(jī)抽取一個(gè)小子集并查詢?cè)撟蛹臉?biāo)簽作為冷啟動(dòng)。本次實(shí)驗(yàn)共進(jìn)行了10個(gè)周期的子實(shí)驗(yàn),以充分呈現(xiàn)各算法的性能表現(xiàn)。對(duì)于CIFAR-10,SVHN和FashionMnist數(shù)據(jù)集各子周期的樣本標(biāo)記預(yù)算為1 000,對(duì)于類別較多的CIFAR-100數(shù)據(jù)集則設(shè)置為2 000.均采用ResNet-18作為圖像分類網(wǎng)絡(luò),使用3次實(shí)驗(yàn)的均值作為最終測(cè)試結(jié)果,以消除實(shí)驗(yàn)中的隨機(jī)性。
4.2 主動(dòng)學(xué)習(xí)圖像分類公用數(shù)據(jù)集介紹
近年來,現(xiàn)有文獻(xiàn)中用于主動(dòng)學(xué)習(xí)圖像分類的公用數(shù)據(jù)集主要包括FashionMnist[101],CIFAR10[102],CIFAR100[103]及SVHN[104]等,如表2所示。表3總結(jié)了以上數(shù)據(jù)集的數(shù)據(jù)情況。圖14展示了各數(shù)據(jù)集樣本示例。
表3 主動(dòng)學(xué)習(xí)圖像分類常用數(shù)據(jù)集
圖14 各數(shù)據(jù)集樣本示例
FashionMnist由德國(guó)電子商務(wù)公司Zalando提供,包含10個(gè)類別的圖像,如T恤/上衣、褲子、套頭衫、連衣裙、外套、涼鞋、襯衫、運(yùn)動(dòng)鞋、包和靴子等,是主動(dòng)學(xué)習(xí)圖像分類任務(wù)中常用的一種灰度圖像數(shù)據(jù)集。
CIFAR10數(shù)據(jù)集包含10個(gè)類別的圖像數(shù)據(jù)。數(shù)據(jù)均來自現(xiàn)實(shí)世界中真實(shí)的物體,且同一類別物體的特征和比例都不盡相同,這為分類識(shí)別帶來很大困難。相對(duì)于CIFAR10,CIFAR100數(shù)據(jù)集則包含100個(gè)類別數(shù)據(jù),類內(nèi)樣本數(shù)據(jù)更少且數(shù)據(jù)模式更為復(fù)雜,在分類任務(wù)中更具挑戰(zhàn)性。
SVHN中的數(shù)據(jù)來源于谷歌街景圖像中的門牌號(hào),實(shí)現(xiàn)對(duì)0~9的數(shù)字識(shí)別。SVHN包含了數(shù)量級(jí)更多的標(biāo)記數(shù)據(jù),并且來自一個(gè)非常困難、未解決的現(xiàn)實(shí)世界問題——識(shí)別自然場(chǎng)景圖像中的數(shù)字。
在生物醫(yī)學(xué)圖像分類領(lǐng)域中,常用的數(shù)據(jù)集包括Erie County[105],EEG[106],BreaKHis[107],SVEB和SVDB[42]等。在高光譜圖像分類識(shí)別,常用的數(shù)據(jù)集包括PaviaC、PaviaU,Salinas Valley,Indian Pines[108],Washington DC Mall和Urban[109]等。
此外,西安郵電大學(xué)圖像與信息處理研究所依托與公安部門合作的平臺(tái)所自建的輪胎花紋圖像數(shù)據(jù)[110],為主動(dòng)學(xué)習(xí)圖像分類的現(xiàn)實(shí)應(yīng)用研究工作提供了數(shù)據(jù)支持。該數(shù)據(jù)集是目前公開用于學(xué)術(shù)研究的最大的輪胎花紋數(shù)據(jù)集,包含輪胎表面花紋數(shù)據(jù)和輪胎壓痕花紋數(shù)據(jù)各80類,每類30張不同亮度不同尺度和不同旋轉(zhuǎn)角度的圖片,如圖15所示。
圖15輪胎花紋數(shù)據(jù)集樣本示例
4.3 評(píng)估方法
在單標(biāo)簽任務(wù)中,分類任務(wù)最直觀的指標(biāo)是Accuracy,即準(zhǔn)確率。其計(jì)算公式如式(2)所示。其中TP(True Positive)為預(yù)測(cè)正確,實(shí)際為正類;FN(False Negative)為預(yù)測(cè)錯(cuò)誤,實(shí)際為負(fù)類;FP(False Positive)為預(yù)測(cè)錯(cuò)誤,實(shí)際為正類;TN(True Negative)為預(yù)測(cè)正確,實(shí)際為負(fù)類[111]。
在此基礎(chǔ)上,在多類分類問題中使用TOP-1準(zhǔn)確率作為評(píng)價(jià)指標(biāo)。TOP-1準(zhǔn)確率是指模型在預(yù)測(cè)中最有可能的類別與真實(shí)類別完全匹配的比率,也稱為分類準(zhǔn)確率。記樣本的類別為,測(cè)試樣本總數(shù)為,樣本類別標(biāo)簽為,預(yù)測(cè)類別函數(shù)為即為預(yù)測(cè)概率的最大值,則 TOP- 1 Accuracy計(jì)算方法如式(3)所示。本文采用TOP-1精度作測(cè)試算法的性能指標(biāo)。
此外,TOP-5準(zhǔn)確率也是圖像分類領(lǐng)域中一種常用的性能評(píng)價(jià)指標(biāo)。TOP-5準(zhǔn)確率是指模型的前5個(gè)最高概率答案中的任何一個(gè)與預(yù)期答案匹配,即模型預(yù)測(cè)的前5個(gè)置信度最高的類別中包含真實(shí)類別,則認(rèn)為模型的預(yù)測(cè)是正確的,如式(4)所示。相比于TOP-1準(zhǔn)確率,TOP-5準(zhǔn)確率提供了更寬松的評(píng)估。TOP-5準(zhǔn)確率通常用于評(píng)估數(shù)據(jù)規(guī)模大且具有多個(gè)類別的圖像分類任務(wù),如ImageNet數(shù)據(jù)集。由于主動(dòng)學(xué)習(xí)圖像分類領(lǐng)域中常用的數(shù)據(jù)集分類類別數(shù)相對(duì)較少,故本文后續(xù)實(shí)驗(yàn)測(cè)試中采用TOP-1準(zhǔn)確率作為性能評(píng)價(jià)指標(biāo)。
其中,表示由模型預(yù)測(cè)的前5個(gè)置信度最高的類別標(biāo)簽組成的集合。
4.4 在公共數(shù)據(jù)集上的表現(xiàn)
如前所述,隨機(jī)采樣通常用于各種類型算法的性能對(duì)比。其性能表現(xiàn)往往作為對(duì)比實(shí)驗(yàn)中的下限。如圖16所示,各實(shí)驗(yàn)方法的最終實(shí)驗(yàn)效果均優(yōu)于隨機(jī)采樣方法。
圖16 公共數(shù)據(jù)集測(cè)試結(jié)果
首先,基于數(shù)據(jù)分布信息的CoreSet和CoreGCN算法顯示出了強(qiáng)大競(jìng)爭(zhēng)性。CoreSet通過定義一個(gè)無標(biāo)簽的核心集合選擇問題,并提供了一種基于數(shù)據(jù)點(diǎn)幾何形狀的嚴(yán)格界限來解決這個(gè)問題。在主動(dòng)學(xué)習(xí)圖像分類算法中,CoreSet試圖選擇一個(gè)子集,使這個(gè)界限最小化。通過選擇最具代表性的樣本進(jìn)行標(biāo)記,CoreSet方法可以大大降低標(biāo)記成本,因而在固定標(biāo)注預(yù)算的前提下,選擇出的樣本能夠有效提升分類模型的性能。特別是基于CoreSet以及利用GCN獲取高階特征表示信息的CoreGCN算法,在部分?jǐn)?shù)據(jù)集上達(dá)到了最優(yōu)結(jié)果。其次,在優(yōu)化深度模型的預(yù)測(cè)方面,LLAL算法通過附加損失預(yù)測(cè)模塊來連接到目標(biāo)模型的多個(gè)層次,以考慮多個(gè)網(wǎng)絡(luò)層的知識(shí)進(jìn)行損失預(yù)測(cè)來進(jìn)行不確定性評(píng)估。而VAAL 則利用數(shù)據(jù)增強(qiáng)和對(duì)抗式學(xué)習(xí)方法為樣本不確定性評(píng)估提供了更有效的方法,在部分?jǐn)?shù)據(jù)集上,性能均優(yōu)于LLAL算法。此外,結(jié)合GCN的不確定性算法UncertainGCN,通過學(xué)習(xí)圖像特征之間的相似性來評(píng)估樣本的不確定性,其性能更是優(yōu)于VAAL算法。
在不同模式的數(shù)據(jù)集上,不同算法呈現(xiàn)出不同的效果。然而,結(jié)合樣本分布信息的算法在各數(shù)據(jù)集中表現(xiàn)出了較強(qiáng)的競(jìng)爭(zhēng)性。為了深入分析,在第4.5節(jié)中,本文將進(jìn)一步在類別分布不平衡的數(shù)據(jù)集上進(jìn)行測(cè)試。
4.5 在類別不平衡數(shù)據(jù)集上的表現(xiàn)
上節(jié)實(shí)驗(yàn)中,盡管在樣本選擇之前,本文將未標(biāo)記的樣本隨機(jī)分配到一個(gè)子集,但數(shù)據(jù)集中各類別中的數(shù)據(jù)呈現(xiàn)均勻分布,即每個(gè)類別可用的圖像數(shù)量相等。然而,在沒有與數(shù)據(jù)分布相關(guān)的先驗(yàn)信息的情況下,這種情況在實(shí)際應(yīng)用場(chǎng)景中并不常見,現(xiàn)實(shí)應(yīng)用場(chǎng)景中的數(shù)據(jù)資源存在嚴(yán)重不平衡的情況。并且,研究在此場(chǎng)景下的應(yīng)用對(duì)主動(dòng)學(xué)習(xí)領(lǐng)域算法的研究具有重大意義。本文在后續(xù)的實(shí)驗(yàn)中模擬了此場(chǎng)景中的數(shù)據(jù)集,并對(duì)各算法的性能進(jìn)行了分析。
文獻(xiàn)[63]提供了一種實(shí)驗(yàn)方法設(shè)置,在實(shí)驗(yàn)過程中將CIFAR10數(shù)據(jù)集中各類別中的數(shù)據(jù)進(jìn)行處理從而構(gòu)成一個(gè)不平衡版本的CIFAR-10數(shù)據(jù)集(CIFAR-10im)。上節(jié)實(shí)驗(yàn)中,默認(rèn)50 000個(gè)訓(xùn)練樣本是未標(biāo)記的,且給定的10個(gè)類別中每個(gè)類別均有5 000個(gè)樣本。在CIFAR-10im數(shù)據(jù)集中,10個(gè)類中別的5個(gè)類別包含10%的原始數(shù)據(jù)。因此,新的初始未標(biāo)記池由27 500個(gè)圖像組成。本實(shí)驗(yàn)的參數(shù)設(shè)置與其他實(shí)驗(yàn)保持一致。實(shí)驗(yàn)結(jié)果如圖17所示。
圖17在類別數(shù)據(jù)不平衡CIFAR-10數(shù)據(jù)集上的表現(xiàn)
在類別數(shù)據(jù)分布不平衡的情況下,需要有效評(píng)估待標(biāo)記樣本的信息豐富性,并根據(jù)數(shù)據(jù)分布的特征來優(yōu)化主動(dòng)學(xué)習(xí)圖像分類模型。如圖17所示,LLAL算法結(jié)合深度模型不同層級(jí)之間的信息,能夠更可靠地評(píng)估帶標(biāo)記樣本的信息價(jià)值,并在不平衡的數(shù)據(jù)集上取得最佳性能。此外,考慮樣本分布的CoreSet算法和CoreGCN算法也表現(xiàn)出較高的性能。因此,在數(shù)據(jù)集不平衡的情況下,結(jié)合樣本分布信息,也是一種有效的方法。
4.6 測(cè)試算法對(duì)比分析
本節(jié)根據(jù)各算法在公共數(shù)據(jù)集CIFAR10,CIFAR100,SVHN,F(xiàn)ashionMnist以及模擬的類別不平衡數(shù)據(jù)集CIFAR10im上的性能表現(xiàn),對(duì)各類算法的特點(diǎn)進(jìn)行了進(jìn)一步的總結(jié),并以Random算法為基準(zhǔn)對(duì)比其他算法在節(jié)約標(biāo)注成本方面的性能表現(xiàn),具體如表4所示。
表4 各測(cè)試算法對(duì)比 (%)
根據(jù)表4中的統(tǒng)計(jì)數(shù)據(jù),不同類型的算法在不同規(guī)模的數(shù)據(jù)集中表現(xiàn)出顯著的差異。因此,在研究過程中,需要針對(duì)數(shù)據(jù)的特性設(shè)計(jì)有效的方法。特別是在類別數(shù)較多或數(shù)據(jù)分布不平衡的情況下,算法的性能受到限制。因此,研究者需要特別關(guān)注這些情況下算法的表現(xiàn),并可能需要采取適當(dāng)?shù)臉颖具x擇策略以提高算法的性能。
技術(shù)挑戰(zhàn)與未來研究趨勢(shì)
目前,基于主動(dòng)學(xué)習(xí)的圖像分類算法在分類類別較少、模式較為簡(jiǎn)單的數(shù)據(jù)集上表現(xiàn)出較好的分類效果,而面對(duì)分類類別較大的數(shù)據(jù)集,其效果仍不理想。一定的數(shù)據(jù)處理和模型優(yōu)化方法在一定程度上能夠提升分類器的性能,但對(duì)于模式較為復(fù)雜的數(shù)據(jù)集則需要更高的數(shù)據(jù)標(biāo)注預(yù)算?;诖?,本節(jié)將介紹目前基于主動(dòng)學(xué)習(xí)的圖像分類算法面臨的挑戰(zhàn),同時(shí)針對(duì)目前面臨的挑戰(zhàn)對(duì)未來的研究趨勢(shì)進(jìn)行討論。
5.1 基于主動(dòng)學(xué)習(xí)圖像分類面臨的挑戰(zhàn)
5.1.1 模型的任務(wù)無關(guān)性問題
目前大多數(shù)基于主動(dòng)學(xué)習(xí)的學(xué)習(xí)模型,均為特定的任務(wù)而設(shè)定。在模型的通用性和可移植性等方面存在一定的不足之處。如第4節(jié)所示,對(duì)于分類類別數(shù)目較少的數(shù)據(jù)集,基于主動(dòng)學(xué)習(xí)的圖像分類算法表現(xiàn)出了更好性能。對(duì)于分類類別數(shù)目較多或者數(shù)據(jù)集存在樣本分布不均衡的情況,基于主動(dòng)學(xué)習(xí)的圖像分類算法的性能將會(huì)受到一定的限制。此時(shí),需對(duì)以上情況來設(shè)定特定的模型,而設(shè)計(jì)出一個(gè)完整的且基于特定的任務(wù)模型往往需要較高的成本,也不易于用于其他任務(wù)[112]。故針對(duì)不同類型的數(shù)據(jù),如何選擇合適的樣本選擇策略和圖像分類器是目前基于主動(dòng)學(xué)習(xí)圖像分類算法面臨的問題之一。
5.1.2 樣本選擇策略的融合問題
基于不確定性的樣本選擇策略所選擇的樣本,其分布往往存在偏差。而基于多樣性的樣本選擇策略,其成本較高且獲得的樣本信息量可能較低,無法更高效地提高分類器的性能。故如何將多種樣本選擇策略進(jìn)行融合,從而構(gòu)成更高效、更具普遍適用性的混合策略,是目前研究過程的一大挑戰(zhàn)[113]。
5.1.3 模型訓(xùn)練模式的問題
根據(jù)對(duì)本文所介紹算法的深入研究,大部分研究工作在每輪樣本選擇后,均采取重新訓(xùn)練分類模型的策略。然而,從計(jì)算資源的角度而言,每個(gè)周期內(nèi)從頭開始訓(xùn)練深度模型是難以接受的做法,尤其是針對(duì)大規(guī)模數(shù)據(jù)集或復(fù)雜的模型架構(gòu),這無疑會(huì)顯著增加訓(xùn)練時(shí)間成本。此外,每輪重新訓(xùn)練分類模型還可能導(dǎo)致之前輪次已經(jīng)獲得的知識(shí)和信息喪失。因此,如何優(yōu)化目前主動(dòng)學(xué)習(xí)圖像分類算法的訓(xùn)練模式成為當(dāng)前亟待解決的一項(xiàng)重要挑戰(zhàn)。
5.2 基于主動(dòng)學(xué)習(xí)圖像分類未來的研究方向
5.2.1 針對(duì)模型的任務(wù)無關(guān)性問題
1)結(jié)合自注意力機(jī)制。
近年來,Transformer在計(jì)算機(jī)視覺領(lǐng)域取得了巨大的成功,其性能已能與CNN方法媲美。Transformer的核心是自注意力機(jī)制,并被應(yīng)用到不同的計(jì)算機(jī)視覺任務(wù)中,如高分辨率圖像合成[114]、目標(biāo)跟蹤[115]、目標(biāo)檢測(cè)[116]、分類[117]、分割[118]以及目標(biāo)識(shí)別[119]等。隨著ViT[120],BoTNet[121],Swin Transformer[122]等架構(gòu)相繼被提出,分類模型的性能得到不斷突破。如前所述,已有部分研究者將視覺Transformer應(yīng)用于主動(dòng)學(xué)習(xí)圖像分類任務(wù)中。相較于傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò),Transformer架構(gòu)展現(xiàn)出更大的靈活性和可擴(kuò)展性。不同于依賴固定的卷積操作,Transformer架構(gòu)采用自注意力機(jī)制和前饋神經(jīng)網(wǎng)絡(luò)層進(jìn)行特征提取和表示。這種架構(gòu)的靈活性使Transformer能夠更好地適應(yīng)各種不同的任務(wù)和輸入類型,從而提高了其任務(wù)無關(guān)性。然而,盡管這一架構(gòu)潛力巨大,但目前在主動(dòng)學(xué)習(xí)領(lǐng)域的研究工作還相對(duì)較少。未來的研究可以進(jìn)一步基于Transformer架構(gòu),使主動(dòng)學(xué)習(xí)模型能夠在不同場(chǎng)景的任務(wù)中得到更廣泛的應(yīng)用。
2)結(jié)合元學(xué)習(xí)方法。
結(jié)合元學(xué)習(xí)同樣能夠在一定程度上提高模型的任務(wù)無關(guān)性。元學(xué)習(xí)是一種學(xué)習(xí)如何學(xué)習(xí)的方法,可以幫助模型適應(yīng)不同的任務(wù),并且不需要重新訓(xùn)練模型。該學(xué)習(xí)方法不僅可以提高模型的泛化能力,使其能夠更好地適應(yīng)新任務(wù),還可減少數(shù)據(jù)量,提高模型的訓(xùn)練效率。未來,將元學(xué)習(xí)方法與主動(dòng)學(xué)習(xí)圖像分類算法進(jìn)一步結(jié)合,可有效提升算法的性能。如基于MAML(Model-Agnostic Meta-Learning)[123]來學(xué)習(xí)樣本選擇策略。MAML可以通過在多個(gè)任務(wù)上進(jìn)行元訓(xùn)練來學(xué)習(xí)一個(gè)通用的模型,然后在新任務(wù)上進(jìn)行微調(diào)。在每個(gè)任務(wù)中,MAML都會(huì)學(xué)習(xí)一個(gè)新的樣本選擇策略,以便在該任務(wù)上獲得最佳性能。基于元學(xué)習(xí)策略可快速適應(yīng)新任務(wù),提升模型架構(gòu)的泛化性能,使樣本選擇策略能夠適應(yīng)不同任務(wù)和數(shù)據(jù)分布情況等,提升主動(dòng)學(xué)習(xí)圖像分類算法的任務(wù)無關(guān)性,使模型在面對(duì)新的圖像分類任務(wù)時(shí)能夠更加靈活、高效地學(xué)習(xí)和適應(yīng)。
5.2.2 針對(duì)樣本選擇策略的融合問題
強(qiáng)化樣本間的關(guān)系。2021年Caramalau等[63]通過GCN和建立起圖像特征的相似性關(guān)系并融合不同樣本選擇策略,在圖像分類任務(wù)中顯示出了優(yōu)異的性能表現(xiàn)。未來,可結(jié)合注意力機(jī)制和圖網(wǎng)絡(luò)來充分學(xué)習(xí)樣本之間的關(guān)系,從而對(duì)樣本數(shù)據(jù)的分布情況進(jìn)行更深入的分析[124,125]。通過結(jié)合圖網(wǎng)絡(luò)的預(yù)測(cè)信息(基于不確定性)和圖網(wǎng)絡(luò)構(gòu)建的樣本之間的關(guān)系(基于代表性和多樣性),可將不同樣本選擇策略進(jìn)行融合,以獲得更優(yōu)的主動(dòng)學(xué)習(xí)效果。
5.2.3 針對(duì)模型訓(xùn)練模式的問題
基于增量訓(xùn)練模式。目前主流的主動(dòng)學(xué)習(xí)算法,均在每個(gè)子周期實(shí)驗(yàn)中重新訓(xùn)練深度分類模型,這在一定程度上浪費(fèi)了計(jì)算資源。針對(duì)主動(dòng)學(xué)習(xí)模型訓(xùn)練模式的問題,增量訓(xùn)練法[126]在原有模型的基礎(chǔ)上,不斷增加新的數(shù)據(jù)進(jìn)行訓(xùn)練,以更新原有模型的參數(shù)和結(jié)構(gòu),以及增加新的類別,這符合主動(dòng)學(xué)習(xí)算法的訓(xùn)練模式。盡管簡(jiǎn)單的增量訓(xùn)練可能引入模型參數(shù)的偏差,但該方法能有效地降低模型的訓(xùn)練成本。目前,與此相關(guān)的研究仍然較為有限,因此該領(lǐng)域仍然是一個(gè)具有重要意義的研究方向。
結(jié)束語
本文從主動(dòng)學(xué)習(xí)的基本概念出發(fā)介紹了基于主動(dòng)學(xué)習(xí)的圖像分類算法,對(duì)主動(dòng)學(xué)習(xí)算法中常用的樣本選擇策略、數(shù)據(jù)集進(jìn)行了介紹,并將現(xiàn)有主動(dòng)學(xué)習(xí)圖像分類算法分為基于數(shù)據(jù)增強(qiáng)、基于數(shù)據(jù)分布信息以及優(yōu)化模型預(yù)測(cè)的主動(dòng)學(xué)習(xí)圖像分類算法三大類。
其中基于數(shù)據(jù)增強(qiáng)的主動(dòng)學(xué)習(xí)圖像分類算法主要通過圖像增廣來擴(kuò)充訓(xùn)練數(shù)據(jù),并通過對(duì)圖像特征進(jìn)行插值處理來進(jìn)行樣本選擇?;跀?shù)據(jù)分布信息的主動(dòng)學(xué)習(xí)圖像分類算法從未標(biāo)注/標(biāo)注數(shù)據(jù)的分布角度出發(fā),來衡量樣本的信息豐富性。優(yōu)化模型預(yù)測(cè)的算法充分利用深度模型的結(jié)構(gòu)信息、上下文信息以及時(shí)間輸出差異信息來有效評(píng)估樣本的價(jià)值性。同時(shí),結(jié)合生成對(duì)抗網(wǎng)絡(luò)的特點(diǎn),對(duì)主動(dòng)學(xué)習(xí)圖像分類算法架構(gòu)進(jìn)行優(yōu)化,以提高模型預(yù)測(cè)的魯棒性。
另外,基于強(qiáng)化學(xué)習(xí)策略與環(huán)境的交互,強(qiáng)化學(xué)習(xí)能夠指導(dǎo)算法在決策過程中做出更合理、準(zhǔn)確和穩(wěn)定的選擇。進(jìn)一步,基于Transformer模型來捕獲更準(zhǔn)確和豐富的特征表示,從而改善主動(dòng)學(xué)習(xí)圖像分類算法的性能。此外,本文通過實(shí)驗(yàn)分析總結(jié)了不同主動(dòng)學(xué)習(xí)圖像分類算法的性能。最后,討論了目前主動(dòng)學(xué)習(xí)圖像分類算法面臨的挑戰(zhàn),并指出了該領(lǐng)域的未來研究趨勢(shì)。
-
圖像分類
+關(guān)注
關(guān)注
0文章
90瀏覽量
11942 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1208瀏覽量
24746 -
深度學(xué)習(xí)
原文標(biāo)題:基于主動(dòng)學(xué)習(xí)的圖像分類技術(shù):現(xiàn)狀與未來
文章出處:【微信號(hào):vision263com,微信公眾號(hào):新機(jī)器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論