基于圖像的數(shù)據(jù)增強(qiáng)方法發(fā)展現(xiàn)狀綜述
摘要:
摘要: 現(xiàn)階段,基于深度學(xué)習(xí)的圖像處理和識(shí)別技術(shù)已經(jīng)發(fā)展的十分成熟,但在某些圖像識(shí)別任務(wù)中由于深度學(xué)習(xí)技術(shù)的特點(diǎn),一些深度神經(jīng)網(wǎng)絡(luò)模型層數(shù)較多導(dǎo)致的學(xué)習(xí)能力較強(qiáng),將圖像數(shù)據(jù)樣本中的特征學(xué)習(xí)的過(guò)于充分,使得神經(jīng)網(wǎng)絡(luò)模型在訓(xùn)練數(shù)據(jù)上出現(xiàn)過(guò)擬合現(xiàn)象。同時(shí),基于深度學(xué)習(xí)的圖像處理算法訓(xùn)練的模型的好壞與數(shù)據(jù)集的質(zhì)量、規(guī)模息息相關(guān),但由于客觀原因存在獲得的圖像數(shù)據(jù)集小、圖像質(zhì)量差,樣本分布不均衡等現(xiàn)象。針對(duì)上述問(wèn)題,研究人員提出通過(guò)使用圖像數(shù)據(jù)增強(qiáng)技術(shù)實(shí)現(xiàn)對(duì)模型的輸入數(shù)據(jù)的規(guī)模、質(zhì)量和分布情況進(jìn)行優(yōu)化,將數(shù)據(jù)增強(qiáng)后的數(shù)據(jù)集用于深度學(xué)習(xí)模型將有效降低出現(xiàn)過(guò)擬合現(xiàn)象的概率。本文的主要工作是對(duì)現(xiàn)有的圖像數(shù)據(jù)增強(qiáng)技術(shù)進(jìn)行討論,從傳統(tǒng)圖像處理方法和基于深度學(xué)習(xí)數(shù)據(jù)增強(qiáng)方法兩方面進(jìn)行梳理總結(jié),其中傳統(tǒng)圖像處理方法有幾何變換、顏色變換和像素變換;基于機(jī)器學(xué)習(xí)的圖像數(shù)據(jù)增強(qiáng)方法有自動(dòng)數(shù)據(jù)增強(qiáng)方法、基于生成對(duì)抗網(wǎng)絡(luò)數(shù)據(jù)增強(qiáng)方法和基于自動(dòng)編碼器和生成對(duì)抗網(wǎng)絡(luò)組合的數(shù)據(jù)增強(qiáng)方法。本文著重對(duì)圖像融合、信息刪除以及基于生成對(duì)抗網(wǎng)絡(luò)的圖像數(shù)據(jù)增強(qiáng)方法等技術(shù)進(jìn)行介紹,并且對(duì)文中提出的數(shù)據(jù)增強(qiáng)方法的思想及其優(yōu)缺點(diǎn)進(jìn)行討論,為研究人員在不同圖像任務(wù)中利用對(duì)應(yīng)的數(shù)據(jù)增強(qiáng)方法來(lái)優(yōu)化數(shù)據(jù)集從而提高模型準(zhǔn)確率提供研究思路。
1. 引言
隨著人工智能技術(shù)的不斷發(fā)展,基于深度學(xué)習(xí)的圖像處理技術(shù)愈發(fā)成熟,應(yīng)用也越來(lái)越廣泛。由數(shù)據(jù)集驅(qū)動(dòng)的人工智能技術(shù)訓(xùn)練的模型往往需要巨大規(guī)模的數(shù)據(jù)集,但由于時(shí)間成本和金錢(qián)成本的限制,可能常會(huì)遇到圖像數(shù)量少、圖像質(zhì)量差和類(lèi)別不均衡 [1] 的情形,這給圖像識(shí)別任務(wù)帶來(lái)種種困難,數(shù)據(jù)集中圖像的質(zhì)量和數(shù)量極大的影響了深度學(xué)習(xí)模型的泛化能力。由于深度學(xué)習(xí)網(wǎng)絡(luò)模型有著極強(qiáng)的學(xué)習(xí)能力,模型可能經(jīng)常會(huì)將圖像數(shù)據(jù)集上數(shù)據(jù)的一般特征提取出來(lái)作為預(yù)測(cè)某一類(lèi)結(jié)果的特性,這往往會(huì)導(dǎo)致模型在訓(xùn)練集上會(huì)預(yù)測(cè)出很好的結(jié)果,而在測(cè)試集以及驗(yàn)證集上的有較高的錯(cuò)誤率,模型的泛化能力低 [2]。
基于圖像的數(shù)據(jù)增強(qiáng)能夠增加訓(xùn)練樣本的多樣性,如通過(guò)翻轉(zhuǎn)、添加噪聲等基礎(chǔ)圖像處理操作或根據(jù)現(xiàn)有數(shù)據(jù)生成新的樣本進(jìn)行數(shù)據(jù)集擴(kuò)充、數(shù)據(jù)質(zhì)量的增強(qiáng)。使用數(shù)據(jù)增強(qiáng)方法后的數(shù)據(jù)集訓(xùn)練模型,以達(dá)到提升模型的穩(wěn)健性、泛化能力的效果。
本文主要研究了基于圖像的數(shù)據(jù)增強(qiáng)技術(shù),并對(duì)其進(jìn)行歸類(lèi)整理,著重介紹各類(lèi)技術(shù)的特點(diǎn)及其解決的問(wèn)題,對(duì)其存在的不足進(jìn)行分析。對(duì)圖像數(shù)據(jù)增強(qiáng)技術(shù)待解決問(wèn)題進(jìn)行總結(jié),為相關(guān)研究人員提供詳盡的技術(shù)發(fā)展?fàn)顩r報(bào)告。
2. 圖像數(shù)據(jù)增強(qiáng)概述
2.1. 數(shù)據(jù)增強(qiáng)
數(shù)據(jù)增強(qiáng),也叫數(shù)據(jù)增廣。數(shù)據(jù)增強(qiáng)方法的本質(zhì)實(shí)際上是在現(xiàn)有的有限數(shù)據(jù)的基礎(chǔ)上,在不實(shí)際收集更多數(shù)據(jù)的前提下,而讓數(shù)據(jù)產(chǎn)生等價(jià)于更大數(shù)據(jù)量的價(jià)值,即根據(jù)現(xiàn)有數(shù)據(jù)樣本按照規(guī)則生成增量數(shù)據(jù)的過(guò)程。數(shù)據(jù)增強(qiáng)方法不僅是數(shù)據(jù)樣本量的增多,更多的是數(shù)據(jù)本身特征的“增強(qiáng)”。樣本數(shù)據(jù)是整體數(shù)據(jù)的抽樣,當(dāng)樣本數(shù)據(jù)量足夠大時(shí),樣本的分布情況和總體的分布情況應(yīng)相似。但由于客觀原因收集的樣本數(shù)據(jù)不夠完整,這時(shí)則可通過(guò)數(shù)據(jù)增強(qiáng)方法生成與真實(shí)數(shù)據(jù)分布更加相似的新樣本的數(shù)據(jù);深度學(xué)習(xí)網(wǎng)絡(luò)模型擁有極強(qiáng)的學(xué)習(xí)能力,因此學(xué)習(xí)到的一些無(wú)用的信息特征對(duì)最終的結(jié)果會(huì)產(chǎn)生負(fù)面影響,而數(shù)據(jù)增強(qiáng)技術(shù)可實(shí)現(xiàn)按照需求針對(duì)數(shù)據(jù)施加約束來(lái)增加先驗(yàn)知識(shí)的前置過(guò)程,如將一些信息刪除或補(bǔ)全,來(lái)減少負(fù)面影響對(duì)處理圖像任務(wù)的模型性能的影響。
現(xiàn)階段數(shù)據(jù)增強(qiáng)方法的使用方式主要被分為兩種:離線增強(qiáng)和在線增強(qiáng)。離線增強(qiáng)是指對(duì)數(shù)據(jù)集執(zhí)行一次性轉(zhuǎn)換,該操作可成倍增加數(shù)據(jù)樣本的數(shù)量。使用數(shù)據(jù)增強(qiáng)方法產(chǎn)生的樣本數(shù)量為增強(qiáng)因子數(shù)與原始數(shù)據(jù)樣本量的乘積。離線增強(qiáng)由于一次性處理全部數(shù)據(jù)集,因此適用于較小的數(shù)據(jù)集。在線增強(qiáng)使在獲取批量的數(shù)據(jù)后就對(duì)其進(jìn)行數(shù)據(jù)增強(qiáng)操作,隨后增強(qiáng)后的數(shù)據(jù)就被送入機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練,由于其批量處理的特性,因此一般適用于大數(shù)據(jù)集。
2.2. 基于圖像的數(shù)據(jù)增強(qiáng)的分類(lèi)
數(shù)據(jù)增強(qiáng)方法主要有作用于圖像的和作用于文本的兩類(lèi),本文主要介紹基于圖像的數(shù)據(jù)增強(qiáng)方法 [3],根據(jù)是否使用機(jī)器學(xué)習(xí)技術(shù),其被分為兩個(gè)部分進(jìn)行討論:基于傳統(tǒng)圖像處理技術(shù)的圖像數(shù)據(jù)增強(qiáng)和基于機(jī)器學(xué)習(xí)的圖像數(shù)據(jù)增強(qiáng)技術(shù),其中基于傳統(tǒng)圖像處理技術(shù)的圖像數(shù)據(jù)增強(qiáng)中將介紹針對(duì)圖像數(shù)據(jù)本身的幾何變換、色彩變換和像素變換?;跈C(jī)器學(xué)習(xí)的圖像數(shù)據(jù)增強(qiáng)技術(shù)將介紹自動(dòng)數(shù)據(jù)增強(qiáng)技術(shù)、基于生成對(duì)抗網(wǎng)絡(luò)數(shù)據(jù)增強(qiáng)技術(shù)和基于自動(dòng)編碼器和生成對(duì)抗網(wǎng)絡(luò)組合的數(shù)據(jù)增強(qiáng)方法,這些方法都是使用機(jī)器學(xué)習(xí)相關(guān)理論實(shí)現(xiàn)的圖像生成、圖像轉(zhuǎn)換模型。本文對(duì)于現(xiàn)有的圖像數(shù)據(jù)增強(qiáng)方法分類(lèi)如圖1。
3. 傳統(tǒng)的圖像數(shù)據(jù)增強(qiáng)方法
傳統(tǒng)的圖像數(shù)據(jù)增強(qiáng)方法,通常使用圖像處理技術(shù) [4] 來(lái)完成數(shù)據(jù)集的擴(kuò)充和圖像質(zhì)量?jī)?yōu)化,大致分為幾何變換、色彩變換、像素變換三大類(lèi)。
3.1. 幾何變換
針對(duì)數(shù)據(jù)集進(jìn)行空間幾何變換,常常會(huì)存在改變圖像原始的標(biāo)簽信息或者增加一些不相關(guān)數(shù)據(jù)的情況,這稱(chēng)之為不安全的轉(zhuǎn)換。例如對(duì)文字的識(shí)別任務(wù)中,對(duì)圖像進(jìn)行翻轉(zhuǎn)操作是沒(méi)有意義的。但對(duì)于存在位置偏差的數(shù)據(jù)集,用幾何變換技術(shù)可以很好解決問(wèn)題。但在真實(shí)情況下,訓(xùn)練集與測(cè)試集的數(shù)據(jù)的差異十分復(fù)雜,除了移位旋轉(zhuǎn)等操作外,還包括其他復(fù)雜變換。因此幾何變換的應(yīng)用范圍相對(duì)有限。
3.1.1. 圖像翻轉(zhuǎn)與旋轉(zhuǎn)
圖像翻轉(zhuǎn)操作包括對(duì)圖片進(jìn)行垂直和水平翻轉(zhuǎn),其中垂直翻轉(zhuǎn)實(shí)現(xiàn)需要水平翻轉(zhuǎn)后再圖像進(jìn)行180?旋轉(zhuǎn)處理,水平翻轉(zhuǎn)比垂直翻轉(zhuǎn)應(yīng)用更為廣泛。這種技術(shù)的優(yōu)點(diǎn)是易于實(shí)現(xiàn),此外圖像翻轉(zhuǎn)在CIFAR-10數(shù)據(jù)集上具有較好的效果,但對(duì)文本識(shí)別的數(shù)據(jù)集,如MNIST,使用圖像翻轉(zhuǎn)會(huì)更改其標(biāo)簽信息 [5]。
Figure 1. Classification of image data augmentation methods
圖1. 基于圖像的數(shù)據(jù)增強(qiáng)方法分類(lèi)
進(jìn)行圖像旋轉(zhuǎn)后得到的圖像與原始圖像的維數(shù)是否相同取決于圖像的旋轉(zhuǎn)度數(shù)以及原始圖像的形狀。當(dāng)長(zhǎng)方形的圖像旋轉(zhuǎn)180?或者正方形的圖像旋轉(zhuǎn)90?、180?、270?時(shí),旋轉(zhuǎn)后的圖像與原始圖像能夠保持一致的維數(shù)。與圖像翻轉(zhuǎn)操作一樣,在特定的數(shù)據(jù)集上,例如文本識(shí)別數(shù)據(jù)集MNIST,其圖像變換的安全性取決于圖像的旋轉(zhuǎn)度數(shù),隨旋轉(zhuǎn)度數(shù)的增加,轉(zhuǎn)換后的圖片不在保留原標(biāo)簽信息。
3.1.2. 圖像剪裁與縮放
圖像的隨機(jī)剪裁可視為從原始圖像上進(jìn)行隨機(jī)抽樣,再將抽樣獲得的圖像數(shù)據(jù)樣本恢復(fù)為原始圖像大小。
圖像縮放分為向外縮放和向內(nèi)縮放。圖像縮放與圖像剪裁不同的是向外縮放會(huì)得到比原始圖像更大尺寸的圖像,再?gòu)闹屑舨贸雠c原始圖像大小相同的圖像,向內(nèi)縮放則縮小原始圖像的大小,并針對(duì)其超出邊界的部分進(jìn)行填充操作從而獲得與原始圖像尺寸一致的圖像。
3.1.3. 圖像移位與邊緣填充
圖像移位是指不改變圖像的尺寸而將圖像在以坐標(biāo)軸為移動(dòng)參考進(jìn)行橫軸和縱軸的移動(dòng),并針對(duì)邊緣部分進(jìn)行填充處理。在進(jìn)行了圖像移位操作后,大部分的圖像數(shù)據(jù)中對(duì)于圖像任務(wù)有用的部分將位于圖像的邊緣部分,因此深度學(xué)習(xí)模型在進(jìn)行計(jì)算機(jī)視覺(jué)任務(wù)訓(xùn)練時(shí)會(huì)將關(guān)注焦點(diǎn)轉(zhuǎn)移到任意位置,而不是僅僅針對(duì)圖像中心區(qū)域的學(xué)習(xí),這種操作能夠有效的提高模型的魯棒性。
在對(duì)圖像數(shù)據(jù)樣本進(jìn)行旋轉(zhuǎn)、移位、縮放等操作后,需要將變換后的圖像恢復(fù)到與原始圖像尺寸一致的大小,恢復(fù)的過(guò)程通過(guò)對(duì)于圖像的邊緣部分進(jìn)行填充操作實(shí)現(xiàn)。常用的圖像填充方法包括:常數(shù)填充,使用常數(shù)值對(duì)圖像的邊緣部分進(jìn)行填充,這種填充方式適用于單色背景的圖像數(shù);邊界值填充,在原始圖像邊界的外部填充原始圖像的邊界的像素值,此方法適用于短距離移位。
3.2. 色彩變換
3.2.1. 色彩空間
數(shù)字圖像數(shù)據(jù)通過(guò)使用長(zhǎng)、寬和通道來(lái)表示數(shù)據(jù)。
常用的色彩空間包括:
1) 通過(guò)RGB通道的變化和疊加得到不同顏色的RGB色彩空間;
2) YUV色彩空間,其中Y表示亮度,UV表示色度;
3) HSV顏色模型,H表示色調(diào),S表示飽和度,V表示明暗程度。
此外還包括I1I2I3,L*a*b* [6] 和YcbCr [7],在這些顏色空間中,HSV顏色空間是直觀的,其組成部分可以很容易地與物理世界相關(guān)聯(lián) [8]。
在色彩通道上進(jìn)行圖像亮度調(diào)節(jié)以及色度調(diào)劑是數(shù)據(jù)增強(qiáng)的一種有效方式。通常情況下,采集到的圖像數(shù)據(jù)的亮度覆蓋范圍不足,為達(dá)到深度學(xué)習(xí)對(duì)亮度魯棒性的基本要求,進(jìn)行亮度轉(zhuǎn)換操作成為基于色彩空間的數(shù)據(jù)增強(qiáng)技術(shù)中最常用的一種方法。在圖像數(shù)據(jù)中,亮度偏暗的圖像,亮度方差也更小,從而整體的亮度范圍被壓縮。Gamma變換通過(guò)非線性變換將過(guò)亮或過(guò)暗的圖片進(jìn)行調(diào)整。直方圖均衡化是更加高級(jí)的色彩空間增強(qiáng)方式,對(duì)對(duì)比度相近的圖像使用該技術(shù)可增強(qiáng)局部的對(duì)比度而不影響整體的對(duì)比度,這種方式對(duì)過(guò)亮或過(guò)暗的圖像數(shù)據(jù)能夠?qū)崿F(xiàn)有效的數(shù)據(jù)增強(qiáng)。
3.2.2. 色彩空間轉(zhuǎn)換
色彩空間轉(zhuǎn)換是色彩特征提取的一種非常有效的方式。不同的色彩空間表示形式雖各有特性,但由于其同構(gòu)性,可以互相轉(zhuǎn)換。圖像通常位于三維RGB顏色空間中,但RGB顏色空間在感知上不均勻,顏色的接近度并不表示顏色相似性。色彩空間轉(zhuǎn)換通過(guò)將圖像在RGB、HSV、LAB等不同的顏色空間上轉(zhuǎn)換,使以不同的方式對(duì)每個(gè)分量進(jìn)行加權(quán),對(duì)于不同的數(shù)據(jù)集,通常需要選擇合適的顏色空間轉(zhuǎn)換來(lái)提高模型的性能。
色彩空間轉(zhuǎn)換的缺點(diǎn)除了會(huì)消耗大量?jī)?nèi)存空間和時(shí)間,其也會(huì)產(chǎn)生不好的效果,例如人臉識(shí)別需要的關(guān)鍵信息使黑白黃,但若出現(xiàn)大量紅綠等顏色信息,則是不合理的。此外,顏色空間轉(zhuǎn)換的圖像增強(qiáng)效果是有限的,雖然比幾何變換更具多樣性,但不恰當(dāng)?shù)氖褂每赡軙?huì)使模型發(fā)生欠擬合。
Ze Lu等人 [9] 提出一種用于面部識(shí)別任務(wù)的色彩空間框架,提出色彩空間LuC1C2其通過(guò)比較RGB系數(shù)的顏色傳感器屬性選擇Lu亮度分量,通過(guò)RGB顏色空間的色度子空間和協(xié)方差分析來(lái)確定C1C2顏色分量的變換向量的方向。在AR、Georgia Tech、FRGC和LFW人臉圖像數(shù)據(jù)庫(kù)上實(shí)驗(yàn),確定了色彩空間LuC1C2具有更好的人臉識(shí)別性能。并且通過(guò)將LFW和FRGC數(shù)據(jù)庫(kù)上提取的LuC1C2顏色空間中的CNN特征與簡(jiǎn)單的原始像素特征相結(jié)合,顯著提高面部驗(yàn)證性能。
3.3. 像素變換
3.3.1. 噪聲
圖像噪聲是指在原始圖像上隨機(jī)疊加一些孤立的能夠引起較強(qiáng)的視覺(jué)效果像素點(diǎn)或像素塊,以擾亂圖像的可觀測(cè)信息,使其能夠更好的提高卷積神經(jīng)網(wǎng)絡(luò)模型的泛化能力。常見(jiàn)的噪聲有:椒鹽噪聲、高斯噪聲、Coarse Dropout、Simplex Noise Alpha、Frequency Noise Alpha。它們都是以不同的方式生成以不同數(shù)值填充的不同大小像素遮掩點(diǎn),再與原圖混合,以擾亂原始圖像的一些特征。
3.3.2. 模糊
模糊的本質(zhì)上可視為對(duì)原始圖像進(jìn)行卷積操作,常用的方法是高斯模糊,該方法服從的卷積核矩陣服從二維正態(tài)分布,以減少各像素點(diǎn)值的差異從而降低細(xì)節(jié)層次,使圖像數(shù)據(jù)的像素平滑化,達(dá)到模糊圖片的效果。模糊半徑越大,圖像就越模糊。
3.3.3. 圖像融合
圖像融合技術(shù),通過(guò)求兩張圖像的像素值的均值將兩張圖片混合在一起,或者是隨機(jī)裁剪圖像并將裁剪后的圖像拼接在一起形成新圖像。當(dāng)混合來(lái)自整個(gè)訓(xùn)練集的圖像而不是僅來(lái)自同一類(lèi)別的實(shí)例的圖像時(shí),可以獲得更好的結(jié)果。圖像融合方法從人的視角看毫無(wú)意義,但從實(shí)驗(yàn)的角度上觀察,確實(shí)能夠提升精度。
1) SMOTE [10]
采集到的數(shù)據(jù)集常存在的問(wèn)題是樣本類(lèi)別不平衡問(wèn)題,樣本類(lèi)別之間的較大差距會(huì)影響分類(lèi)器的分類(lèi)性能。SMOTE方法提出以小樣本類(lèi)別合成新的樣本來(lái)解決樣本不平衡問(wèn)題,該方法將提取的圖像特征映射到特征空間,確定好采樣倍率后,選取幾個(gè)最相鄰的樣本,從中隨機(jī)選取一個(gè)連線,并在連線上隨機(jī)選取一點(diǎn)作為新樣本點(diǎn),重復(fù)至樣本均衡。杜金華 [11] 在研究中提出使用基于 SMOTE 算法的上采樣法分別對(duì)原始圖像數(shù)據(jù)集進(jìn)行增強(qiáng),實(shí)驗(yàn)表明花崗石識(shí)別準(zhǔn)確率有所提高。
2) MIXUP [12]
ERM方法會(huì)在各個(gè)類(lèi)間形成明確的決策邊界,而Mixup方法是一種基于線性過(guò)渡的數(shù)據(jù)增強(qiáng)的方法,使用mixup能夠使得數(shù)據(jù)樣本之間像素點(diǎn)是漸變的,使樣本分類(lèi)邊界模糊化,使得非0即1的預(yù)測(cè)變?yōu)檩^為平滑的預(yù)測(cè)效果,抑制模型在進(jìn)行預(yù)測(cè)分類(lèi)時(shí)的不穩(wěn)定性,增強(qiáng)模型的泛化能力。這種方法從訓(xùn)練數(shù)據(jù)中隨機(jī)抽取兩條數(shù)據(jù)將抽取到的圖像數(shù)據(jù)的像素值進(jìn)行符合Beat分布的融合比例的線性加權(quán)求和,同時(shí)將樣本對(duì)應(yīng)的One-hot向量標(biāo)簽也對(duì)應(yīng)加權(quán)求和,預(yù)測(cè)生成的新樣本與加權(quán)求和后的標(biāo)簽的損失,進(jìn)行反向求導(dǎo)并更新參數(shù),同時(shí)抽取批量數(shù)據(jù)并進(jìn)行隨機(jī)打散后進(jìn)行加權(quán)求和。在CIFAR、 ImageNet圖像分類(lèi)數(shù)據(jù)集語(yǔ)音數(shù)據(jù)集中使用該方法能夠?qū)崿F(xiàn)模型性能的提升,并且降低模型對(duì)不完整標(biāo)簽的記憶。mixup方法盡管再在程上取得很好地效果,但缺乏理論支撐,且該方法需要較長(zhǎng)的時(shí)間才能收斂出較好的結(jié)果。ERM方法與Mixup方法的對(duì)比如圖2所示。
Figure 2. Comparison of ERM and Mixup
圖2. ERM與Mixup對(duì)比
3) CUTMIX [13]
CutMix是一種改進(jìn)的隨機(jī)擦除策略,隨機(jī)擦除用一塊矩形掩碼覆蓋原始圖像,實(shí)現(xiàn)擦除圖像上的一部分像素信息,但其缺點(diǎn)是減少了訓(xùn)練圖像上的包含信息的像素比例,并且需要大量的計(jì)算,較為耗時(shí)。CutMix方法將隨機(jī)選中的區(qū)域填充其他圖像的補(bǔ)丁區(qū)域。這種方法與Mixup方法相比,改進(jìn)了混合圖像后,人眼無(wú)法主觀辨別圖像標(biāo)簽的情形。在擦除區(qū)域添加其他樣本信息,進(jìn)一步增強(qiáng)模型定位能力。CutMix在CIFAR和ImageNet分類(lèi)任務(wù)以及對(duì)ImageNet上的弱監(jiān)督的本地化任務(wù)領(lǐng)先于最新的數(shù)據(jù)增強(qiáng)策略,同時(shí),在Pascal檢測(cè)和MS-COCO圖像字幕基準(zhǔn)測(cè)試中獲得了性能提升。這種方法改進(jìn)了針對(duì)輸入損壞及其模型失配檢測(cè)性能的模型魯棒性。
4) Sample Pairing [14]
Sample Pairing方法常用于圖像分類(lèi)任務(wù)中的數(shù)據(jù)增強(qiáng),該方法首先從訓(xùn)練集中隨機(jī)選擇兩張圖片,與Mixup方法不同的是,隨機(jī)選擇圖像的方式是從訓(xùn)練集中隨機(jī)抽取兩張圖片并分別進(jìn)行基礎(chǔ)數(shù)據(jù)增強(qiáng)操作(如隨機(jī)翻轉(zhuǎn)等)處理后,再經(jīng)像素取平均值,最后疊加合成一個(gè)新的樣本。而標(biāo)簽為原樣本標(biāo)簽中的一種,理論上新樣本數(shù)量平方增加。這種方法能夠顯著提高所有測(cè)試數(shù)據(jù)集分類(lèi)準(zhǔn)確性。使用GoogleNet的ILSVRC 2012數(shù)據(jù)集的top-1錯(cuò)誤率從33.5%降低到29.0%,而在CIFAR-10數(shù)據(jù)集中則從8.22%降低到6.93%。當(dāng)訓(xùn)練集中的樣本數(shù)量非常小時(shí),SamplePairing技術(shù)大大提高了模型預(yù)測(cè)的準(zhǔn)確性。因此該技術(shù)對(duì)于訓(xùn)練數(shù)據(jù)量有限的任務(wù)(例如醫(yī)學(xué)成像任務(wù))更有價(jià)值。SamplePairing方法實(shí)現(xiàn)簡(jiǎn)單,效率大大增加,但缺少相應(yīng)的理論支撐。
3.3.4. 信息刪除
1) 隨機(jī)擦除 [15]
隨機(jī)擦除方法與添加噪聲方法相似,通過(guò)隨機(jī)選取圖像中的矩形區(qū)域,并使用隨機(jī)像素值對(duì)其遮蓋。該技術(shù)可以很容易嵌入大部分卷積神經(jīng)網(wǎng)絡(luò)模型中。隨機(jī)擦除的好處在于迫使模型去學(xué)習(xí)有關(guān)圖像的更多描述性特征,從而防止過(guò)擬合某個(gè)特定視覺(jué)特征,確保網(wǎng)絡(luò)關(guān)注整個(gè)圖像,而不只是其中的一部分。隨機(jī)擦除的缺點(diǎn)是不一定會(huì)保留標(biāo)簽(例如文本8->6)。Zhun Zhongy等人將隨機(jī)擦除方法用于圖像分類(lèi)、物體檢測(cè)和人員重新識(shí)別任務(wù),并通過(guò)該方法實(shí)現(xiàn)了性能的提升。使用隨機(jī)擦除方法進(jìn)行大量實(shí)驗(yàn),在CIFAR、PASCAL VOC 2007、Fast-RCNN、re-ID、Market-1501、DukeMTMC-reID上表現(xiàn)出良好的效果。
2) CUTOUT [16]
與隨機(jī)擦除相似,Cutout是在圖像上的隨機(jī)位置使用一定大小的正方形path進(jìn)行0-mask剪裁。蔣蕓等人提出了激活區(qū)域處理算法(Activation Region processing algorithm) [17] 并將其嵌入到CNN模型,對(duì)網(wǎng)絡(luò)卷積層的特征圖進(jìn)行遮蓋處理,進(jìn)一步提高模型的性能,降低過(guò)擬合的風(fēng)險(xiǎn)。該方法從卷積神經(jīng)網(wǎng)絡(luò)中提取出較為關(guān)鍵的局部特征的卷積層的素值最大的特征圖,對(duì)其上采樣后將像素值大于整個(gè)圖像素均值的像素點(diǎn)使用[0,1]的隨機(jī)噪聲進(jìn)行遮蓋處理,輸入到下層網(wǎng)絡(luò)繼續(xù)訓(xùn)練。算法在CIFAR和Fashion-MNIST數(shù)據(jù)集上得到更低的錯(cuò)誤率。在不同的網(wǎng)絡(luò)結(jié)構(gòu)RestNet-18、WRN-28-10、ResNext-8-64使用AR算法后,與未加任何遮擋的CNN模型相比,得到更低的錯(cuò)誤率。隨機(jī)擦除、Cutout和GridMask方法的圖像增強(qiáng)效果如圖3所示。
Figure 3. Comparison of Rerasure, Cutout and GridMask
圖3. 隨機(jī)擦除、Cutout和GridMask對(duì)比
3) GRIDMASK [18]
Pengguang等人提出的GridMask的信息刪除方法平衡了刪除區(qū)域與保留區(qū)域的面積,其本質(zhì)是對(duì)圖像進(jìn)行網(wǎng)格覆蓋,優(yōu)化了cutout和隨機(jī)擦除方法過(guò)度刪除問(wèn)題,并保持圖像區(qū)域連續(xù),易于實(shí)現(xiàn)且快速靈活,與以前的方法相比,GridMask在各種數(shù)據(jù)集上得到更優(yōu)的效果,優(yōu)于所有以前的無(wú)監(jiān)督策略,包括AutoAugment [19] 提出的最佳組合策略。該方法可以用作數(shù)據(jù)擴(kuò)增的新基準(zhǔn)策略。
4. 基于深度學(xué)習(xí)的數(shù)據(jù)增強(qiáng)方法
在進(jìn)行機(jī)器學(xué)習(xí)模型訓(xùn)練的過(guò)程中,優(yōu)化模型的目標(biāo)就是盡可能的實(shí)現(xiàn)模型的損失降低,因此為了完成這一優(yōu)化目標(biāo),往往需要大量的訓(xùn)練數(shù)據(jù)作為支撐。傳統(tǒng)的數(shù)據(jù)增強(qiáng)技術(shù)依靠對(duì)現(xiàn)有數(shù)據(jù)集的微小調(diào)整,包括翻轉(zhuǎn)、旋轉(zhuǎn)和平移等調(diào)整方法,通過(guò)這些方法對(duì)數(shù)據(jù)集的調(diào)整,會(huì)產(chǎn)生大量具有微小的或者巨大差別的數(shù)據(jù)集,使用這種數(shù)據(jù)集的實(shí)驗(yàn)方法將會(huì)把這些調(diào)整后的數(shù)據(jù)集視為與原始數(shù)據(jù)集不同的數(shù)據(jù),從而進(jìn)行模型的訓(xùn)練。數(shù)據(jù)增強(qiáng)的作用除了能夠增加訓(xùn)練的樣本數(shù)量之外,提高模型的泛化能力之外,還可以通過(guò)增加噪聲數(shù)據(jù),從而提高模型的魯棒性。
除了傳統(tǒng)的數(shù)據(jù)增強(qiáng)技術(shù)以外,近年來(lái),隨著機(jī)器學(xué)習(xí)的快速發(fā)展和廣泛應(yīng)用,研究人員開(kāi)始將機(jī)器學(xué)習(xí)技術(shù)用于數(shù)據(jù)增強(qiáng)領(lǐng)域的研究,并取得了一定科研成果。
4.1. 自動(dòng)數(shù)據(jù)增強(qiáng)
從數(shù)據(jù)自身的特點(diǎn)出發(fā),搜索適合不同特點(diǎn)數(shù)據(jù)集的數(shù)據(jù)增強(qiáng)策略能夠從體系結(jié)構(gòu)搜索的角度重新定義了一種數(shù)據(jù)增強(qiáng)的新模式。
谷歌大腦的研究人員提出了一種自動(dòng)搜索合適的數(shù)據(jù)增強(qiáng)策略的方法(AutoAugment) [19],通過(guò)設(shè)計(jì)這種不改變深度學(xué)習(xí)的網(wǎng)絡(luò)架構(gòu)的數(shù)據(jù)增強(qiáng)方法來(lái)實(shí)現(xiàn)具有更多不變性的數(shù)據(jù)增強(qiáng)策略,這種思想能夠避免對(duì)神經(jīng)網(wǎng)絡(luò)架構(gòu)進(jìn)行修改而從策略搜索的角度對(duì)模型的訓(xùn)練過(guò)程進(jìn)行性能上的優(yōu)化。該方法通過(guò)創(chuàng)建一個(gè)搜索空間用來(lái)保存數(shù)據(jù)增強(qiáng)策略,并針對(duì)不同的批量任務(wù)根據(jù)搜索算法從搜索空間中選擇合適的子策略,選擇的子策略能夠應(yīng)用特定的圖像處理函數(shù)進(jìn)行數(shù)據(jù)增強(qiáng)的操作,以使這樣訓(xùn)練出的神經(jīng)網(wǎng)絡(luò)能獲得最佳的驗(yàn)證準(zhǔn)確率。該算法的性能接近不使用任何無(wú)標(biāo)注樣本的半監(jiān)督學(xué)習(xí)方法。此外,該算法能夠?qū)崿F(xiàn)策略的遷移,將學(xué)習(xí)到的策略應(yīng)用到其他類(lèi)似的數(shù)據(jù)增強(qiáng)任務(wù)上,能夠得到較高的準(zhǔn)確率,并且不需要在額外的數(shù)據(jù)上對(duì)預(yù)訓(xùn)練的權(quán)重進(jìn)行調(diào)整。該算法中使用強(qiáng)化學(xué)習(xí)作為搜索算法,并提出在搜索算法的方面能夠進(jìn)一步研究,得到更好的實(shí)驗(yàn)性能。但這種方法在簡(jiǎn)化設(shè)置的情況下需要較長(zhǎng)的訓(xùn)練時(shí)間。
針對(duì)計(jì)算損耗巨大的問(wèn)題,谷歌大腦的研究人員又提出了一種自動(dòng)數(shù)據(jù)增強(qiáng)的方法,稱(chēng)為RandAugmentation [20]。這種方法大大縮小了數(shù)據(jù)增強(qiáng)所產(chǎn)生的樣本空間,從而將數(shù)據(jù)增強(qiáng)的過(guò)程與深度學(xué)習(xí)模型的訓(xùn)練過(guò)程集成起來(lái),而不是將數(shù)據(jù)增強(qiáng)作為獨(dú)立的任務(wù)。該論文同時(shí)也證明了自動(dòng)的選擇數(shù)據(jù)增強(qiáng)策略的方案通常是在規(guī)模較小的數(shù)據(jù)集上訓(xùn)練參數(shù)量級(jí)較低的模型而實(shí)現(xiàn)的自動(dòng)數(shù)據(jù)增強(qiáng),在此基礎(chǔ)上再將搜索到的數(shù)據(jù)增強(qiáng)策略應(yīng)用到大規(guī)模數(shù)據(jù)集上的方法不是最優(yōu)的 [20]。
自動(dòng)數(shù)據(jù)增強(qiáng)是否或者何時(shí)需要作為一個(gè)單獨(dú)的搜索階段一直是困擾著研究人員,在該方面的突破也許能夠從根本上解決自動(dòng)數(shù)據(jù)增強(qiáng)和模型的訓(xùn)練過(guò)程之間的關(guān)系問(wèn)題。此外
Yonggang Li等人 [21] 在2020年提出了一種新的數(shù)據(jù)增強(qiáng)技術(shù),該論文提出了將可微分網(wǎng)絡(luò)架構(gòu)搜索算法應(yīng)用在數(shù)據(jù)增廣策略搜索任務(wù)上,該算法同樣針對(duì)AutoAugment中的昂貴計(jì)算導(dǎo)致AutoAugment方法在適用性上表現(xiàn)較差的問(wèn)題。DADA算法提出通過(guò)Gumbel-Softmax將離散的數(shù)據(jù)增強(qiáng)策略選擇轉(zhuǎn)化為到一個(gè)可優(yōu)化的問(wèn)題。
AutoAugment作為開(kāi)創(chuàng)性的工作,提出了自動(dòng)搜索策略用于數(shù)據(jù)增強(qiáng),將策略的選擇過(guò)程視作一個(gè)組合優(yōu)化問(wèn)題。但由于其需要消耗巨大的計(jì)算時(shí)間,導(dǎo)致其適用性較低,因此研究人員開(kāi)始針對(duì)計(jì)算耗時(shí)問(wèn)題提出不同的解決方案。除了上述的兩種針對(duì)Autoaugment的改進(jìn)方法之外,還有Population Based Augmentation [22] 和Fast AutoAugment [23] 等方法。
4.2. 基于生成對(duì)抗網(wǎng)絡(luò)的數(shù)據(jù)增強(qiáng)方法
通過(guò)基于生成對(duì)抗網(wǎng)絡(luò)的生成建模的方式進(jìn)行數(shù)據(jù)增強(qiáng)是現(xiàn)階段較為常用的手段。生成對(duì)抗網(wǎng)絡(luò)應(yīng)用在數(shù)據(jù)增強(qiáng)任務(wù)上的思想主要是其通過(guò)生成新的訓(xùn)練數(shù)據(jù)來(lái)擴(kuò)充模型的訓(xùn)練樣本,通過(guò)樣本空間的擴(kuò)充實(shí)現(xiàn)圖像分類(lèi)任務(wù)效果的提升。研究人員在原始生成對(duì)抗網(wǎng)絡(luò)框架的基礎(chǔ)上又提出了多種不同的改進(jìn)方案,通過(guò)設(shè)計(jì)不同的神經(jīng)網(wǎng)絡(luò)架構(gòu)和損失函數(shù)等手段不斷提升生成對(duì)抗網(wǎng)絡(luò)的變體的性能。
4.2.1. DCGAN
DCGAN [24] 嘗試將圖像領(lǐng)域應(yīng)用廣泛的CNN與生成對(duì)抗網(wǎng)絡(luò)GAN結(jié)合起來(lái),提出了Deep Convolutional GANs (DCGAN),在圖像分類(lèi)任務(wù)上證明了其優(yōu)于其他無(wú)監(jiān)督算法。該算法的核心部分是對(duì)CNN架構(gòu)進(jìn)行了三處修改:(1) 使用卷積層替代了池化層。作者在GAN中的生成器中進(jìn)行了此類(lèi)修改,使得生成器能夠?qū)W習(xí)其自身空間的下采樣方式,而不是參數(shù)指定的下采樣方式。(2) 消除了卷積特征上的全連接層。作者嘗試將最高卷積特征分別直接連接到生成器和判別器的輸入和輸出。(3) 批量歸一化 [25]。使用批量標(biāo)準(zhǔn)化通過(guò)將輸入標(biāo)準(zhǔn)化以使零均值和單位方差為零來(lái)穩(wěn)定學(xué)習(xí),并且能夠有效解決深度生成器的所有樣本坍塌到單點(diǎn)的問(wèn)題。將該方法用到生成器的輸出層和判別器的輸入層會(huì)導(dǎo)致批量歸一化模型不穩(wěn)定問(wèn)題,因此作者在剩余的所有層上都使用了批量歸一化的操作。DCGAN算法實(shí)現(xiàn)了CNN和GAN的結(jié)合,是一種有效的圖像生成模型,被廣泛的用于數(shù)據(jù)集樣本的生成。但使用該方法中,當(dāng)訓(xùn)練模型的時(shí)間較長(zhǎng)時(shí),仍然在部分模型中存在不穩(wěn)定的問(wèn)題。
4.2.2. CycleGAN
CycleGAN [26] 作為圖像轉(zhuǎn)換領(lǐng)域的重要模型,可以實(shí)現(xiàn)樣本數(shù)據(jù)無(wú)需配對(duì)即可進(jìn)行轉(zhuǎn)換,例如將一個(gè)名人轉(zhuǎn)換成一個(gè)卡通人物,這種圖像轉(zhuǎn)換的使用能夠?qū)颖緮?shù)據(jù)進(jìn)行極大的擴(kuò)充而保留原始圖像的輪廓。CycleGAN作為一種不對(duì)齊數(shù)據(jù)的圖像轉(zhuǎn)換方法現(xiàn)在被廣泛的用于圖像到圖像的轉(zhuǎn)換。
CycleGAN實(shí)際上是由兩個(gè)對(duì)稱(chēng)的生成對(duì)抗網(wǎng)絡(luò)組成的環(huán)形網(wǎng)絡(luò),將該模型與DCGAN進(jìn)行比較后發(fā)現(xiàn),該模型能夠控制圖像生成,而DCGAN模型則輸入一個(gè)噪聲后輸出一張無(wú)法控制的圖片。CycleGAN的結(jié)構(gòu)如圖4所示。
圖4. CycleGAN結(jié)構(gòu):(a) 該模型由兩個(gè)映射函數(shù)組成 G:X→YG:X→Y 和 F:Y→XF:Y→X,并包括兩個(gè)對(duì)抗判別器DY和DX,DY鼓勵(lì)G將X轉(zhuǎn)換為與Y無(wú)法區(qū)分的輸出,DX則鼓勵(lì)F將Y轉(zhuǎn)換為與X無(wú)法區(qū)分的輸出。為了進(jìn)一步的將映射規(guī)范化,該模型定義了兩個(gè)“循環(huán)一致性損失”,這兩個(gè)損失函數(shù)保證了將一個(gè)域轉(zhuǎn)換為另一個(gè)域并再次轉(zhuǎn)換回來(lái)的時(shí)候,與原始的域盡可能保持一致。(b) 前向循環(huán)一致性損失: x→G(x)→F(G(x))≈xx→G(x)→F(G(x))≈x,(c) 反向循環(huán)一致性損失 y→F(y)→G(F(y))≈yy→F(y)→G(F(y))≈y [26]
4.2.3. Conditional GANs
2014年,Mehdi Mirza等人提出了Conditional GAN [27],論文中提出的模型不僅僅需要較高的逼真度而且需要在一定的條件約束下完成,由于其增加了條件約束,因此生成器和判別器的設(shè)計(jì)會(huì)發(fā)生較大的改變。通過(guò)根據(jù)附加信息對(duì)模型框架進(jìn)行調(diào)整,可以用于指導(dǎo)數(shù)據(jù)的生成過(guò)程,這種根據(jù)條件生成數(shù)據(jù)的方式對(duì)于數(shù)據(jù)增強(qiáng)非常有效,研究人員在原始圖像上可以根據(jù)不同的需求條件生成增量數(shù)據(jù),并將增量數(shù)據(jù)應(yīng)用到下游的神經(jīng)網(wǎng)絡(luò)模型中。Conditional GAN的結(jié)構(gòu)如圖5所示。
Figure 5. The structure of Conditional GAN
圖5. Conditional GAN 的結(jié)構(gòu)
盡管生成對(duì)抗網(wǎng)絡(luò)在生成圖像領(lǐng)域被廣泛的應(yīng)用,但其訓(xùn)練的不穩(wěn)定性,以及要求大量訓(xùn)練數(shù)據(jù)的不適用性將導(dǎo)致其不同的變體方法在一些時(shí)候并不能有效的實(shí)現(xiàn)數(shù)據(jù)增強(qiáng)的任務(wù)。
4.3. 基于自動(dòng)編碼器和生成對(duì)抗網(wǎng)絡(luò)組合的數(shù)據(jù)增強(qiáng)方法
自動(dòng)編碼器通過(guò)將其網(wǎng)絡(luò)結(jié)構(gòu)的一般用于編碼,獲得圖像的低維向量表示,將網(wǎng)絡(luò)結(jié)構(gòu)的另一半用于解碼,獲得根據(jù)低維向量表示重新構(gòu)造的圖像數(shù)據(jù),這種編碼解碼的方式能夠?qū)崿F(xiàn)訓(xùn)練數(shù)據(jù)樣本和噪聲數(shù)據(jù)樣本的容量擴(kuò)充,實(shí)現(xiàn)了利用數(shù)據(jù)增強(qiáng)技術(shù)提高神經(jīng)網(wǎng)絡(luò)的泛化能力和魯棒性。
在生成對(duì)抗網(wǎng)絡(luò)被廣泛應(yīng)用到生成數(shù)據(jù)任務(wù)之后,研究人員開(kāi)始提出生成對(duì)抗網(wǎng)絡(luò)與自動(dòng)編碼器的結(jié)合形式,通過(guò)將變體的生成對(duì)抗網(wǎng)絡(luò)和變體的自動(dòng)編碼器結(jié)合而形成一個(gè)通用的學(xué)習(xí)框架來(lái)生成細(xì)粒度類(lèi)別的圖像,這種新穎的圖像生成方式同樣能夠有效的完成數(shù)據(jù)增強(qiáng)任務(wù)。Jianmin Bao等人 [28] 提出的CVAE-GAN通過(guò)將圖像建模為概率模型中圖像標(biāo)簽和隱藏屬性的組合的形式。
CVAE-GAN首先使用編碼器將給定的訓(xùn)練圖像數(shù)據(jù)和類(lèi)別標(biāo)簽編碼為符合給定概率分布的隱變量,再通過(guò)生成器將從隱變量中采樣得到的數(shù)據(jù)和對(duì)應(yīng)的類(lèi)別標(biāo)簽生成圖像數(shù)據(jù),將該圖像數(shù)據(jù)輸入到分類(lèi)器和判別器中從而輸入分類(lèi)標(biāo)簽和判別標(biāo)簽,生成器和判別器構(gòu)成了一個(gè)生成對(duì)抗網(wǎng)絡(luò),其中生成器嘗試通過(guò)已經(jīng)學(xué)會(huì)了區(qū)分真實(shí)樣本和虛假樣本的判別器提供的的梯度來(lái)學(xué)習(xí)真實(shí)數(shù)據(jù)分布。作者還在其論文中證明了均值特征匹配也可以用于條件圖像生成任務(wù)中。CVAE-GAN方法能夠在多種圖像任務(wù)中取得較好的性能,包括圖像生成任務(wù)、圖像修復(fù)任務(wù)等,但在生成位置類(lèi)別的樣本方面還存在一定的可探索性。
在自動(dòng)編碼器和生成對(duì)抗網(wǎng)絡(luò)的組合應(yīng)用方面,Yang He等人 [29] 提出了一種新穎的圖像生成方法,該方法可以被分類(lèi)為一種隨機(jī)回歸方法,其學(xué)會(huì)了從單個(gè)條件輸入中產(chǎn)生多個(gè)不同的示例。這種方法與CVAE-GAN方法一樣結(jié)合了生成對(duì)抗網(wǎng)絡(luò)和自動(dòng)編碼器的優(yōu)勢(shì)來(lái)完成圖像生成任務(wù)。這種新提出的算法通過(guò)使用隨機(jī)回歸公式為條件圖像生成任務(wù)提供了一種新穎的解決方案,該模型可以生成準(zhǔn)確且多樣的樣本,并且可以穩(wěn)定地訓(xùn)練并提供具有潛在向量表示形式的抽樣機(jī)制。該模型還應(yīng)用了通道級(jí)別的dropout (channel-wise dropout),從改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)的角度提出解決多項(xiàng)選擇學(xué)習(xí)思想的方法。
將圖像生成技術(shù)用于數(shù)據(jù)增強(qiáng)任務(wù)的方法除了生成對(duì)抗網(wǎng)絡(luò)以及自動(dòng)編碼器和生成對(duì)抗網(wǎng)絡(luò)的組合形式之外,研究人員還提出了一些其他的方法。Qifeng Chen等人 [30] 提出級(jí)聯(lián)優(yōu)化網(wǎng)絡(luò)(cascaded refinement networks, CRN),該模型將圖像生成任務(wù)轉(zhuǎn)化為回歸問(wèn)題,該模型還證明了可以通過(guò)合適結(jié)構(gòu)的前饋網(wǎng)絡(luò)合成圖像數(shù)據(jù),實(shí)現(xiàn)了將圖片無(wú)縫縮放到高分辨率,并在實(shí)驗(yàn)中證明了模型的有效性。Justin Johnson等人 [31] 提出采用感知損失函數(shù)訓(xùn)練前饋網(wǎng)絡(luò)進(jìn)行圖像轉(zhuǎn)換的任務(wù)。模型通過(guò)訓(xùn)練一個(gè)用于圖像轉(zhuǎn)換任務(wù)的前饋網(wǎng)絡(luò),同時(shí)不需要進(jìn)行像素級(jí)別的求差值操作而構(gòu)造損失函數(shù)。使用感知損失函數(shù),從預(yù)訓(xùn)練好的網(wǎng)絡(luò)中提取高級(jí)特征。該模型同樣在圖像轉(zhuǎn)換任務(wù)中取得了不錯(cuò)的性能。
5. 總結(jié)
針對(duì)圖像數(shù)據(jù)集的數(shù)據(jù)增強(qiáng)技術(shù)可以分為兩種類(lèi)型:對(duì)數(shù)據(jù)集進(jìn)行變換操作達(dá)到擴(kuò)充數(shù)據(jù)集的目的;對(duì)數(shù)據(jù)集進(jìn)行過(guò)采樣或欠采樣達(dá)到樣本與真實(shí)分布相似效果。
隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,應(yīng)用于計(jì)算機(jī)視覺(jué)領(lǐng)域的深度模型也在不斷的被提出?;谏疃葘W(xué)習(xí)的數(shù)據(jù)增強(qiáng)技術(shù)主要從數(shù)據(jù)擴(kuò)充的角度對(duì)模型進(jìn)行性能上的提升,而不是改變深度模型的網(wǎng)絡(luò)結(jié)構(gòu)。現(xiàn)階段的傳統(tǒng)圖像數(shù)據(jù)增強(qiáng)和基于深度學(xué)習(xí)的數(shù)據(jù)增強(qiáng)技術(shù)都在不斷的發(fā)展和提出,將數(shù)據(jù)增強(qiáng)技術(shù)用于計(jì)算機(jī)視覺(jué)任務(wù)也正在成為學(xué)術(shù)研究的主流做法。傳統(tǒng)圖像處理方法有幾何變換、顏色變換和像素變換等,而基于深度學(xué)習(xí)的圖像數(shù)據(jù)增強(qiáng)技術(shù)主要包括:自動(dòng)數(shù)據(jù)增強(qiáng)通過(guò)設(shè)計(jì)一種不改變深度網(wǎng)絡(luò)架構(gòu)的數(shù)據(jù)增強(qiáng)方法來(lái)實(shí)現(xiàn)具有更多不變性的數(shù)據(jù)增強(qiáng)策略,通過(guò)創(chuàng)建一個(gè)搜索空間用來(lái)保存數(shù)據(jù)增強(qiáng)策略,并針對(duì)不同的任務(wù)根據(jù)搜索算法的運(yùn)行進(jìn)行適當(dāng)子策略(例如剪裁、翻轉(zhuǎn))的選擇,從而實(shí)現(xiàn)自動(dòng)數(shù)據(jù)增強(qiáng)的目的;而基于生成對(duì)抗網(wǎng)絡(luò)的數(shù)據(jù)增強(qiáng)主要是基于生成對(duì)抗網(wǎng)絡(luò)的機(jī)制進(jìn)行生成器和判別器的設(shè)計(jì),以及生成對(duì)抗網(wǎng)絡(luò)的算法框架的設(shè)計(jì);而基于自動(dòng)編碼器和生成對(duì)抗網(wǎng)絡(luò)組合形式的數(shù)據(jù)增強(qiáng)方法則是通過(guò)編碼器、解碼器、生成器和判別器的設(shè)計(jì)實(shí)現(xiàn)數(shù)據(jù)增強(qiáng)任務(wù)。本文總結(jié)了傳統(tǒng)圖像處理方法和基于深度學(xué)習(xí)數(shù)據(jù)增強(qiáng)方法兩方面技術(shù),討論了不同圖像數(shù)據(jù)增強(qiáng)技術(shù)的優(yōu)缺點(diǎn)。
隨著深度學(xué)習(xí)技術(shù)的不斷革新,更多的深度模型將會(huì)被提出,而針對(duì)數(shù)據(jù)集優(yōu)化的數(shù)據(jù)增強(qiáng)技術(shù)也會(huì)隨之發(fā)展,未來(lái)研究人員將可能更多的通過(guò)改進(jìn)基于深度學(xué)習(xí)的數(shù)據(jù)增強(qiáng)技術(shù)來(lái)適應(yīng)模型算法的結(jié)構(gòu),實(shí)現(xiàn)模型試驗(yàn)效果的提升。
審核編輯:湯梓紅
評(píng)論
查看更多