筆者最近在集中時(shí)間學(xué)習(xí)對(duì)抗生成網(wǎng)絡(luò)(GAN),特別是深度生成先驗(yàn)進(jìn)行多用途圖像修復(fù)與處理,需要對(duì)圖像修復(fù)與處理經(jīng)典論文進(jìn)行回顧和精讀。
將從圖像修復(fù)與處理的經(jīng)典之作DGP《Exploiting Deep Generative Prior for Versatile Image Restoration and Manipulation》開始,重啟精讀之路。
DGP提出了一種挖掘GAN中圖像先驗(yàn)的方式,在多個(gè)任務(wù)上揭示了GAN作為一種通用圖像先驗(yàn)的潛力。
論文提出了同時(shí)插值隱變量和生成器的漸變式圖像反演方法,可以應(yīng)用于復(fù)雜圖片的對(duì)抗防御,在實(shí)驗(yàn)中DGP所展現(xiàn)出的強(qiáng)大的像素間空間關(guān)系模擬能力也十分有趣。
Deep generative prior的圖像復(fù)原效果
01深度生成先驗(yàn)
深度圖像先驗(yàn)DIP僅依靠輸入圖像的統(tǒng)計(jì)信息,無(wú)法應(yīng)用于需要更一般的圖像統(tǒng)計(jì)信息的任務(wù),如圖像上色和圖像編輯。
我們更感興趣的是研究一種更通用的圖像先驗(yàn),即在大規(guī)模自然圖像上訓(xùn)練的GAN生成器用于圖像合成。具體來說,是一個(gè)基于GAN-inversion的圖像重構(gòu)過程。
在實(shí)踐中,僅僅通過優(yōu)化隱向量z難以準(zhǔn)確重建ImageNet這樣的復(fù)雜真實(shí)圖像。訓(xùn)練GAN的數(shù)據(jù)集(ImageNet)本身是自然圖片中很少的一部分,GAN受限于有限的模型性能和mode collapse,其模擬的圖片分布與訓(xùn)練集圖片分布也存在鴻溝。
即使存在以上限制,GAN仍然學(xué)習(xí)了豐富的圖片信息,為了利用這些信息并且實(shí)現(xiàn)精確重建,我們讓生成器online地適應(yīng)于每張目標(biāo)圖片,即聯(lián)合優(yōu)化隱向量z和生成器參數(shù)。
我們將此新的目標(biāo)稱為深度生成先驗(yàn)(DGP),DGP顯著提高了圖像重構(gòu)的效果。設(shè)計(jì)合適的距離度量和優(yōu)化策略非常關(guān)鍵,在重建過程中,生成器原始的生成先驗(yàn)被修改了,輸出真實(shí)自然圖像的能力可能會(huì)下降。
02判別器指引的漸進(jìn)式重建
從 latent space Z 中隨機(jī)抽取幾百個(gè)候選的初始 latent code,并選擇在度量L下重構(gòu)效果最好的一個(gè)。
在GAN重建中,傳統(tǒng)的距離度量方法是 MSE 或 Perceptual loss。優(yōu)化生成器參數(shù)時(shí),將這些傳統(tǒng)距離度量用在圖像恢復(fù)如上色任務(wù)中,常常無(wú)法準(zhǔn)確恢復(fù)顏色,并且重建過程中圖像會(huì)變得模糊,需要設(shè)計(jì)更好的優(yōu)化方式來保留生成器的原有信息。
我們?cè)谠摴ぷ髦羞x擇使用與生成器對(duì)應(yīng)的判別器來作為距離度量。與Perceptual loss所采用的VGGNet不同,判別器并非在一個(gè)第三方的任務(wù)上訓(xùn)練,而是在預(yù)訓(xùn)練時(shí)就與生成器高度耦合,它天然地適用于調(diào)整生成器的輸出分布。
使用這種基于判別器的距離度量時(shí),重建的過程更加自然和真實(shí),最終顏色恢復(fù)的效果也更好。
其中D(x, i)代表以x作為輸入時(shí)判別器第i個(gè)block輸出的特征
雖然改進(jìn)的距離度量帶來了更好的效果,但是圖像復(fù)原的結(jié)果仍存在非自然痕跡,因?yàn)樯善髟卺槍?duì)目標(biāo)圖片優(yōu)化時(shí),淺層參數(shù)匹配好圖片整體布局之前,深層參數(shù)就開始匹配細(xì)節(jié)紋理了。
上面的蘋果圖是幾種訓(xùn)練策略的對(duì)比,從三行效果可以看出,有的蘋果在訓(xùn)練初期沒被染上色后期還是沒被染上色,我們把這種現(xiàn)象稱作“信息滯留”。
對(duì)策就是:使用漸進(jìn)式重建的策略,即在微調(diào)生成器時(shí),先優(yōu)化淺層,再逐漸過渡到深層,讓重建過程“先整體后局部”。
與非漸進(jìn)策略相比,這種漸進(jìn)策略更好地保留了缺失語(yǔ)義和現(xiàn)有語(yǔ)義之間的一致性。
03重建結(jié)果
使用BigGAN模型,基于ImageNet進(jìn)行訓(xùn)練,使用ImageNet驗(yàn)證集中的1000張圖像進(jìn)行實(shí)驗(yàn),取每類的第一張,相比于其他方法,DGP取得了非常高的PSNR和SSIM,視覺上的重建誤差幾乎難以察覺。
04實(shí)驗(yàn)
因?yàn)镚AN刻畫了自然圖像的先驗(yàn),因此可以完成很多的任務(wù):比如上色、補(bǔ)全、超分辨率等等,還能進(jìn)行圖像處理。下面放一些效果圖。
圖像上色
使用ResNet50上的分類精度作為定量評(píng)估結(jié)果, 下列方法的精度分別為 51.5%, 56.2%, 56.0%, 62.8%。
圖像補(bǔ)全
超分辨率
靈活性
隨機(jī)擾動(dòng)
總結(jié)
GAN作為圖像領(lǐng)域最強(qiáng)大的生成式模型之一,學(xué)習(xí)到了豐富的自然圖像流形,可以對(duì)自然圖像的恢復(fù)和編輯帶來巨大幫助。
利用好大規(guī)模預(yù)訓(xùn)練模型的能力是深度學(xué)習(xí)目前各個(gè)領(lǐng)域的流行前沿,可以減少對(duì)訓(xùn)練數(shù)據(jù)的需求,整合相近的研究領(lǐng)域。
未來更強(qiáng)大的生成式模型,將帶來更具實(shí)際應(yīng)用價(jià)值的圖像恢復(fù)和編輯應(yīng)用,有望在更廣泛的領(lǐng)域落地
原文標(biāo)題:深度學(xué)習(xí)論文精讀[GAN]:利用深度生成先驗(yàn)進(jìn)行多用途圖像修復(fù)與處理
文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
-
GaN
+關(guān)注
關(guān)注
19文章
1952瀏覽量
73881 -
生成器
+關(guān)注
關(guān)注
7文章
319瀏覽量
21073 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5511瀏覽量
121382
原文標(biāo)題:深度學(xué)習(xí)論文精讀[GAN]:利用深度生成先驗(yàn)進(jìn)行多用途圖像修復(fù)與處理
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論