背景介紹
人臉修復(fù)是一種典型的ill-posed問題、可逆圖像修復(fù)問題,其解不唯一且必存在。高度退化和多退化的場景下,高質(zhì)量的人臉修復(fù)明顯更具有挑戰(zhàn)性。傳統(tǒng)深度學(xué)習(xí)方法利用成對的數(shù)據(jù)集訓(xùn)練模型從而獲得處理該退化問題的能力,這些普通范式雖然在全局人臉結(jié)構(gòu)上有不錯的效果,但是明顯在修復(fù)結(jié)果的細(xì)節(jié)豐富度上并不理想。
因此,近一兩年,頂會上出現(xiàn)了不少基于GAN先驗特征的人臉修復(fù)方法。這些方法通過將退化的人臉圖像編碼到訓(xùn)練好的GAN網(wǎng)絡(luò)的潛在空間中,利用隱藏在GAN網(wǎng)絡(luò)中豐富的圖像先驗知識,來獲得更好的人臉修復(fù)細(xì)節(jié)。但是,常見的GAN網(wǎng)絡(luò)的latent features維度并不高,這些特征的空間表達(dá)能力也不佳,難以完整捕獲退化人臉圖像的面部結(jié)構(gòu),造成恢復(fù)結(jié)果的身份信息與原圖并不一致,即方法結(jié)果的保真度較低。
為了進(jìn)一步、更完整得捕獲輸入退化圖像的面部特征,一些方法不僅將降質(zhì)人臉圖像編碼到潛空間中,而且還將外部特征(例如從降質(zhì)人臉圖像中提取的特征)與 GAN 先驗特征融合起來,以實現(xiàn)更好的身份一致性。然而,它們并沒有提供明確的降質(zhì)感知的特征融合設(shè)計,因此在面對不同的、多變的退化時,修復(fù)效果的魯棒性并不理想。
受最近對比學(xué)習(xí)范式的啟發(fā),作者團(tuán)隊首先提出一種無監(jiān)督的退化表征學(xué)習(xí)策略,旨在利用對比學(xué)習(xí)和視覺注意力的最新進(jìn)展,預(yù)訓(xùn)練一個退化表示編碼器(DRE)。DRE 提取輸入退化人臉圖像的退化表征,作為全局條件指導(dǎo)恢復(fù)過程。此外,作者還提出了一種新的退化感知特征插值(DAFI)模塊,可以根據(jù)退化表征動態(tài)融合 GAN 先驗特征和從退化人臉圖像中提取的特征。
作者團(tuán)隊進(jìn)一步提出了一種新的網(wǎng)絡(luò),以集成這些設(shè)計用于人臉修復(fù)任務(wù)。由于選擇和融合不同來源的特征的思路類似于制作 panini (帕尼尼,KFC早餐經(jīng)典食品)的方式,因此將這個網(wǎng)絡(luò)稱為 Panini-Net。該網(wǎng)絡(luò)可以根據(jù)退化程度動態(tài)調(diào)整融合的特征比例,以實現(xiàn)更好的修復(fù)性能。
方法介紹
下面將逐一介紹Panini-Net的各個模塊,最后將總結(jié)該方法的重點內(nèi)容。
Panini-Net架構(gòu)圖。它由圖像特征提取模塊(Image Feature Extraction Module)、退化感知特征插值模塊組成(DAFI) 模塊,以預(yù)訓(xùn)練的 StyleGAN2 作為 GAN Prior 模塊 (GPM)。給定退化的人臉圖像作為輸入,圖像特征提取模塊提取特征,并預(yù)測latent code,該latent code可以從 GPM 中粗略地獲取類似的高質(zhì)量人臉。然后,使用 DAFI 塊逐步對特征做插值處理從而合并退化人臉圖像的有效結(jié)構(gòu)信息。預(yù)訓(xùn)練的退化表示編碼器 (DRE) 將退化表示編碼為向量,其可以被視為指導(dǎo) DAFI 塊進(jìn)行恢復(fù)的全局條件。
GAN Prior Module
Panini-Net采用預(yù)訓(xùn)練的StyleGAN2的生成器來作為GAN先驗?zāi)K,如上圖中所示,該模塊從一個可學(xué)習(xí)的常量特征開始,逐漸通過一系列的GAN blocks來生成分層的高質(zhì)量特征圖,從而將其配合退化感知特征插值模塊,通過動態(tài)的特征融合來矯正面部結(jié)構(gòu)。
Unsupervised Degradation Representation Learning for Degradation Representation
退化表示的無監(jiān)督退化表示學(xué)習(xí)策略。對于每次迭代,隨機(jī)生成一組新的退化參數(shù),并在兩個高質(zhì)量圖像上操作它們從而得到不同的新 HQ 圖像生成正例對。讓隊列中的歷史圖像成為反例,以鼓勵學(xué)習(xí)退化而不是內(nèi)容。
無監(jiān)督表征學(xué)習(xí)(Unsupervised Degradation Representation Learning )用于圖像修復(fù)(超分)其實不是一個比較新的idea,之前cvpr‘21的超分工作DASR,以及cvpr’22的AirNet都有類似的范式來作為方案的核心。不過在Panini-Net中,該部分還是挺不一樣的。
具體來說,如上圖所示,先在兩個不同的高質(zhì)量人臉圖像上應(yīng)用同一組退化參數(shù)來得到兩個內(nèi)容不同、退化模式不同的退化圖像,隨后利用MoCo范式來執(zhí)行對比學(xué)習(xí),所利用的約束也是常見的InfoNCE loss,從而鼓勵學(xué)習(xí)退化而不是內(nèi)容。cvpr‘21的超分工作DASR,以及cvpr’22的AirNet的論文名字:Unsupervised Degradation Representation Learning for Blind Super-Resolution (CVPR'21)All-in-one image restoration for unknown corruption (CVPR'22)
Degradation-aware Feature Interpolation (DAFI) block
退化感知特征插值 (DAFI) 塊,無監(jiān)督退化特征學(xué)習(xí)方式訓(xùn)練得到的encdoer從退化圖像中抽取出V_{DR}作為退化的判別表征,該表征可以作為一種“condition”來生成自適應(yīng)的channel-wise mask。可以從上圖中看出,mask由一個mlp子網(wǎng)絡(luò)和softmax來生成。這個mask 將用于動態(tài)特征插值從而輔助特征的融合。
在獲得退化的判別表征后,Panini-Net將其作為一個全局的退化“condition”從而指導(dǎo)退化修復(fù),具體來說,通過如上圖所示的mask,該mask的size為:,即channel-wise的形式。將每個mask元素用于對應(yīng)的融合特征通道的插值權(quán)重。通過如下插值公式,來利用該mask來靈活的動態(tài)融合不同特征:
其中表示channel-wise上的點積。
實驗分析&視覺效果對比
16xSR設(shè)定下的視覺對比圖,可以看到PaniniNet很好的修復(fù)了退化圖像的細(xì)節(jié)信息,保真度也非常不錯。
消融實驗
作者在正文消融實驗部分重點探討了利用DAFI模塊作為fusion操作的增益,并對Panini-Net的關(guān)鍵超參做了剖析。對fusion操作的探討,主要是和直接利用concat+conv來fusion的常見操作做了對比,模型剖析部分則重點關(guān)注退化水平與插值比率的超參關(guān)系。
作者發(fā)現(xiàn)DAFI模塊可以更好的保留GAN先驗特征中的細(xì)節(jié)信息,而global condition guidance可以幫助DAFI更好的去fusion特征。當(dāng)退化嚴(yán)重時,Panini-Net可以動態(tài)增加GAN-Prior的使用比例。
結(jié)論
這篇論文重點關(guān)注如何更好的引入GAN Prior從而幫助人臉圖像修復(fù)問題,作者通過無監(jiān)督表征學(xué)習(xí)和結(jié)合mask策略的插值(特征融合)模塊來將GAN prior動態(tài)的引入到修復(fù)網(wǎng)絡(luò)中,實現(xiàn)了非常不錯的修復(fù)效果。
審核編輯:劉清
-
編碼器
+關(guān)注
關(guān)注
45文章
3646瀏覽量
134657 -
GaN
+關(guān)注
關(guān)注
19文章
1943瀏覽量
73585 -
圖像編碼
+關(guān)注
關(guān)注
0文章
26瀏覽量
8340
原文標(biāo)題:AAAI'22 | Panini-Net | 基于GAN先驗的退化感知特征插值人臉修復(fù)網(wǎng)絡(luò)
文章出處:【微信號:GiantPandaCV,微信公眾號:GiantPandaCV】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論