圖像合成是計算機視覺中的一個重要問題。谷歌大腦的Ian Goodfellow等人在他們的最新研究中提出“自注意力生成對抗網(wǎng)絡(luò)”(SAGAN),將自注意力機制引入到卷積GAN中,作為卷積的補充,在ImageNet多類別圖像合成任務(wù)中取得了最優(yōu)的結(jié)果。
圖像合成(Image synthesis)是計算機視覺中的一個重要問題。隨著生成對抗網(wǎng)絡(luò)(GAN)的出現(xiàn),這個方向取得了顯著進展。基于深度卷積網(wǎng)絡(luò)的GAN尤其成功。但是,通過仔細檢查這些模型生成的樣本,可以觀察到,在ImageNet這類的有許多圖像類別的數(shù)據(jù)集上訓(xùn)練時,卷積GAN合成的圖像不盡如人意。
針對這個問題,谷歌大腦的Ian Goodfellow和Augustus Odena,以及羅格斯大學(xué)的Han Zhang和Dimitris Metaxas等人在他們的最新研究中提出“自注意力生成對抗網(wǎng)絡(luò)”(SAGAN),將自注意力機制(self-attention mechanism)引入到卷積GAN中,作為卷積的補充,取得了最優(yōu)的結(jié)果。
摘要
在這篇論文中,我們提出自注意力生成對抗網(wǎng)絡(luò)( Self-Attention Generative Adversarial Network ,SAGAN)。SAGAN允許對圖像生成任務(wù)進行注意力驅(qū)動、長相關(guān)性的建模。傳統(tǒng)的卷積GAN生成的高分辨率細節(jié)僅作為在低分辨率特征圖上的空間局部點的函數(shù)。在SAGAN中,可以使用來自所有特征位置的線索來生成細節(jié)。此外,鑒別器可以檢查圖像的遠端部分的高度詳細的特征彼此一致。此外,最近的研究表明,生成器條件會影響GAN的性能。利用這些發(fā)現(xiàn),我們將譜歸一化到GAN生成器中,并發(fā)現(xiàn)這改進了訓(xùn)練動態(tài)。我們提出的SAGAN達到了state-of-the-art的結(jié)果,將Inception score從當(dāng)前最高的36.8提高到52.52,并且在具有挑戰(zhàn)性的ImageNet數(shù)據(jù)集上將Frechet Inception distance從27.62降低到18.65。注意力層的可視化表明,生成器利用與對象形狀相對應(yīng)的鄰域,而不是固定形狀的局部區(qū)域。
SAGAN:將自注意力機制引入GAN
盡管最先進的ImageNet GAN模型 [17] 擅長合成幾乎沒有結(jié)構(gòu)性限制的圖像類別(例如,海洋、天空和景觀類,它們的區(qū)別更多在于紋理而不是幾何結(jié)構(gòu)),但它無法捕獲在某些類別中經(jīng)常出現(xiàn)的幾何模式或結(jié)構(gòu)模式(例如,狗通常有逼真的皮毛紋理,但沒有明確區(qū)分的腳)。
一種可能的解釋是,以前的模型嚴(yán)重依賴于卷積來建模不同圖像區(qū)域之間的依賴關(guān)系。由于卷積運算符具有一個局部感受域,所以在經(jīng)過幾個卷積層之后,只能處理長距離的相關(guān)性。
由于各種原因,這可能會阻止學(xué)習(xí)長相關(guān)性(long-term dependencies):小的模型可能無法表示它們,優(yōu)化算法可能無法發(fā)現(xiàn)參數(shù)值,這些參數(shù)值仔細協(xié)調(diào)多個層,以捕獲這些相關(guān)性,并且這些參數(shù)化在統(tǒng)計學(xué)上可能相當(dāng)脆弱,當(dāng)應(yīng)用于以前未見過的輸入時容易失敗。增加卷積核的大小可以提高網(wǎng)絡(luò)的表征能力,但這樣做也會失去利用局部卷積結(jié)構(gòu)獲得的計算和統(tǒng)計效率。
另一方面,自注意力(Self-attention)可以更好地平衡模型的長相關(guān)性和計算與統(tǒng)計效率。self-attention模塊以所有位置的特征加權(quán)和來計算響應(yīng),其中權(quán)重(或attention vectors)只以很小的計算成本來計算。
圖 1:我們提出的SAGAN通過利用圖像遠端部分的互補特征來生成圖像,而不是固定形狀的局部區(qū)域,從而可以生成一致的對象/場景。圖中每一行的第一個圖像顯示了帶顏色編碼點的五個代表性查詢位置。其他五個圖像是針對這些查詢位置的 attention maps,其中對應(yīng)的顏色編碼的箭頭概括了最受關(guān)注的區(qū)域。
在這項工作中,我們提出了自注意力生成對抗網(wǎng)絡(luò)(SAGAN),它將自注意力機制(self-attention mechanism)引入到卷積GAN中。自注意力模塊(self-attention module)是對卷積的補充,有助于模擬跨越圖像區(qū)域的長距離、多層的依賴關(guān)系。通過self-attention,生成器可以繪制圖像,所繪制圖像中每個位置的精細細節(jié)都與圖像遠端的精細細節(jié)充分協(xié)調(diào)。此外,鑒別器還可以更準(zhǔn)確地對全局圖像結(jié)構(gòu)執(zhí)行復(fù)雜的幾何約束。
圖2:所提出的self-attention機制。?表示矩陣乘法,在每一行上執(zhí)行softmax操作。
除了self-attention之外,我們還將最近關(guān)于網(wǎng)絡(luò)調(diào)節(jié)(network conditioning)的見解與GAN的性能結(jié)合起來。A.Odena等人的研究[18]表明,調(diào)節(jié)良好的生成器往往表現(xiàn)更好。我們建議使用以前僅應(yīng)用于鑒別器的譜歸一化技術(shù)(spectral normalization)來加強GAN生成器器的調(diào)節(jié)。
我們在ImageNet數(shù)據(jù)集上進行了大量的實驗,以驗證所提出的self-attention機制和穩(wěn)定技術(shù)的有效性。SAGAN在圖像合成方面的表現(xiàn)遠遠超過了state-of-the-art的表現(xiàn),將此前報告的最高Inception score從36.8提高到52.52,將Fréchet初始距離(Fréchet Inception distance,F(xiàn)ID)從27.62降低到18.65。attention層的可視化顯示,生成器利用與對象形狀相對應(yīng)的區(qū)域,而不是固定形狀的局部區(qū)域。
ImageNet上的圖像合成實驗
為了評價所提出的方法,我們在LSVRC 2012 (ImageNet)上數(shù)據(jù)集進行了大量的實驗。首先,我們對評估所提出的兩種穩(wěn)定GAN訓(xùn)練的技術(shù)進行有效性實驗。其次,對所提出的self-attention mechanism進行了研究。最后,將SAGAN與其他state-of-the-art的圖像生成方法進行了比較。
評估指標(biāo)
我們使用Inception score(IS)和Fréchet初始距離(FID)進行定量評估。Inception score越高,表示圖像質(zhì)量越好。 FID是一個更加基于規(guī)則和綜合性的指標(biāo),并且在評估生成的樣本的真實性和變異性方面已被證明與人類的評估更加一致。越低的FID值意味著合成數(shù)據(jù)分布與真實數(shù)據(jù)分布之間的距離更近。
圖3:基線模型與我們的模型的訓(xùn)練曲線,利用了我們提出的穩(wěn)定技術(shù)
表1:GAN的Self-Attention與Residual塊的比較。這些塊被添加到網(wǎng)絡(luò)的不同層。所有模型都經(jīng)過100萬次迭代的訓(xùn)練,并報告最佳的Inception score(IS)和Fréchet初始距離(FID)。
圖4:基線模型和我們的模型隨機生成的128×128圖像樣本
圖5:attention maps的可視化。這些圖像都由SAGAN生成。
與state-of-the-art模型的比較
在ImageNet上,SAGAN與最先進的GAN模型[19,17]進行了比較。如表2所示,我們提出的SAGAN得到了Inception score和FID。Inception score方面,SAGAN將此前0最高的36.8提高到52.52;FID(18.65)也表明,SAGAN可以通過使用self-attention模塊對圖像區(qū)域之間的全局依賴關(guān)系進行建模,從而更好地模擬原始圖像的分布。圖6展示了由SAGAN生成的一些示例圖像。
表2: 將所提出的SAGAN與最先進GAN模型進行比較,任務(wù)是ImageNet上的類別條件圖像生成。
圖6:SAGAN 生成的不同類別的128×128分辨率示例圖像。每行展示一個類別的示例。
總結(jié)
在本研究中,我們提出自注意力生成對抗網(wǎng)絡(luò)(SAGAN),它將self-attention機制引入到GAN的框架。 self-attention 模塊在建模長相關(guān)性( long-range dependencies)方面很有效。另外,我們證明了應(yīng)用于生成器的譜歸一化可以穩(wěn)定GAN的訓(xùn)練,并且TTUR加速了正則化鑒別器的訓(xùn)練。SAGAN在ImageNet的分類條件圖像生成任務(wù)上達到最先進的性能。
-
圖像
+關(guān)注
關(guān)注
2文章
1086瀏覽量
40496 -
GaN
+關(guān)注
關(guān)注
19文章
1944瀏覽量
73662
原文標(biāo)題:Ian Goodfellow等提出自注意力GAN,ImageNet圖像合成獲最優(yōu)結(jié)果!
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論