生成對(duì)抗網(wǎng)絡(luò)GANs自從誕生以來(lái)就得到了各界的廣泛關(guān)注,在圖像領(lǐng)域的發(fā)展成果更是目不暇接,飛速的發(fā)展讓人眼花繚亂。但我們從另一個(gè)角度來(lái)審視GAN會(huì)發(fā)現(xiàn)這一領(lǐng)域還有很多問(wèn)題沒(méi)有公認(rèn)的理解,例如對(duì)如何評(píng)價(jià)GANs的表現(xiàn)人們還沒(méi)有達(dá)成共識(shí)。
最近,來(lái)自Google Brain的研究人員就GANs目前的研究狀況進(jìn)行了詳細(xì)深入的梳理,提出了GANs領(lǐng)域值得深入研究的七個(gè)問(wèn)題,讓我們得以窺視GANs未來(lái)的發(fā)展走向。
一、GANs與其他生成模型間的利弊權(quán)衡
除了GANs外,目前還包括流模型FlowModels和自動(dòng)回歸模型AutoregressiveModels兩種主要的生成模型。簡(jiǎn)單來(lái)說(shuō),流模型主要講一系列不可逆的變化轉(zhuǎn)換為從先驗(yàn)中的采樣,使模型可以計(jì)算精確的對(duì)數(shù)似然,而自回歸模型則將觀測(cè)的分布分解到了條件分布上,一次觀測(cè)只處理其中的一個(gè)(對(duì)于圖像來(lái)說(shuō),一次處理一個(gè)像素)。
最近的研究表明這幾種模型有著不同的表現(xiàn)特點(diǎn)和平衡方式,對(duì)這些平衡的特點(diǎn)及模型的內(nèi)稟屬性進(jìn)行精確的研究是十分有意義的方向。下面將從計(jì)算量上來(lái)分析模型間的差異。流模型可以計(jì)算出精確的對(duì)數(shù)似然和推理,看起來(lái)會(huì)讓GANs沒(méi)有用武之地。訓(xùn)練GANs是一項(xiàng)復(fù)雜的工作,需要很大的努力,F(xiàn)low模型的出現(xiàn)讓我們不禁擔(dān)心起GANs的發(fā)展,也許在訓(xùn)練中加入最大似然是不錯(cuò)的方法。
但計(jì)算量成為了一個(gè)無(wú)法回避的問(wèn)題。對(duì)于流模型的代表Glow來(lái)說(shuō),訓(xùn)練一張256*256的圖像生成器需要40個(gè)GPU耗時(shí)兩個(gè)星期訓(xùn)練200M參數(shù),而GANs訓(xùn)練1024*1024的生成器只需要在8GPU上用4天時(shí)間訓(xùn)練46M參數(shù)。這意味著流模型需要用17倍的時(shí)間才能訓(xùn)練出生成1/16大小的圖像。那么是什么造成了流模型的低效呢?研究人員認(rèn)為有兩個(gè)主要的原因,其一是極大似然估計(jì)比對(duì)抗樣本的訓(xùn)練更為復(fù)雜。
如果樣本中的元素被模型設(shè)置了0概率,那么懲罰將會(huì)變成無(wú)窮大!而GANs則通過(guò)間接的方式設(shè)置0概率,懲罰將會(huì)緩和的多。另一個(gè)方法來(lái)自于歸一化流(normalizedflows),研究人員認(rèn)為這是對(duì)于特定函數(shù)的一種低效表達(dá),但目前對(duì)于這一領(lǐng)域還沒(méi)有深入的研究。討論完流模型后我們?cè)賮?lái)看看自回歸模型。
有研究表明自回歸模型可以被表示為非并行化的流模型。從流模型中采樣必須是串行的過(guò)程,每次只能進(jìn)行一次觀測(cè)。同時(shí)也有研究表明,自回歸模型比流模型具有更高的運(yùn)行和參數(shù)效率。綜上所述,GANs是并行高效的計(jì)算模型,但是不具有回溯性;流模型具有回溯性和并行性,但是效率很低;自回歸模型雖然高效和回溯,但卻無(wú)法并行化處理。
到這里我們可以進(jìn)一步總結(jié)第一個(gè)問(wèn)題:
GANs和其他生成模型間最基本的trade-offs到底是什么?
我們能不能在這個(gè)領(lǐng)域建立起類似CAP利用的方法來(lái)描述可逆性、并行性和參數(shù)/時(shí)間效率呢?
其中一個(gè)可能的方向是研究更多的混合模型,但混合的流模型/GAN模型目前的研究還很少。研究人員認(rèn)為極大似然訓(xùn)練比GAN訓(xùn)練更為困難,流模型參數(shù)的表達(dá)能力很很可能比任意編碼器函數(shù)低,但需要一定的假設(shè)來(lái)進(jìn)行證明。
二、GANs可以為什么樣的分布建模呢?
目前絕大多數(shù)的GANs集中在圖像領(lǐng)域,研究人員們常常在MNIST,CIFAR-10,STL-10,CelebA,和Imagenet上進(jìn)行訓(xùn)練。通常來(lái)講,MNIST和CelebA上的訓(xùn)練比Imagenet,CIFAR-10,STL-10上的訓(xùn)練更為容易,很多人都注意到類別數(shù)的上升是GANs難以訓(xùn)練ImageNet的原因。這也使得先進(jìn)的網(wǎng)絡(luò)在CelebA上的生成結(jié)果比ImageNet上的結(jié)果更。然而我們需要對(duì)這些在大數(shù)據(jù)集上訓(xùn)練所觀察到的結(jié)果進(jìn)行科學(xué)的解釋,研究人員希望在未來(lái)能夠有一定的理論和標(biāo)準(zhǔn)來(lái)判斷一個(gè)數(shù)據(jù)集是否適合用GANs訓(xùn)練。這一領(lǐng)域的研究已經(jīng)開(kāi)始,但未來(lái)還有廣泛的發(fā)展空間。所以我們可以將第二個(gè)問(wèn)題表示為下面的陳述:
對(duì)于給定數(shù)據(jù)集,我們可以給出用GANs構(gòu)建其分布的難以程度嗎?
那么一系列新的問(wèn)題隨之而來(lái):為分布建模的定義是什么?我們需要的是一個(gè)下界表示還是真實(shí)的稠密模型?是不是存在GANs無(wú)法建模的分布?是不是存在一些可以學(xué)習(xí)但建模效率很低的分布?針對(duì)上述問(wèn)題的答案,與其他生成模型相比GANs是不是具有獨(dú)特的性質(zhì)?針對(duì)上述問(wèn)題,研究人員提出了兩個(gè)策略:1.合成數(shù)據(jù)集??梢酝ㄟ^(guò)對(duì)合成數(shù)據(jù)集的研究探索影響可學(xué)習(xí)性的因素;2.改進(jìn)現(xiàn)有的理論結(jié)果??梢孕薷默F(xiàn)有理論的假設(shè)來(lái)對(duì)數(shù)據(jù)集的不同特性進(jìn)行研究,例如我們可以觀察GANs對(duì)于單模數(shù)據(jù)和多模數(shù)據(jù)的表現(xiàn)差異來(lái)進(jìn)行探索。
三、GANs如何實(shí)現(xiàn)超越圖像合成的廣泛應(yīng)用?
除了圖像和合成、風(fēng)格遷移等域適應(yīng)的應(yīng)用,在圖像領(lǐng)域外GANs的應(yīng)用主要集中于以下三個(gè)方面:1.文本。文字天然的離散特性對(duì)于GANs的處理來(lái)說(shuō)十分困難,這主要由于GANs的訓(xùn)練需要將判別器的信號(hào)輸入生成器進(jìn)行反向傳播。目前主要有兩種方法來(lái)解決這一問(wèn)題,一方面將GANs應(yīng)用于離散數(shù)據(jù)的連續(xù)表達(dá)上,另一方面則利用實(shí)際的離散模型基于梯度估計(jì)來(lái)訓(xùn)練GAN,但目前這些方法的表現(xiàn)都還低于基于似然的語(yǔ)言模型。2.結(jié)構(gòu)化數(shù)據(jù)。那么對(duì)于像圖這類非歐式的結(jié)構(gòu)化數(shù)據(jù)該如何應(yīng)用GANs呢?雖然像圖卷積等模型已經(jīng)取得了一定的成績(jī),但GANs在這方面的探索十分有限,目前研究人員正嘗試?yán)蒙善鞯玫诫S機(jī)游走來(lái)重組來(lái)自原始圖中的結(jié)構(gòu)化信息。3.音頻。GANs在音頻領(lǐng)域很有希望獲得與圖像領(lǐng)域一樣的成功,在非監(jiān)督音頻合成等方面取得了一系列結(jié)果。最新的研究甚至可以在某些感知指標(biāo)上超過(guò)自動(dòng)回歸模型的表現(xiàn)。那么對(duì)于在非圖像數(shù)據(jù)上的第三個(gè)問(wèn)題就歸結(jié)為下面的表述:
如何使GANs在非圖像數(shù)據(jù)上取得良好的結(jié)果?將GANs用于這些不同的域上是否需要新的訓(xùn)練技術(shù)、或者更為完善的先驗(yàn)?zāi)兀?/p>
我們需要思考怎樣才能讓GANs在這些域中實(shí)現(xiàn)有效的訓(xùn)練和學(xué)習(xí)。特別對(duì)于離散的結(jié)構(gòu)化數(shù)據(jù)來(lái)說(shuō),未來(lái)也許會(huì)引入強(qiáng)化學(xué)習(xí)對(duì)生成器和判別器進(jìn)行訓(xùn)練,這需要強(qiáng)大計(jì)算資源的支撐和基礎(chǔ)研究的幫助。
四、GANs在訓(xùn)練中的全局收斂性是怎樣的?
GANs的訓(xùn)練的特殊性在于我們需要同時(shí)優(yōu)化生成器和判別器,目前的論文在嚴(yán)格的假設(shè)下已經(jīng)證明同時(shí)優(yōu)化時(shí)局域漸進(jìn)穩(wěn)定的。但我們卻難以證明訓(xùn)練過(guò)程具有全局的通用性。這主要是由于生成器/判別器的損失是參數(shù)的非凸函數(shù),那么問(wèn)題來(lái)了:
我們?nèi)绾尾拍茏C明GANs是全局收斂的?哪一種神經(jīng)網(wǎng)絡(luò)的收斂結(jié)果可以應(yīng)用于GANs上呢?
目前有三個(gè)方面的探索在致力于解決這一問(wèn)題:1.簡(jiǎn)化假設(shè)。例如可以使用LGQGAN來(lái)簡(jiǎn)化假設(shè),利用線性生成器、高斯分布的數(shù)據(jù)和二次判別器的假設(shè),可以利用特殊的優(yōu)化技術(shù)得到全局收斂的證明;2.利用歸一化神經(jīng)網(wǎng)絡(luò)。當(dāng)網(wǎng)絡(luò)變大時(shí)低質(zhì)量的局域極小值出現(xiàn)的可能將會(huì)指數(shù)下降,這種特性也許對(duì)GANs同樣有效;3.博弈論 。利用納什均衡等理論來(lái)解決全局收斂性的問(wèn)題。
五、如何評(píng)測(cè)GANs?
目前在GANs中流行的評(píng)價(jià)指標(biāo)主要包括感知分?jǐn)?shù)(IS)和弗雷歇感知距離(FID)、多層級(jí)結(jié)構(gòu)相似性(MS-SSIM),幾何評(píng)分(GeometryScore),精度和召回率(PrecisionandRecall),AIS和SkillRating等。目前廣泛采用的是感知類指標(biāo),但人們對(duì)于GANs評(píng)價(jià)更多的疑惑卻也同時(shí)來(lái)自于合適該使用GAN,那么第五個(gè)問(wèn)題就將這一疑問(wèn)歸結(jié)為:
何時(shí)我們?cè)撌褂肎ANs?我們?cè)撊绾卧u(píng)測(cè)GANs在這些任務(wù)上的表現(xiàn)?
我們應(yīng)該明確使用GANs的目的,如果你想得到真實(shí)的稠密模型GANs并不是一個(gè)很好的選擇.GANs適用于感知偏好的任務(wù),例如圖像合成、風(fēng)格遷移等都是GANs可以大展身手的場(chǎng)景。對(duì)于感知任務(wù),目前主要使用分類器(C2STs)來(lái)進(jìn)行評(píng)測(cè),但生成器的缺陷會(huì)對(duì)評(píng)價(jià)造成系統(tǒng)性的影響。一種不依賴于單因素的全局評(píng)價(jià)方法是未來(lái)的發(fā)展方向。最后,人類評(píng)價(jià)雖然昂貴但是必不可少的。未來(lái)可能會(huì)通過(guò)預(yù)測(cè)人類的感知情況來(lái)代替評(píng)價(jià),但出現(xiàn)較大不確定度時(shí)才需要人類的介入。
六、如何使用較大的批次訓(xùn)練GANs呢?
提升分類網(wǎng)絡(luò)訓(xùn)練速度的大規(guī)模minibatches是否能加速GANs的訓(xùn)練呢?但GANs中存在一系列會(huì)導(dǎo)致訓(xùn)練發(fā)散的瓶頸,使得提高批量大小的方法并不容易達(dá)到,我們需要探索下面的問(wèn)題:
如何通過(guò)批量大小提升GANs的訓(xùn)練效率?梯度噪聲在GANs訓(xùn)練中扮演著多重要的角色?是否可以對(duì)GANs進(jìn)行一系列改進(jìn)來(lái)適應(yīng)更大的批大小呢?
有跡象表明增加批大小可以改善結(jié)果并減少訓(xùn)練時(shí)間,但還缺乏系統(tǒng)的研究。研究人員目前從優(yōu)化輸運(yùn)GANs和異步SGD等方面探索了增大批的可能性,但這個(gè)方向仍然有很多的問(wèn)題等待我們?nèi)ヌ剿鳌?/p>
七、GANs和對(duì)抗樣本的關(guān)系如何?
眾所周知分類器很容易受到對(duì)抗樣本的影響,魯棒性不強(qiáng)??紤]到判別器通常也基于圖像分類器而構(gòu)建,針對(duì)GANs的對(duì)抗樣本研究具有重要的意義,但關(guān)注GANs與對(duì)抗樣本間關(guān)系的文章卻很少,所以最后一個(gè)問(wèn)題就是:
判別器的對(duì)抗魯棒性如何影響GAN的訓(xùn)練過(guò)程?
我們可以假設(shè)存在一個(gè)固定的判別器D,存在這樣一個(gè)生成樣本G(z),判別器判別G(z)為假但卻將加了擾動(dòng)的生成樣本G(z)+p判定為真。我們似乎可以更新生成器來(lái)獲得更魯棒的結(jié)果G’=G(z)+p.但由于每次訓(xùn)練梯度只能進(jìn)行一次更新、同時(shí)每個(gè)批次各不相同,這樣的方法在現(xiàn)實(shí)中不太可能存在。但如果可以尋找到一種方式研究這一相關(guān)性并提升模型的精度與穩(wěn)定性將是充滿前景的研究方向!GANs是AI研究中最為前沿和活躍的領(lǐng)域之一,這篇文章從生成對(duì)抗的本質(zhì)、數(shù)據(jù)、收斂、應(yīng)用和評(píng)測(cè)等方面給出了一系列尚未解決的問(wèn)題,這些存在問(wèn)題和挑戰(zhàn)的地方也是未來(lái)將發(fā)展的前進(jìn)的方向,希望這些問(wèn)題和方向能夠啟發(fā)各位小伙伴研究的新思路。
-
GaN
+關(guān)注
關(guān)注
19文章
1935瀏覽量
73452 -
模型
+關(guān)注
關(guān)注
1文章
3244瀏覽量
48847 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1208瀏覽量
24704
原文標(biāo)題:七問(wèn)生成對(duì)抗:谷歌大腦研究員提出未來(lái)GANs研究的七個(gè)深入方向
文章出處:【微信號(hào):thejiangmen,微信公眾號(hào):將門創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論