DeepMind把GAN又玩出了新花樣!這次推出的是雙視頻判別器GAN,通過對(duì)判別器更高效的分解,生成的視頻樣本在長度和分辨率上都遠(yuǎn)高于此前最好水平,在多個(gè)合成和預(yù)測視頻數(shù)據(jù)集上刷新了SOTA。
也許你聽說過FaceApp,這是一款利用AI來改變自拍的移動(dòng)應(yīng)用程序,你可能也聽說過“這些人物都不存在”網(wǎng)站,它可以顯示計(jì)算機(jī)生成的虛構(gòu)人物照片。但是生成完完全全的新視頻的算法你聽說過嗎?最近,DeepMind的一篇最新論文詳細(xì)介紹了AI剪輯生成領(lǐng)域的最新進(jìn)展。
論文地址:
https://arxiv.org/pdf/1907.06571.pdf
研究人員表示,由于“高效計(jì)算”組件和技術(shù)的使用,再加上新的定制數(shù)據(jù)集,他們訓(xùn)練出的最佳性能模型:雙視頻鑒別器GAN(DVD-GAN)可以生成“高保真度”的連貫256 x 256像素視頻,幀數(shù)高達(dá)48幀。
DVD-GAN這個(gè)簡稱由Ian Goodfellow“欽定”
“生成自然視頻對(duì)于生成建模任務(wù)來說是一個(gè)明顯更困難的挑戰(zhàn),受到數(shù)據(jù)復(fù)雜性和計(jì)算要求增加的困擾,”共同作者寫道?!俺鲇谶@個(gè)原因,許多關(guān)于視頻生成的先前研究都圍繞著相對(duì)簡單的數(shù)據(jù)集或可獲得強(qiáng)時(shí)間條件信息的任務(wù)。我們的研究則關(guān)注視頻合成和視頻預(yù)測的任務(wù)......并將生成圖像模型的成果擴(kuò)展到視頻領(lǐng)域?!?/p>
研究人員圍繞尖端AI架構(gòu)構(gòu)建系統(tǒng),并專門針對(duì)視頻進(jìn)行了特定的調(diào)整,使其能夠在Kinetics-600上進(jìn)行訓(xùn)練,這是一個(gè)比常用語料庫大一個(gè)數(shù)量級(jí)的自然視頻數(shù)據(jù)集。具體來說,研究人員利用擴(kuò)大的生成對(duì)抗網(wǎng)絡(luò)(GAN),它已應(yīng)用于多種轉(zhuǎn)換任務(wù),比如將字幕轉(zhuǎn)換為逐個(gè)場景的情節(jié)板,生成人造星系的圖像等。本文中采用的是BigGAN,以大批量和數(shù)百萬個(gè)參數(shù)而著稱。
DVD-GAN:雙判別器,非約束數(shù)據(jù)集無需擔(dān)心過擬合
一組4秒合成視頻剪輯,由Kinetics-600在128×128幀上訓(xùn)練
DVD-GAN包含兩個(gè)判別器:一個(gè)空間判別器,通過隨機(jī)采樣全分辨率幀并單獨(dú)處理,來評(píng)判單幀的內(nèi)容和結(jié)構(gòu),還有一個(gè)是時(shí)間判別器,負(fù)責(zé)提供學(xué)習(xí)信號(hào)來生成運(yùn)動(dòng)。此外還有一個(gè)單獨(dú)的模塊:變換器,讓學(xué)習(xí)到的信息在整個(gè)AI模型中傳播。
至于訓(xùn)練數(shù)據(jù)集(Kinetics-600),這是根據(jù)最初為人類行為識(shí)別策劃的500,000個(gè)10秒高分辨率YouTube剪輯編制的,研究人員稱該數(shù)據(jù)集具有“多樣化”和“非受限”的特點(diǎn),他們聲稱這些特征消除了過擬合的風(fēng)險(xiǎn)。(在機(jī)器學(xué)習(xí)中,過擬合是指與特定數(shù)據(jù)集過于緊密對(duì)應(yīng)的模型,因此無法可靠地預(yù)測未來的觀測結(jié)果。)
該團(tuán)隊(duì)在論文中表示,在經(jīng)過Google加速的第三代TPU訓(xùn)練12到96小時(shí)后,DVD-GAN成功創(chuàng)建了包括目標(biāo)結(jié)構(gòu)、移動(dòng),甚至是復(fù)雜紋理的視頻。模型還盡力在更高的分辨率下創(chuàng)建連貫的物體,物體的運(yùn)動(dòng)組成像素更多。但研究人員指出,在UCF-101(13,320個(gè)人類行為視頻的較小數(shù)據(jù)集)上評(píng)估時(shí),DVD-GAN生成的樣本的最好成績分?jǐn)?shù)為32.97。
“我們希望進(jìn)一步強(qiáng)調(diào)在大型復(fù)雜視頻數(shù)據(jù)集(如Kinetics-600)上訓(xùn)練生成模型的好處,”論文中寫道。“我們想通過DVD-GAN在此數(shù)據(jù)集上建立的強(qiáng)大基線標(biāo)準(zhǔn),作為生成建模社區(qū)的參考標(biāo)桿。雖然在非約束的環(huán)境下,要想始終如一地生成逼真的視頻還有很多工作要做,但我們相信,DVD-GAN是朝這個(gè)方向邁出的堅(jiān)實(shí)一步?!?/p>
-
GaN
+關(guān)注
關(guān)注
19文章
1947瀏覽量
73677 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1208瀏覽量
24737 -
DeepMind
+關(guān)注
關(guān)注
0文章
130瀏覽量
10882
原文標(biāo)題:DeepMind把GAN玩出新花樣!基于BigGAN,生成高保真視頻
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論