近日,DeepMind的研究人員研發(fā)了一個名叫Dual Video Discriminator GAN(DVD-GAN)的人工智能模型,該模型通過能夠通過學習一系列的YouTube視頻數(shù)據集,生成高度逼真且連貫的256 x 256像素視頻,最長可達48幀。
目前,DVD-GAN的研究成果已于美國時間2019年7月15日發(fā)表在arxiv上,名為《在復雜數(shù)據集上的高效視頻生成(Efficient Video Generation on Complex Datasets)》。
AI造假視頻比造假圖片更難
最近,俄羅斯AI研究人員開發(fā)的FaceApp著實大火了一把,這款應用通過人工智能技術能夠改變用戶自拍照的年齡、外貌、發(fā)色和性別,甚至可以生成虛構的人物照片。這直接讓人們近距離地感受了人工智能技術給我們的生活帶來的樂趣。
但是否有人想過,有朝一日這些技術也能應用在視頻領域呢?
如果說BigGAN是DeepMind在圖像領域開發(fā)的能夠生成高度逼真圖像的圖像生成器,那么DeepMind研究人員們開發(fā)的DVD-GAN,就是人工智能在視頻剪輯生成領域的最新突破。
研究人員在論文中表示,生成自然視頻對生成式建模來說是一個較大的挑戰(zhàn),同時還會受到數(shù)據復雜性和計算需求增加的困擾。
因此,之前業(yè)界的研究人員們在研究視頻生成領域時,幾乎都圍繞著相對簡單的數(shù)據集,或者采用有限的時間信息來降低任務的復雜程度。
而這次,DeepMind的研究人員們主要針對視頻合成和視頻預測的任務,將生成圖像模型的強大功能和逼真效果擴展到視頻領域。
DVD-GAN:基于BigGAN模型結構
研究人員們基于BigGAN的模型結構,構建了DVD-GAN的系統(tǒng),并引入了一系列用于視頻生成的調整,使DVD-GAN能夠在Kinetics-600上進行訓練。
Kinetics-600是一組由50萬段10秒高分辨率的YouTube視頻剪輯匯編而成的訓練數(shù)據集,它最初是為識別人類動作而制作的,比目前其他常用的語料庫還大一個數(shù)量級。
同時,研究人員們表示,Kinetics-600具有多樣化特征,能消除他們對過擬合(Overfitting)的擔憂。過擬合主要是指機器學習時選擇的模型所包含的參數(shù)過多,以至出現(xiàn)這一模型對已知數(shù)據預測得很好,但對未知數(shù)據預測得很差的現(xiàn)象。
另一方面,DeepMind的研究人員們利用生成對抗以提供一個能生成動作的學習信號。
此外,DVD-GAN還有一個單獨的Transformer模塊,它可以讓學習信息在整合AI模型中傳播。
訓練12至96小時即可生成視頻
研究論文表明,在經過Google第三代TPU訓練了12至96個小時后,DVD-GAN可以成功地生成視頻,這些視頻內容包含了物體的組成和運動,以及各種復雜的紋理。
不足的是,DVD-GAN生成的視頻內容有時較為“詭異”,例如生成的物體和人形奇形怪狀,甚至人體忽長忽短地變化。
但研究人員指出,當把DVD-GAN放在UCF-101(一個包含13320個人類動作視頻的較小數(shù)據集)上進行評估后,DVD-GAN生成的樣本初始值最高為32.97。
DeepMind的研究人員們希望能進一步強調在大型復雜視頻數(shù)據集上訓練生成模型的好處,例如Kinetics-600。
“我們設想通過DVD-GAN在這個數(shù)據集上建立強大的基線,該基線將被用作未來建模生成領域的參考點?!毖芯咳藛T表示,“盡管在不受約束的環(huán)境下持續(xù)生成逼真的視頻還需要進行很多工作,但我們相信DVD-GAN是我們朝這個方向邁出的重要一步?!?/p>
網絡(GANs)來區(qū)分生成樣本和真實世界樣本,該網絡主要由生成器和判別器兩部分組成。
GANs曾被應用在把文字轉換成一幕幕的場景故事,或生成人造星系圖像等任務中。而研究人員們這次使用的是名為BigGANs的生成對抗網絡,該網絡以大批量和數(shù)百萬個參數(shù)而得名。
值得一提的是,DVD-GAN包含兩個判別器。一個是空間判別器(Spatial Discriminator:D_S),該判別器通過隨機采樣全分辨率幀并單獨處理,以評估單個幀的內容和結構;另一個是時間判別器(Temporal Discriminator:D_T),它可以提供一個能生成動作的學習信號。
此外,DVD-GAN還有一個單獨的Transformer模塊,它可以讓學習信息在整合AI模型中傳播。
結語:用AI生成高度逼真視頻的一次嘗試
不管是BigGAN還是FaceApp,以往的研究人員們在人工智能生成圖像領域進行了許多具有突破性的研究,但在視頻領域,除了AI換臉曾火了一把之外,并沒有更多的突破性進展。
而DeepMind的研究人員們基于BigGAN架構和Kinetics-600訓練數(shù)據集開發(fā)的DVD-GAN,利用計算高效的判別器分解,擴展到時間更長、分辨率更高的視頻。就目前來說,雖然這一成果還有些許不足,但這無疑是研究人員們利用AI生成高度逼真視頻的一次重要嘗試。
-
DVD
+關注
關注
3文章
134瀏覽量
61983 -
人工智能
+關注
關注
1793文章
47588瀏覽量
239465
原文標題:[機器人頻道|大事記]你擔心的就要成真,AI換臉不算啥,現(xiàn)在新AI可生成逼真視頻
文章出處:【微信號:robovideo,微信公眾號:機器人頻道】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論