谷歌研究院近日發(fā)布了一款名為L(zhǎng)umiere的文生視頻擴(kuò)散模型,基于自家研發(fā)的Space-Time U-Net基礎(chǔ)架構(gòu),獨(dú)立生成具有高效、完整且動(dòng)作連貫性的視頻效果。
該公司指出,當(dāng)前眾多文生視頻模型普遍存在無(wú)法生成長(zhǎng)時(shí)、高品質(zhì)及動(dòng)作連貫的問(wèn)題。這些模型往往采用“分段生成視頻”策略,即先生成少量關(guān)鍵幀,再借助時(shí)間超級(jí)分辨率(TSM)技術(shù)生成其間的視頻文件。盡管此策略可減緩RAM負(fù)擔(dān),但難以生成理想的連續(xù)視頻效果。
針對(duì)此問(wèn)題,谷歌的Lumiere模型創(chuàng)新地引入了新型Space-Time U-Net基礎(chǔ)架構(gòu),這種架構(gòu)能在空間和時(shí)間兩個(gè)維度同時(shí)降低信號(hào)采樣率,使其具備更高的計(jì)算效率,進(jìn)而實(shí)現(xiàn)生成更具持續(xù)性、動(dòng)作連貫的視頻效果。
此外,開(kāi)發(fā)者們特別說(shuō)明,Lumiere每次可生成80幀視頻(在16FPS模式下相當(dāng)于5秒視頻,或在24FPS模式下為約3.34秒視頻)。盡管這一時(shí)光貌似短暫,然而他們強(qiáng)調(diào),事實(shí)上,這段5秒視頻所包含的鏡頭時(shí)長(zhǎng)已超出大多數(shù)媒體作品中單一鏡頭的平均時(shí)長(zhǎng)。
除運(yùn)用架構(gòu)創(chuàng)新以外,作為AI構(gòu)建基礎(chǔ)的預(yù)訓(xùn)練文生圖像模型也得到了谷歌團(tuán)隊(duì)的特別關(guān)注。該模型首次生成簡(jiǎn)單像素草稿作為視頻分幀,然后借助空間超分辨率(SRM)模型,逐步提高分幀分辨率,同時(shí)引入通用生成框架Multi-Diffusion以增強(qiáng)模型穩(wěn)定性,從而確保最終輸出的視頻效果一致且連續(xù)。
-
谷歌
+關(guān)注
關(guān)注
27文章
6178瀏覽量
105700 -
RAM
+關(guān)注
關(guān)注
8文章
1369瀏覽量
114826 -
AI
+關(guān)注
關(guān)注
87文章
31317瀏覽量
269660 -
模型
+關(guān)注
關(guān)注
1文章
3279瀏覽量
48978
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論