據(jù)披露,阿里巴巴研發(fā)部門近期推出了一款名為 AtomoVideo 的高保真 I2V(即 Image to Video)框架,可將靜態(tài)圖像轉(zhuǎn)化成精美的視頻內(nèi)容。其主要特點(diǎn)有:
1. 高保真度:生成視頻與輸入圖片在細(xì)節(jié)和風(fēng)格上保持一致;
2. 運(yùn)動連貫:視頻流暢無跳躍,保證時間上的連續(xù)性;
3. 視頻幀預(yù)測:通過精確的預(yù)測來支持長時延視頻序列生成;
4. 兼容性強(qiáng):適配現(xiàn)有各式各樣的 T2I(Text-to-image)模型;
5. 高語義控制力:能夠針對客戶特殊需求,打造個性化的視頻內(nèi)容。
AtomoVideo運(yùn)用預(yù)設(shè)的 T2I 模型,在每個空間卷積層和注意力層后新增一維時空卷積和注意力模塊。現(xiàn)有的 T2I 模型參數(shù)固定不變,它們只會訓(xùn)練新增的時空層,而輸入的串聯(lián)圖像信息由 VAE 編碼解析,這代表的是低層次信息,有利于提高視頻對輸入圖像的還原度。此外,團(tuán)隊(duì)還使用 Cross-Attention 的方法融入高級圖像語義,以加強(qiáng)圖像語義可控性。
目前,該項(xiàng)目僅發(fā)布了論文和演示視頻,尚未開放線上試用途徑。另外,阿里巴巴已開啟 GitHub 賬號,但現(xiàn)在只是作為官方網(wǎng)站的托管地,并不包含相關(guān)代碼分享。
-
圖像
+關(guān)注
關(guān)注
2文章
1085瀏覽量
40491 -
阿里巴巴
+關(guān)注
關(guān)注
7文章
1617瀏覽量
47261 -
模型
+關(guān)注
關(guān)注
1文章
3254瀏覽量
48883
發(fā)布評論請先 登錄
相關(guān)推薦
評論