眾所周知:視頻是可以P的。
這不,在CVPR 2022收錄的論文中,就出現(xiàn)了這么一個P圖神器,它可以分分鐘給你上演各種人像消失大法,不留任何痕跡。
去水印、填補缺失更是不在話下,并且各種分辨率的視頻都能hold住。
正如你所見,這個模型如此絲滑的表現(xiàn)讓它在兩個基準(zhǔn)數(shù)據(jù)集上都實現(xiàn)了SOTA性能。
△與SOTA方法的對比
同時它的推理時間和計算復(fù)雜表現(xiàn)也很搶眼:
前者比此前的方法快了近15倍,可以在Titan XP GPU上以每幀0.12秒的速度處理432 × 240的視頻;后者則是在所有比較的SOTA方法中實現(xiàn)了最低的FLOPs分?jǐn)?shù)。
如此神器,什么來頭?
改善光流法
目前很多視頻修復(fù)算法利用的都是光流法(Optical flow)。
也就是利用圖像序列中像素在時間域上的變化以及相鄰幀之間的相關(guān)性,找到上一幀跟當(dāng)前幀之間存在的對應(yīng)關(guān)系,從而計算出相鄰幀之間物體的運動信息。
這個方法的缺點很明顯:計算量大、耗時長,也就是效率低。
為此,研究人員設(shè)計了三個可訓(xùn)練模塊,分別為流完成(flow completion)、特征傳播(feature propagation)和內(nèi)容幻想(content hallucination),提出了一個流引導(dǎo)(flow-guided)的端到端視頻修復(fù)框架:
E2FGVI。
這三個模塊與之前基于光流的方法的三個階段相對應(yīng),不過可以進(jìn)行聯(lián)合優(yōu)化,從而實現(xiàn)更高效的修復(fù)過程。
具體來說,對于流完成模塊,該方法直接在mask viedo中一步完成操作,而不是像此前方法采用多個復(fù)雜的步驟。
對于特征傳播模塊,與此前的像素級傳播相比,該方法中的流引導(dǎo)傳播過程在特征空間中借助可變形卷積進(jìn)行。
通過更多可學(xué)習(xí)的采樣偏移和特征級操作,傳播模塊釋放了此前不能準(zhǔn)確進(jìn)行流估計的壓力。
對于內(nèi)容幻想模塊,研究人員則提出了一種時間焦點Transformer來有效地建??臻g和時間維度上的長程依賴關(guān)系。
同時該模塊還考慮了局部和非局部時間鄰域,從而獲得更具時間相關(guān)性的修復(fù)結(jié)果。
作者:希望成為新基線
定量實驗:
研究人員在數(shù)據(jù)集YouTube VOS和DAVIS上進(jìn)行了定量實驗,將他們的方法與之前的視頻修復(fù)方法進(jìn)行了比較。
如下表所示,E2FGVI在全部四個量化指標(biāo)上都遠(yuǎn)遠(yuǎn)超過了這些SOTA算法,能夠生成變形更少(PSNR和SSIM)、視覺上更合理(VFID)和時空一致性更佳(Ewarp)的修復(fù)視頻,驗證了該方法的優(yōu)越性。
此外,E2FGVI也具有最低的FLOPs值(計算復(fù)雜度),盡管訓(xùn)練是在432 × 240分辨率的視頻上進(jìn)行,它的HQ版本做到了支持任意分辨率。
定性實驗:
研究人員首先選擇了三種最有代表性的方法,包括CAP、FGVC(基于光流法)和Fuseformer(入選ICCV 2021),進(jìn)行對象移除(下圖前三行)和缺失補全(下圖后兩行)的效果比較。
可以發(fā)現(xiàn),前三種方法很難在遮擋區(qū)域恢復(fù)出合理的細(xì)節(jié)、擦除人物也會造成模糊,但E2FGVI可以生成相對真實的紋理和結(jié)構(gòu)信息。
此外,它們還選用了5種方法進(jìn)行了用戶研究,結(jié)果大部分人都對E2FGVI修復(fù)后的效果更滿意。
綜上,研究人員也表示,希望他們提出的方法可以成為視頻修復(fù)領(lǐng)域新的強大基線。
作者介紹
E2FGVI由南開大學(xué)和海思合作完成。
一作Li Zhen為南開大學(xué)博士生,共同一作Lu ChengZe也來自南開。
通訊作者為南開大學(xué)計算機學(xué)院教授程明明,主要研究方向是計算機視覺和圖形學(xué)。
目前,E2FGVI的代碼已經(jīng)開源,作者也提供了Colab實現(xiàn),未來還將在Hugging Face給出demo。
論文地址: https://arxiv.org/abs/2204.02663
GitHub主頁: https://github.com/MCG-NKU/E2FGVI
審核編輯 :李倩
-
計算機視覺
+關(guān)注
關(guān)注
8文章
1698瀏覽量
45993 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1208瀏覽量
24703
原文標(biāo)題:CVPR 2022 | 視頻P圖新SOTA:推理速度快近15倍,任意分辨率均可上演人像消失大法
文章出處:【微信號:CVSCHOOL,微信公眾號:OpenCV學(xué)堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論