利用深度學習“換臉”合成假視頻的技術發(fā)展之快令人驚嘆,也令人深感不安。但是,道高一尺魔高一丈,研究人員已經(jīng)研究出一種新方法來檢測這些被操縱的換臉視頻的“跡象”:這是普通人都會注意到的一個缺陷:缺少眨眼。
紐約州立大學奧爾巴尼分校計算機科學系的研究人員最近發(fā)表了一篇題為“In Ictu Oculi:通過檢測眨眼來揭露AI產(chǎn)生的換臉假視頻”。論文詳細介紹了他們如何組合兩個神經(jīng)網(wǎng)絡,從而更有效地揭露哪些視頻是AI合成的。這些視頻往往忽略了“自發(fā)的、無意識的生理活動,例如呼吸、脈搏和眼球運動”。
研究人員指出,人類靜止時的眨眼頻率平均為每分鐘17次;當一個人說話時,眨眼頻率增加到每分鐘26次,閱讀時則減少到每分鐘4.5次。研究人員補充說,這些區(qū)別值得注意,“因為視頻上正在說話的發(fā)言者,被拍攝時可能實際上正在閱讀。”因此,當視頻中某個正在說話的人完全不眨眼,很容易就能看出這段錄像是假的。
深度學習技術產(chǎn)生的假視頻(deepfake videos)中的主體不會眨眼,原因之一是:大多數(shù)提供給神經(jīng)網(wǎng)絡的訓練數(shù)據(jù)集不包含閉眼的照片,因為人們在網(wǎng)上公開的照片通常都是睜眼的。這是必然的結果,因為創(chuàng)造deepfake視頻需要手機大量的個人照片,而這個過程可以通過開源的照片抓取工具從網(wǎng)絡上獲取公開照片。
之前的論文已經(jīng)指出,缺乏眨眼是檢測deepfakes的一種方法,但奧爾巴尼大學的研究人員表示,他們的系統(tǒng)比之前提出的檢測方法更準確。之前的研究使用眼睛長寬比(EAR)或卷積神經(jīng)網(wǎng)絡(CNN)分類器來檢測眼睛是睜開著還是閉著。新的研究里,研究人員將基于CNN的方法與遞歸神經(jīng)網(wǎng)絡(RNN)結合起來,這種方法除了考慮單個視頻幀之外,還考慮以前的眼睛的狀態(tài)。
LRCN方法的概覽
與單純的CNN模型不同,研究人員表示,他們的長期遞歸卷積網(wǎng)絡( Long-term Recurrent Convolutional Network ,LRCN)方法可以“有效地預測眼睛狀態(tài),從而可以更加準確?!备鶕?jù)論文,這種方法的準確率為0.99,相比之下,CNN的準確率為0.98,而EAR的準確率為0.79。
LRCN和CNN、EAR方法的結果比較
至少,研究人員的發(fā)現(xiàn)表明,我們有辦法揭露機器學習技術創(chuàng)造出來的非常逼真假視頻。例如,一個叫做Deep Video Portraits的新系統(tǒng)能給視頻中的人物“換臉”,甚至可以再現(xiàn)臉部的動作、面部表情、說話口型和實現(xiàn)方向。
Deep Video Portraits
令人欣慰的是,研究人員正在尋找識別假視頻的方法,特別是因為這項技術可能被濫用,以及可能促進假新聞的傳播。但這些檢測方法是否會超過deepfake技術的發(fā)展速度,還有待觀察。
“在我個人看來,最重要的是,公眾必須意識到現(xiàn)代技術在視頻生成和編輯方面的有很大的能力,”斯坦福大學訪問助理教授Michael Zollhofer在一篇博客文章中寫道:“這將使他們更批判性地思考自己每天消費的視頻內容,尤其是在視頻內容沒有來源證明的情況下?!?/p>
-
神經(jīng)網(wǎng)絡
+關注
關注
42文章
4771瀏覽量
100766 -
機器學習
+關注
關注
66文章
8418瀏覽量
132635 -
深度學習
+關注
關注
73文章
5503瀏覽量
121162
原文標題:反“換臉”魔高一丈:新方法識別假視頻正確率達99%
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論