DeepFakes技術(shù)的安全性已然成為輿論的焦點。而近日,來自加州大學伯克利分校和南加州大學的研究人員打造了一款AI識別系統(tǒng),能從Deepfake制假者未注意到的面部細節(jié)入手,準確"揪出"假視頻。
DeepFake假視頻的泛濫早已經(jīng)不只是惡搞和娛樂的問題了!這些假視頻衍生出的假新聞可能會成為2020美國大選的一場噩夢。
目前,越來越多的研究人員在努力尋找準確識別Deepfake的假視頻的方法。這場斗法已經(jīng)成為一場維護新聞真實性、甚至是關(guān)乎國家安全的一場軍備競賽。
近日,來自加州大學伯克利分校和南加州大學的研究人員在這場競賽中暫時走在了前面。他們打造的AI識別系統(tǒng),能從Deepfake制假者未注意到的面部細節(jié)入手,準確"揪出"假視頻。
現(xiàn)在使用神經(jīng)網(wǎng)絡和深度學習偽造的視頻,其質(zhì)量和生產(chǎn)速度可能讓即將到來的總統(tǒng)大選成為一場噩夢。但是,利用當前深度技術(shù)中被忽視的一些東西,研究人員發(fā)現(xiàn)了一種自動識別這些虛假視頻的新方法。
DeepFake不再可怕,精準判斷真?zhèn)?/p>
利用Deepfake生成視頻現(xiàn)在還遠遠算不上完美。這些視頻是利用互聯(lián)網(wǎng)上抓取的海量圖像庫創(chuàng)建的,早期生成的視頻分辨率一般很低(因為更容易隱藏缺陷),而且是過度壓縮的。但Deepfake技術(shù)的發(fā)展速度非常驚人,而且這個過程中,不斷改進生成視頻中的缺陷,比如假視頻中人物從不眨眼的缺陷,很快得到了改善,使這些生成的假視頻變得越來越逼真可信。
早期的Deepfake生成的假視頻缺陷明顯,比如人物說話時從不眨眼,現(xiàn)在這個缺陷已被修復
假視頻的生成與識別已經(jīng)成為一場軍備競賽,任何一方都不會很快徹底打垮對手。不過最近,來自加州大學伯克利分校和南加州大學的研究人員在這場戰(zhàn)斗中開發(fā)了出了新的武器,可以更加準確地識別偽造的視頻。研究人員利用前總統(tǒng)奧巴馬的現(xiàn)有視頻,使用類似的過程來創(chuàng)建假視頻,訓練AI來尋找每個人的“軟性生物識別”標簽。
這聽起來很復雜,其實這東西我們并不陌生。每當我們開口說話時,都會以微妙但獨特的方式來移動身體,我們的頭、手、眼睛甚至嘴唇都會產(chǎn)生這樣的運動。這一切都是在潛意識里完成的,你沒有意識到你的身體正在做這件事,大腦也沒有立刻意識到身體其他部位的運動發(fā)生在何時,但從結(jié)果上看,這是一個目前Deepfake在創(chuàng)造假視頻時的時候沒有考慮到的因素。
在實驗中,這款新的AI準確發(fā)現(xiàn)偽造視頻的幾率達到了92%,實驗對象包括使用多種技術(shù)創(chuàng)建的假視頻,以及由于視頻文件被過度壓縮導致圖像質(zhì)量下降的視頻。
下一步,研究人員還打算通過識別人聲的獨特節(jié)奏和特征,來進一步提高AI識別假視頻的成功率。但目前的實際情況是,Deepfake的發(fā)展和改進速度非???,可能會在2020年之前迎頭趕上,成功欺騙目前的AI識別工具。這可能是一場曠日持久的戰(zhàn)斗,最終誰會獲勝現(xiàn)在還很難講。
深度學習的最新進展使得創(chuàng)建復雜且引人注目的假視頻變得更加容易?,F(xiàn)在,普通人就可以利用相對適度的數(shù)據(jù)和計算力,炮制出一段名人的演講視頻,這些所謂的“Deepfake”視頻可能會對國家安全和社會構(gòu)成重大威脅。為了應對這種日益嚴重的威脅,本文提出了一種技術(shù),可以模擬人物說話時潛在的面部表情和動作。雖然這些動作看上去不顯眼,但制造假視頻的方法沒有注意這一點,因此可用于驗證視頻的真假。
我們假設,當一個人說話時,會做出不同的(但可能不是唯一的)面部表情和動作。給定單個視頻作為輸入,首先跟蹤面部和頭部運動,然后檢測并提取特定動作單元的存在性和強度。由此可以構(gòu)建一個能夠區(qū)分真假視頻的新的檢測模型。
圖1 上面所示是來自250幀剪輯片段中的五個等距幀,顯示了對OpenFace的跟蹤結(jié)果。下半部分為此視頻剪輯上測量的一個動作單元AU01(眉毛抬起)的程度。
我們使用開源面部行為分析工具包OpenFace2 來提取視頻中的面部和頭部運動。該數(shù)據(jù)庫為給定視頻中的每幀提供2-D和3-D面部地標位置、頭部姿勢、眼睛注視和面部動作單元。提取量度標準如圖1所示。
具體來說,首先要明確的是,不同的人在說話時會表現(xiàn)出相對不同的面部和頭部運動模式。而Deepfake假視頻往往會破壞這些模式,因為假視頻中的這些模式的表達由模仿算法控制,可能導致嘴巴與臉部的其他部分不自然的分離。
本文構(gòu)建了高度個人化的“軟生物識別指標”,并利用這些指標來區(qū)分真實和虛假視頻。與以前的方法不同,這種方法能夠有效應對laundering,因為該方法依賴于不易破壞的相對粗略的量度。
表1. POI正在講話的下載視頻和段的總持續(xù)時間,以及從段中提取的段和10秒剪輯的總數(shù)。
圖2.從上到下依次是原始視頻,嘴唇同步Deepfake假視頻、喜劇模仿視頻、換臉Deepfake和木偶大師deepfake的10秒視頻剪輯的五個示例幀。
圖3. 希拉里·克林頓(棕色),巴拉克·奧巴馬(淺灰色帶框),伯尼·桑德斯(綠色),唐納德·特朗普(橙色),伊麗莎白·沃倫(藍色)的190-D特征的二維可視化),隨機任務(粉色),以及奧巴馬的Deepfake假視頻(深灰色帶框)
實驗結(jié)果:總體識別準確率超過95%
表2:奧巴馬視頻的三種不同假陽性率(FPR)曲線下面積(AUC)和真陽性率(TPR)的總體準確度。上半部分對應于使用完整190個特征的10秒視頻片段和完整視頻片段的識別準確度。下半部分為于僅使用29個特征的識別準確度。
表3:希拉里·克林頓,伯尼·桑德斯,唐納德·特朗普和伊麗莎白沃倫的10秒視頻剪輯的總體識別準確度
表4:對喜劇模仿假視頻(黑色方塊),隨機人物假視頻(白色方塊),嘴唇同步Deepfake假視頻(黑色圓圈),換臉Deepfake假視頻(白色圓圈)和木偶大師Deepfake假視頻(黑色菱形)的識別準確度
圖5:(a)真實的樣本框架; (b)喜劇模仿假視頻樣本框架; (c)四個名人的換臉Deepfake假視頻的樣本框架
研究局限與未來方向
本文提出的方法與現(xiàn)有的基于像素的檢測方法相比,可以更好地抵御圖像壓縮的影響。不過我們也發(fā)現(xiàn),本方法的適用性容易受到人們說話的不同背景的影響(直面鏡頭正式講話,與不看鏡頭的現(xiàn)場采訪)。我們建議通過以下兩種方式來應對。
在各種多樣化環(huán)境中收集更大、更多樣化的視頻集,或者構(gòu)建幾位名人基于特定環(huán)境下的講話模型。除了這種背景環(huán)境效應之外,我們發(fā)現(xiàn)當演講人始終遠離鏡頭時,動作單元的可靠性可能會受到嚴重影響。為了解決這些局限性,建議通過語言分析來增強模型性能,更好地捕獲所說內(nèi)容與說法方式之間的相關(guān)性。
-
AI
+關(guān)注
關(guān)注
87文章
31338瀏覽量
269749 -
DeepFake
+關(guān)注
關(guān)注
0文章
15瀏覽量
6688
原文標題:DeepFakes天敵來了!伯克利緊急研發(fā)“火眼金睛”防偽克星
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論