眾所周知,利用 Deepfake 技術可以自動生成虛假圖像,輕松達到以假亂真的結果。但這還不夠,隨著該技術的不斷升級,它還有更多意想不到的應用正在被挖掘?,F(xiàn)在,一個能更加方便快捷創(chuàng)建虛假視頻和錯誤信息的方法出現(xiàn)了。
在最新的深度技術突破中,研究人員展示了一種新方法,該方法使用機器學習技術讓用戶編輯視頻文本內(nèi)容,來添加、刪除或更改視頻人物中的話語。
也就是說,如果你想對一段人物特寫視頻進行重新編輯,只需要對視頻所對應的文本內(nèi)容進行修改,隨后人臉會根據(jù)修改的文本內(nèi)容作出與之相配的動作表達。
研究人員在一段視頻講解中給出了一些例子,比如將電影《現(xiàn)代啟示錄》中的一段人物特寫鏡頭中的臺詞“我喜歡早晨的汽油彈的氣味”更改為“我喜歡早晨的法國土司的味道。”隨著臺詞的變化,系統(tǒng)自動會重新合成人物的臉部發(fā)聲動作,給出編輯后的視頻。
這項研究由斯坦福大學、馬克斯普朗克信息學研究所、普林斯頓大學和 Adobe 研究所的科學家共同合作完成,它表明人們能夠更輕松地編輯視頻人物所說的內(nèi)容并制作逼真的虛假視頻。
研究人員認為,他們的方法完全朝著基于文本編輯和合成一般視聽內(nèi)容的目標邁出了重要一步。
不過,該方法目前正處于研究階段,普通用戶還不能使用,但市面上已經(jīng)有類似的軟件。Adobe 就發(fā)布了一個叫 VoCo 原型軟件,該方法允許用戶像編輯圖片一樣輕松編輯語音內(nèi)容。
但該系統(tǒng)給出的結果要更加精細。根據(jù)論文《基于文本的頭部特寫視頻編輯》(https://www.ohadf.com/projects/text-based-editing/data/text-based-editing.pdf)介紹,該系統(tǒng)的輸入包括講話的頭部特寫視頻、講話的文本和指定的編輯操作,他們的工具支持三種類型的編輯操作:
增加新單詞:編輯器在視頻中的某一點添加一個或多個連續(xù)的單詞。
重新排列現(xiàn)有的單詞:編輯移動一個或多個存在于視頻中的單詞。
刪除現(xiàn)有單詞:編輯從視頻中刪除一個或多個單詞。
為了做出虛假視頻,研究者們主要分為五個階段來處理視頻。在音位排列階段,他們將轉錄文本與視頻進行比對,然后在跟蹤重建階段,用視頻生成了一個三維參數(shù)頭部模型。每個輸入視頻完成這樣的預處理步驟,然后執(zhí)行視位搜索(viseme search),在編輯器中找到音素的子序列和輸入視頻中音素的子序列之間的最佳視覺匹配。研究者們還提取了編輯位置周圍的區(qū)域作為背景序列,從中提取背景像素和姿態(tài)數(shù)據(jù)。對于每個子序列他們混合三維頭部模型的參數(shù),然后加上背景像素,最終呈現(xiàn)一個真實的全畫幅視頻(full-frame video)。
(注:視覺音素 / 視素(visual phoneme/viseme)是嘴唇和面部的姿勢或表達,其對應于特定的語音(音素),是具備可理解度的基本視覺單元。在計算機動畫中,我們可以使用視覺音素來制作虛擬角色的動作,令它們看起來像是在說話。)
當有人編輯視頻的文本內(nèi)容時,系統(tǒng)會將所有這些收集的數(shù)據(jù)(音素、視位和 3D 臉部模型)組合在一起,以構建與文本輸入相匹配的新素材,然后將其粘貼到源視頻上以創(chuàng)建最終的結果。
研究人員還將他們的方法與其他對講視頻合成技術進行了比較。他們分別用 5% 、10%、50% 和 100% 的訓練數(shù)據(jù)來測試結果。使用 100% 的數(shù)據(jù)量,每幅圖像的平均 RMSE(標準誤差) 為 0.018,使用 50% 的數(shù)據(jù)量為 0.019,只使用 5%的數(shù)據(jù)量為 0.021 。
他們還用各種合成短語進行測試,發(fā)現(xiàn)短語長度與結果質量沒有直接關系。而組成短語的視位和音素對齊質量等其他因素會影響最終結果。
他們還嘗試將 MorphCut 應用于單詞的加法問題。MorphCut 在兩幀圖像之間產(chǎn)生一個大的頭部跳躍。
將檢索到的viseme序列與MorphCut拼起來生成一個新單詞
同時,他們與 Face2Face[Thiesetal.2016]方法進行了比較,他們的方法生成了高質量結果,而基于檢索的 Face2Face 方法顯示出鬼影現(xiàn)象,并且不穩(wěn)定。
與 Face2Face 進行比較
為了定量評估基于文本的編輯系統(tǒng)生成的視頻質量,研究人員發(fā)起了一項基于 web 的用戶測試研究,參與者有 138 名。
在向 138 名志愿者進行虛假視頻的測試時,大約 60% 的參與者認為編輯過的視頻是真實的,雖然這個數(shù)據(jù)聽起來不怎么好,但另一數(shù)據(jù)顯示,同一組內(nèi)只有 80% 的參與者認為原始未經(jīng)編輯的鏡頭才是合理的。(研究人員指出,這可能是因為一些人在測試前被告知他們的答案會用于視頻編輯研究,這意味著受試者已經(jīng)準備好要找到虛假視頻。)
以上評估表明,他們的方法展示了令人信服的結果,但該研究也存在一定的局限性,還有進一步優(yōu)化的空間。
例如,新的合成方法需要重新計時(re-timed)的背景視頻作為輸入,但重新計時會改變動作的速度,因此眨眼和手勢可能不再與講話動作完全一致,為了減少這種影響,他們使用了比實際編輯更長的重新計時區(qū)間以修改更多原始視頻片段。
這里的算法只能用于對特寫風格的視頻施加影響,并且這需要 40 分鐘的輸入數(shù)據(jù)。編輯過的語音似乎與源材料的差別不大,并且在最優(yōu)質的虛假視頻中,研究人員要求拍攝對象錄制新的音頻以匹配這種變化,然后用 AI 生成視頻。
研究人員還指出,他們還不能改變?nèi)宋镎f話聲音的情緒或語調,因為這樣做會產(chǎn)生“不可思議的結果”,例如,如果人物在說話時揮手對臉部進行遮擋會讓算法完全失效。
在未來,研究人員指出,端到端學習可以用來學習一種從文本到視聽內(nèi)容的直接映射。
這些局限性始終存在于早期研究中,不過研究人員可以保證它們能夠及時得到克服,這意味著任何人都可以在沒有技術培訓的情況下使用系統(tǒng)來編輯人們在視頻中所說的內(nèi)容。
這項技術的潛在危害非常令人擔憂,該領域的研究人員經(jīng)常因未能考慮可能濫用其研究而受到批評。但參與這一特定項目的科學家表示,他們已經(jīng)考慮過這些問題。
在這篇論文附帶的博客文章中,他們寫道:“雖然圖像和視頻處理的方法與媒介本身一樣久遠,但當其應用于思想和意圖等權威證據(jù)的交流方式時,濫用的風險會更高?!八麄円渤姓J,不法分子可能會使用此類技術偽造個人陳述并用于誹謗知名人士。
為了防止人們混淆原始視頻和虛假視頻,他們給出的解決方案是人工智能編輯的視頻應該通過使用水印或通過上下文直接清楚地呈現(xiàn)(例如觀眾理解他們正在觀看的是虛構電影)。
但顯然,The Verge 指出,水印很容易被消除,而且網(wǎng)絡媒體在傳播會去掉上下文場景描述,虛假事物并不需要完美無瑕。很多虛假的新聞文章很容易被揭穿,但這并不能阻止它們的傳播,尤其是對于那些想要相信這種符合他們先入之見的謊言的社區(qū)。
當然,這樣的技術也有許多有益的用途,比如對電影和電視行業(yè)有很大的幫助,可以讓他們在不重新錄制鏡頭的情況下修復讀錯的臺詞,并幫助不同語言的演員進行無縫配音。不過,與潛在的濫用等威脅相比,這些益處好像并不足以使人們信任這項技術,反而,它在技術上的突破更大,人們會更加感到不安。
-
AI
+關注
關注
87文章
31025瀏覽量
269363
原文標題:“篡改”視頻腳本,讓特朗普輕松“變臉”?AI Deepfake再升級
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論