想象一下你正在看一部恐怖電影:女主角在一個(gè)黑暗的地下室里,高度警惕。背景中播放著懸疑的音樂,而一些看不見的,邪惡的生物在陰影中爬行……然后——砰!打到了一個(gè)物體。
如果沒有強(qiáng)烈但恰到好處的音效,這樣的場景很難有那么吸引人和恐怖。通常,這些音效是由工作室里的Foley藝術(shù)家錄制的,他們使用大量可供選擇的物體來產(chǎn)生聲音。錄制玻璃破碎的聲音可能涉及實(shí)際反復(fù)打碎玻璃,例如,直到聲音與視頻剪輯非常匹配。
據(jù)悉,研究人員已經(jīng)開發(fā)了一款自動(dòng)化程序,可以分析視頻幀中的運(yùn)動(dòng),并創(chuàng)建自己的人工聲音效果來匹配場景。在一項(xiàng)調(diào)查中,大多數(shù)被調(diào)查者表示他們相信這些假音效是真的。該模型名為AutoFoley,具體介紹發(fā)表在了6月25日出版的IEEE Transactions on Multimedia上面。
“自20世紀(jì)30年代以來,在后期制作中使用Foley藝術(shù)添加音效一直是電影和電視配樂的一個(gè)復(fù)雜部分,”參與創(chuàng)作AutoFoley的德克薩斯大學(xué)教授Jeff Prevost解釋道?!叭绻麤]有一個(gè)真實(shí)的Foley配樂的控制層,,電影看起來既空洞又遙遠(yuǎn)。然而,F(xiàn)oley聲音合成的過程也由此為電影的創(chuàng)作增加了大量的時(shí)間和成本?!?/p>
Prevost和他的博士生Sanchita Ghose被自動(dòng)Foley系統(tǒng)的想法所吸引,開始創(chuàng)建了一個(gè)多層機(jī)器學(xué)習(xí)程序。他們創(chuàng)建了兩種不同的模型,可以在第一步中使用,包括識(shí)別視頻中的動(dòng)作并確定合適的聲音。
第一個(gè)機(jī)器學(xué)習(xí)模型從快速移動(dòng)動(dòng)作片段的幀中提取圖像特征(如顏色和運(yùn)動(dòng)),以確定合適的聲音效果。
第二個(gè)模型來分析對(duì)象在不同幀中的時(shí)間關(guān)系。通過使用關(guān)系推理來比較不同時(shí)間段的不同幀,第二個(gè)模型可以預(yù)測視頻中發(fā)生的動(dòng)作。
在最后一步,合成聲音以匹配其中一個(gè)模型預(yù)測的活動(dòng)或運(yùn)動(dòng)。Prevost和Ghose使用AutoFoley為1000個(gè)短片創(chuàng)建聲音,這些短片捕捉了許多常見的動(dòng)作,比如下雨、騎馬和滴答作響的時(shí)鐘。
分析顯示,毫不奇怪的是,AutoFoley最擅長于在不需要與視頻完全一致的情況下(例如,傾盆大雨、噼啪作響的大火)發(fā)出聲音。但是,當(dāng)視覺場景包含隨時(shí)間變化的隨機(jī)動(dòng)作(例如打字、雷雨)時(shí),程序可能與視頻不同步。
接下來,Prevost和Ghose調(diào)查了57名當(dāng)?shù)卮髮W(xué)生,他們認(rèn)為哪些電影片段包括了原聲配樂。在評(píng)估第一個(gè)模型產(chǎn)生的聲音時(shí),73%的受訪學(xué)生選擇了合成的AutoFoley剪輯作為原始片段,而不是真正的原始聲音片段。在評(píng)估第二個(gè)模型時(shí),仍有66%的受訪者選擇了AutoFoley剪輯而不是原來的聲音剪輯。
“我們的方法的一個(gè)局限性是需要分類的主題出現(xiàn)在整個(gè)視頻幀序列中,”Prevost說,同時(shí)還指出AutoFoley目前依賴的Foley類別的數(shù)據(jù)集非常有限。不過,AutoFoley的專利仍處于早期階段,但Prevost說這些限制將在未來的研究中得到解決。
-
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8428瀏覽量
132848
原文標(biāo)題:又被AI騙了?人工智能欺騙人類相信合成的聲音效果是真實(shí)的
文章出處:【微信號(hào):IEEE_China,微信公眾號(hào):IEEE電氣電子工程師】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論