什么是 Talking Face Generation任務(wù)?
簡(jiǎn)單來講,給定音頻或視頻后,可以讓任意一個(gè)人的面部特征與輸入信息保持一致。比如在下面的 Demo 視頻中,通過輸入一段音頻,讓其他五位個(gè)人都能說出這段話。如何利用這個(gè)技術(shù)?以后大家惡搞,就不只是給奧巴馬、特朗普嫁接一段聲音了。你可以讓高曉松“燃燒我的卡路里”,也可以讓好運(yùn)錦鯉楊超越每天為你講“曉說”。要油要甜,全看你的選擇~(我要吳彥祖,胡歌,新恒結(jié)衣,神仙姐姐每天給我講段子~)
其實(shí),當(dāng)人們說話時(shí),面部區(qū)域一些細(xì)微的運(yùn)動(dòng)是非常復(fù)雜的,通常由講話者個(gè)人固有的面部特征和所傳遞的外部信息共同決定?,F(xiàn)有的研究中,一部分專注于前者,即對(duì)一個(gè)主體構(gòu)建特定的面部特征模型;另一部分專注于后者,即構(gòu)建唇部運(yùn)動(dòng)和言語信息之間的 identity-agnostic 變換的模型。
在這項(xiàng)工作中,作者將兩方面整合一起開展了一系列研究,并提出了一種 DAVS (Disentangled Audio-Visual System)結(jié)構(gòu)。通過學(xué)習(xí)分解的視覺和聽覺表征,實(shí)現(xiàn)對(duì)任意說話主體的臉部生成。我們假設(shè)說話人的臉部序列是主體相關(guān)信息和語音相關(guān)信息的組合,通過一種新穎的關(guān)聯(lián)-對(duì)抗訓(xùn)練過程來明確地解開這兩個(gè)空間。這種分解方法的另外一個(gè)優(yōu)點(diǎn)就是能將分解得到的音頻和視頻信息都可以用于語音信息的生成。大量實(shí)驗(yàn)表明,作者所提出的方法可以對(duì)任意對(duì)象上生成逼真的人臉序列,并且唇部運(yùn)動(dòng)模式更加清晰。此外,作者還發(fā)現(xiàn),學(xué)習(xí)到的視聽表征在唇語自動(dòng)解讀和音頻視頻檢索等應(yīng)用中也非常有用。
傳送門
項(xiàng)目主頁:
https://liuziwei7.github.io/projects/TalkingFace
論文鏈接:
https://arxiv.org/pdf/1807.07860.pdf
Github 地址:
https://github.com/Hangz-nju-cuhk/Talking-Face-Generation-DAVS
目前,作者準(zhǔn)備把這個(gè)項(xiàng)目開源,大家可以在源碼公開后進(jìn)行深入實(shí)踐了!
▌首先,你需要先準(zhǔn)備:
Python2.7
PyTorch (0.2.0)
Opencv2
▌測(cè)試結(jié)果如何生成?
1.下載預(yù)訓(xùn)練的模型的 checkpoint
2.測(cè)試數(shù)據(jù)在0572_0019_0003文件夾,這是從 Voxceleb 數(shù)據(jù)集中篩選,經(jīng)預(yù)處理后的樣本數(shù)據(jù)。
3.運(yùn)行測(cè)試腳本,利用視頻生成視頻
4.運(yùn)行測(cè)試腳本,從語音生成視頻
▌數(shù)據(jù)樣本的生成結(jié)果
1.對(duì)人臉面部特征的影響
2.對(duì)非真是人臉面部特征的影響(只用人臉數(shù)據(jù)作為訓(xùn)練樣本)
▌創(chuàng)造更多的樣本
Demo 視頻中使用的面部檢測(cè)工具可以在 rsa 中找到。每張圖像的一行中,將返回一個(gè)帶5個(gè)關(guān)鍵點(diǎn)的 Matfile 輸出。這個(gè)工具在其他面部對(duì)齊方法中也同樣適用,如 dlib。在這個(gè)項(xiàng)目中,作者使用的面部對(duì)齊關(guān)鍵點(diǎn)是眼睛的中心和嘴角的平均點(diǎn)。使用的每個(gè)圖像的PATH和 face POINTS,大家可以在 preprocess / face_align.py文件中找到作者使用的方法。
此外,作者對(duì)音頻文件的預(yù)處理方法是相同的,調(diào)用了SyncNet 的matlab 的代碼,在將 mfcc 特征保存到 bin 文件中。
▌?dòng)?xùn)練代碼
訓(xùn)練代碼正在整理中,后續(xù)會(huì)公布。此項(xiàng)目的代碼結(jié)構(gòu)參考了 pix2pix 的實(shí)現(xiàn)代碼:
https://github.com/junyanz/pytorch-CycleGAN-and-pix2pix
后處理細(xì)節(jié)
直接生成的結(jié)果可能會(huì)受到縮放條件 (放大和縮小) 的影響,假設(shè)這是由訓(xùn)練集對(duì)齊引起的。作者在 demo 中使用 subspace video stabilization 方式來解決這種不穩(wěn)定問題。
-
視頻
+關(guān)注
關(guān)注
6文章
1948瀏覽量
72968 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1208瀏覽量
24730
原文標(biāo)題:楊超越的聲音+高曉松的臉~如此酸爽的技術(shù),你值得擁有!
文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論