0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

什么是Talking Face Generation任務(wù)?

電子工程師 ? 來源:lq ? 2018-12-06 10:21 ? 次閱讀

什么是 Talking Face Generation任務(wù)?

簡(jiǎn)單來講,給定音頻視頻后,可以讓任意一個(gè)人的面部特征與輸入信息保持一致。比如在下面的 Demo 視頻中,通過輸入一段音頻,讓其他五位個(gè)人都能說出這段話。如何利用這個(gè)技術(shù)?以后大家惡搞,就不只是給奧巴馬、特朗普嫁接一段聲音了。你可以讓高曉松“燃燒我的卡路里”,也可以讓好運(yùn)錦鯉楊超越每天為你講“曉說”。要油要甜,全看你的選擇~(我要吳彥祖,胡歌,新恒結(jié)衣,神仙姐姐每天給我講段子~)

其實(shí),當(dāng)人們說話時(shí),面部區(qū)域一些細(xì)微的運(yùn)動(dòng)是非常復(fù)雜的,通常由講話者個(gè)人固有的面部特征和所傳遞的外部信息共同決定?,F(xiàn)有的研究中,一部分專注于前者,即對(duì)一個(gè)主體構(gòu)建特定的面部特征模型;另一部分專注于后者,即構(gòu)建唇部運(yùn)動(dòng)和言語信息之間的 identity-agnostic 變換的模型。

在這項(xiàng)工作中,作者將兩方面整合一起開展了一系列研究,并提出了一種 DAVS (Disentangled Audio-Visual System)結(jié)構(gòu)。通過學(xué)習(xí)分解的視覺和聽覺表征,實(shí)現(xiàn)對(duì)任意說話主體的臉部生成。我們假設(shè)說話人的臉部序列是主體相關(guān)信息和語音相關(guān)信息的組合,通過一種新穎的關(guān)聯(lián)-對(duì)抗訓(xùn)練過程來明確地解開這兩個(gè)空間。這種分解方法的另外一個(gè)優(yōu)點(diǎn)就是能將分解得到的音頻和視頻信息都可以用于語音信息的生成。大量實(shí)驗(yàn)表明,作者所提出的方法可以對(duì)任意對(duì)象上生成逼真的人臉序列,并且唇部運(yùn)動(dòng)模式更加清晰。此外,作者還發(fā)現(xiàn),學(xué)習(xí)到的視聽表征在唇語自動(dòng)解讀和音頻視頻檢索等應(yīng)用中也非常有用。

傳送門

項(xiàng)目主頁:

https://liuziwei7.github.io/projects/TalkingFace

論文鏈接:

https://arxiv.org/pdf/1807.07860.pdf

Github 地址:

https://github.com/Hangz-nju-cuhk/Talking-Face-Generation-DAVS

目前,作者準(zhǔn)備把這個(gè)項(xiàng)目開源,大家可以在源碼公開后進(jìn)行深入實(shí)踐了!

▌首先,你需要先準(zhǔn)備:

Python2.7

PyTorch (0.2.0)

Opencv2

▌測(cè)試結(jié)果如何生成?

1.下載預(yù)訓(xùn)練的模型的 checkpoint

2.測(cè)試數(shù)據(jù)在0572_0019_0003文件夾,這是從 Voxceleb 數(shù)據(jù)集中篩選,經(jīng)預(yù)處理后的樣本數(shù)據(jù)。

3.運(yùn)行測(cè)試腳本,利用視頻生成視頻

4.運(yùn)行測(cè)試腳本,從語音生成視頻

▌數(shù)據(jù)樣本的生成結(jié)果

1.對(duì)人臉面部特征的影響

2.對(duì)非真是人臉面部特征的影響(只用人臉數(shù)據(jù)作為訓(xùn)練樣本)

▌創(chuàng)造更多的樣本

Demo 視頻中使用的面部檢測(cè)工具可以在 rsa 中找到。每張圖像的一行中,將返回一個(gè)帶5個(gè)關(guān)鍵點(diǎn)的 Matfile 輸出。這個(gè)工具在其他面部對(duì)齊方法中也同樣適用,如 dlib。在這個(gè)項(xiàng)目中,作者使用的面部對(duì)齊關(guān)鍵點(diǎn)是眼睛的中心和嘴角的平均點(diǎn)。使用的每個(gè)圖像的PATH和 face POINTS,大家可以在 preprocess / face_align.py文件中找到作者使用的方法。

此外,作者對(duì)音頻文件的預(yù)處理方法是相同的,調(diào)用了SyncNet 的matlab 的代碼,在將 mfcc 特征保存到 bin 文件中。

▌?dòng)?xùn)練代碼

訓(xùn)練代碼正在整理中,后續(xù)會(huì)公布。此項(xiàng)目的代碼結(jié)構(gòu)參考了 pix2pix 的實(shí)現(xiàn)代碼:

https://github.com/junyanz/pytorch-CycleGAN-and-pix2pix

后處理細(xì)節(jié)

直接生成的結(jié)果可能會(huì)受到縮放條件 (放大和縮小) 的影響,假設(shè)這是由訓(xùn)練集對(duì)齊引起的。作者在 demo 中使用 subspace video stabilization 方式來解決這種不穩(wěn)定問題。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 視頻
    +關(guān)注

    關(guān)注

    6

    文章

    1948

    瀏覽量

    72968
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1208

    瀏覽量

    24730

原文標(biāo)題:楊超越的聲音+高曉松的臉~如此酸爽的技術(shù),你值得擁有!

文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    怎用設(shè)置任務(wù)欄自動(dòng)隱藏,并在“開始”菜單顯示小圖標(biāo)

    `<p>步驟:任務(wù)欄-》右鍵-》屬性-》在任務(wù)欄選中<font face="Verdana">自動(dòng)隱藏
    發(fā)表于 06-28 10:57

    report generation toolkit 怎么安裝

    我安裝完labview8.6之后想再裝個(gè)report generation toolkit ,不知道怎么裝?哪位高手能指導(dǎo)一下
    發(fā)表于 06-30 00:06

    Face ID也是無法工作。

    對(duì)此,蘋果公司也曾進(jìn)行過解釋,蘋果軟件工程高級(jí)副總裁Craig Federighi曾表示,Face ID具備唯一性,僅支持“一機(jī)一臉”,用戶無法在系統(tǒng)中錄入多個(gè)人臉。不僅如此,系統(tǒng)必須是在同時(shí)捕捉
    發(fā)表于 01-06 01:28

    MaxCompute 中的Code Generation技術(shù)簡(jiǎn)介

    ,在任務(wù)提交比較頻繁的情況下,控制集群的穩(wěn)定性會(huì)收到一定挑戰(zhàn)。因?yàn)檩^高的編譯時(shí)開銷,這種Code Generation的方式在處理復(fù)雜的語句加中小數(shù)據(jù)規(guī)模查詢的場(chǎng)景,比如service mode下
    發(fā)表于 03-27 14:29

    Next Generation Design and Ver

    This volume brings out the proceedings of the workshop “Next Generation Designand Verification
    發(fā)表于 07-17 17:11 ?0次下載
    Next <b class='flag-5'>Generation</b> Design and Ver

    Next Generation Mobile Systems

    Next Generation Mobile Systems 3G and Beyond:In Next Generation Mobile Systems the authors answer
    發(fā)表于 08-21 10:31 ?10次下載
    Next <b class='flag-5'>Generation</b> Mobile Systems

    iPod nano (4th generation) 使用手

    iPod nano (4th generation) 使用手冊(cè)(中文說明書指南)
    發(fā)表于 11-23 08:58 ?47次下載

    Spartan-3 Generation FPGAs應(yīng)用資料

    Spartan-3 Generation FPGAs應(yīng)用資料 DDR2 SDRAM Interface for Spartan-3 Generation FPGAs
    發(fā)表于 05-13 13:57 ?27次下載

    Gigabyte技嘉 主板Face Wizard工具

    Gigabyte技嘉 主板Face Wizard工具 主板Face Wizard工具
    發(fā)表于 11-11 12:04 ?23次下載

    網(wǎng)絡(luò)體系結(jié)構(gòu)白皮書

    optimize their network architecture and face the rapidly growing demand for coverage and capacity
    發(fā)表于 09-14 09:28 ?15次下載
    網(wǎng)絡(luò)體系結(jié)構(gòu)白皮書

    Face ID可能會(huì)被破解的前景令人擔(dān)憂

    根據(jù)生物安全專家的說法,自從蘋果在2017年推出iPhone X支持Face ID以來,雖然有人能復(fù)制Face ID,但沒有人發(fā)布過能夠破解Face ID的詳細(xì)信息。該公司還推出了另外三款支持
    的頭像 發(fā)表于 01-07 17:43 ?3116次閱讀

    基于知識(shí)的對(duì)話生成任務(wù)

    基于知識(shí)的對(duì)話生成任務(wù)(Knowledge-Grounded Dialogue Generation,KGD)是當(dāng)前對(duì)話系統(tǒng)的研究熱點(diǎn),這個(gè)任務(wù)旨在基于對(duì)話歷史和外部知識(shí)來生成的富含信息量的回復(fù)語句。
    的頭像 發(fā)表于 09-05 09:54 ?1692次閱讀

    Ravenscar Ada任務(wù)FACE安全配置文件

      需要占用空間小或必須符合行業(yè)保證標(biāo)準(zhǔn)(如 DO-178B或 DO-178C)的機(jī)載系統(tǒng)對(duì)運(yùn)行時(shí)支持庫(kù)中的尺寸和復(fù)雜性成本很敏感。為了滿足這些需求,未來機(jī)載能力環(huán)境(FACE?技術(shù)標(biāo)準(zhǔn)已將 Ada
    的頭像 發(fā)表于 11-09 14:49 ?792次閱讀
    Ravenscar Ada<b class='flag-5'>任務(wù)</b>和<b class='flag-5'>FACE</b>安全配置文件

    使用Face ID的學(xué)生考勤

    電子發(fā)燒友網(wǎng)站提供《使用Face ID的學(xué)生考勤.zip》資料免費(fèi)下載
    發(fā)表于 06-28 11:22 ?0次下載
    使用<b class='flag-5'>Face</b> ID的學(xué)生考勤

    Hugging Face被限制訪問

    目前尚不清楚 Hugging Face 何時(shí)出現(xiàn)訪問限制問題。雅虎的報(bào)道稱,早在今年 5 月起,就已經(jīng)有用戶在 HF 的論壇上抱怨連接問題。另外有報(bào)道稱,至少?gòu)?9 月 12 日起,Hugging Face 在中國(guó)就完全無法使用。
    的頭像 發(fā)表于 10-22 15:51 ?1729次閱讀
    Hugging <b class='flag-5'>Face</b>被限制訪問