之前我們?yōu)榇蠹医榻B過一項(xiàng)非常酸爽的研究“Talking Face Generation”:給定音頻或視頻后(輸入),可以讓任意一個(gè)人的面部特征與輸入的音視頻信息保持一致,也就是說出輸入的這段話。當(dāng)時(shí)營(yíng)長(zhǎng)就想到了“楊超越的聲音+高曉松的臉”這樣的神仙搭配。不過,近期一項(xiàng)新研究再度抓到了營(yíng)長(zhǎng)的眼睛!在最新的研究中,研究者僅需要音頻信息就生成了人臉... ...如此鬼畜的操作,此乃頭一次見?。〗酉聛頎I(yíng)長(zhǎng)就為大家介紹一下這項(xiàng)工作!
音頻和圖像是人類最常用的兩種信號(hào)傳輸模式,圖像傳達(dá)的信息非常直觀,而語音包含的信息其實(shí)比我們想象的要更豐富,包括說話人的身份,性別和情緒狀態(tài)等等。從這兩個(gè)信號(hào)中提取的特征通常是高度相關(guān)的,可以讓人僅聆聽聲音就可以想象他的視覺外觀。WAV2PIX 的工作就是僅利用語音輸入,來生成說話者的人臉圖像。其實(shí)這就是一個(gè)跨模態(tài)的視覺生成任務(wù)。
談到這項(xiàng)研究的貢獻(xiàn),主要有三點(diǎn):
提出了一個(gè)能夠直接從原始的語音信號(hào)生成人臉的條件GAN:WAV2PIX;
提供了一個(gè)在語音和人臉兩方面綜合質(zhì)量很高的一個(gè)數(shù)據(jù)集:Youtubers;
實(shí)驗(yàn)證明論文的方法可以生成真實(shí)多樣的人臉。
論文收集了大V用戶(Youtubers)上傳到 Youtube 的演講視頻,這些視頻通常具有高質(zhì)量的說話環(huán)境、表達(dá)方式、人臉特征等。Youtubers 數(shù)據(jù)集主要由兩部分組成:一個(gè)是自動(dòng)生成的數(shù)據(jù)集和一個(gè)手動(dòng)處理后的高質(zhì)量的子集。
主要的預(yù)處理工作:
音頻最初下載的是高級(jí)音頻編碼(AAC)格式,44100 Hz,立體聲。因此轉(zhuǎn)換為 WAV 格式,并重新采樣到 16 kHz,每個(gè)樣例占 16 位并轉(zhuǎn)換為單聲道。
采用基于 Haar 特征的人臉檢測(cè)器來檢測(cè)正臉。僅采納置信度高的幀
保存檢測(cè)出來的那幀圖像及前后兩秒的語音幀,以及一個(gè)標(biāo)簽(identity)。
方法介紹
研究主要由三個(gè)模塊構(gòu)成:一個(gè)是語音編碼器,一個(gè)是圖片生成網(wǎng)絡(luò),一個(gè)是圖片判別網(wǎng)絡(luò)。
語音編碼器(Speech Encoder):已有的方法大多數(shù)是手工提取音頻特征,并不是針對(duì)生成網(wǎng)絡(luò)的任務(wù)進(jìn)行優(yōu)化的,而 SEGAN 提出了一種在波形上用于語音處理的方法。因此作者在已有的工作 SEGAN 上進(jìn)行修改。修改為具有 6 層一維網(wǎng)絡(luò),并且每層的 kernel 大小是 15x15,步長(zhǎng)為 4,然后每層卷積網(wǎng)絡(luò)后面使用 LeakyReLU 激活函數(shù),網(wǎng)絡(luò)的輸入通道是 1。輸入 16kHZ 下1 秒的語音片段,上述的卷積網(wǎng)絡(luò)可以得到一個(gè) 4x1024 的張量,然后采用三個(gè)全連接網(wǎng)絡(luò)將特征數(shù)量從 4x1024 降到 128。作為生成器網(wǎng)絡(luò)的輸入。
圖片生成器(Image Generator Network):輸入是語音編碼器的 128 向量。采用二維轉(zhuǎn)置卷積、插值、dropout 等方式將輸入轉(zhuǎn)為 64x64x3 或者 128x128x3 的張量。在 G 的損失函數(shù)中添加了一個(gè)輔助損失用于保持說話人的標(biāo)簽(Identity)。
圖片判別器(Image Discriminator Network):判別器由幾層步長(zhǎng)為 2,kernel 大小是 4x4 的卷積網(wǎng)絡(luò)組成,并使用譜歸一化和 LeakyReLU 激活函數(shù)。當(dāng)張量為 4x4 時(shí),作者拼接了語音的輸入,并采用最后一層網(wǎng)絡(luò)來計(jì)算 D 網(wǎng)絡(luò)的分?jǐn)?shù)。
實(shí)驗(yàn)過程
訓(xùn)練:將手動(dòng)處理后的數(shù)據(jù)集作為訓(xùn)練集,采用數(shù)據(jù)增強(qiáng)等手動(dòng)。值得注意的是,在處理時(shí)將每張圖像復(fù)制了 5 次,并將其與 4 秒音頻里面隨機(jī)采樣的 5 個(gè)不同的1秒音頻塊進(jìn)行匹配。因此總共有 24K 左右的圖像-音頻對(duì)用于模型訓(xùn)練。其它超參數(shù)采用參考的文獻(xiàn)設(shè)置。
評(píng)估:下圖給出了可視化的結(jié)果,雖然生成的圖像都比較模糊,但基本可以觀察到人的面部特征,并且有不同的面部表情。
作者進(jìn)一步微調(diào)了一個(gè)預(yù)訓(xùn)練的 VGG-FACE Descriptor 網(wǎng)絡(luò),用于量化測(cè)試結(jié)果,在作者提供的數(shù)據(jù)集上,可以達(dá)到 76.81% 的語音識(shí)別準(zhǔn)確率和 50.08% 的生成圖像準(zhǔn)確率。
為了評(píng)估模型生成圖像的真實(shí)程度,作者定義了一個(gè) 68 個(gè)人臉關(guān)鍵點(diǎn)的精度檢測(cè)分?jǐn)?shù)。如下圖所示,測(cè)試結(jié)果精度可以達(dá)到 90.25%。表明在大多數(shù)情況下生成的圖像保留了基本的面部特征。
感興趣的小伙伴們可以下載閱讀研究一下~
-
傳輸模式
+關(guān)注
關(guān)注
0文章
9瀏覽量
7023 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1208瀏覽量
24727 -
人臉圖像
+關(guān)注
關(guān)注
0文章
11瀏覽量
8979
原文標(biāo)題:僅用語音,AI就能“腦補(bǔ)”你的臉! | 技術(shù)頭條
文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論