久热中文字幕无码视频,亚洲资源站中文字幕

之前我們?yōu)榇蠹医榻B過一項(xiàng)非常酸爽的研究“Talking Face Generation”：給定音頻或視頻后（輸入），可以讓任意一個(gè)人的面部特征與輸入的音視頻信息保持一致，也就是說出輸入的這段話。當(dāng)時(shí)營(yíng)長(zhǎng)就想到了“楊超越的聲音+高曉松的臉”這樣的神仙搭配。不過，近期一項(xiàng)新研究再度抓到了營(yíng)長(zhǎng)的眼睛！在最新的研究中，研究者僅需要音頻信息就生成了人臉... ...如此鬼畜的操作，此乃頭一次見?。〗酉聛頎I(yíng)長(zhǎng)就為大家介紹一下這項(xiàng)工作！

音頻和圖像是人類最常用的兩種信號(hào)傳輸模式，圖像傳達(dá)的信息非常直觀，而語音包含的信息其實(shí)比我們想象的要更豐富，包括說話人的身份，性別和情緒狀態(tài)等等。從這兩個(gè)信號(hào)中提取的特征通常是高度相關(guān)的，可以讓人僅聆聽聲音就可以想象他的視覺外觀。WAV2PIX 的工作就是僅利用語音輸入，來生成說話者的人臉圖像。其實(shí)這就是一個(gè)跨模態(tài)的視覺生成任務(wù)。

談到這項(xiàng)研究的貢獻(xiàn)，主要有三點(diǎn)：

提出了一個(gè)能夠直接從原始的語音信號(hào)生成人臉的條件GAN：WAV2PIX；

提供了一個(gè)在語音和人臉兩方面綜合質(zhì)量很高的一個(gè)數(shù)據(jù)集：Youtubers；

實(shí)驗(yàn)證明論文的方法可以生成真實(shí)多樣的人臉。

論文收集了大V用戶（Youtubers）上傳到 Youtube 的演講視頻，這些視頻通常具有高質(zhì)量的說話環(huán)境、表達(dá)方式、人臉特征等。Youtubers 數(shù)據(jù)集主要由兩部分組成：一個(gè)是自動(dòng)生成的數(shù)據(jù)集和一個(gè)手動(dòng)處理后的高質(zhì)量的子集。

主要的預(yù)處理工作：

音頻最初下載的是高級(jí)音頻編碼（AAC）格式，44100 Hz，立體聲。因此轉(zhuǎn)換為 WAV 格式，并重新采樣到 16 kHz，每個(gè)樣例占 16 位并轉(zhuǎn)換為單聲道。

采用基于 Haar 特征的人臉檢測(cè)器來檢測(cè)正臉。僅采納置信度高的幀

保存檢測(cè)出來的那幀圖像及前后兩秒的語音幀，以及一個(gè)標(biāo)簽（identity）。

方法介紹

研究主要由三個(gè)模塊構(gòu)成：一個(gè)是語音編碼器，一個(gè)是圖片生成網(wǎng)絡(luò)，一個(gè)是圖片判別網(wǎng)絡(luò)。

語音編碼器（Speech Encoder）：已有的方法大多數(shù)是手工提取音頻特征，并不是針對(duì)生成網(wǎng)絡(luò)的任務(wù)進(jìn)行優(yōu)化的，而 SEGAN 提出了一種在波形上用于語音處理的方法。因此作者在已有的工作 SEGAN 上進(jìn)行修改。修改為具有 6 層一維網(wǎng)絡(luò)，并且每層的 kernel 大小是 15x15，步長(zhǎng)為 4，然后每層卷積網(wǎng)絡(luò)后面使用 LeakyReLU 激活函數(shù)，網(wǎng)絡(luò)的輸入通道是 1。輸入 16kHZ 下1 秒的語音片段，上述的卷積網(wǎng)絡(luò)可以得到一個(gè) 4x1024 的張量，然后采用三個(gè)全連接網(wǎng)絡(luò)將特征數(shù)量從 4x1024 降到 128。作為生成器網(wǎng)絡(luò)的輸入。

圖片生成器（Image Generator Network）：輸入是語音編碼器的 128 向量。采用二維轉(zhuǎn)置卷積、插值、dropout 等方式將輸入轉(zhuǎn)為 64x64x3 或者 128x128x3 的張量。在 G 的損失函數(shù)中添加了一個(gè)輔助損失用于保持說話人的標(biāo)簽（Identity）。

圖片判別器（Image Discriminator Network）：判別器由幾層步長(zhǎng)為 2，kernel 大小是 4x4 的卷積網(wǎng)絡(luò)組成，并使用譜歸一化和 LeakyReLU 激活函數(shù)。當(dāng)張量為 4x4 時(shí)，作者拼接了語音的輸入，并采用最后一層網(wǎng)絡(luò)來計(jì)算 D 網(wǎng)絡(luò)的分?jǐn)?shù)。

實(shí)驗(yàn)過程

訓(xùn)練：將手動(dòng)處理后的數(shù)據(jù)集作為訓(xùn)練集，采用數(shù)據(jù)增強(qiáng)等手動(dòng)。值得注意的是，在處理時(shí)將每張圖像復(fù)制了 5 次，并將其與 4 秒音頻里面隨機(jī)采樣的 5 個(gè)不同的1秒音頻塊進(jìn)行匹配。因此總共有 24K 左右的圖像-音頻對(duì)用于模型訓(xùn)練。其它超參數(shù)采用參考的文獻(xiàn)設(shè)置。

評(píng)估：下圖給出了可視化的結(jié)果，雖然生成的圖像都比較模糊，但基本可以觀察到人的面部特征，并且有不同的面部表情。

作者進(jìn)一步微調(diào)了一個(gè)預(yù)訓(xùn)練的 VGG-FACE Descriptor 網(wǎng)絡(luò)，用于量化測(cè)試結(jié)果，在作者提供的數(shù)據(jù)集上，可以達(dá)到 76.81% 的語音識(shí)別準(zhǔn)確率和 50.08% 的生成圖像準(zhǔn)確率。

為了評(píng)估模型生成圖像的真實(shí)程度，作者定義了一個(gè) 68 個(gè)人臉關(guān)鍵點(diǎn)的精度檢測(cè)分?jǐn)?shù)。如下圖所示，測(cè)試結(jié)果精度可以達(dá)到 90.25%。表明在大多數(shù)情況下生成的圖像保留了基本的面部特征。

感興趣的小伙伴們可以下載閱讀研究一下~

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

傳輸模式

傳輸模式

+關(guān)注

關(guān)注
0

文章
9

瀏覽量
7023
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1208

瀏覽量
24727
人臉圖像

人臉圖像

+關(guān)注

關(guān)注
0

文章
11

瀏覽量
8979

原文標(biāo)題：僅用語音，AI就能“腦補(bǔ)”你的臉！ | 技術(shù)頭條

文章出處：【微信號(hào)：rgznai100，微信公眾號(hào)：rgznai100】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

音頻信息識(shí)別與檢索技術(shù)

檢索是目前急需解決的一個(gè)難題。音頻信息中主要包含語音、音樂、說話人、語種等內(nèi)容信息。相應(yīng)的音頻識(shí)別技術(shù)主要包含以下幾類：語音識(shí)別技術(shù)、說話人識(shí)別技術(shù)、語種識(shí)別技術(shù)、音樂識(shí)別檢索技術(shù)。語

發(fā)表于 03-05 22:53

音頻分類與音頻分段的研究

隨著計(jì)算機(jī)速度、容量的提高，以及互聯(lián)網(wǎng)上音頻數(shù)據(jù)的急劇膨脹，發(fā)展音頻信息的基于內(nèi)容檢索技術(shù)已經(jīng)成為迫切的需要。音頻信息的基于內(nèi)容檢索系統(tǒng)包括音頻信息

發(fā)表于 03-08 22:31

matlab畢業(yè)論文-快速人臉特征定位

領(lǐng)域的應(yīng)用價(jià)值，開始作為一個(gè)獨(dú)立的課題受到研究者的普遍重視。下面我將對(duì)人臉檢測(cè)的相關(guān)知識(shí)做一下簡(jiǎn)單的介紹。畢業(yè)論文：附錄：附錄可以用word打開

發(fā)表于 03-07 10:22

人臉識(shí)別技術(shù)最新發(fā)展與研究

人臉識(shí)別技術(shù)最新發(fā)展與研究 2013年全國(guó)圖形圖像技術(shù)應(yīng)用大會(huì)將在十一月初召開，本次大會(huì)大會(huì)將邀請(qǐng)國(guó)內(nèi)圖像圖形處理技術(shù)領(lǐng)域的著名專家，就圖像圖形處理技術(shù)的應(yīng)用和最新動(dòng)態(tài)做特邀報(bào)告。并邀請(qǐng)圖像圖形技術(shù)

發(fā)表于 09-25 16:08

基于CPLD的數(shù)字功率放大器的研究與實(shí)現(xiàn)

數(shù)模轉(zhuǎn)換器DAC）實(shí)現(xiàn)；2利用模擬功率放大器進(jìn)行模擬信號(hào)放大，如A類、B類和AB類放大器。從1980年代早期，許多研究者致力于開發(fā)不同類型的數(shù)字放大器，這種放大器直接從數(shù)字語音數(shù)據(jù)實(shí)現(xiàn)功率放大而不需要進(jìn)行模擬轉(zhuǎn)換

發(fā)表于 07-01 09:37

人臉識(shí)別的研究范圍和優(yōu)勢(shì)

的主要目的是在輸入的整幅圖像上尋找人臉區(qū)域。2.人臉表征采取某種方式檢測(cè)人臉和數(shù)據(jù)庫中的人臉。3.人臉

發(fā)表于 06-29 11:52

人臉識(shí)別在安防系統(tǒng)的應(yīng)用研究

和事后，提供人臉抓拍、1: N動(dòng)態(tài)人臉識(shí)別、人臉檢索查詢等多種人臉服務(wù)。對(duì)于人臉采集模塊，目前有2種實(shí)現(xiàn)方式，第1種，直接使用具有

發(fā)表于 11-07 10:38

蛋白質(zhì)組學(xué)技術(shù)與藥物作用新靶點(diǎn)研究進(jìn)展精選資料分享

，成為制約新藥開發(fā)速度的瓶頸?；蚪M學(xué)研究表明，人體中全部藥靶蛋白為1萬～2萬種，而在過去100年中發(fā)現(xiàn)的靶點(diǎn)，僅約有 500種。因此，自1994年Wilkins等提出蛋白質(zhì)組（pro

發(fā)表于 07-26 07:48

基于小波變換的音頻信息隱藏技術(shù)研究

摘要：研究了一種基于小波變換的音頻信息隱藏的技術(shù)，對(duì)算法進(jìn)行了詳細(xì)的研究與分析。并根據(jù)算法利用Matlab進(jìn)行仿真實(shí)驗(yàn)，實(shí)現(xiàn)了基于小波的音頻信息隱藏，保證了電力系統(tǒng)

發(fā)表于 12-27 20:32 ?35次下載

單對(duì)象人臉識(shí)別技術(shù)研究

單對(duì)象人臉識(shí)別技術(shù)研究 1 引言隨著計(jì)算機(jī)網(wǎng)絡(luò)和通信技術(shù)的發(fā)展，信息安全、知識(shí)產(chǎn)權(quán)保護(hù)和身份認(rèn)證等問題成了一個(gè)重要而緊迫的研究課

發(fā)表于 02-06 09:21 ?735次閱讀

原來美國(guó)的研究者最關(guān)心的是這些

上個(gè)月，全新版《美國(guó)機(jī)器人路線圖》發(fā)布。這份由全美150多位研究者共同完成的報(bào)告呼吁：國(guó)家應(yīng)該在新技術(shù)的安全集成方面制定更好的政策框架以保證我們每日生活的安全運(yùn)轉(zhuǎn)。文件發(fā)布的目的，除了希望借此確定

發(fā)表于 11-19 22:07 ?368次閱讀

機(jī)器學(xué)習(xí)研究者必知的八個(gè)神經(jīng)網(wǎng)絡(luò)架構(gòu)

本文簡(jiǎn)述了機(jī)器學(xué)習(xí)核心結(jié)構(gòu)的歷史發(fā)展，并總結(jié)了研究者需要熟知的 8 個(gè)神經(jīng)網(wǎng)絡(luò)架構(gòu)。

發(fā)表于 02-26 18:40 ?1117次閱讀

一種基于實(shí)用AGC算法的音頻信號(hào)處理方法與FPGA實(shí)現(xiàn)的分析研究

隨著現(xiàn)代通信技術(shù)的廣泛使用，通信企業(yè)問的競(jìng)爭(zhēng)不斷加劇，為提升自身的競(jìng)爭(zhēng)優(yōu)勢(shì)，通信企業(yè)需要將其通信信號(hào)的質(zhì)量提升，并提高通信系統(tǒng)各項(xiàng)指標(biāo)的穩(wěn)定性、安全性、高效性。在音頻信號(hào)處理方法及FPGA實(shí)現(xiàn)中

發(fā)表于 09-30 16:29 ?3237次閱讀

僅憑聲音,AI 就能“腦補(bǔ)”你的臉!測(cè)試結(jié)果精度可以達(dá)到 90.25%

在最新的研究中，研究者僅需要音頻信息就生成了

發(fā)表于 04-08 10:10 ?3689次閱讀

70年人工智能研究，解讀研究者最大的慘痛教訓(xùn)經(jīng)驗(yàn)

自1956年達(dá)特茅斯學(xué)院那場(chǎng)著名會(huì)議以來，人工智能研究走過了這么多年的旅途，經(jīng)歷許多高峰也走過很多低谷。前事不忘后事之師，這期間產(chǎn)生了很多經(jīng)驗(yàn)教訓(xùn)需要我們反復(fù)學(xué)習(xí)，而最重要的一條教訓(xùn)卻是很多研究者很難接受的。

發(fā)表于 08-14 10:21 ?506次閱讀

搜索歷史

最新的研究中，研究者僅需要音頻信息就生成了人臉

評(píng)論

音頻信息識(shí)別與檢索技術(shù)

音頻分類與音頻分段的研究

matlab畢業(yè)論文-快速人臉特征定位

人臉識(shí)別技術(shù)最新發(fā)展與研究

基于CPLD的數(shù)字功率放大器的研究與實(shí)現(xiàn)

人臉識(shí)別的研究范圍和優(yōu)勢(shì)

人臉識(shí)別在安防系統(tǒng)的應(yīng)用研究

蛋白質(zhì)組學(xué)技術(shù)與藥物作用新靶點(diǎn)研究進(jìn)展精選資料分享

基于小波變換的音頻信息隱藏技術(shù)研究

單對(duì)象人臉識(shí)別技術(shù)研究

原來美國(guó)的研究者最關(guān)心的是這些

機(jī)器學(xué)習(xí)研究者必知的八個(gè)神經(jīng)網(wǎng)絡(luò)架構(gòu)

一種基于實(shí)用AGC算法的音頻信號(hào)處理方法與FPGA實(shí)現(xiàn)的分析研究

僅憑聲音,AI 就能“腦補(bǔ)”你的臉!測(cè)試結(jié)果精度可以達(dá)到 90.25%

70年人工智能研究，解讀研究者最大的慘痛教訓(xùn)經(jīng)驗(yàn)

搜索歷史

最新的研究中，研究者僅需要音頻信息就生成了人臉

評(píng)論

最新的研究中，研究者僅需要音頻信息就生成了人臉