2020日本不卡一区二区视频,国产精品99无码一区二蜜桃

聽聲辨人，利用聲紋進(jìn)行解鎖，這種技術(shù)已廣泛應(yīng)用，人類的聲音含有該個體的一定特征，從而可以進(jìn)行區(qū)分。那么僅通過聲音，能否畫出人像，并且盡可能地與講話者相似呢？

近日，卡內(nèi)基梅隆大學(xué)的Yandong Wen 等人，利用生成對抗網(wǎng)絡(luò)模型（generative adversarial networks, GANs）首次對這一問題作出研究，利用講話者的語音生成一些匹配原說話者面部特征的人臉，并用交叉模態(tài)匹配（cross-modal matching task）評估了模型表現(xiàn)，可謂是語音畫像領(lǐng)域的一大突破。

模型框架

一個人的聲音和骨骼結(jié)構(gòu)、發(fā)聲部位的形狀等特征的確有關(guān)，但利用語音直接畫出人臉，如何做到？

該由聲音重建人臉的模型框架主要由四個卷積網(wǎng)絡(luò)：語音嵌入模型（voice embedding network）、生成器（Generator）、判別器（Discriminator）、分類器（classifier）組成。

語音嵌入模型（voice embedding network）將輸入的語音數(shù)據(jù)，梅爾倒頻譜（log mel-spectrograms）轉(zhuǎn)換為含有該聲音特征的向量 e。該模型含有 5 層一維卷積神經(jīng)網(wǎng)絡(luò)，每一層均是經(jīng)由卷積核為 3、步長為 2、padding 為 1 得到，并且都經(jīng)過歸一化層處理和 ReLU 單元激活，最后經(jīng)過平均池化得到一個 64 維的向量。此模型是通過一個語音識別任務(wù)預(yù)先訓(xùn)練得到參數(shù)，并且參數(shù)在生成人臉的訓(xùn)練過程中保持不變。生成器（Generator）輸入為語音嵌入模型產(chǎn)生的向量 e，輸出是人臉 RGB 圖像 f'，由 6 層二維反卷積網(wǎng)絡(luò)構(gòu)成，激活函數(shù)采用 ReLU。

判別器（Discriminator）判斷輸入的圖像 f（或 f'）是生成器偽造的圖像還是真實的人臉，如果判斷為偽造圖會加大損失 Ld。由 6 層激活單元為 Leaky ReLU 的二維卷積網(wǎng)絡(luò)構(gòu)成，最后經(jīng)過全連接層得到人臉圖像數(shù)據(jù)。

分類器（classifier）用來將人臉圖像與說話者匹配，如果匹配錯誤會加大損失 Lc。該模型由 6 層二維卷積網(wǎng)絡(luò)和一個全連接層組成。具體的結(jié)構(gòu)如圖表，其中 Conv 3/2,1代表卷積核尺寸為 3，步長為 2，padding 填充為 1。

圖 | 從聲音重建人臉模型的具體結(jié)構(gòu)。（來源：Yandong Wen, et al./CMU）模型通過最小化判別器與分類器的交叉熵?fù)p失 Ld 和 Lc 來訓(xùn)練，以期得到圖像逼真且符合說話者特征的人臉。值得一提的是，此模型的測試集和訓(xùn)練集以及驗證集相互獨立，即測試時的聲音是未聽過的，人臉也未知。

模型表現(xiàn)

不特意挑選那些人臉和真實講話者完美一致的結(jié)果，一般來講，該模型的確能輸出具有講話者特征的人臉，即使不完全一模一樣，從種族以及一些其他典型的面部特征來看，這個模型的確學(xué)習(xí)到了一些信息，輸出結(jié)果和原講話者非常像，并且語音時間越長，匹配的特征越多，兩者越類似。

圖 | 從不同時長的正常錄音生成人臉的結(jié)果圖，右側(cè)Ref為真實講話者的不同臉部照片，從上到下的 4 位 Speaker 分別是 Danica McKellar, Cindy Williams, Damian Lewis, and Eva Green. （來源：Yandong Wen, et al./CMU）當(dāng)然，性別及年齡特征也可以很好地被學(xué)習(xí)到，左側(cè)輸出結(jié)果的年齡和性別與右側(cè)真實人臉的年齡性別保持一致。在整個測試集上，生成圖和真實講話者性別相同的概率可以達(dá)到 96.5%。

圖 | 從性別年齡的人臉重建，（a）是從老年聲音生成的人臉；（b）是男性聲音生成的人臉；（c）是女性聲音生成的人臉。其中左側(cè)為生成圖，右側(cè)為真實講話者。（來源：Yandong Wen, et al./CMU）如果用同一個人的不同語音片段，推測產(chǎn)生的人臉會保持相同特征嗎？模型結(jié)果告訴我們，是這樣。選用同一個講話者的 7 個不同語音片段，不特意挑選完美結(jié)果，模型所推測出的大概特征是十分一致的，這也側(cè)面說明，模型的確可以從一個人的語音抽取出一些特征，映射成其臉部的某些特征。

圖 | 利用一個人的 7 段不同語音重建人臉，左圖（a）是重建的 7 張人臉圖，右圖（b）是對應(yīng)的真實人臉在不同情況的照片（來源：Yandong Wen, et al./CMU）進(jìn)一步來講，如果從語音中學(xué)到的特征真的可以映射成面部的特征，那么生成人臉圖必定和真實講話者的臉部是對應(yīng)匹配的。換句話說，聲音中的特征可以被生成人臉中蘊含的特征替代，那么由聲音重組人臉就變成了人臉識別問題，兩張臉（生成的和真實的）匹配，那么計劃可行，這個匹配率也就成了衡量模型表現(xiàn)的指標(biāo)。在整個訓(xùn)練集和測試集上，該模型的匹配率分別是 96.83% 和 76.07%；將訓(xùn)練集和測試集按照性別分層，排除性別這一特征的助力，也就是直接比較同一性別上，生成的人臉和講話者是否相像，匹配率在訓(xùn)練集和測試集上分別是 93.98%和 59.69%，這也證明了模型所學(xué)到的信息不僅僅是性別，還有其他更詳細(xì)的面部特征。該模型表現(xiàn)不僅優(yōu)于 DIMNets-G，同時，測試集表現(xiàn)不如訓(xùn)練集，說明模型還有很大提升空間。

圖 | 不同模型在性別分層以及不分層的數(shù)據(jù)集上的表現(xiàn)。（來源：Yandong Wen, et al./CMU）

展望

該模型雖然表現(xiàn)尚佳，但仍有可提升的地方，比如頭發(fā)和圖像背景等與聲音無關(guān)的特征，可以進(jìn)行數(shù)據(jù)清洗將其去除，而有一些明顯與發(fā)聲有關(guān)的面部特征也可以加以利用，從而模型會更加精確。

總的來說，由音生貌，語音畫像問題的一塊空白得到了填補。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

AI

AI

+關(guān)注

關(guān)注
87

文章
31338

瀏覽量
269747
GaN

GaN

+關(guān)注

關(guān)注
19

文章
1952

瀏覽量
73860

原文標(biāo)題：僅聽聲音就畫出人臉，GAN再添新能力

文章出處：【微信號：deeptechchina，微信公眾號：deeptechchina】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

HarmonyOS NEXT 應(yīng)用開發(fā)練習(xí)：AI智能語音播報

一、DEMO思路在這個HarmonyOS NEXT原生應(yīng)用DEMO中，我們將使用ArkTS開發(fā)語言創(chuàng)建一個簡單的AI智能語音播報應(yīng)用。該應(yīng)用能夠接收用戶輸入的文本，并使用TTS

發(fā)表于 01-06 15:33

大聯(lián)大推出基于MediaTek Genio 130與ChatGPT的AI語音助理方案

，為市場帶來了全新的智能交互體驗。該AI語音助理方案充分利用了MediaTek Genio 130芯片的強大性能與ChatGPT的先進(jìn)人工智能技術(shù)。MediaTek Genio 130芯片作為聯(lián)發(fā)

發(fā)表于 12-11 11:07 ?451次閱讀

九芯電子NRK330X系列：智能AI專用語音識別芯片

、調(diào)節(jié)還是關(guān)機，用戶只需簡單口述，便能輕松完成操作。NRK330X系列：AI人機交互的高性能語音芯片2022年，九芯電子推出了高性能、低成本語音識別芯片NRK330X

發(fā)表于 11-19 01:00 ?271次閱讀

九芯電子NRK330X系列：智能<b class='flag-5'>AI</b>專<b class='flag-5'>用語音</b>識別芯片

《DNK210使用指南 -CanMV版 V1.0》第四十五章人臉識別實驗

第四十五章人臉識別實驗在上一章節(jié)中，介紹了利用maix.KPU模塊實現(xiàn)了人臉68關(guān)鍵點檢測，本章將繼續(xù)介紹利用maix.KPU模塊實現(xiàn)的人臉

發(fā)表于 11-18 14:30

《DNK210使用指南 -CanMV版 V1.0》第四十四章人臉68關(guān)鍵點檢測實驗

第四十四章人臉68關(guān)鍵點檢測實驗在上一章節(jié)中，介紹了利用maix.KPU模塊實現(xiàn)了人臉屬性分析，本章將繼續(xù)介紹利用maix.KPU模塊實現(xiàn)的人臉

發(fā)表于 11-18 14:28

深度識別人臉識別在任務(wù)中為什么有很強大的建模能力

深度學(xué)習(xí)人臉識別技術(shù)是人工智能領(lǐng)域中的一個重要分支，它利用深度學(xué)習(xí)算法來識別和驗證人臉。這項技術(shù)在近年來取得了顯著的進(jìn)展，其強大的建模能力主要得益于以下幾個方面：數(shù)據(jù)驅(qū)動的學(xué)習(xí)方式

發(fā)表于 09-10 14:53 ?459次閱讀

如何利用AI進(jìn)行提升自我呢？

利用AI進(jìn)行學(xué)習(xí)是一個高效且富有創(chuàng)新性的過程。以下是一些建議，幫助你充分利用AI進(jìn)行學(xué)習(xí)：選擇適合的AI學(xué)習(xí)工具：深度學(xué)習(xí)框架：如飛

發(fā)表于 07-19 10:46 ?619次閱讀

如何設(shè)計人臉識別的神經(jīng)網(wǎng)絡(luò)

識別技術(shù)主要分為兩個步驟：人臉檢測和人臉特征提取。人臉檢測是指在圖像中定位出人臉的位置和大小，人臉特征提取是指從

發(fā)表于 07-04 09:20 ?706次閱讀

聆思CSK6視覺語音大模型AI開發(fā)板入門資源合集（硬件資料、大模型語音/多模態(tài)交互/英語評測SDK合集）

自定義大模型應(yīng)用并接入到開發(fā)套件上實現(xiàn)語音交互，由淺入深地展示如何開發(fā)自己的大模型助手。離線AI能力示例SDK清單序號AI 能力 1

發(fā)表于 06-18 17:33

主流邊緣AI算法，在安防、零售、交通等領(lǐng)域的應(yīng)用

邊緣AI可以應(yīng)用在哪些場景實現(xiàn)哪些功能。 ? 市面上主流的邊緣AI算法應(yīng)用 ? 目前市面上比較主流的邊緣AI算法應(yīng)用，包括人臉及關(guān)鍵點檢測，關(guān)鍵點監(jiān)測是通過快速檢測

發(fā)表于 05-13 01:56 ?3067次閱讀

李未可科技發(fā)布全新首款AI眼鏡Chat，搭載自研AI大模型

? ? 4月26日，李未可科技推出旗下首款AI眼鏡——Meta Lens Chat，定價699元，并于4月26日10點正式開啟預(yù)售。AI 眼鏡 Chat 主打AI語音交互

發(fā)表于 04-26 10:45 ?1808次閱讀

stm32f0怎么不使用語音IC做合成語音？

我這邊板子就一個功放電路，要求不使用語音IC做語音，我聽別人說去了解MP3這一方面，但我只找到MCU軟解碼，但我怎么不了解，不清楚怎么做成自己的語音，要的是語音，不是歌曲

發(fā)表于 04-25 06:00

長沙智能網(wǎng)聯(lián)汽車產(chǎn)業(yè)發(fā)展再添集群載體

長沙智能網(wǎng)聯(lián)汽車產(chǎn)業(yè)發(fā)展再添集群載體恭喜長沙智能網(wǎng)聯(lián)汽車產(chǎn)業(yè)發(fā)展再添集群載體；4月20日湘江智能網(wǎng)聯(lián)產(chǎn)業(yè)孵化基地（一期）開園，湘江智能網(wǎng)聯(lián)產(chǎn)業(yè)孵化基地是湘江科學(xué)城的重要組成部分，擁有

發(fā)表于 04-22 10:50 ?497次閱讀

公司人臉識別考勤門禁攝像機#人臉識別#智能攝像機

AI人臉識別

jf_07511428
發(fā)布于 :2024年03月06日 22:52:08

讓機器擁有說話能力，智能語音與音頻處理SoC

電子發(fā)燒友網(wǎng)報道（文/黃山明）隨著生成式AI的推進(jìn)，已經(jīng)有越來越多的智能家居企業(yè)開始將其加入到產(chǎn)品當(dāng)中，預(yù)計未來也會有更多的家居產(chǎn)品能夠通過語音方式與人進(jìn)行交互。而實現(xiàn)這一技術(shù)的前提，不僅依靠生成式

發(fā)表于 02-02 00:15 ?2825次閱讀

搜索歷史

利用語音直接畫出人臉,AI再添新能力

評論

HarmonyOS NEXT 應(yīng)用開發(fā)練習(xí)：AI智能語音播報

大聯(lián)大推出基于MediaTek Genio 130與ChatGPT的AI語音助理方案

九芯電子NRK330X系列：智能AI專用語音識別芯片

《DNK210使用指南 -CanMV版 V1.0》第四十五章人臉識別實驗

《DNK210使用指南 -CanMV版 V1.0》第四十四章人臉68關(guān)鍵點檢測實驗

深度識別人臉識別在任務(wù)中為什么有很強大的建模能力

如何利用AI進(jìn)行提升自我呢？

如何設(shè)計人臉識別的神經(jīng)網(wǎng)絡(luò)

聆思CSK6視覺語音大模型AI開發(fā)板入門資源合集（硬件資料、大模型語音/多模態(tài)交互/英語評測SDK合集）

主流邊緣AI算法，在安防、零售、交通等領(lǐng)域的應(yīng)用

李未可科技發(fā)布全新首款AI眼鏡Chat，搭載自研AI大模型

stm32f0怎么不使用語音IC做合成語音？

長沙智能網(wǎng)聯(lián)汽車產(chǎn)業(yè)發(fā)展再添集群載體

公司人臉識別考勤門禁攝像機#人臉識別#智能攝像機

讓機器擁有說話能力，智能語音與音頻處理SoC