您是否曾經(jīng)僅僅根據(jù)他們的聲音來(lái)構(gòu)造一個(gè)從未見(jiàn)過(guò)的人的心理形象?人工智能(AI)現(xiàn)在可以做到這一點(diǎn),僅使用簡(jiǎn)短的音頻剪輯作為參考即可生成人臉的數(shù)字圖像。
這個(gè)名為“ Speech2Face” 的神經(jīng)網(wǎng)絡(luò)(一種以類(lèi)似于人腦的方式“思考”的計(jì)算機(jī))經(jīng)過(guò)科學(xué)家培訓(xùn),接受了來(lái)自互聯(lián)網(wǎng)的數(shù)百萬(wàn)個(gè)教育視頻,顯示了100,000多個(gè)不同的人在說(shuō)話。
研究人員在一項(xiàng)新研究中寫(xiě)道,Speech2Face通過(guò)該數(shù)據(jù)集學(xué)習(xí)了語(yǔ)音提示與人臉某些物理特征之間的關(guān)聯(lián)。然后,AI使用音頻剪輯對(duì)與語(yǔ)音匹配的真實(shí)感面部建模。
值得慶幸的是,人工智能還不能僅僅根據(jù)他們的聲音確切地知道特定的人是什么樣。研究作者報(bào)告說(shuō),神經(jīng)網(wǎng)絡(luò)識(shí)別語(yǔ)音中的某些標(biāo)記,這些標(biāo)記指向性別,年齡和種族,是許多人共有的特征。
科學(xué)家寫(xiě)道:“因此,該模型只會(huì)產(chǎn)生看上去普通的面孔?!?“它不會(huì)產(chǎn)生特定個(gè)人的圖像?!?/p>
盡管坦率地說(shuō),對(duì)貓的解釋有點(diǎn)讓人恐懼,但AI已經(jīng)證明它可以產(chǎn)生出異常準(zhǔn)確的人臉。
由Speech2Face生成的臉部-均面向正面并具有中性表情-與聲音背后的人并不完全匹配。但是,根據(jù)這項(xiàng)研究,這些圖像通常確實(shí)可以捕捉到正確的年齡范圍,種族和性別。
但是,該算法的解釋遠(yuǎn)非完美。當(dāng)面對(duì)語(yǔ)言變化時(shí),Speech2Face表現(xiàn)出“混合表現(xiàn)”。例如,當(dāng)AI收聽(tīng)亞洲人講中文的音頻片段時(shí),該程序會(huì)產(chǎn)生亞洲人臉的圖像。然而,據(jù)科學(xué)家報(bào)道,當(dāng)同一個(gè)人用不同的音頻片段講英語(yǔ)時(shí),人工智能產(chǎn)生了白人的面孔。
該算法還顯示出性別偏見(jiàn),將低音調(diào)的聲音與男性面孔相關(guān)聯(lián),將高音調(diào)的聲音與女性面孔相關(guān)聯(lián)。研究人員寫(xiě)道,由于訓(xùn)練數(shù)據(jù)集僅代表YouTube上的教育視頻,因此“并不代表整個(gè)世界人口?!?/p>
-
數(shù)字圖像
+關(guān)注
關(guān)注
2文章
119瀏覽量
18837 -
人工智能
+關(guān)注
關(guān)注
1792文章
47525瀏覽量
239254 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1208瀏覽量
24754
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論