加州大學(xué)伯克利分校的研究人員已經(jīng)開(kāi)發(fā)出一種能夠檢測(cè)“無(wú)聲語(yǔ)音”的AI模型。該模型基于數(shù)字語(yǔ)音預(yù)測(cè)單詞并生成合成語(yǔ)音。肌電圖(EMG)的電極位于臉部和喉嚨,用于檢測(cè)無(wú)聲語(yǔ)音。
研究人員斷言,該模型可以為無(wú)法發(fā)出可聽(tīng)語(yǔ)音的人們啟用許多應(yīng)用程序,并可以幫助AI工具和其他響應(yīng)語(yǔ)音命令的設(shè)備進(jìn)行語(yǔ)音檢測(cè)。
該小組指出,以數(shù)字方式為無(wú)聲語(yǔ)音發(fā)聲具有廣泛的應(yīng)用。例如,它可以生成類(lèi)似于藍(lán)牙耳機(jī)的工具,該工具可以使個(gè)人繼續(xù)通話,而不會(huì)打擾周?chē)娜?。?dāng)環(huán)境聲音太大而無(wú)法捕獲可聽(tīng)見(jiàn)的語(yǔ)音或必須保持安靜時(shí),這種設(shè)備將非常有用。
口頭閱讀AI是可以從靜音語(yǔ)音中捕獲單詞的AI的另一個(gè)示例。它可以為監(jiān)視設(shè)備供電,并支持聾人的用例。
研究人員使用了一種方法,其中將所需語(yǔ)句的音頻輸出目標(biāo)從發(fā)聲錄音轉(zhuǎn)換為無(wú)聲錄音。然后,使用WaveNet解碼器生成音頻語(yǔ)音預(yù)測(cè)。
通過(guò)比較發(fā)聲的EMG數(shù)據(jù)和基線訓(xùn)練的數(shù)據(jù),發(fā)現(xiàn)發(fā)聲的EMG方法在從書(shū)中轉(zhuǎn)錄句子時(shí),單詞錯(cuò)誤率降低了64%至4%,而基線降低了95%。研究人員開(kāi)源了約20小時(shí)的面部EMG數(shù)據(jù)集,以鼓勵(lì)對(duì)該領(lǐng)域進(jìn)行進(jìn)一步研究。
在其他工作中,中國(guó)的研究人員建立了諷刺檢測(cè)模型,該模型在多模式Twitter數(shù)據(jù)集上提供SOTA性能。Masakhane開(kāi)放源代碼非洲語(yǔ)言翻譯項(xiàng)目的成員已發(fā)布了 有關(guān)低資源機(jī)器翻譯的 案例研究。
責(zé)任編輯:lq
-
解碼器
+關(guān)注
關(guān)注
9文章
1144瀏覽量
40827 -
藍(lán)牙耳機(jī)
+關(guān)注
關(guān)注
20文章
5660瀏覽量
59423 -
AI
+關(guān)注
關(guān)注
87文章
31262瀏覽量
269627
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論