不出聲,僅僅通過喉嚨和下顎的皮膚震動就能知道你想說什么。
這可不是特工電影里某個天馬行空的高科技,最近,東京大學和索尼計算機科學研究所(CSL)共同研發(fā)出AI系統(tǒng)“Derma”就能實現(xiàn)上述功能,通過將傳感器貼合在喉嚨周圍的皮膚上,就能實現(xiàn)從口形(無聲說話)到語音的轉化。
電影里奄奄一息的富翁想要修改遺囑卻無法發(fā)聲最終被自私的兒子私吞財產(chǎn)的事再也不會發(fā)生了,當然首先,你要成為富二代。
不過,這項技術可不是用來干這個的。
據(jù)相關研究人員透露,研究靈感最初來源于視聽障礙者的觸診唇讀法,他們會用手指觸摸說話者的嘴唇和下巴周圍,以此讀取說話內容。也就是說,他們通過觸摸障礙者嘴唇周圍的皮膚就可以知道他們的說話內容。
研究中,研究者們利用機器學習把整個過程自動化,完成了深層學習的無聲語音交互(Silent Speech Interaction,SSI)。
▲ 傳感器安裝圖
不過目前相關設備還在進一步地完善中,與可穿戴電子設備和身體嵌入式計算設備結合也還處于設想階段。
但是想想總不是什么壞事。
具體說一下“Derma”。
只要在下顎皮膚的兩個位置安裝MEMS(Micro ElectroMechanical Systems)加速度計和角速度傳感器,就能通過隨著說話發(fā)生的下顎運動和舌肌運動引起的從下顎到喉嚨的皮膚顫動,進行無聲的“語音識別”了。
實驗中,研究者從傳感器上獲取到了12維皮膚運動信息,通過深度學習能夠分析識別35種發(fā)聲命令短語,而且他們發(fā)現(xiàn),系統(tǒng)的識別準確率達到了94%以上。
▲ Derma的概要圖:利用附著在咽喉周圍皮膚上的加速度/角速度傳感器,通過無聲說話獲取下顎皮膚運動信息,利用深層學習進行分析和識別
于是,利用生成音素記號系列的連接時間分類(Connectionist Temporal Classification, CTC)的神經(jīng)網(wǎng)絡進行訓練,訓練之后的模型就能把無聲說話的皮膚顫動轉換為語音,轉換后的語音合成除了可以輸入到附近的具有語音識別功能的數(shù)字設備(語音助手)之外,還可以用于幫助因聲帶損傷等原因而難以發(fā)聲的用戶進行交流。
▲ 實驗使用的加速度/角速度傳感器
與現(xiàn)有的無聲語音交互研究相比,這個設備在安裝時并不顯眼,而且體積小、重量輕、耗電量低,不易受到照明條件等周圍環(huán)境因素的影響。在生活中,該設備也不會影響到使用者的正常生活,吃飯和日常的交流可以照常進行,簡直不能再實用。
相信這個設備在未來會造福大批殘障人士。
-
傳感器
+關注
關注
2552文章
51302瀏覽量
755233 -
索尼
+關注
關注
18文章
3212瀏覽量
104971 -
AI
+關注
關注
87文章
31294瀏覽量
269647
發(fā)布評論請先 登錄
相關推薦
評論