可穿戴設(shè)備依賴于具有標(biāo)準(zhǔn)物理能力的人機(jī)界面,如語(yǔ)音、觸摸或運(yùn)動(dòng)。雖然這種形式的機(jī)器交互適用于大多數(shù)消費(fèi)者,但殘疾人可能很難或無(wú)法操作標(biāo)準(zhǔn)的可穿戴設(shè)備。為了使更多人能夠使用可穿戴設(shè)備,研究人員正在研究新的人機(jī)界面。
最近,康奈爾大學(xué)的一個(gè)團(tuán)隊(duì)發(fā)表了一篇論文,描述了一副為不能發(fā)聲的用戶配備了無(wú)聲語(yǔ)音接口(SSI)的智能眼鏡。本文將討論無(wú)聲語(yǔ)音接口和來(lái)自康奈爾大學(xué)的可穿戴原型。
什么是無(wú)聲語(yǔ)音接口?
無(wú)聲語(yǔ)音接口(Silent speech interface,簡(jiǎn)稱SSI)允許人們無(wú)需發(fā)聲就能與機(jī)器互動(dòng)。雖然AI助手(如蘋(píng)果的Siri)等技術(shù)是通過(guò)聲音交流工作的,但SSI通過(guò)與語(yǔ)音相關(guān)的動(dòng)作來(lái)完成交流。
SSI技術(shù)通過(guò)嘴巴和舌頭的運(yùn)動(dòng)而不是聲音來(lái)識(shí)別語(yǔ)音。為了做到這一點(diǎn),SSI依賴于各種不同的傳感器,包括放置在嘴巴附近的振動(dòng)傳感器,用于檢測(cè)人們嘴巴的振動(dòng),以及跟蹤和分類與語(yǔ)音相關(guān)運(yùn)動(dòng)的攝像頭。在許多情況下,這些信息會(huì)被機(jī)器學(xué)習(xí)算法處理,該算法會(huì)解釋嘴巴的動(dòng)作,并將其翻譯成文字。
雖然大多數(shù)人可能找不到SSI的用途,但這項(xiàng)技術(shù)對(duì)于因疾病或受傷而失聲的人來(lái)說(shuō)是必不可少的,可以讓他們更容易地交流。例如,患有聲帶損傷或影響語(yǔ)言的神經(jīng)系統(tǒng)疾病的患者可以從SSI中獲益良多。
康奈爾大學(xué)開(kāi)發(fā)無(wú)攝像頭SSI眼鏡
最近,康奈爾大學(xué)的研究人員在SSI技術(shù)方面取得了重大進(jìn)展,發(fā)明了基于SSI的智能眼鏡。
該系統(tǒng)被稱為EchoSpeech,是一種新穎的、侵入性最小的SSI技術(shù),它使用低功率有源聲學(xué)傳感來(lái)捕捉由無(wú)聲語(yǔ)音引起的細(xì)微皮膚變形,并將這些信息轉(zhuǎn)換為可操作的數(shù)據(jù)。這款智能眼鏡的原型建立在康奈爾大學(xué)之前對(duì)一種類似的聲學(xué)傳感可穿戴設(shè)備(“EarIO”)的研究基礎(chǔ)上,EarIO可以從耳朵內(nèi)追蹤面部運(yùn)動(dòng)。
該系統(tǒng)依靠安裝在眼鏡框架上的一系列揚(yáng)聲器和麥克風(fēng)向皮膚發(fā)射聽(tīng)不見(jiàn)的聲波。發(fā)出的聲波產(chǎn)生沿多條路徑傳播的回聲,并被系統(tǒng)解釋推斷為佩戴者的無(wú)聲語(yǔ)音。EchoSpeech完全可以在標(biāo)準(zhǔn)的智能手機(jī)上運(yùn)行,只需要1到6分鐘的訓(xùn)練數(shù)據(jù),并以73.3 mW的低功耗實(shí)時(shí)運(yùn)行。該團(tuán)隊(duì)的深度學(xué)習(xí)算法可以實(shí)時(shí)分析回聲,準(zhǔn)確率約為95%。
該系統(tǒng)通過(guò)12名用戶研究進(jìn)行了評(píng)估,成功展示了識(shí)別31個(gè)獨(dú)立命令和三到六位連接數(shù)字的能力,單詞錯(cuò)誤率(WER)分別為4.5%(標(biāo)準(zhǔn)3.5%)和6.1%(標(biāo)準(zhǔn)4.2%)。此外,在行走和噪聲注入等場(chǎng)景中測(cè)試了系統(tǒng)的魯棒性。
更私密、低功耗、易使用
大多數(shù)SSI技術(shù)使用面部攝像頭,從用戶和與其交流的人那里收集數(shù)據(jù)。除了造成隱私問(wèn)題外,可穿戴攝像頭還會(huì)收集高帶寬視頻數(shù)據(jù)。
由于EchoSpeech不需要可穿戴攝像機(jī),設(shè)備只捕捉音頻數(shù)據(jù),這比圖像或視頻數(shù)據(jù)需要的帶寬要少得多,并且可以通過(guò)藍(lán)牙實(shí)時(shí)發(fā)送到手機(jī)。隱私信息永遠(yuǎn)不會(huì)脫離用戶的控制,因?yàn)閿?shù)據(jù)是在智能手機(jī)上本地處理的(不用在云中處理)。研究人員表示,純音頻傳感器的電池效率也更高:音頻傳感器可以工作10個(gè)小時(shí),而攝像頭只能工作30分鐘。
康奈爾大學(xué)的研究小組表示,他們發(fā)現(xiàn)EchoSpeech在很多應(yīng)用中都有應(yīng)用價(jià)值,從默念密碼來(lái)解鎖智能手機(jī),到跳過(guò)播放列表中的歌曲。該設(shè)備還可以與智能手機(jī)配對(duì),在說(shuō)話不方便的地方與他人交談,比如嘈雜的餐廳或安靜的圖書(shū)館。研究人員表示,該界面與手寫(xiě)筆和CAD等設(shè)計(jì)軟件兼容,從而消除了對(duì)鼠標(biāo)和鍵盤(pán)的需求。
審核編輯:劉清
-
人機(jī)界面
+關(guān)注
關(guān)注
5文章
526瀏覽量
44141 -
SSI
+關(guān)注
關(guān)注
0文章
38瀏覽量
19250 -
可穿戴設(shè)備
+關(guān)注
關(guān)注
55文章
3815瀏覽量
167046
原文標(biāo)題:什么?無(wú)聲語(yǔ)音接口?
文章出處:【微信號(hào):SSDFans,微信公眾號(hào):SSDFans】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論