CoNNear是具有卷積和跳過連接的全卷積編碼器-解碼器NN,可將音頻輸入映射到時域中不同耳蝸部分(N CF)的201 BM振動輸出。
a,b,具有(a)和不具有(b)上下文的CoNNear體系結(jié)構(gòu)。最終的CoNNear模型具有四個編碼器和解碼器層,使用上下文,并且在CNN層之間包括tanh激活功能。c,模型訓(xùn)練和評估程序的概述。作為參考,對語音語料庫的分析性TL模型仿真用于訓(xùn)練CoNNear參數(shù),而模型的評估是使用耳蝸力學(xué)研究中普遍采用的簡單聲學(xué)刺激進行的。
將卷積神經(jīng)網(wǎng)絡(luò)與計算神經(jīng)科學(xué)相結(jié)合,創(chuàng)建了一個模擬人類耳蝸力學(xué)的模型。在過去的幾十年中,語音和語音識別技術(shù)取得了長足的進步。例如,通常由基于電話的代理為客戶提供服務(wù)。而且,智能手機上的語音識別和響應(yīng)系統(tǒng)已經(jīng)無處不在。但是它們都具有一個共同點,那就是盡管它們看起來很像,但它們都不是實時操作的。每個都基于處理所聽到內(nèi)容的硬件和軟件。在這項新的工作中,研究人員建議當(dāng)前設(shè)備的問題在于必須完成的計算所涉及的復(fù)雜性。
為了解決這個問題,他們創(chuàng)建了一個模擬人類聽力的模型,該模型基于將卷積神經(jīng)網(wǎng)絡(luò)的最佳功能與計算神經(jīng)科學(xué)融合在一起。人類的聽力來自耳朵的各個部位。聲音進入耳道并撞擊鼓膜。耳膜響應(yīng)振動,將信號發(fā)送到內(nèi)耳的骨骼,從而在耳蝸內(nèi)的液體中產(chǎn)生波紋。那種液體攪動著耳蝸內(nèi)的毛細胞。毛細胞的運動會刺激離子通道,進而產(chǎn)生發(fā)送到腦干的信號。
研究人員創(chuàng)建了一個AI系統(tǒng),該系統(tǒng)被教給識別聲音,然后以類似的方式對其進行解碼。然后,他們將系統(tǒng)連接到基于人體解剖學(xué)的模型。他們將他們的系統(tǒng)命名為CoNNear-耳蝸的工作模型。測試表明,該系統(tǒng)能夠?qū)?0 kHz采樣的聲波波形實時轉(zhuǎn)換為耳蝸基底膜波形,大大超越了最先進的傳統(tǒng)系統(tǒng)。CoNNear的耳蝸功能比目前的助聽器技術(shù)快2000倍。研究人員認為,他們的發(fā)現(xiàn)可能為新一代類人聽力或增強的聽力和語音識別設(shè)備奠定基矗。
責(zé)任編輯:YYX
-
解碼器
+關(guān)注
關(guān)注
9文章
1144瀏覽量
40827 -
編碼器
+關(guān)注
關(guān)注
45文章
3655瀏覽量
134875 -
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4776瀏覽量
100948
發(fā)布評論請先 登錄
相關(guān)推薦
評論