近期,來自于約翰霍普金斯大學(John Hopkins University)和亞馬遜(Amazon)的研究人員們發(fā)布了一篇論文,介紹他們是如何通過訓練一個深度學習系統(tǒng)來幫助亞馬遜Alexa語音助手識別并忽略那些并非是對她說的話,從而將其語義識別模型的識別準確度提高了15%。
研究人員在他們的論文中指出,“諸如Amazon Echo和Google Home的這類家用聲控設備都面臨著一個問題,那就是當周圍存在干擾聲源的時候,設備如何能夠照常地識別指令。”
為了讓Alexa更好地識別指令,研究人員訓練了一個神經(jīng)網(wǎng)絡,來匹配和識別“喚醒詞”(通常是“Alexa”)以及緊隨其后的指令,并忽略那些來自于其他人或媒體設備的干擾。
研究人員介紹說:“這項任務的挑戰(zhàn)在于需要從含有特定詞匯的話語片段中學習使用者的語言習慣。借助于兩種不同的神經(jīng)網(wǎng)絡架構,我們最終實現(xiàn)了這一目標。兩個神經(jīng)網(wǎng)絡架構都是具有注意機制的序列到序列編碼器 - 解碼器網(wǎng)絡的變體?!?/p>
借助于NVIDIA V100 GPU和OpenSeq2Seq工具,用于序列到序列模型的分布式和混合精度訓練,使用TensorFlow建立,團隊用1,200小時來自于Amazon Echo的實時英文數(shù)據(jù)訓練他們的算法。
通過改進所開發(fā)的基線網(wǎng)絡,該團隊還添加了一個額外的輸入端,能夠通過優(yōu)先處理類似于錨字的語音來增強注意機制。研究人員總結說: “在訓練期間,注意機制會自動學習喚醒詞的哪些聲學特征,以便在隨后的演講中尋找。”
該團隊還開發(fā)了一個mask-based模型,該模型能夠更加明確地將輸入語音與錨字的聲學輪廓相匹配。
最后的測試結果顯示:第一種方法的性能更好,達到了15%的改進;第二種模型也達到了13%的改進。
根據(jù)研究人員介紹,該算法在訓練和推理過程中都采用了NVIDIA GPU。
-
NVIDIA
+關注
關注
14文章
4994瀏覽量
103166 -
亞馬遜
+關注
關注
8文章
2668瀏覽量
83412
原文標題:借助AI研究,將亞馬遜Alexa語義識別準確度提高15%
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論