日本一二三区视频在线,亚洲伦理中文字幕一区,在线精品免费视频

近期，來自于約翰霍普金斯大學（John Hopkins University）和亞馬遜（Amazon）的研究人員們發(fā)布了一篇論文，介紹他們是如何通過訓練一個深度學習系統(tǒng)來幫助亞馬遜Alexa語音助手識別并忽略那些并非是對她說的話，從而將其語義識別模型的識別準確度提高了15%。

研究人員在他們的論文中指出，“諸如Amazon Echo和Google Home的這類家用聲控設備都面臨著一個問題，那就是當周圍存在干擾聲源的時候，設備如何能夠照常地識別指令。”

為了讓Alexa更好地識別指令，研究人員訓練了一個神經(jīng)網(wǎng)絡，來匹配和識別“喚醒詞”（通常是“Alexa”）以及緊隨其后的指令，并忽略那些來自于其他人或媒體設備的干擾。

研究人員介紹說：“這項任務的挑戰(zhàn)在于需要從含有特定詞匯的話語片段中學習使用者的語言習慣。借助于兩種不同的神經(jīng)網(wǎng)絡架構，我們最終實現(xiàn)了這一目標。兩個神經(jīng)網(wǎng)絡架構都是具有注意機制的序列到序列編碼器 - 解碼器網(wǎng)絡的變體?！?/p>

借助于NVIDIA V100 GPU和OpenSeq2Seq工具，用于序列到序列模型的分布式和混合精度訓練，使用TensorFlow建立，團隊用1,200小時來自于Amazon Echo的實時英文數(shù)據(jù)訓練他們的算法。

通過改進所開發(fā)的基線網(wǎng)絡，該團隊還添加了一個額外的輸入端，能夠通過優(yōu)先處理類似于錨字的語音來增強注意機制。研究人員總結說： “在訓練期間，注意機制會自動學習喚醒詞的哪些聲學特征，以便在隨后的演講中尋找。”

該團隊還開發(fā)了一個mask-based模型，該模型能夠更加明確地將輸入語音與錨字的聲學輪廓相匹配。

最后的測試結果顯示：第一種方法的性能更好，達到了15%的改進；第二種模型也達到了13%的改進。

根據(jù)研究人員介紹，該算法在訓練和推理過程中都采用了NVIDIA GPU。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

NVIDIA

NVIDIA

+關注

關注
14

文章
4994

瀏覽量
103166
亞馬遜

亞馬遜

+關注

關注
8

文章
2668

瀏覽量
83412

原文標題：借助AI研究，將亞馬遜Alexa語義識別準確度提高15%

文章出處：【微信號：NVIDIA-Enterprise，微信公眾號：NVIDIA英偉達企業(yè)解決方案】歡迎添加關注！文章轉(zhuǎn)載請注明出處。

《CST Studio Suite 2024 GPU加速計算指南》

監(jiān)控/利用率、選擇可用GPU卡子集等內(nèi)容。 6. 故障排除：針對NVIDIA驅(qū)動安裝、多GPU設置、GPU模式、硬件識別、CUDA錯誤、TC

發(fā)表于 12-16 14:25

語音識別技術在醫(yī)療領域的應用

轉(zhuǎn)換醫(yī)療病歷。這一過程不僅提高了病歷的準確性和完整性，還方便了醫(yī)生和患者的隨時查閱。電子病歷還可以實現(xiàn)自動分類和歸檔，極大地提高了醫(yī)療管理效率。此外，醫(yī)生可以通過口述快速記錄患者信息，節(jié)省手寫時間，從而將更多

發(fā)表于 11-26 09:35 ?371次閱讀

語音識別技術的應用與發(fā)展

語音識別技術的發(fā)展可以追溯到20世紀50年代，但直到近年來，隨著計算能力的提升和機器學習技術的進步，這項技術才真正成熟并廣泛應用于各個領域。語音識別技術的應用不僅提高了工作效率，也極大地改善了用戶

發(fā)表于 11-26 09:20 ?510次閱讀

ASR與傳統(tǒng)語音識別的區(qū)別

識別技術。構建更深更復雜的神經(jīng)網(wǎng)絡模型，利用大量數(shù)據(jù)進行訓練。 提高了語音識別的準確率和穩(wěn)定性。傳統(tǒng)語音

發(fā)表于 11-18 15:22 ?503次閱讀

亞馬遜基于人工智能的Alexa發(fā)布計劃延期至明年

11月1日外媒報道稱，亞馬遜已將基于人工智能技術全新打造的正版Alexa發(fā)布計劃延期至明年。　　亞馬遜最初于去年9月公開了新版Alexa的規(guī)劃，意在通過集成AI大

發(fā)表于 11-01 15:19 ?566次閱讀

隧道門禁人臉識別系統(tǒng)是專為隧道安全管理設計的先進技術系統(tǒng)

，有效防止了誤識別和漏識別的情況發(fā)生。多角度識別：支持多角度的人臉采集和識別，施工人員在不同的行走姿態(tài)和角度下靠近門禁時，系統(tǒng)都能快速準確

發(fā)表于 10-29 14:51 ?267次閱讀

隧道門禁人臉<b class='flag-5'>識別</b>系統(tǒng)是專為隧道安全管理設計的先進技術系統(tǒng)

GPU深度學習應用案例

能力，可以顯著提高圖像識別模型的訓練速度和準確性。例如，在人臉識別、自動駕駛等領域，GPU被廣泛

發(fā)表于 10-27 11:13 ?404次閱讀

AI大模型在圖像識別中的優(yōu)勢

大模型借助高性能的計算硬件和優(yōu)化的算法，能夠在短時間內(nèi)完成對大量圖像數(shù)據(jù)的處理和分析，顯著提高了圖像識別的效率。識別

發(fā)表于 10-23 15:01 ?720次閱讀

【飛凌嵌入式OK3576-C開發(fā)板體驗】RKNN神經(jīng)網(wǎng)絡-車牌識別

LPRNet基于深層神經(jīng)網(wǎng)絡設計，通過輕量級的卷積神經(jīng)網(wǎng)絡實現(xiàn)車牌識別。它采用端到端的訓練方式，不依賴字符分割，能夠直接處理整張車牌圖像，并輸出最終的字符序列。這種設計提高了識別的實時性和準確

發(fā)表于 10-10 16:40

魔搭社區(qū)借助NVIDIA TensorRT-LLM提升LLM推理效率

“魔搭社區(qū)是中國最具影響力的模型開源社區(qū)，致力給開發(fā)者提供模型即服務的體驗。魔搭社區(qū)利用NVIDIA TensorRT-LLM，大大提高了大語言模型

發(fā)表于 08-23 15:48 ?460次閱讀

基于高光譜數(shù)據(jù)的典型地物分類識別方法研究

隨著成像光譜儀器的廣泛應用，利用光譜數(shù)據(jù)進行物質(zhì)分類與識別已經(jīng)成為一項重要的研究內(nèi)容，研究不同分類算法對最終的目標識別準確度具有重要意義。

發(fā)表于 07-18 14:43 ?334次閱讀

人臉識別模型訓練是什么意思

人臉識別模型訓練是指通過大量的人臉數(shù)據(jù)，使用機器學習或深度學習算法，訓練出一個能夠識別和分類人臉的模型。這個模型可以應用于各種場景，如安防監(jiān)

發(fā)表于 07-04 09:16 ?638次閱讀

基于毫米波雷達的手勢識別神經(jīng)網(wǎng)絡

（LSTM）架構來捕獲時間和空間信息，有效地增強了手勢識別。然而，CNNLSTM模型通常需要大量的內(nèi)存使用，具有較高的計算復雜性，并且高度依賴于環(huán)境因素。為了應對這些挑戰(zhàn)，提高識別的

發(fā)表于 05-23 12:12

水尺讀數(shù)監(jiān)測識別攝像機

監(jiān)測通常需要人工觀測水位，并記錄讀數(shù)。這種方法不僅費時費力，而且容易出現(xiàn)誤差。而利用水尺讀數(shù)監(jiān)測識別攝像機，可以實現(xiàn)自動化監(jiān)測，大大提高了監(jiān)測的效率和準確性。水尺讀

發(fā)表于 04-15 10:12 ?350次閱讀

AI車牌監(jiān)測識別攝像機

嫌疑車輛。AI車牌監(jiān)測識別攝像機在實際應用中發(fā)揮著重要作用。首先，它可以自動識別車輛牌照，無需人工干預，大大提高了工作效率并減少了人力成本。其次，當有嫌疑車輛出現(xiàn)時，

發(fā)表于 04-02 09:55 ?470次閱讀