音頻可以包含從人類語(yǔ)言到非語(yǔ)言聲音等各種聲音,例如狗吠和警笛聲。在為聽力困難的人設(shè)計(jì)無(wú)障礙應(yīng)用程序時(shí),該應(yīng)用程序應(yīng)能夠識(shí)別聲音并理解語(yǔ)義。
這種技術(shù)將有助于聾啞或聽力有障礙的人可視化語(yǔ)音,例如人類的對(duì)話和非語(yǔ)音聲音。通過(guò)將語(yǔ)音和聲音 AI 相結(jié)合,可以將這些可視化效果疊加到 AR 眼鏡上,從而使用戶能夠看到并理解他們無(wú)法聽到的聲音。
根據(jù)世界衛(wèi)生組織的統(tǒng)計(jì),約有 15 億人(占全球人口近 20%)患有聽力損失。到 2050 年,這一數(shù)字將上升至 25 億。
Cochl 是 NVIDIA 的合作伙伴,總部位于圣何塞。該公司是一家利用聲音 AI 技術(shù)來(lái)理解各類音頻的科技密集型初創(chuàng)企業(yè)。他同時(shí)也是 NVIDIA 初創(chuàng)加速計(jì)劃的會(huì)員。通過(guò)提供尖端技術(shù)和 NVIDIA 專家的支持,該計(jì)劃幫助初創(chuàng)企業(yè)更快地構(gòu)建解決方案。
該平臺(tái)可識(shí)別 37 種環(huán)境聲音,并且 CochI 還加入了先進(jìn)的語(yǔ)音轉(zhuǎn)文本技術(shù),使用戶能夠真正全方位地了解聲音世界。
AR 眼鏡可視化任何聲音
AR 眼鏡作為一個(gè)可視化聲音的工具,有望極大改善聽力損失者的生活。這項(xiàng)技術(shù)可以幫助提高他們的交流能力,使他們更容易理解和融入到周圍的世界。
Cochl.Sense 和 NVIDIA Riva 在微軟 HoloLens 2 上運(yùn)行!
在此方案中,自動(dòng)語(yǔ)音識(shí)別(ASR)使眼鏡能夠識(shí)別并理解人類的語(yǔ)音。這項(xiàng)技術(shù)可通過(guò)多種方式集成到眼鏡中:
-
使用麥克風(fēng)捕捉與聾啞人或聽力有障礙者交談的人的語(yǔ)音,然后使用 ASR 算法解釋語(yǔ)音并將其轉(zhuǎn)錄為文本,最后將該文本顯示在眼鏡上,從而使聾啞人或聽力有障礙者能夠閱讀并理解該語(yǔ)音。
-
ASR 還可以使眼鏡能夠響應(yīng)語(yǔ)音命令,以便用戶可以通過(guò)語(yǔ)音控制眼鏡。
-
AR 眼鏡還能在屏幕上顯示所有對(duì)話(例如在駕車時(shí)轉(zhuǎn)錄地圖上的語(yǔ)音指示)以及其他聲音(例如緊急車輛的喇叭聲、警報(bào)聲以及風(fēng)聲)。
解決方案背后的技術(shù)
Cochl 在其軟件堆棧中使用了 NVIDIA Riva 來(lái)增強(qiáng)其 ASR 功能。Riva 是一個(gè)使用 GPU 加速、完全可定制的 SDK,用于開發(fā)語(yǔ)音 AI 的應(yīng)用程序。通過(guò)使用 Riva,該平臺(tái)的功能得以擴(kuò)展,能夠理解包括非語(yǔ)音聲音在內(nèi)的各種聲音。
Cochl 聯(lián)合創(chuàng)始人兼首席執(zhí)行官 Yoonchang Han 表示:“我們測(cè)試了很多語(yǔ)音識(shí)別服務(wù),但只有 Riva 提供了極高且穩(wěn)定的實(shí)時(shí)性能。所以現(xiàn)在我們可以讓我們的聲音 AI 系統(tǒng)更加接近人類的聽覺(jué)感知。”
“正如我們所觀察到的,AR 眼鏡最有可能在環(huán)境嘈雜的開放空間中使用。NVIDIA Riva 幫助我們?cè)卩须s的環(huán)境中也能準(zhǔn)確轉(zhuǎn)錄語(yǔ)音,并為我們提供了無(wú)縫體驗(yàn),可以集成到我們的 Cochl.Sense 平臺(tái)上。”
輔助技術(shù)的未來(lái)
創(chuàng)建一個(gè)能像人類一樣感知聲音的通用 AI 系統(tǒng)是一項(xiàng)巨大的挑戰(zhàn)。為了使 AR 眼鏡更易于使用,需要更輕便的可穿戴技術(shù)。
盡管它們?nèi)匀皇菍⒙曇艉驼Z(yǔ)音轉(zhuǎn)化為視覺(jué)信息的理想媒介。通過(guò)集成機(jī)器聽覺(jué)功能,AR 眼鏡能夠?yàn)槭澜绺鞯氐拿@啞或聽力障礙者帶來(lái)更加安全、便捷和愉快的日常生活體驗(yàn)。
Cochl 還在探索語(yǔ)音 AI 的更多用例,例如為 AR 眼鏡上的任何視頻提供隱藏式字幕和實(shí)現(xiàn)多個(gè)發(fā)言者的轉(zhuǎn)錄。為了給聽力障礙者帶來(lái)最佳體驗(yàn),該公司正在探索分析并可視化音樂(lè)的方法,以幫助他們至少能夠理解音樂(lè)的類型和情感。
該公司期待體驗(yàn)更多的 NVIDIA 解決方案,包括 Riva、NVIDIA NeMo 和 NVIDIA TensorRT。
點(diǎn)擊“閱讀原文”,或掃描下方海報(bào)二維碼,在 8 月 8日聆聽NVIDIA 創(chuàng)始人兼 CEO 黃仁勛在 SIGGRAPH 現(xiàn)場(chǎng)發(fā)表的 NVIDIA 主題演講,了解 NVIDIA 的新技術(shù),包括屢獲殊榮的研究,OpenUSD 開發(fā),以及最新的 AI 內(nèi)容創(chuàng)作解決方案。
原文標(biāo)題:聚焦語(yǔ)音 AI:在 AR 眼鏡上可視化語(yǔ)音和聲音
文章出處:【微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
-
英偉達(dá)
+關(guān)注
關(guān)注
22文章
3776瀏覽量
91117
原文標(biāo)題:聚焦語(yǔ)音 AI:在 AR 眼鏡上可視化語(yǔ)音和聲音
文章出處:【微信號(hào):NVIDIA_China,微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論