0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

「揭秘」Speech AI 技術(shù)發(fā)展與前沿應(yīng)用

NVIDIA英偉達企業(yè)解決方案 ? 來源:未知 ? 2022-11-10 11:00 ? 次閱讀

Speech AI 線上技術(shù)研討會

精彩議程搶先看



自二十世紀下半葉第一個基于計算機的語音合成系統(tǒng)誕生,至以隱馬爾可夫模型為代表的統(tǒng)計機器學(xué)習(xí)合成語音占據(jù)主流,再到近十年來基于神經(jīng)網(wǎng)絡(luò)的語音合成快速發(fā)展,計算機語音合成技術(shù)如今已能媲美真人發(fā)聲,并走向大規(guī)模的商業(yè)化落地階段。


Gartner 技術(shù)成熟度曲線表明,語音識別和語音合成技術(shù)如今已經(jīng)達到穩(wěn)步爬升恢復(fù)期和生產(chǎn)成熟期。國內(nèi)的智能語音市場也形成了比較成熟的格局,智能語音科技企業(yè)和互聯(lián)網(wǎng)企業(yè)成為主導(dǎo)。因此,要實現(xiàn)差異化競爭,企業(yè)也在紛紛思考如何從單一的智能語音技術(shù)提供商轉(zhuǎn)型為提供全方位的人工智能技術(shù)和應(yīng)用的服務(wù)商。此外,盡管技術(shù)已經(jīng)趨近成熟,門檻大大降低,開發(fā)和運行可落地的語音人工智能服務(wù)仍然是一項復(fù)雜而艱巨的任務(wù),通常需要面臨實時性、可理解性、自然性、低資源、魯棒性等挑戰(zhàn)。


在智能語音市場的競爭格局中,一大空缺是算法、通用類芯片和云端 AI 芯片。借助以 GPU 為代表的通用類芯片上的技術(shù)優(yōu)勢,NVIDIA 進軍了智能語音領(lǐng)域。基于自動語音識別( ASR )和語音合成( TTS ),NVIDIA Riva 簡化了開發(fā)語音 AI 服務(wù)的端到端流程,并為語音交互提供實時性能。此外,包括 NVIDIA TensorRTTriton 推理服務(wù)器在內(nèi)的諸多 NVIDIA 技術(shù)也幫助各種 Speech AI 工作負載進行大幅的降本增效。不論是 AI 呼叫中心、虛擬主力語音接口,還是視頻會議中的實時字幕等應(yīng)用,NVIDIA GPU 及 NVIDIA 加速技術(shù)都在幫助用戶進一步為技術(shù)落地降低門檻,為自動駕駛、醫(yī)療等場景的智能語音應(yīng)用創(chuàng)新賦能。


2022 年 10 月 25 日和 27 日,NVIDIA 在 DataFun 直播間,舉辦 Speech AI 線上技術(shù)研討會,由資深專家介紹 NVIDIA NeMo / RIVA 構(gòu)建語音應(yīng)用的工作流GPU 加速和部署 Speech AI 任務(wù)全流程的最佳實踐,更榮幸邀請到了 WeNet 開源社區(qū)發(fā)起人為我們分享 WeNet 社區(qū)的最新技術(shù)進展。


議題介紹


NVIDIA NeMo 工具介紹,以及如何利用 NeMo 進行語音相關(guān)任務(wù)的訓(xùn)練


NeMo 是 NVIDIA 推出的一款主打GPU 訓(xùn)練的工具,可以支持常見的 Speech AI 相關(guān)的任務(wù),例如ASR、NLP、TTS、Speaker Recognition 等。將以中文語音識別為例,介紹如何利用 NeMo 快速地完成該任務(wù)的訓(xùn)練。同時也會介紹 NeMo 中目前已有的一些功能,例如 VAD、說話人日志等。


通過本次演講您將收獲以下內(nèi)容:


  • 如果利用 NeMo 訓(xùn)練 ASR 模型?


  • NeMo 對中文語音任務(wù)的支持有哪些?


  • NeMo 支持其他哪些 Speech processing 的任務(wù)?



演講嘉賓


丁文 NVIDIA 解決方案架構(gòu)師

畢業(yè)于上海交通大學(xué),導(dǎo)師為俞凱教授。畢業(yè)后曾就職于頭部互聯(lián)網(wǎng)公司語音交互部門,主要負責(zé)流式 ASR 的迭代與優(yōu)化、粵語 ASR 等。目前就職于 NVIDIA,負責(zé) Riva 中文 ASR 模型迭代,中文 ASR 模型 GPU 部署方案落地與優(yōu)化等。


使用 NVIDIA Riva 部署企業(yè)級 ASR 服務(wù)


NVIDIA Riva 提供了最先進的 GPU 優(yōu)化部署解決方案,用于構(gòu)建和部署完全可定制的實時語音識別服務(wù),用于諸如呼叫中心代理協(xié)助、虛擬助理、數(shù)字化身、品牌語音和視頻會議轉(zhuǎn)錄等應(yīng)用程序。


本次分享將為大家介紹 NVIDIA Riva 的主要特性,包括高精度的預(yù)訓(xùn)練語音模型,高性能推理模型,以及高可擴展的推理服務(wù)。


通過本次演講您將收獲以下內(nèi)容:


  • 如何使用 NVIDIA Riva 在 GPU 上快速部署語音識別服務(wù)?


  • Riva 是如何針對 GPU 進行優(yōu)化加速的?


  • 怎樣進行定制化達到更好的語音識別精度?



演講嘉賓


齊家興 NVIDIA 解決方案架構(gòu)師

德國亞琛工業(yè)大學(xué)博士,目前于英偉達企業(yè)解決方案部門擔(dān)任高級架構(gòu)師,多年來從事自然語言處理和語音識別等方向研究,助力多家企業(yè)基于 GPU 平臺實現(xiàn)高效易用的訓(xùn)練和推理平臺。他是英偉達 NeMo,Riva 語音識別訓(xùn)練推理平臺的中文模型開發(fā)者之一。


利用 Triton Inference Server 和 TensorRT 加速語音 AI 在云端的運行效率


演講將主要介紹云上部署端到端 ASR 服務(wù)最佳實踐以及云上部署端到端 TTS 服務(wù)最佳實踐。


通過本次演講您還將收獲以下內(nèi)容:


  • 了解如何加速語音 AI 模型


  • 了解如何節(jié)省語音 AI服務(wù)的部署成本



演講嘉賓


劉川 NVIDIA 資深解決方案架構(gòu)師

NVIDIA 中文語音解決方案主要負責(zé)人,對基于 GPU 的語音識別和語音合成在云上的部署有豐富經(jīng)驗。


WeNet 在 Speech AI 的應(yīng)用與探索


演講將主要介紹開源極簡史、語音開源簡史、WeNet 開源社區(qū)以及基于 GPU 的語音識別實踐。


通過本次演講您將收獲以下內(nèi)容:


  • 了解 WeNet 開源社區(qū)


  • WeNet 社區(qū)中如何支持和使用 GPU



演講嘉賓


張彬彬 WeNet 開源社區(qū)發(fā)起人

碩士畢業(yè)于西北工業(yè)大學(xué)音頻語音與語音處理研究組。WeNet 開源社區(qū)發(fā)起人,主導(dǎo)了業(yè)界領(lǐng)先的開源端到端語音識別項目 WeNet 和大規(guī)模多領(lǐng)域中文語音識別開源數(shù)據(jù)集 WenetSpeech 的開發(fā)?,F(xiàn)任地平線語音算法專家,曾先后在微軟、出門問問等公司從事語音識別算法和產(chǎn)品研發(fā)。



參與方式


精彩連續(xù),點擊“閱讀原文”掃描下方海報二維碼,馬上注冊預(yù)約!



原文標(biāo)題:「揭秘」Speech AI 技術(shù)發(fā)展與前沿應(yīng)用

文章出處:【微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 英偉達
    +關(guān)注

    關(guān)注

    22

    文章

    3818

    瀏覽量

    91492

原文標(biāo)題:「揭秘」Speech AI 技術(shù)發(fā)展與前沿應(yīng)用

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    智能座艙市場與技術(shù)發(fā)展趨勢研究

    研究分析智能座艙的市場與技術(shù)發(fā)展
    發(fā)表于 01-06 16:36 ?1次下載

    龍騰半導(dǎo)體第十五屆亞洲電源技術(shù)發(fā)展論壇精彩回顧

    近日,第十五屆亞洲電源技術(shù)發(fā)展論壇在深圳灣萬麗酒店圓滿結(jié)束。龍騰半導(dǎo)體全程參與了這場匯聚行業(yè)精英與前沿技術(shù)的電源盛會:不僅精彩展示了最新產(chǎn)品和技術(shù)成果,還榮獲“國產(chǎn)功率器件行業(yè)卓越獎”,贏得了市場的廣泛關(guān)注與高度認可。
    的頭像 發(fā)表于 12-10 11:52 ?280次閱讀

    深度參與,共話未來 —— 吹田電氣亮相第十五屆亞洲電源技術(shù)發(fā)展論壇

    在這個金秋時節(jié),吹田電氣帶著對電源技術(shù)的無限熱愛與追求,我們啟程前往第十五屆亞洲電源技術(shù)發(fā)展論壇的盛會。在這場匯聚了行業(yè)精英、學(xué)者與前沿技術(shù)的盛會中,我們不僅僅見證了電源技術(shù)的最新進展
    的頭像 發(fā)表于 12-09 16:58 ?361次閱讀
    深度參與,共話未來 —— 吹田電氣亮相第十五屆亞洲電源<b class='flag-5'>技術(shù)發(fā)展</b>論壇

    直流高壓電源技術(shù)發(fā)展淺析

    等高端領(lǐng)域。 隨著開關(guān)電源技術(shù)發(fā)展與成熟,采用高頻開關(guān)變換技術(shù)結(jié)合高壓電源的特點而研制的直流高壓電源成為主流,新一代直流高壓電源具有更高的轉(zhuǎn)換效率、更低的損耗和更強的穩(wěn)定性。 ▍高輸出電壓: 能夠
    發(fā)表于 11-28 18:20

    DEKRA德凱探討AI安全技術(shù)前沿趨勢

    近日,DEKRA德凱在蘇州成功舉辦了一場聚焦智能化發(fā)展的研討會,深入探討了汽車、高科技及工業(yè)領(lǐng)域人工智能(AI)應(yīng)用中的安全與管理。研討會吸引了眾多行業(yè)專家及產(chǎn)業(yè)鏈合作伙伴的參與,共同探討了AI安全
    的頭像 發(fā)表于 11-14 13:48 ?301次閱讀

    揭秘高精度貼裝技術(shù)如何助力AI芯片量產(chǎn)飛躍

    在當(dāng)今科技日新月異的時代,人工智能(AI)作為推動社會進步和產(chǎn)業(yè)升級的關(guān)鍵力量,正以前所未有的速度改變著我們的生活和工作方式。而AI芯片,作為支撐AI技術(shù)發(fā)展的核心硬件,其性能與生產(chǎn)效
    的頭像 發(fā)表于 10-29 11:09 ?395次閱讀
    <b class='flag-5'>揭秘</b>高精度貼裝<b class='flag-5'>技術(shù)</b>如何助力<b class='flag-5'>AI</b>芯片量產(chǎn)飛躍

    智能駕駛技術(shù)發(fā)展趨勢

    智能駕駛技術(shù)是當(dāng)前汽車行業(yè)的重要發(fā)展趨勢之一,它融合了傳感器技術(shù)、人工智能、大數(shù)據(jù)和云計算等多種先進技術(shù),旨在實現(xiàn)車輛的自主駕駛和智能化管理。以下是對智能駕駛
    的頭像 發(fā)表于 10-23 15:41 ?833次閱讀

    AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新》第二章AI for Science的技術(shù)支撐學(xué)習(xí)心得

    ,推動科學(xué)研究的深入發(fā)展。 總結(jié) 通過閱讀《AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新》第二章,我對AI for Science的技術(shù)支撐有了更加全面和深入的理解。我深刻認識到
    發(fā)表于 10-14 09:16

    科幻前沿技術(shù)發(fā)展論壇召開 十余名科幻大咖暢議科幻創(chuàng)意賦能科技創(chuàng)新

    提供無限可能。那么下一個,會是什么呢? 4月28日,2024第八屆中國科幻大會科幻前沿技術(shù)發(fā)展論壇在石景山區(qū)首鋼園召開。 論壇由北京市科學(xué)技術(shù)委員會、中關(guān)村科技園區(qū)管理委員會主辦,石景山區(qū)人民政府、首鋼集團聯(lián)合主辦,北京
    的頭像 發(fā)表于 09-10 17:18 ?265次閱讀
    科幻<b class='flag-5'>前沿技術(shù)發(fā)展</b>論壇召開 十余名科幻大咖暢議科幻創(chuàng)意賦能科技創(chuàng)新

    無線充電技術(shù)發(fā)展趨勢

    目前無線充電技術(shù)還處于發(fā)展階段,距離方案的成熟尚需不斷探索和完善!降低熱損耗,提升效率縮短充電時間,改良充電曲線以更好的保護負載設(shè)備(終端或者電池等)。
    發(fā)表于 08-03 14:26

    Build 2024發(fā)布多項Azure AI Speech全新多模態(tài)功能

    客戶們持續(xù)使用 Azure OpenAI 和 Azure AI Speech 進行創(chuàng)新,為企業(yè)引入新的效率,并構(gòu)建新的多模態(tài)體驗。
    的頭像 發(fā)表于 05-28 09:08 ?602次閱讀
    Build 2024發(fā)布多項Azure <b class='flag-5'>AI</b> <b class='flag-5'>Speech</b>全新多模態(tài)功能

    揭秘氣候技術(shù)發(fā)展的關(guān)鍵平臺Earth-2的核心—CorrDiff

    在全球變暖背景下,NVIDIA Earth-2 已成為推動氣候技術(shù)發(fā)展的關(guān)鍵平臺。針對因氣候變化而日益加重的災(zāi)難性極端天氣影響,該平臺能夠生成可供執(zhí)行的洞察。
    的頭像 發(fā)表于 04-20 09:23 ?669次閱讀

    高通在2024 MWC展示AI領(lǐng)域新突破

    在2024年巴塞羅那世界移動通信大會(2024 MWC)上,高通技術(shù)公司展現(xiàn)了其在AI領(lǐng)域的最新成果,從全新的高通?AI Hub到前沿研究突破,再到
    的頭像 發(fā)表于 02-27 10:57 ?1018次閱讀

    AI大模型加速落地! 西部數(shù)據(jù)助力數(shù)據(jù)中心智能化升級

    面對AI大模型的發(fā)展和普及,西部數(shù)據(jù)作為全球數(shù)據(jù)存儲解決方案提供商,如何看待這種浪潮到來,生成式AI技術(shù)發(fā)展對現(xiàn)有基礎(chǔ)設(shè)施部署工作帶來哪些挑戰(zhàn)?對存儲產(chǎn)品帶來了哪些新的
    的頭像 發(fā)表于 02-18 00:03 ?4649次閱讀
    <b class='flag-5'>AI</b>大模型加速落地! 西部數(shù)據(jù)助力數(shù)據(jù)中心智能化升級

    AI加速智能家居分布式語音技術(shù)發(fā)展

    中的任何地方通過語音命令來控制智能設(shè)備,實現(xiàn)更具有體驗性的居家生活。 ? 什么是分布式語音技術(shù)? ? 分布式語音技術(shù),也稱為DSR(Distributed Speech Recognition),是一種將語音識別任務(wù)分布到多個計
    的頭像 發(fā)表于 02-01 00:16 ?5855次閱讀