欧美乱妇高清无乱码在线观看,亚洲色精品VR一区区三区,久久精品综合网人人妻

網易互娛 AI Lab 的研發(fā)人員，基于 Wenet 語音識別工具進行優(yōu)化和創(chuàng)新，利用 NVIDIA Triton 推理服務器的 GPU Batch Inference 機制加速了語音識別的速度，并且降低了成本。

2001 年正式成立的網易游戲·互動娛樂事業(yè)群在經歷了近 20 年的發(fā)展歷程后，以“創(chuàng)新無邊界，匠心造精品”為文化基石，創(chuàng)造了一系列大家耳熟能詳的代表作品，如夢幻西游系列、大話西游系列、《陰陽師》、《第五人格》、《荒野行動》、《率土之濱》、《哈利波特：魔法覺醒》等。在 data.ai 公布的 2021 全球發(fā)行商 52 強榜單中，網易排名第二。

語音識別 AI 算法服務目前已經成為各個領域不可或缺的基礎算法服務。網易互娛 AI Lab 為所有互娛游戲的玩家，CC 直播平臺用戶等提供完善的語音識別服務。語音識別服務每天都有大量的調用量，AI 推理的計算量繁重。

在網易游戲中，語音識別是一個調用量龐大的基礎算法服務，如果在語音識別算法服務這里出現時耗或吞吐瓶頸的話，會因為語音內容識別過慢，使得用戶使用體驗大幅下降。

服務是基于開源框架 Wenet 優(yōu)化開發(fā)，但是 Wenet 框架中非流式部署方案是基于 libtorch 和 C++ 的，并且熱詞和語言模型部分均采用了 Openfst，速度較慢，也不太方便使用。經過測試 CPU Float32 模式下解碼，onnxruntime 要比 libtorch 快了近 20%。在 GPU 部署時還需要有拼接 Batch 的機制，batch inference 雖然在使用 CPU 做推理時沒有太大的提升，但是能大大提升 GPU 的利用率。

基于以上的挑戰(zhàn)，網易互娛 AI Lab 選擇了采用 NVIDIA 在 Wenet 中開源的 Triton 部署方案來改進優(yōu)化后進行 GPU 部署，使得語音識別速度提高，大幅降低時延和運營成本。

由于 Wenet 開源框架下的 Triton 推理服務器并沒有考慮音頻解碼，顯存溢出等問題，所以需要有個前端邏輯做音頻解碼處理和音頻分段處理。并且因為 Triton 推理服務器組 batch 的機制是相同音頻長度才會自動組成 batch 做推理，所以前端處理邏輯這塊還加上了按秒 padding 的操作。整體流程如圖所示。

其中前端處理流程如圖所示：

NVIDIA Triton 推理服務器處理流程：

(圖片來源于網易互娛授權)

其中 Triton 推理服務器中解碼器部分是基于 Wenet 的熱詞方案而自研實現的熱詞解碼器方案。

QPS，RTF 在 5 秒音頻下，CPU 設備和 GPU 設備對比，CPU 為 36 核機器， GPU 為單卡 T4：

(圖片來源于網易互娛授權)

由表格可知，對比 CPU-FP32 與 GPU-FP16，單卡 T4 的推理能力基本相當于 36 核 CPU(Intel(R) Xeon(R) CPU E5-2630 v4 @ 2.20GHz)機器的 4 倍。并且實驗測試可以得知 FP16 與 FP32 的 WER 基本無損。

自研熱詞解碼器的方法結果展示：

(圖片來源于網易互娛授權)

這里 GPU 的效果采用自研的熱詞增強的方法，識別率在熱詞這塊能有絕對 0.8% 的性能提升，而 Wenet 開源的方法大概是 0.5%。并且自研熱詞實例的構建耗時基本可以忽略不計。

整體來看 GPU 的方案在識別率基本無損的情況下，單卡 T4 比 36 核 CPU 機器提高近 4 倍的 QPS，單個音頻 RTF 測試下，包含音頻解碼等損耗情況下也能提高近 3 倍，并且也能夠支持熱詞增強功能，讓機器成本和識別速度都得到了很好的優(yōu)化。

網易互娛廣州 AI Lab 資深 AI 算法工程師丁涵宇表示：“目前該方案已在網易互娛 AI Lab 語音識別服務落地，大大的降低了識別時延和機器成本。后續(xù)，我們還將與英偉達一起研究將熱詞增強的方法在 GPU 中實現，探索的極致的語音識別推理性能?！?/p>

原文標題：NVIDIA Triton 助力網易互娛 AI Lab，改善語音識別效率及成本

文章出處：【微信公眾號：NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。

審核編輯：湯梓紅

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

NVIDIA

NVIDIA

+關注

關注
14

文章
5160

瀏覽量
104886
AI

AI

+關注

關注
87

文章
32905

瀏覽量
272524
語音識別

語音識別

+關注

關注
38

文章
1768

瀏覽量
113459

原文標題：NVIDIA Triton 助力網易互娛 AI Lab，改善語音識別效率及成本

文章出處：【微信號：NVIDIA_China，微信公眾號：NVIDIA英偉達】歡迎添加關注！文章轉載請注明出處。

國產推理服務器如何選擇？深度解析選型指南與華頡科技實戰(zhàn)案例

人工智能技術的爆發(fā)催生了對推理算力的迫切需求，而進口服務器的高成本與技術依賴性，推動了國產推理服務器的快速發(fā)展。據IDC預測，到2025年，中國AI

發(fā)表于 03-24 17:11 ?168次閱讀

英偉達GTC2025亮點：Oracle與NVIDIA合作助力企業(yè)加速代理式AI推理

Oracle 數據庫與 NVIDIA AI 相集成，使企業(yè)能夠更輕松、快捷地采用代理式 AI Oracle 和 NVIDIA 宣布，NVIDIA 加速計算和

發(fā)表于 03-21 12:01 ?336次閱讀

英偉達GTC25亮點：NVIDIA Dynamo開源庫加速并擴展AI推理模型

Triton 推理服務器的后續(xù)產品，NVIDIA Dynamo 是一款全新的 AI 推理服務軟

發(fā)表于 03-20 15:03 ?411次閱讀

Oracle 與 NVIDIA 合作助力企業(yè)加速代理式 AI 推理

——Oracle 和 NVIDIA 今日宣布，NVIDIA 加速計算和推理軟件與 Oracle 的 AI 基礎設施以及生成式 AI 服務首

發(fā)表于 03-19 15:24 ?221次閱讀

浪潮信息發(fā)布元腦R1推理服務器

。 DeepSeek R1 671B模型作為業(yè)界領先的深度學習模型，其部署一直面臨著較高的難度和成本。而浪潮信息的元腦R1推理服務器通過一系列的技術創(chuàng)新，成功打破了這一瓶頸。該服務器能夠充分利

發(fā)表于 02-17 10:32 ?471次閱讀

GPU加速云服務器怎么用的

GPU加速云服務器是將GPU硬件與云計算服務相結合，通過云服務提供商的平臺，用戶可以根據需求靈活租用帶有GPU資源的虛擬機實例。那么，GPU加速

發(fā)表于 12-26 11:58 ?244次閱讀

Triton編譯器在機器學習中的應用

1. Triton編譯器概述 Triton編譯器是NVIDIA Triton

發(fā)表于 12-24 18:13 ?695次閱讀

ASR與傳統(tǒng)語音識別的區(qū)別

識別技術。構建更深更復雜的神經網絡模型，利用大量數據進行訓練。提高了語音識別的準確率和穩(wěn)定性。傳統(tǒng)語音

發(fā)表于 11-18 15:22 ?909次閱讀

新加坡服務器的速度測試方法有哪些

測試新加坡服務器的速度和性能是確保服務器能夠滿足業(yè)務需求的關鍵步驟。以下是一些常用的方法和工具： Ping測試： Ping命令是一種基本的網絡診斷工具，用于測試與服務器的連接延遲和丟包

發(fā)表于 10-14 14:55 ?349次閱讀

什么是AI服務器？AI服務器的優(yōu)勢是什么？

AI服務器是一種專門為人工智能應用設計的服務器，它采用異構形式的硬件架構，通常搭載GPU、FPGA、ASIC等加速芯片，利用CPU與加速芯片

發(fā)表于 09-21 11:43 ?1481次閱讀

NVIDIA助力提供多樣、靈活的模型選擇

在本案例中，Dify 以模型中立以及開源生態(tài)的優(yōu)勢，為廣大 AI 創(chuàng)新者提供豐富的模型選擇。其集成的 NVIDIAAPI Catalog、NVIDIA NIM和Triton 推理服務器

發(fā)表于 09-09 09:19 ?673次閱讀

英偉達推出全新NVIDIA AI Foundry服務和NVIDIA NIM推理微服務

NVIDIA 宣布推出全新 NVIDIA AI Foundry 服務和 NVIDIA NIM 推理微服務

發(fā)表于 07-25 09:48 ?880次閱讀

AI服務器的特點和關鍵技術

AI服務器，即人工智能服務器，是一種專門設計用于運行和加速人工智能（AI）算法與模型的硬件設備。隨著人工智能技術的快速發(fā)展和普及，AI服務器在數據處理、模型訓練、

發(fā)表于 07-17 16:34 ?2524次閱讀

美國硅谷云服務器的網絡連接速度如何?

　美國硅谷云服務器的網絡連接速度如何?Rak部落小編為您整理發(fā)布美國硅谷云服務器的網絡連接速度。

發(fā)表于 04-22 09:56 ?511次閱讀

利用NVIDIA組件提升GPU推理的吞吐

本實踐中，唯品會 AI 平臺與 NVIDIA 團隊合作，結合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV（HKV）將推理的稠密網絡和熱

發(fā)表于 04-20 09:39 ?925次閱讀

搜索歷史

利用NVIDIA Triton推理服務器加速語音識別的速度

評論

國產推理服務器如何選擇？深度解析選型指南與華頡科技實戰(zhàn)案例

英偉達GTC2025亮點：Oracle與NVIDIA合作助力企業(yè)加速代理式AI推理

英偉達GTC25亮點：NVIDIA Dynamo開源庫加速并擴展AI推理模型

Oracle 與 NVIDIA 合作助力企業(yè)加速代理式 AI 推理

浪潮信息發(fā)布元腦R1推理服務器

GPU加速云服務器怎么用的

Triton編譯器在機器學習中的應用

ASR與傳統(tǒng)語音識別的區(qū)別

新加坡服務器的速度測試方法有哪些

什么是AI服務器？AI服務器的優(yōu)勢是什么？

NVIDIA助力提供多樣、靈活的模型選擇

英偉達推出全新NVIDIA AI Foundry服務和NVIDIA NIM推理微服務

AI服務器的特點和關鍵技術

美國硅谷云服務器的網絡連接速度如何?

利用NVIDIA組件提升GPU推理的吞吐

電子發(fā)燒友