久久久无码精品亚洲日韩蜜臀浪潮,人妻熟女一二三区夜夜爱

NVIDIA 發(fā)布了 TensorRT 8.2 ，對十億參數(shù) NLU 模型進行了優(yōu)化。其中包括 T5 和 GPT-2 ，用于翻譯和文本生成，使實時運行 NLU 應(yīng)用程序成為可能。

TensorRT 是一款高性能的深度學(xué)習(xí)推理優(yōu)化器和運行時，為人工智能應(yīng)用程序提供低延遲、高吞吐量推理。 TensorRT 用于醫(yī)療、汽車、制造、互聯(lián)網(wǎng)/電信服務(wù)、金融服務(wù)和能源等多個行業(yè)。

PyTorch 和 TensorFlow 是擁有數(shù)百萬用戶的最流行的深度學(xué)習(xí)框架。新的 TensorRT 框架集成現(xiàn)在在 PyTorch 和 TensorFlow 中提供了一個簡單的 API ，并提供了強大的 FP16 和 INT8 優(yōu)化，從而將推理速度提高了 6 倍。

亮點包括

TensorRT 8.2:T5 和 GPT-2 的優(yōu)化運行實時翻譯和摘要，與 CPU 相比，性能提高了 21 倍。

TensorRT 8.2 ：適用于使用 Windows 的開發(fā)人員的簡單 Python API 。

Torch TensorRT:PyTorch 的集成與 GPU 上的框架內(nèi)推理相比，僅需一行代碼即可提供高達 6 倍的性能。

TensorFlow TensorRT:TensorFlow 與 TensorRT 的集成提供了比使用一行代碼在 GPU 上進行框架內(nèi)推理快 6 倍的性能。

資源

Torch- TensorRT 在 NGC catalog 的 PyTorch 容器中提供。

TensorFlow- TensorRT 目前可從 NGC catalog 的 TensorFlow 容器中獲得。

TensorRT 免費提供給 NVIDIA 開發(fā)程序的成員。

在 TensorRT 產(chǎn)品頁面了解更多信息。

關(guān)于作者

About Jay Rodge

Jay Rodge 是 NVIDIA 的產(chǎn)品營銷經(jīng)理，負責(zé)深入學(xué)習(xí)和推理產(chǎn)品，推動產(chǎn)品發(fā)布和產(chǎn)品營銷計劃。杰伊在芝加哥伊利諾伊理工學(xué)院獲得計算機科學(xué)碩士學(xué)位，主攻計算機視覺和自然語言處理。在 NVIDIA 之前，杰伊是寶馬集團的人工智能研究實習(xí)生，為寶馬最大的制造廠使用計算機視覺解決問題。

審核編輯：郭婷

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

NVIDIA

NVIDIA

+關(guān)注

關(guān)注
14

文章
4986

瀏覽量
103055
互聯(lián)網(wǎng)

互聯(lián)網(wǎng)

+關(guān)注

關(guān)注
54

文章
11155

瀏覽量
103309
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5503

瀏覽量
121162

在NVIDIA TensorRT-LLM中啟用ReDrafter的一些變化

Recurrent Drafting (簡稱 ReDrafter) 是蘋果公司為大語言模型 (LLM) 推理開發(fā)并開源的一種新型推測解碼技術(shù)，該技術(shù)現(xiàn)在可與 NVIDIA TensorRT-LLM 一起使用。

發(fā)表于 12-25 17:31 ?117次閱讀

在<b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT</b>-LLM中啟用ReDrafter的一些變化

解鎖NVIDIA TensorRT-LLM的卓越性能

NVIDIA TensorRT-LLM 是一個專為優(yōu)化大語言模型 (LLM) 推理而設(shè)計的庫。它提供了多種先進的優(yōu)化技術(shù)，包括自定義 Attention Kernel、Inflight

發(fā)表于 12-17 17:47 ?158次閱讀

NVIDIA TensorRT-LLM Roadmap現(xiàn)已在GitHub上公開發(fā)布

感謝眾多用戶及合作伙伴一直以來對NVIDIA TensorRT-LLM的支持。TensorRT-LLM 的 Roadmap 現(xiàn)已在 GitHub 上公開發(fā)布！

發(fā)表于 11-28 10:43 ?272次閱讀

<b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT</b>-LLM Roadmap現(xiàn)已在GitHub上公開發(fā)布

TensorRT-LLM低精度推理優(yōu)化

本文將分享 TensorRT-LLM 中低精度量化內(nèi)容，并從精度和速度角度對比 FP8 與 INT8。首先介紹性能，包括速度和精度。其次，介紹量化工具

發(fā)表于 11-19 14:29 ?300次閱讀

<b class='flag-5'>TensorRT</b>-LLM低精度<b class='flag-5'>推理</b>優(yōu)化

魔搭社區(qū)借助NVIDIA TensorRT-LLM提升LLM推理效率

“魔搭社區(qū)是中國最具影響力的模型開源社區(qū)，致力給開發(fā)者提供模型即服務(wù)的體驗。魔搭社區(qū)利用NVIDIA TensorRT-LLM，大大提高了大語言模型的推理性能，方便了模型應(yīng)用部署，

發(fā)表于 08-23 15:48 ?455次閱讀

英偉達推出全新NVIDIA AI Foundry服務(wù)和NVIDIA NIM推理微服務(wù)

NVIDIA 宣布推出全新 NVIDIA AI Foundry 服務(wù)和 NVIDIA NIM 推理微服務(wù)，與同樣剛推出的 Llama 3.1 系列開源模型一起，為全球企業(yè)的生成式 AI

發(fā)表于 07-25 09:48 ?709次閱讀

MediaTek與NVIDIA TAO加速物聯(lián)網(wǎng)邊緣AI應(yīng)用發(fā)展

在即將到來的COMPUTEX 2024科技盛會上，全球知名的芯片制造商MediaTek宣布了一項重要合作——將NVIDIA的TAO（TensorRT Accelerated Optimizer）與其NeuroPilot SDK（

發(fā)表于 06-12 14:49 ?476次閱讀

進一步解讀英偉達 Blackwell 架構(gòu)、NVlink及GB200 超級芯片

大型語言模型（LLM）和專家混合（MoE）模型的推理過程。第二代Transformer引擎采用8位浮點（FP8）和新的精度等技術(shù)，將大型語言模型如GPT-MoE-1.8T的訓(xùn)練速度提高

發(fā)表于 05-13 17:16

NVIDIA加速微軟最新的Phi-3 Mini開源語言模型

NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微軟最新的 Phi-3 Mini 開源語言模型。TensorRT-LLM 是一個開源庫，用于優(yōu)化從 PC 到云端的

發(fā)表于 04-28 10:36 ?567次閱讀

NVIDIA全面加快Meta Llama 3的推理速度

Meta 最新開源大語言模型采用 NVIDIA 技術(shù)構(gòu)建，其經(jīng)過優(yōu)化后可在云、數(shù)據(jù)中心、邊緣和 PC 的 NVIDIA GPU 上運行。

發(fā)表于 04-23 09:52 ?462次閱讀

利用NVIDIA組件提升GPU推理的吞吐

本實踐中，唯品會 AI 平臺與 NVIDIA 團隊合作，結(jié)合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV（HKV）

發(fā)表于 04-20 09:39 ?727次閱讀

NVIDIA cuOpt算法將路徑優(yōu)化求解速度提高100倍

NVIDIA cuOpt 是一個用于解決復(fù)雜路徑問題的加速優(yōu)化引擎。它能高效解決不同方面的問題，如休息時間、等待時間、多個車輛成本和時間矩陣、多個目標、訂單-車輛匹配、車輛起始和結(jié)束位置、車輛起始和結(jié)束時間等。

發(fā)表于 04-19 10:09 ?444次閱讀

使用NVIDIA Triton推理服務(wù)器來加速AI預(yù)測

這家云計算巨頭的計算機視覺和數(shù)據(jù)科學(xué)服務(wù)使用 NVIDIA Triton 推理服務(wù)器來加速 AI 預(yù)測。

發(fā)表于 02-29 14:04 ?585次閱讀

利用NVIDIA產(chǎn)品技術(shù)組合提升用戶體驗

本案例通過利用NVIDIA TensorRT-LLM加速指令識別深度學(xué)習(xí)模型，并借助NVIDIA Triton推理服務(wù)器在NVIDIA V1

發(fā)表于 01-17 09:30 ?693次閱讀

Torch TensorRT是一個優(yōu)化PyTorch模型推理性能的工具

那么，什么是Torch TensorRT呢？Torch是我們大家聚在一起的原因，它是一個端到端的機器學(xué)習(xí)框架。而TensorRT則是NVIDIA的高性能深度學(xué)習(xí)推理軟件工具包。Torc

發(fā)表于 01-09 16:41 ?1742次閱讀

搜索歷史

NVIDIA TensorRT 8.2將推理速度提高6倍

評論

在NVIDIA TensorRT-LLM中啟用ReDrafter的一些變化

解鎖NVIDIA TensorRT-LLM的卓越性能

NVIDIA TensorRT-LLM Roadmap現(xiàn)已在GitHub上公開發(fā)布

TensorRT-LLM低精度推理優(yōu)化

魔搭社區(qū)借助NVIDIA TensorRT-LLM提升LLM推理效率

英偉達推出全新NVIDIA AI Foundry服務(wù)和NVIDIA NIM推理微服務(wù)

MediaTek與NVIDIA TAO加速物聯(lián)網(wǎng)邊緣AI應(yīng)用發(fā)展

進一步解讀英偉達 Blackwell 架構(gòu)、NVlink及GB200 超級芯片

NVIDIA加速微軟最新的Phi-3 Mini開源語言模型

NVIDIA全面加快Meta Llama 3的推理速度

利用NVIDIA組件提升GPU推理的吞吐

NVIDIA cuOpt算法將路徑優(yōu)化求解速度提高100倍

使用NVIDIA Triton推理服務(wù)器來加速AI預(yù)測

利用NVIDIA產(chǎn)品技術(shù)組合提升用戶體驗

Torch TensorRT是一個優(yōu)化PyTorch模型推理性能的工具