大乳丰满人妻中文字幕日本电影,无码日韩精品一区二区三区免费,免费gv在线观看

NVIDIA TensorRT 8 概述

NVIDIA TensorRT 是一個(gè)高性能推理平臺(tái)，對(duì)于利用 NVIDIA Tensor Core GPU 的強(qiáng)大功能至關(guān)重要。TensorRT 8 是一個(gè)軟件開發(fā)套件，其增強(qiáng)功能旨在提高性能和準(zhǔn)確性，以應(yīng)對(duì)在邊緣和嵌入式設(shè)備中發(fā)生的越來越多的 AI 推理。它允許對(duì) TensorFlow 和 PyTorch 神經(jīng)網(wǎng)絡(luò)進(jìn)行廣泛的計(jì)算推理。

與純 CPU 平臺(tái)相比，TensorRT 可提供高達(dá) 40 倍的吞吐量，同時(shí)最大限度地減少延遲。它允許您從任何框架開始，并在生產(chǎn)中快速優(yōu)化、驗(yàn)證和部署經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)。

新版本在 NVIDIA Ampere GPU 上加入了稀疏性，可以修剪對(duì)網(wǎng)絡(luò)整體計(jì)算沒有貢獻(xiàn)的弱連接。此外，TensorRT 8 支持變壓器優(yōu)化和 BERT-Large。Transformer 優(yōu)化提高了性能，而量化感知訓(xùn)練提高了準(zhǔn)確性。

NVIDIA 的 TensorRT 8 有哪些新功能？

推理的目的是從訓(xùn)練階段盡可能多地保留準(zhǔn)確性。訓(xùn)練后的模型可以在硬件設(shè)備上運(yùn)行，以獲得客戶最低的響應(yīng)時(shí)間和最大的吞吐量。但是，盡可能精確的必要性有時(shí)可能會(huì)與邊緣可用的內(nèi)存量和吞吐量發(fā)生沖突。訓(xùn)練有素、高度準(zhǔn)確的模型可能運(yùn)行速度太慢。

因此，TensorRT 版本 8 結(jié)合了深度學(xué)習(xí)推理應(yīng)用或經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型的最新進(jìn)展，以了解數(shù)據(jù)如何影響響??應(yīng)。它使用兩個(gè)主要功能將語言查詢推理時(shí)間減少一半：

NVIDIA 安培架構(gòu)的稀疏性

深度神經(jīng)網(wǎng)絡(luò)擅長(zhǎng)各種任務(wù)，例如計(jì)算機(jī)視覺、語音識(shí)別和自然語言處理。隨著處理這些神經(jīng)網(wǎng)絡(luò)所需的計(jì)算能力增加，有效的建模和計(jì)算變得越來越重要。

Sparse 是一種適用于具有 NVIDIA Ampere 架構(gòu)的 GPU 的新性能方法，可通過減少計(jì)算過程來提高開發(fā)人員的效率。深度學(xué)習(xí)模型的其他方面不如其他方面重要，有些甚至可以為零。因此，神經(jīng)網(wǎng)絡(luò)不需要對(duì)特定的權(quán)重或參數(shù)進(jìn)行計(jì)算。因此，NVIDIA 可以通過使用稀疏性將模型的權(quán)重減少近一半來提高性能、吞吐量和延遲。

通過變壓器優(yōu)化減少推理計(jì)算

在 TensorRT 8 中，性能增強(qiáng)是通過變壓器優(yōu)化實(shí)現(xiàn)的。量化開發(fā)人員可以利用經(jīng)過訓(xùn)練的模型通過 8 位計(jì)算（INT8）執(zhí)行推理。這大大減少了 Tensor 核心中的推理計(jì)算和存儲(chǔ)。INT8 越來越多地用于優(yōu)化機(jī)器學(xué)習(xí)框架，例如 TensorFlow 和 NVIDIA 的 TensorRT，以減少內(nèi)存和計(jì)算需求。因此，NVIDIA 可以在保持準(zhǔn)確性的同時(shí)在 Tensor RT 8 上提供非常高的性能。

例如，量化感知訓(xùn)練（QAT）有可能使準(zhǔn)確率翻倍。因此，與舊版本 TensorRT 7 相比，TensorRT 8 可以將許多模型的性能提高一倍。

TensorRT 部署在眾多行業(yè)中

TensorRT 更好的性能和準(zhǔn)確性使其成為醫(yī)療保健、汽車、互聯(lián)網(wǎng)/電信服務(wù)、金融服務(wù)和零售等行業(yè)的熱門選擇。例如，Tensor RT 用于為 GE Healthcare 的心血管超聲系統(tǒng)供電。這家數(shù)字診斷解決方案提供商使用該技術(shù)在其 Vivid E95 掃描儀上加速自動(dòng)心臟視圖檢測(cè)。通過使用改進(jìn)的視圖檢測(cè)算法，心臟病專家可以在早期階段做出更準(zhǔn)確的診斷和檢測(cè)疾病。此外，TensorRT 還被 Verizon、福特、美國郵政服務(wù)、美國運(yùn)通等知名公司使用。

隨著 Tensor RT 8 的發(fā)布，NVIDIA 還公布了谷歌使用 Tensor RT 在 BERT-large 推理方面的突破。Transformers 的雙向編碼器表示（BERT）是一種基于 Transformer 的機(jī)器學(xué)習(xí)技術(shù)，用于預(yù)訓(xùn)練自然語言處理。BERT-Large 模型的分析時(shí)間僅為 1.2 毫秒，可以實(shí)時(shí)響應(yīng)自然語言查詢。這意味著公司可以將其模型的大小增加一倍或三倍，以獲得更高的準(zhǔn)確性。

許多推理服務(wù)在幕后使用諸如 BERT-Large 之類的語言模型。另一方面，基于語言的應(yīng)用程序通常無法識(shí)別細(xì)微差別或情感，從而導(dǎo)致整體體驗(yàn)不佳?，F(xiàn)在，公司可以使用 TensorRT 8 在幾毫秒內(nèi)部署整個(gè)工作流程。這些突破可以為新一代對(duì)話式 AI 應(yīng)用程序鋪平道路，為用戶提供更智能和低延遲的體驗(yàn)。

審核編輯：郭婷

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

變壓器

變壓器

+關(guān)注

關(guān)注
159

文章
7517

瀏覽量
135985
cpu

cpu

+關(guān)注

關(guān)注
68

文章
10895

瀏覽量
212497
NVIDIA

NVIDIA

+關(guān)注

關(guān)注
14

文章
5063

瀏覽量
103440

評(píng)論

相關(guān)推薦

【書籍評(píng)測(cè)活動(dòng)NO.55】AI Agent應(yīng)用與項(xiàng)目實(shí)戰(zhàn)

強(qiáng)化學(xué)習(xí)或監(jiān)督學(xué)習(xí)算法實(shí)現(xiàn)；（2）學(xué)習(xí)能力：通過持續(xù)的數(shù)據(jù)交互與反饋優(yōu)化其能力。例如，深度學(xué)習(xí)模型可以用于處理復(fù)雜的數(shù)據(jù)模式，并實(shí)時(shí)調(diào)整策略。（3）目標(biāo)導(dǎo)向：基于明確的目標(biāo)，AI Agent 能夠

發(fā)表于 01-13 11:04

港大提出SparX:強(qiáng)化Vision Mamba和Transformer的稀疏跳躍連接機(jī)制

本文分享香港大學(xué)計(jì)算和數(shù)據(jù)科學(xué)學(xué)院俞益洲教授及其研究團(tuán)隊(duì)發(fā)表于 AAAI 2025 的論文——SparX，一種強(qiáng)化 Vision Mamba 和 Transformer 的稀疏跳躍連接機(jī)制，性能強(qiáng)大

發(fā)表于 01-03 09:28 ?110次閱讀

港大提出SparX:強(qiáng)化Vision Mamba和<b class='flag-5'>Transformer</b>的<b class='flag-5'>稀疏</b>跳躍連接機(jī)制

Transformer模型的具體應(yīng)用

如果想在 AI 領(lǐng)域引領(lǐng)一輪新浪潮，就需要使用到 Transformer。

發(fā)表于 11-20 09:28 ?564次閱讀

<b class='flag-5'>Transformer</b>模型的具體應(yīng)用

AI推理CPU當(dāng)?shù)?，Arm驅(qū)動(dòng)高效引擎

本應(yīng)發(fā)揮關(guān)鍵作用，但其重要性卻常常被忽視。 ? “對(duì)于那些希望將大語言模型（LLM）集成到產(chǎn)品和服務(wù)中的企業(yè)和開發(fā)者來說，CPU 通常是首選”。Arm 中國區(qū)業(yè)務(wù)全球副總裁鄒挺在接受采訪時(shí)表示。為了適應(yīng)AI推理的應(yīng)用落地，CPU有針對(duì)性的

發(fā)表于 11-13 14:34 ?2559次閱讀

<b class='flag-5'>AI</b><b class='flag-5'>推理</b>CPU當(dāng)?shù)?，Arm驅(qū)動(dòng)高效引擎

FPGA和ASIC在大模型推理加速中的應(yīng)用

隨著現(xiàn)在AI的快速發(fā)展，使用FPGA和ASIC進(jìn)行推理加速的研究也越來越多，從目前的市場(chǎng)來說，有些公司已經(jīng)有了專門做推理的ASIC，像Groq的LPU，專門針對(duì)大語言模型的推理做了

發(fā)表于 10-29 14:12 ?610次閱讀

FPGA和ASIC在大模型<b class='flag-5'>推理</b>加速中的應(yīng)用

使用OpenVINO C++在哪吒開發(fā)板上推理Transformer模型

OpenVINO 是一個(gè)開源工具套件，用于對(duì)深度學(xué)習(xí)模型進(jìn)行優(yōu)化并在云端、邊緣進(jìn)行部署。它能在諸如生成式人工智能、視頻、音頻以及語言等各類應(yīng)用場(chǎng)景中加快深度學(xué)習(xí)推理的速度，且支持來自 PyTorch

發(fā)表于 10-12 09:55 ?386次閱讀

使用OpenVINO C++在哪吒開發(fā)板上<b class='flag-5'>推理</b><b class='flag-5'>Transformer</b>模型

AMD助力HyperAccel開發(fā)全新AI推理服務(wù)器

HyperAccel 是一家成立于 2023 年 1 月的韓國初創(chuàng)企業(yè)，致力于開發(fā) AI 推理專用型半導(dǎo)體器件和硬件，最大限度提升推理工作負(fù)載的存儲(chǔ)器帶寬使用，并通過將此解決方案應(yīng)用于

發(fā)表于 09-18 09:37 ?394次閱讀

AMD助力HyperAccel開發(fā)全新<b class='flag-5'>AI</b><b class='flag-5'>推理</b>服務(wù)器

摩爾線程攜手東華軟件完成AI大模型推理測(cè)試與適配

近日，摩爾線程與東華軟件云筑AI創(chuàng)新中心宣布，雙方已完成大模型推理測(cè)試與適配。依托摩爾線程的全功能GPU國產(chǎn)算力，東華軟件打造安全可信的基于私有化大模型的“智多型（A.I.Cogniflex）”AI

發(fā)表于 07-31 10:51 ?786次閱讀

如何基于OrangePi?AIpro開發(fā)AI推理應(yīng)用

。通過昇騰CANN軟件棧的AI編程接口，可滿足大多數(shù)AI算法原型驗(yàn)證、推理應(yīng)用開發(fā)的需求。AscendCL（AscendComputingLanguage，昇騰計(jì)算

發(fā)表于 06-04 14:23 ?572次閱讀

如何基于OrangePi?AIpro開發(fā)<b class='flag-5'>AI</b><b class='flag-5'>推理</b>應(yīng)用

進(jìn)一步解讀英偉達(dá) Blackwell 架構(gòu)、NVlink及GB200 超級(jí)芯片

技術(shù)的整合支持多達(dá) 576 個(gè)圖形處理器，提供 3.6 千萬億次網(wǎng)絡(luò)內(nèi)計(jì)算，在網(wǎng)絡(luò)結(jié)構(gòu)中直接減少和組合張量，優(yōu)化計(jì)算任務(wù)并增強(qiáng)圖形處理器集群的可擴(kuò)展性。 GB200 訓(xùn)練性能提升至 4 倍，

發(fā)表于 05-13 17:16

【大語言模型：原理與工程實(shí)踐】揭開大語言模型的面紗

，大語言模型還具備出色的關(guān)聯(lián)和關(guān)系理解能力，能夠捕捉數(shù)據(jù)間的隱含關(guān)系和語義聯(lián)系，進(jìn)行高級(jí)關(guān)聯(lián)推理。它還支持多步推理，能在推理過程中進(jìn)行多個(gè)步驟的演繹和分析。最后，

發(fā)表于 05-04 23:55

開發(fā)者手機(jī) AI - 目標(biāo)識(shí)別 demo

應(yīng)用的demo。應(yīng)用程序通過相機(jī)進(jìn)行預(yù)覽，對(duì)預(yù)覽畫面中的物體進(jìn)行目標(biāo)識(shí)別，目前該應(yīng)用程序支持識(shí)別100種物體。系統(tǒng)架構(gòu) 下圖為demo應(yīng)用以及Openharmony AI子系統(tǒng)的架構(gòu)圖。目標(biāo)

發(fā)表于 04-11 16:14

自然語言處理應(yīng)用LLM推理優(yōu)化綜述

當(dāng)前，業(yè)界在將傳統(tǒng)優(yōu)化技術(shù)引入 LLM 推理的同時(shí)，同時(shí)也在探索從大模型自回歸解碼特點(diǎn)出發(fā)，通過調(diào)整推理過程和引入新的模型結(jié)構(gòu)來進(jìn)一步提升推理

發(fā)表于 04-10 11:48 ?647次閱讀

ONNX Runtime支持龍架構(gòu)，AI推理生態(tài)再添新翼

近日，備受矚目的AI推理框架開源社區(qū)ONNX Runtime宣布推出支持龍架構(gòu)的新版本1.17.0，這一里程碑式的更新意味著龍芯平臺(tái)上的AI推理

發(fā)表于 03-27 10:58 ?758次閱讀

AI推理框架軟件ONNX Runtime正式支持龍架構(gòu)

近日，知名AI推理框架開源社區(qū)ONNX Runtime正式發(fā)布支持龍架構(gòu)的版本1.17.0。

發(fā)表于 03-12 12:23 ?610次閱讀

搜索歷史

通過稀疏支持和Transformer優(yōu)化增強(qiáng)AI推理

評(píng)論

【書籍評(píng)測(cè)活動(dòng)NO.55】AI Agent應(yīng)用與項(xiàng)目實(shí)戰(zhàn)

港大提出SparX:強(qiáng)化Vision Mamba和Transformer的稀疏跳躍連接機(jī)制

Transformer模型的具體應(yīng)用

AI推理CPU當(dāng)?shù)?，Arm驅(qū)動(dòng)高效引擎

FPGA和ASIC在大模型推理加速中的應(yīng)用

使用OpenVINO C++在哪吒開發(fā)板上推理Transformer模型

AMD助力HyperAccel開發(fā)全新AI推理服務(wù)器

摩爾線程攜手東華軟件完成AI大模型推理測(cè)試與適配

如何基于OrangePi?AIpro開發(fā)AI推理應(yīng)用

進(jìn)一步解讀英偉達(dá) Blackwell 架構(gòu)、NVlink及GB200 超級(jí)芯片

【大語言模型：原理與工程實(shí)踐】揭開大語言模型的面紗

開發(fā)者手機(jī) AI - 目標(biāo)識(shí)別 demo

自然語言處理應(yīng)用LLM推理優(yōu)化綜述

ONNX Runtime支持龍架構(gòu)，AI推理生態(tài)再添新翼

AI推理框架軟件ONNX Runtime正式支持龍架構(gòu)