NVIDIA Triton 推理服務(wù)器是 NVIDIA AI 平臺(tái)的一部分,它是一款開源推理服務(wù)軟件,可助力標(biāo)準(zhǔn)化模型的部署和執(zhí)行,并在生產(chǎn)環(huán)境中提供快速且可擴(kuò)展的 AI。
什么是 NVIDIA Triton?
NVIDIA Triton 推理服務(wù)器可助力團(tuán)隊(duì)在任意基于 GPU 或 CPU 的基礎(chǔ)設(shè)施上部署、運(yùn)行和擴(kuò)展任意框架中經(jīng)過(guò)訓(xùn)練的 AI 模型,進(jìn)而精簡(jiǎn) AI 推理。同時(shí),AI 研究人員和數(shù)據(jù)科學(xué)家可在不影響生產(chǎn)部署的情況下,針對(duì)其項(xiàng)目自由選擇合適的框架。它還幫助開發(fā)者跨云、本地、邊緣和嵌入式設(shè)備提供高性能推理。
NVIDIA Triton特性
支持多個(gè)框架
NVIDIA Triton 推理服務(wù)器支持所有主流框架,例如 TensorFlow、NVIDIA TensorRT、PyTorch、MXNet、Python、ONNX、RAPIDS FIL(用于XGBoost、scikit-learn 等)、OpenVINO、自定義 C++ 等。
高性能推理
NVIDIA Triton 支持所有基于 NVIDIA GPU、x86 和 ArmCPU 的推理。它具有動(dòng)態(tài)批處理、并發(fā)執(zhí)行、最優(yōu)模型配置、模型集成和串流輸入等功能,可更大限度地提高吞吐量和利用率。
專為 DevOps 和 MLOps 設(shè)計(jì)
Triton 與 Kubernetes 集成,可用于編排和擴(kuò)展,導(dǎo)出 Prometheus 指標(biāo)進(jìn)行監(jiān)控,支持實(shí)時(shí)模型更新,并可用于所有主流的公有云 AI 和 Kubernetes 平臺(tái)。它還與許多 MLOps 軟件解決方案集成。
各項(xiàng)應(yīng)用中快速且可擴(kuò)展的AI
高推理吞吐量
NVIDIA Triton 可在單個(gè) GPU 或 CPU 上并行指定相同或不同框架下的多個(gè)模型。在多 GPU 服務(wù)器中,NVIDIA Triton 會(huì)自動(dòng)為基于每個(gè) GPU 的每個(gè)模型創(chuàng)建一個(gè)實(shí)例,以提高利用率。
它還可在嚴(yán)格的延遲限制條件下優(yōu)化實(shí)時(shí)推理服務(wù),通過(guò)支持批量推理來(lái)更大限度地提高 GPU 和 CPU 利用率,并內(nèi)置對(duì)音頻和視頻流輸入的支持。對(duì)于需要使用多個(gè)模型來(lái)執(zhí)行端到端推理(例如對(duì)話式 AI)的用例,Triton 支持模型集成。
模型可在生產(chǎn)環(huán)境中實(shí)時(shí)更新,無(wú)需重啟 Triton 或應(yīng)用。Triton 支持對(duì)單個(gè) GPU 顯存無(wú)法容納的超大模型進(jìn)行多 GPU 以及多節(jié)點(diǎn)推理。
高度可擴(kuò)展的推理
作為一個(gè) Docker 容器,Triton 與 Kubernetes 集成,用于編排、指標(biāo)和自動(dòng)縮放。Triton 還與 Kubeflow 和 Kubeflow 工作流集成,實(shí)現(xiàn)端到端的 AI 工作流,并導(dǎo)出 Prometheus 指標(biāo),用于監(jiān)控 GPU 利用率、延遲、內(nèi)存使用率和推理吞吐量。它支持標(biāo)準(zhǔn)的 HTTP / gRPC 接口,可與 load balancer 等其他應(yīng)用連接,并可輕松擴(kuò)展到任意數(shù)量的服務(wù)器,以為任意模型處理日益增長(zhǎng)的推理負(fù)載。
Triton 可通過(guò)一個(gè)模型控制 API 來(lái)服務(wù)于數(shù)十或數(shù)百個(gè)模型。您可基于為適應(yīng) GPU 或 CPU 顯存而進(jìn)行的改動(dòng),將模型加載到推理服務(wù)器中或從推理服務(wù)器中卸載。支持兼具 GPU 和 CPU 的異構(gòu)集群有助于跨平臺(tái)實(shí)現(xiàn)推理標(biāo)準(zhǔn)化,并動(dòng)態(tài)擴(kuò)展到任意 CPU 或 GPU 以處理峰值負(fù)載。
NVIDIA Triton的主要功能
Triton Forest Inference Library (FIL) 后端
新的 Forest Inference Library (FIL) 后端支持在 CPU 和 GPU 上對(duì)基于樹的模型進(jìn)行具有可解釋性(Shapley 值)的高性能推理。它支持來(lái)自 XGBoost、LightGBM、scikit-learn RandomForest、RAPIDS cuML RandomForest 以及其他 Treelite 格式的模型。
Triton 模型分析器
Triton 模型分析器是一種自動(dòng)評(píng)估 Triton 部署配置(例如目標(biāo)處理器上的批量大小、精度和并發(fā)執(zhí)行實(shí)例)的工具。它有助于選擇優(yōu)化配置,以滿足應(yīng)用的服務(wù)質(zhì)量(QoS)限制(延遲、吞吐量和內(nèi)存要求),并且可以將找到優(yōu)化配置所需的時(shí)間從數(shù)周縮短到數(shù)小時(shí)。
審核編輯:湯梓紅
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5013瀏覽量
103243 -
服務(wù)器
+關(guān)注
關(guān)注
12文章
9231瀏覽量
85625 -
Triton
+關(guān)注
關(guān)注
0文章
28瀏覽量
7045
原文標(biāo)題:DevZone | NVIDIA Triton推理服務(wù)器
文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論