在人工智能飛速發(fā)展的今天,大語言模型(LLM)為各個行業(yè)帶來了全新的場景和機(jī)遇。諸如客戶服務(wù)數(shù)字人,計算機(jī)輔助藥物研發(fā)的生成式虛擬篩選,基于檢索增強(qiáng)生成(RAG)的企業(yè)多模態(tài) PDF 數(shù)據(jù)提取,網(wǎng)絡(luò)安全流數(shù)據(jù)過濾、處理和分類優(yōu)化等工作流,正在無縫集成和運(yùn)行在定制化的企業(yè) AI 應(yīng)用,企業(yè)還能夠基于專有業(yè)務(wù)數(shù)據(jù)和用戶反饋數(shù)據(jù),不斷優(yōu)化 AI 應(yīng)用。
同時,企業(yè)也面臨著如何高效、安全地部署 LLM 的挑戰(zhàn)。阿里云計算巢基于 NVIDIA 加速計算技術(shù),通過阿里云云市場為企業(yè)和開發(fā)者提供NVIDIA AI Enterprise軟件套件,其包含了NVIDIA NIM Agent Blueprint、NVIDIA NIM和NVIDIA NeMo等企業(yè)級 AI 開發(fā)工作流和 AI 開發(fā)工具鏈。其中,NVIDIA NIM 提供可靠、高性能的 LLM 推理服務(wù),結(jié)合阿里云計算巢實現(xiàn)一站式云上部署,助力企業(yè)加速實現(xiàn) LLM 的 SaaS 化。
本文以 Llama3 為例,介紹該方案的整體架構(gòu)和部署方式。
NVIDIA NIM:
易于使用的預(yù)構(gòu)建容器工具
NVIDIA NIM 微服務(wù)是一套易于使用的預(yù)構(gòu)建容器工具,目的是幫助企業(yè)客戶在云、數(shù)據(jù)中心和工作站上安全、可靠地部署高性能 AI 模型。作為 NVIDIA AI Enterprise 的一部分,NIM 具備以下核心優(yōu)勢:
安全、靈活的部署:NIM 在不同環(huán)境的 CUDA GPU 加速基礎(chǔ)設(shè)施和 Kubernetes 發(fā)行版中經(jīng)過嚴(yán)格驗證和基準(zhǔn)測試,它支持企業(yè)在云、數(shù)據(jù)中心、工作站上安全可靠地部署高性能的 AI 推理,只需 5 分鐘即可完成部署。
加速產(chǎn)品上市:企業(yè)通過預(yù)構(gòu)建、持續(xù)維護(hù)的微服務(wù),能夠快速將產(chǎn)品推向市場,縮短開發(fā)周期。
開發(fā)者友好:開發(fā)者使用標(biāo)準(zhǔn) API 和幾行代碼即可輕松將 NIM 集成到企業(yè)級 AI 應(yīng)用程序中。
優(yōu)化的推理引擎:NIM 基于Triton 推理服務(wù)器、TensorRT、TensorRT-LLM和 PyTorch 等強(qiáng)大的推理引擎構(gòu)建, 提供行業(yè)領(lǐng)先的吞吐率、延遲和 token 生成速度,確保服務(wù)響應(yīng)更快。
企業(yè)級支持:NIM 采用企業(yè)級基礎(chǔ)容器構(gòu)建,提供嚴(yán)格的驗證、定期安全更新,適合企業(yè)生產(chǎn)環(huán)境部署。
阿里云計算巢:專為服務(wù)商
及其客戶打造的云集成 PaaS 平臺
阿里云計算巢服務(wù)是一個開放給企業(yè)應(yīng)用服務(wù)商(包括:企業(yè)應(yīng)用服務(wù)商、IT 集成服務(wù)商、交付服務(wù)商和管理服務(wù)提供商等)及其用戶的服務(wù)管理 PaaS 平臺,提供軟件上云的“一站式”解決方案。
阿里云計算巢能提供軟件的交付、部署、運(yùn)維流程標(biāo)準(zhǔn)化的服務(wù),支持軟件和資源的一體化交付,真正實現(xiàn)了軟件的開箱即用。
阿里云計算巢服務(wù)集成了阿里云一系列底層產(chǎn)品能力,通過通用的應(yīng)用管控框架、租戶管理框架,幫助服務(wù)商提升服務(wù)的交付效率、管理效率和服務(wù)能力,在提升用戶滿意度的同時降低運(yùn)營成本;并為用戶提供了統(tǒng)一管理多種應(yīng)用服務(wù)的平臺,提升用戶使用服務(wù)的效率和安全性,降低用戶獲取服務(wù)和管理服務(wù)的成本。
方案介紹
下圖展示了通過阿里云計算巢快速部署 NVIDIA NIM 的整體架構(gòu)。以 Llama3 為例,我們通過計算巢來創(chuàng)建、管理 LLM 推理服務(wù):在阿里云容器服務(wù) ACK (容器服務(wù) Kubernetes 版)集群上,我們使用阿里云 ACK 的云原生 AI 套件,集成開源推理服務(wù)框架 KServe,來部署 NVIDIA NIM。
同時,結(jié)合 ACK 的 Prometheus 和 Grafana 監(jiān)控服務(wù),快速搭建監(jiān)控大盤,實時觀測推理服務(wù)狀態(tài);利用 NVIDIA NIM 提供豐富的監(jiān)控指標(biāo),如 num_requests_waiting,配置推理服務(wù)彈性擴(kuò)縮容策略。
這里列出的云上資源,以及阿里云彈性計算服務(wù)(ECS)、專有網(wǎng)絡(luò)(VPC) 等基礎(chǔ)資源,都可以通過計算巢來輕松配置,一鍵拉起,最終實現(xiàn)一個云上高性能、可實時觀測、極致彈性的大語言模型推理服務(wù)。用戶只需要根據(jù)該服務(wù)創(chuàng)建實例,便可部署該服務(wù)。
圖 1. 通過阿里云計算巢快速部署
NVIDIA NIM 架構(gòu)圖
(圖片來源于阿里云,如您有任何疑問或需要使用本圖片,請聯(lián)系阿里云)
部署流程
1. 參考 NVIDIA NIM 文檔,生成NVIDIA NGC API Key,用于訪問需要部署的模型鏡像。以本文用到的 Llama-3-8B-Instruct 為例,可以通過NVIDIA NGC 目錄來獲取。
同時,請閱讀并承諾遵守 Llama 模型的自定義可商用開源協(xié)議。
2. 在阿里云計算巢服務(wù)目錄中找到“基于 NVIDIA NIM 快速部署 LLM 模型推理服務(wù)”,并進(jìn)入實例部署頁面。
如下圖所示,主要配置服務(wù)的基本信息和云上資源,以及第一步中獲取的 NVIDIA NGC API Key,需要填寫在下圖相應(yīng)位置。
圖 2. 在阿里云計算巢創(chuàng)建服務(wù)實例
(圖片來源于阿里云,如您有任何疑問或需要使用本圖片,請聯(lián)系阿里云)
因為服務(wù)部署在阿里云 ACK 集群之上,這里也包含了 Kubernetes 配置:
圖 3. 阿里云 ACK 集群上 Kubernetes
選項頁面
(圖片來源于阿里云,如您有任何疑問或需要使用本圖片,請聯(lián)系阿里云)
3. 按照頁面提示完成所有配置之后,點擊下一步:確認(rèn)訂單,在這里確認(rèn)第 2 步配置的服務(wù)實例信息和價格預(yù)覽。
圖 4. 確認(rèn)服務(wù)實例信息和價格預(yù)覽
(圖片來源于阿里云,如您有任何疑問或需要使用本圖片,請聯(lián)系阿里云)
部署過程中,用戶需要創(chuàng)建和訪問阿里云資源,當(dāng)阿里云賬號屬于 RAM 賬號時,需要開通以下權(quán)限,頁面上也有開通這些權(quán)限的入口。
4. 點擊立即創(chuàng)建,開始部署。過程中會涉及阿里云資源的創(chuàng)建、NIM 模型鏡像的拉取等。拉取過程的日志,可通過”點擊資源 tab-> 找到 ACK 集群->頁面左側(cè)的工作負(fù)載->無狀態(tài)”來查看。部署完成后,進(jìn)入服務(wù)實例詳情查看使用說明。通過 curl 發(fā)送 HTTP 請求訪問推理服務(wù),修改 content 字段,便可自定義和推理服務(wù)交互的內(nèi)容。
圖 5. 服務(wù)實例詳情頁面截圖
(圖片來源于阿里云,如您有任何疑問或需要使用本圖片,請聯(lián)系阿里云)
通過阿里云的云市場獲取
NVIDIA AI Enterprise 使用該方案
NVIDIA NIM 是 NVIDIA AI Enterprise 的一部分,正式使用時須獲得 NVIDIA AI Enterprise 的許可證授權(quán)?,F(xiàn)在,企業(yè)用戶可以通過阿里云云市場獲取 NVIDIA AI Enterprise 來使用該方案。阿里云市場提供了概念驗證(PoC)測試服務(wù)和購買 NVIDIA AI Enterprise 許可證,共兩個下單頁面。
PoC 測試服務(wù)
提供 90 天 NVIDIA AI Enterprise PoC License,暨 90 天免費(fèi)試用,而使用時須支付阿里云計算資源的費(fèi)用。
通過阿里云的云市場購買 NVIDIA AI Enterprise 許可證
該頁面提供的信息僅供參考,用戶需要通過該頁面的“NVIDIA 服務(wù)咨詢”釘釘來溝通采購,最終通過云市場官網(wǎng)推送下單鏈接獲取 NVIDIA AI Enterprise 許可證。
總結(jié)
本文介紹了通過阿里云計算巢快速部署 NVIDIA NIM 的方案收益和部署方式,該方案充分利用了 NIM 的安全與高性能的無縫 AI 推理功能,以及計算巢的軟件一站式上云和交付能力,從而打造極致彈性、高性能、可實時觀測的云上 LLM 推理服務(wù)。
作者信息
毛亦姝
NVIDIA 解決方案架構(gòu)師,主要負(fù)責(zé)生成式 AI 模型的訓(xùn)練、推理在云上的落地,多年互聯(lián)網(wǎng)算法工作經(jīng)驗。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5047瀏覽量
103326 -
AI
+關(guān)注
關(guān)注
87文章
31225瀏覽量
269579 -
人工智能
+關(guān)注
關(guān)注
1792文章
47470瀏覽量
239138 -
阿里云
+關(guān)注
關(guān)注
3文章
969瀏覽量
43136
原文標(biāo)題:通過阿里云計算巢部署 NVIDIA NIM,加速企業(yè)大語言模型 SaaS 化
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論