伴隨著視覺(jué) AI 復(fù)雜性的增加,精簡(jiǎn)的部署解決方案已成為優(yōu)化空間和流程的關(guān)鍵。NVIDIA 能夠加快企業(yè)的開(kāi)發(fā)速度,借助 NVIDIA Metropolis AI 工作流和微服務(wù),企業(yè)只需數(shù)周就能將想法變成現(xiàn)實(shí),而原本這項(xiàng)工作需要耗費(fèi)數(shù)月時(shí)間。
本文將探討 Metropolis 微服務(wù)的功能:
借助 NVIDIA Metropolis 微服務(wù)進(jìn)行云原生 AI 應(yīng)用開(kāi)發(fā)和部署
借助 NVIDIA Isaac Sim 進(jìn)行仿真和合成數(shù)據(jù)生成
借助 NVIDIA TAO 套件進(jìn)行 AI 模型訓(xùn)練和微調(diào)
借助 PipeTuner 自動(dòng)調(diào)整準(zhǔn)確性
圖 1. 可擴(kuò)展的現(xiàn)代視覺(jué) AI 開(kāi)發(fā)秘訣
借助 Metropolis 微服務(wù)和工作流
進(jìn)行云原生 AI 應(yīng)用開(kāi)發(fā)和部署
使用 AI 對(duì)基礎(chǔ)設(shè)施進(jìn)行管理和自動(dòng)化具有一定的挑戰(zhàn)性,尤其是在超市、倉(cāng)庫(kù)、機(jī)場(chǎng)、港口和城市等大而復(fù)雜的空間。這不僅需要增加攝像頭的數(shù)量,還需要在數(shù)萬(wàn)乃至數(shù)十萬(wàn)平方英尺的空間內(nèi),通過(guò)數(shù)百或數(shù)千個(gè)攝像頭構(gòu)建能夠進(jìn)行智能監(jiān)控、提取洞察,并突出顯示異常情況的視覺(jué) AI 應(yīng)用。
微服務(wù)架構(gòu)可將復(fù)雜的多攝像頭 AI 應(yīng)用分解成較小的獨(dú)立單位,這些單位通過(guò)定義明確的 API 進(jìn)行交互,實(shí)現(xiàn)可擴(kuò)展性、靈活性和彈性。該方法實(shí)現(xiàn)了每項(xiàng)微服務(wù)的獨(dú)立開(kāi)發(fā)、部署和擴(kuò)展,使整個(gè)應(yīng)用更加模塊化和易于維護(hù)。
實(shí)時(shí)、可擴(kuò)展的多攝像頭追蹤和分析應(yīng)用包含以下關(guān)鍵組件:
多攝像頭追蹤模塊,用于匯總來(lái)自每個(gè)攝像頭的本地信息,并維護(hù)整個(gè)場(chǎng)景中的對(duì)象全局 ID
用于行為分析和異常檢測(cè)的各種模塊
軟件基礎(chǔ)設(shè)施,比如實(shí)時(shí)、可擴(kuò)展的消息代理(例如 Kafka)、數(shù)據(jù)庫(kù)(例如 Elasticsearch)等
標(biāo)準(zhǔn)接口,用于連接需要請(qǐng)求式元數(shù)據(jù)和視頻流的下游服務(wù)
每個(gè)模塊必須是云原生微服務(wù),以使您的應(yīng)用具有可擴(kuò)展性、分散性和彈性
圖 2. 使用 Metropolis 微服務(wù)
的可擴(kuò)展視覺(jué) AI 應(yīng)用工作流
Metropolis 微服務(wù)為您開(kāi)發(fā)視覺(jué) AI 應(yīng)用和解決方案提供了強(qiáng)大且可定制的云原生構(gòu)建模塊,在提高彈性與安全性的同時(shí),使從邊緣部署到云部署的原型設(shè)計(jì)、構(gòu)建、測(cè)試和擴(kuò)展過(guò)程變得更加簡(jiǎn)單快捷。無(wú)論是倉(cāng)庫(kù)和超市,還是機(jī)場(chǎng)和公路,這些微服務(wù)能夠加快各種空間獲得業(yè)務(wù)洞察的速度。
圖 3. 適用于視覺(jué) AI 應(yīng)用的 Metropolis 微服務(wù)套件
接下來(lái)的章節(jié)將詳細(xì)介紹一些關(guān)鍵的微服務(wù):
媒體管理
感知
多攝像頭融合
媒體管理微服務(wù)
媒體管理微服務(wù)基于 NVIDIA 視頻存儲(chǔ)套件(VST),并提供了一種管理攝像頭和視頻的高效方式。VST 具有由硬件提供加速的視頻解碼、流式傳輸和存儲(chǔ)功能。
圖 4. 使用媒體管理微服務(wù)
來(lái)管理攝像頭和視頻文件
該微服務(wù)支持帶有控制和數(shù)據(jù)流的 ONVIF S 型配置文件設(shè)備 ONVIF 發(fā)現(xiàn)。您可以通過(guò) IP 地址或 RTSP URL 手動(dòng)管理設(shè)備。它還支持 H264 和 H265 視頻格式。VST 專為安全的行業(yè)標(biāo)準(zhǔn)協(xié)議和多平臺(tái)而設(shè)計(jì)。
感知微服務(wù)
感知微服務(wù)從媒體管理微服務(wù)獲取輸入數(shù)據(jù),并在單個(gè)數(shù)據(jù)流中生成感知元數(shù)據(jù)(邊界框、單攝像機(jī)軌跡、Re-ID 嵌入向量)。隨后,它將這些數(shù)據(jù)發(fā)送到下游分析微服務(wù),以進(jìn)行進(jìn)一步推理和深入分析。
圖 5. 使用感知微服務(wù)檢測(cè)并追蹤對(duì)象
該微服務(wù)使用 NVIDIA DeepStream SDK 構(gòu)建。它通過(guò)提供能夠抽象化低級(jí)編程任務(wù)的預(yù)構(gòu)建模塊和 API,為實(shí)時(shí)視頻 AI 推理提供了一種低代碼或無(wú)代碼方法。借助 DeepStream,您可以通過(guò)一個(gè)簡(jiǎn)單的配置文件來(lái)配置復(fù)雜的視頻分析管線,指定對(duì)象檢測(cè)、分類、追蹤等任務(wù)。
多攝像頭融合微服務(wù)
多攝像頭融合微服務(wù)能夠聚合并處理多個(gè)攝像頭視圖的信息,通過(guò) Kafka(或任何具有類似消息模式的自定義源)從感知微服務(wù)獲取感知元數(shù)據(jù),并從攝像頭校準(zhǔn)套件獲取外在校準(zhǔn)信息作為輸入。
圖 6. 使用多攝像頭融合微服務(wù)
追蹤多個(gè)攝像頭中的對(duì)象
在這項(xiàng)微服務(wù)的內(nèi)部,數(shù)據(jù)會(huì)進(jìn)入行為狀態(tài)管理模塊,以維護(hù)之前批次的行為,并與傳入微批次的數(shù)據(jù)串接,創(chuàng)建出軌跡。
接下來(lái),該微服務(wù)執(zhí)行分層聚類的兩個(gè)步驟,重新分配共存的行為并抑制重疊的行為。
最后,ID 合并模塊將單個(gè)對(duì)象的 ID 合并為全局 ID,從而保持多個(gè)傳感器觀測(cè)到的對(duì)象之間的相關(guān)性。
Metropolis AI 工作流
所提供的參考工作流和應(yīng)用能幫助您評(píng)估和整合高級(jí)功能。
例如,多攝像頭追蹤(MTMC)工作流作為一項(xiàng)視頻分析參考工作流,可執(zhí)行多目標(biāo)、多攝像頭追蹤,并提供一段時(shí)間內(nèi)觀察到的唯一對(duì)象的計(jì)數(shù)。
圖 7. 使用多個(gè) Metropolis 微服務(wù)
的多攝像頭追蹤工作流
該應(yīng)用工作流從媒體管理微服務(wù)中獲取實(shí)時(shí)攝像頭視頻作為輸入。
它通過(guò)感知微服務(wù)執(zhí)行對(duì)象檢測(cè)和追蹤。
來(lái)自感知微服務(wù)的元數(shù)據(jù)進(jìn)入多攝像頭融合微服務(wù),以追蹤多個(gè)攝像頭中的對(duì)象。
并行線程進(jìn)入經(jīng)過(guò)擴(kuò)展的行為分析微服務(wù),首先對(duì)元數(shù)據(jù)進(jìn)行預(yù)處理,并將圖像坐標(biāo)轉(zhuǎn)換為世界坐標(biāo),然后運(yùn)行狀態(tài)管理服務(wù)。
隨后,數(shù)據(jù)進(jìn)入行為分析微服務(wù),它與 MTMC 微服務(wù)一起以 API 端點(diǎn)的形式提供各種分析功能。
Web UI 微服務(wù)將結(jié)果可視化。
接口攝像頭校準(zhǔn)
在大多數(shù) Metropolis 工作流中,分析都是在真實(shí)世界坐標(biāo)系中進(jìn)行的。為了將攝像頭坐標(biāo)轉(zhuǎn)換為真實(shí)世界坐標(biāo),我們提供了一個(gè)對(duì)用戶友好、基于網(wǎng)絡(luò)的攝像頭校準(zhǔn)套件。該套件具有以下功能:
從 VMS 輕松導(dǎo)入攝像頭
用于在攝像頭圖像和平面圖之間選擇參考點(diǎn)的界面
用于自檢的即時(shí)重投影誤差
用于 ROI 和絆線的附加組件
圖像或建筑平面圖文件上傳
導(dǎo)出至網(wǎng)絡(luò)或 API
圖 8. Metropolis 攝像頭校準(zhǔn)套件
這個(gè)直觀的套件簡(jiǎn)化了攝像頭的設(shè)置和校準(zhǔn)過(guò)程,實(shí)現(xiàn)了與 Metropolis 工作流和微服務(wù)的無(wú)縫集成。
2024 年 AI 城市挑戰(zhàn)賽
NVIDIA 多攝像頭追蹤工作流使用了多攝像頭人員追蹤數(shù)據(jù)集進(jìn)行評(píng)估,該數(shù)據(jù)集來(lái)自與 CVPR 2024 聯(lián)合舉辦的第 8 屆 AI 城市挑戰(zhàn)賽(2024 年)研討會(huì)。這一數(shù)據(jù)集是該領(lǐng)域最大的數(shù)據(jù)集,涵蓋了 953 個(gè)攝像頭、2491 個(gè)人物和超過(guò) 1 億個(gè)邊界框,分為 90 個(gè)子集。數(shù)據(jù)集的視頻總時(shí)長(zhǎng)為 212 分鐘,以每秒 30 幀的幀率高清(1080p)錄制。
NVIDIA 的這一方法取得了 68.7% 的 HOTA 高分,在 19 支國(guó)際團(tuán)隊(duì)中排名第二(圖 9)。
圖 9. 2024 年 AI 城市挑戰(zhàn)賽
MTMC追蹤基準(zhǔn)測(cè)試排行榜
該基準(zhǔn)測(cè)試僅關(guān)注批處理模式(即應(yīng)用可以訪問(wèn)整個(gè)視頻)下的準(zhǔn)確性。在線運(yùn)行或流式運(yùn)行的應(yīng)用只能訪問(wèn)歷史數(shù)據(jù),不能訪問(wèn)相對(duì)于當(dāng)前幀的未來(lái)數(shù)據(jù)。這可能會(huì)使某些已提交的方法變得不切實(shí)際,或需要進(jìn)行大規(guī)模的重構(gòu)才能進(jìn)行實(shí)際部署。該基準(zhǔn)測(cè)試未考慮的因素包括:
從輸入到預(yù)測(cè)的延遲
運(yùn)行時(shí)吞吐量(在既定計(jì)算平臺(tái)或預(yù)算范圍內(nèi)可運(yùn)行多少流)
可部署性
可擴(kuò)展性
大多數(shù)團(tuán)隊(duì)無(wú)需對(duì)這些方面進(jìn)行優(yōu)化。
而 Metropolis 微服務(wù)中的多攝像頭追蹤除準(zhǔn)確性外還必須考慮和優(yōu)化所有這些因素,以便能夠?qū)?shí)時(shí)、可擴(kuò)展的多攝像頭追蹤部署到生產(chǎn)用例中。
一鍵式微服務(wù)部署
Metropolis 微服務(wù)支持在 AWS、Azure 和 GCP 上一鍵部署。部署工件和說(shuō)明可在 NGC 上下載,因此您只需提供一些前提參數(shù),就能在自己的云賬戶上快速啟動(dòng)端到端 MTMC 應(yīng)用。每個(gè)工作流都打包了一個(gè) Compose 文件,因此也可以使用 Docker Compose 進(jìn)行部署。
對(duì)于邊緣到云攝像頭流式傳輸,可以使用在邊緣運(yùn)行的媒體管理客戶端(VST 代理),將邊緣的攝像頭連接到在任何一家 CSP 中運(yùn)行的 Metropolis 應(yīng)用,以進(jìn)行分析。
這一簡(jiǎn)化的部署流程使您能夠在各種云平臺(tái)上快速構(gòu)建、測(cè)試和擴(kuò)展視覺(jué) AI 應(yīng)用,從而減少將解決方案投入生產(chǎn)所需的時(shí)間和精力。
借助 Isaac Sim 進(jìn)行
仿真和合成數(shù)據(jù)生成
訓(xùn)練專用于特定用例的 AI 模型需要各種經(jīng)過(guò)標(biāo)記的數(shù)據(jù)集,而采集這些數(shù)據(jù)集往往成本高昂且耗時(shí)漫長(zhǎng)。通過(guò)計(jì)算機(jī)仿真生成的合成數(shù)據(jù)是一種性價(jià)比更高的替代方法,能夠減少訓(xùn)練的時(shí)間和費(fèi)用。
仿真與合成數(shù)據(jù)在現(xiàn)代視覺(jué) AI 開(kāi)發(fā)周期中發(fā)揮著至關(guān)重要的作用:
生成合成數(shù)據(jù)并將其與真實(shí)數(shù)據(jù)相結(jié)合,以提高模型的準(zhǔn)確性和通用性
幫助開(kāi)發(fā)和驗(yàn)證具有多攝像頭追蹤與分析功能的應(yīng)用
調(diào)整部署環(huán)境,例如提出優(yōu)化的攝像頭角度或覆蓋范圍
NVIDIA Isaac Sim 可與合成數(shù)據(jù)生成(SDG)管線無(wú)縫集成,為加強(qiáng) AI 模型訓(xùn)練以及改進(jìn)端到端應(yīng)用設(shè)計(jì)與驗(yàn)證提供了精密的配套工具。無(wú)論是機(jī)器人、工業(yè)自動(dòng)化,還是智慧城市、零售分析,您都可以生成適用于各種應(yīng)用的合成數(shù)據(jù)。
圖 10. 借助 NVIDIA Isaac Sim
創(chuàng)建用于 AI 訓(xùn)練的合成數(shù)據(jù)集
Isaac Sim 中的 Omni.Replicator.Agent (ORA) 擴(kuò)展程序可簡(jiǎn)化人員和自主移動(dòng)機(jī)器人(AMR)等智能體的仿真,并從包含這些智能體的場(chǎng)景中生成合成數(shù)據(jù)。
ORA 提供帶有默認(rèn)環(huán)境、資產(chǎn)和動(dòng)畫(huà)的 GPU 加速解決方案,為自定義集成提供助力。其自動(dòng)攝像頭校準(zhǔn)功能能夠生成與 Metropolis 微服務(wù)中的工作流兼容的校準(zhǔn)信息,例如后文提到的多攝像頭追蹤(MTMC)工作流。
圖 11. 借助 ORA 擴(kuò)展程序創(chuàng)建的場(chǎng)景
借助 TAO 套件
進(jìn)行 AI 模型訓(xùn)練和微調(diào)
Metropolis 微服務(wù)采用一些基于 CNN 和 Transformer 的模型,這些模型最初在真實(shí)數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,然后使用合成數(shù)據(jù)進(jìn)行增強(qiáng),以實(shí)現(xiàn)更加強(qiáng)大的泛化和應(yīng)對(duì)罕見(jiàn)情況。
基于 CNN 的模型:
a.PeopleNet:基于NVIDIA DetectNet_v2架構(gòu)。已在 760多萬(wàn)張圖像上進(jìn)行了預(yù)訓(xùn)練,其中包含 7100 多萬(wàn)個(gè)人物對(duì)象。
b.ReidentificationNet:使用 ResNet-50骨干。在真實(shí)數(shù)據(jù)集與合成數(shù)據(jù)集所組成的組合數(shù)據(jù)集上訓(xùn)練而成,包括 Market-1501 數(shù)據(jù)集中的 751 個(gè)唯一 ID 和 MTMC 人員追蹤數(shù)據(jù)集中的 156 個(gè)唯一 ID。
基于轉(zhuǎn)換器的模型:
a.PeopleNet 轉(zhuǎn)換器:使用帶有 FAN-Small 特征提取器的 DINO 對(duì)象檢測(cè)器。在 OpenImages 數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,并在包含 150 多萬(wàn)張圖像和 2700 多萬(wàn)個(gè)人物對(duì)象的專有數(shù)據(jù)集上進(jìn)行微調(diào)。
b.ReID 轉(zhuǎn)換器模型:采用 Swin 骨干并結(jié)合 SOLIDER 等自我監(jiān)督學(xué)習(xí)技術(shù),生成適用于人員再識(shí)別的強(qiáng)大人類表征。該預(yù)訓(xùn)練數(shù)據(jù)集包含由專有數(shù)據(jù)集與 Open Image V5 等開(kāi)放數(shù)據(jù)集組成的組合數(shù)據(jù)集,共有 14392 張合成圖像(包含 156 個(gè)唯一 ID)和 67563 張真實(shí)圖像(包含 4470 個(gè) ID)。
除了直接使用這些模型外,您還可以使用 NVIDIA TAO 套件在自定義數(shù)據(jù)集上輕松地對(duì)這些模型進(jìn)行微調(diào),以提高它們的準(zhǔn)確性,并優(yōu)化新訓(xùn)練的模型在幾乎任何平臺(tái)上的推理吞吐量。TAO 套件基于 TensorFlow 和 PyTorch 構(gòu)建。
圖 12. NVIDIA TAO 套件架構(gòu)
借助 PipeTuner 自動(dòng)調(diào)整準(zhǔn)確性
PipeTuner 是一款專門用于簡(jiǎn)化 AI 管線調(diào)整工作的全新開(kāi)發(fā)者工具。
AI 服務(wù)通常包含大量用于推理和追蹤的參數(shù),因此要找到能夠最大程度提高特定用例準(zhǔn)確性的最佳設(shè)置具有一定的挑戰(zhàn)性。而要進(jìn)行手動(dòng)調(diào)整,就需要對(duì)每個(gè)管線模塊有深入的了解,這在大量高維參數(shù)空間的情況下不切實(shí)際。
PipeTuner 能夠解決此類問(wèn)題,它可以根據(jù)所提供的數(shù)據(jù)集自動(dòng)識(shí)別最佳參數(shù),使關(guān)鍵性能指標(biāo)(KPI)達(dá)到最佳。通過(guò)高效探索參數(shù)空間,PipeTuner 簡(jiǎn)化了整個(gè)優(yōu)化過(guò)程,使用戶即便不具備管線及其參數(shù)方面的技術(shù)知識(shí)也能使用。
圖 13. NVIDIA PipeTuner 套件工作流
總結(jié)
Metropolis 微服務(wù)在提高彈性和安全性的同時(shí),簡(jiǎn)化并加速了從邊緣部署到云部署的原型設(shè)計(jì)、構(gòu)建、測(cè)試和擴(kuò)展過(guò)程。這些微服務(wù)不但十分靈活、易于配置且無(wú)需編碼,而且封裝了高效的 CNN 和基于 Transformer 的模型,以滿足您的要求。只需點(diǎn)擊幾下,即可將整個(gè)端到端工作流部署到公有云或生產(chǎn)中。
通過(guò)使用 NVIDIA Isaac Sim、NVIDIA TAO 套件、PipeTuner 和 NVIDIA Metropolis 微服務(wù),您可以輕松創(chuàng)建功能強(qiáng)大的實(shí)時(shí)多攝像頭 AI 解決方案。這一綜合全面的平臺(tái)能夠幫助各個(gè)行業(yè)的企業(yè)獲得有價(jià)值的洞察,并優(yōu)化空間和流程。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5187瀏覽量
105384 -
微服務(wù)
+關(guān)注
關(guān)注
0文章
145瀏覽量
7619 -
數(shù)字孿生
+關(guān)注
關(guān)注
4文章
1419瀏覽量
12670
原文標(biāo)題:借助 NVIDIA Metropolis 微服務(wù)和 NVIDIA Isaac Sim,實(shí)現(xiàn)從數(shù)字孿生到云原生部署的實(shí)時(shí)視覺(jué) AI
文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
GTC23 | NVIDIA Metropolis 生態(tài)壯大,先進(jìn)開(kāi)發(fā)工具加速視覺(jué) AI 發(fā)展
在線研討會(huì) | 在 Jetson 上使用 Metropolis API 和微服務(wù)加速邊緣人工智能開(kāi)發(fā)

評(píng)論