案例簡(jiǎn)介
GALA Sports 的 Arena4D 方案使用多個(gè)高清攝像機(jī),將數(shù)據(jù)傳輸?shù)揭粋€(gè)本地 HPC 中,經(jīng)過(guò)一系列的神經(jīng)網(wǎng)絡(luò)流水線,實(shí)時(shí)計(jì)算出每個(gè)運(yùn)動(dòng)員的位置與姿態(tài),從而將整個(gè)比賽場(chǎng)景數(shù)字化。
Arena4D 的中央處理 HPC 需要以 30FPS 的速度處理 4-12 個(gè) 4K 相機(jī)的數(shù)據(jù),流水線包括圖像前處理、運(yùn)動(dòng)員追蹤與識(shí)別、球的追蹤識(shí)別、骨骼關(guān)鍵點(diǎn)識(shí)別,多幀時(shí)間軸降噪等多個(gè)算法模塊,為了達(dá)到實(shí)時(shí)計(jì)算,Arena4D 使用了 NVIDIA A100 GPU 加速神經(jīng)網(wǎng)絡(luò)計(jì)算,并使用 Tensor RT、CUDA 進(jìn)行深度優(yōu)化,經(jīng)過(guò)優(yōu)化部署的算法計(jì)算速度相對(duì)于早期算法原型有 10 倍以上的性能提升。
本案例主要應(yīng)用到 NVIDIA A100 GPU、TensorRT和CUDA。
客戶簡(jiǎn)介及應(yīng)用背景
望塵科技(GALA Sports)于 2013 年在深圳成立,是一家以技術(shù)為驅(qū)動(dòng)的互聯(lián)網(wǎng)公司,多年來(lái)一直專注于體育游戲和賽場(chǎng)數(shù)字化,致力于為用戶提供高品質(zhì)的體育在線娛樂(lè)體驗(yàn),目前團(tuán)隊(duì)成員 300 余人,分別于深圳、成都設(shè)有辦公地點(diǎn)。
憑借歷年來(lái)在體育游戲市場(chǎng)的深耕與穩(wěn)定的高質(zhì)量產(chǎn)品研發(fā),望塵科技推出了《足球大師》、《NBA 籃球大師》、《最佳 11 人》等多款體育類手游,與 FIFPro、NBA、中超、拜仁、巴薩、曼聯(lián)、皇馬、國(guó)米等體育聯(lián)盟及豪門俱樂(lè)部保持著長(zhǎng)期的合作關(guān)系。目前,擁有全球超過(guò) 2000 萬(wàn)的下載用戶,全球日活躍用戶量超 50 萬(wàn)人次;在賽場(chǎng)三維重構(gòu)、人體運(yùn)動(dòng)模擬、球類競(jìng)技 AI、表情與肌肉物理模擬、超寫(xiě)實(shí)數(shù)字人、大場(chǎng)景渲染等幾個(gè)領(lǐng)域處于國(guó)內(nèi)外領(lǐng)先地位。
客戶挑戰(zhàn)
多臺(tái)高清攝像頭每幀圖像需上傳到顯卡進(jìn)行實(shí)時(shí)轉(zhuǎn)碼、降噪等前處理工作,數(shù)據(jù)吞吐量較大。
基于神經(jīng)網(wǎng)絡(luò)的計(jì)算流水線,需要實(shí)時(shí)進(jìn)行多個(gè)視角、多個(gè)運(yùn)動(dòng)員的追蹤、識(shí)別、姿態(tài)估計(jì)與降噪計(jì)算。
在多個(gè) AI 模型級(jí)聯(lián)計(jì)算流水線中,每個(gè) AI 模型之間的數(shù)據(jù)處理與拷貝占用了大量的時(shí)間。
應(yīng)用方案
基于以上挑戰(zhàn),GALA Sports 選擇了 NVIDIA 提供的 AI 加速解決方案——TensorRT。
針對(duì)多相機(jī)從內(nèi)存到顯存大量數(shù)據(jù)拷貝 IO bound 問(wèn)題,我們使用 CUDA 多流技術(shù)實(shí)現(xiàn)了內(nèi)存拷貝與數(shù)據(jù)處理并行化,降低了 overhead,4 路 4k 相機(jī)數(shù)據(jù)的拷貝與轉(zhuǎn)碼從約 50ms 減少到 30ms。
針對(duì)神經(jīng)網(wǎng)絡(luò)流水線的計(jì)算延遲問(wèn)題,首先我們根據(jù)體育比賽的使用場(chǎng)景與相機(jī)視角對(duì)模型結(jié)構(gòu)進(jìn)行了優(yōu)化,根據(jù)不同體育類型的相機(jī)機(jī)位和球場(chǎng)尺度,設(shè)計(jì)了專門針對(duì)特定比賽的識(shí)別網(wǎng)絡(luò),大大降低了網(wǎng)絡(luò)的復(fù)雜度;然后使用量化工具對(duì)網(wǎng)絡(luò)進(jìn)行 fp16 量化加速,最后使用 TensorRT 針對(duì) A100 編譯,在 A100 上能達(dá)到最優(yōu)性能的模型。
針對(duì)計(jì)算流水線模型之間數(shù)據(jù)處理耗時(shí)的問(wèn)題,首先我們通過(guò)合并部分神經(jīng)網(wǎng)絡(luò)模型重新訓(xùn)練,然后對(duì)于必須保留的數(shù)據(jù)處理代碼,我們用 CUDA C++ 重寫(xiě)了大部分?jǐn)?shù)據(jù)處理的 kernel,并針對(duì) A100 的硬件結(jié)構(gòu)對(duì)并行參數(shù)進(jìn)行調(diào)優(yōu),最終將數(shù)據(jù)處理 30ms 的計(jì)算時(shí)間降低到 5ms。
最終,以足球場(chǎng)場(chǎng)景為例,追蹤目標(biāo)為 1 個(gè)足球 + 22 名球員 + 3 名教練的位置與骨骼,在 1 張 A100 設(shè)備上我們實(shí)現(xiàn)了平均 50ms/幀的速度,在 2 張 A100 設(shè)備上能達(dá)到平均 30ms/幀的速度,整個(gè)流水線比原型提升了 18 倍。
方案效果及影響
將整個(gè)推理端算法流水線經(jīng)過(guò)上述方法優(yōu)化后,相較于未用 TensorRT 與 CUDA 優(yōu)化的算法原型,我們實(shí)現(xiàn)了 18 倍的性能提升,使超大規(guī)模體育場(chǎng)景的姿態(tài)捕捉與重建的實(shí)時(shí)計(jì)算成為可能,在體育比賽過(guò)程中的實(shí)時(shí)計(jì)算產(chǎn)生了許多新的用途,我們的客戶能夠?qū)⑦@些數(shù)字化內(nèi)容用于直播解說(shuō)、實(shí)時(shí)戰(zhàn)術(shù)分析、自由視角回放、比賽結(jié)果預(yù)測(cè)等新場(chǎng)景,提升了系統(tǒng)方案的價(jià)值。
我們的硬件方案也從 4 臺(tái) HPC 縮減到 1 臺(tái) HPC 搭載 2 張 A100 GPU,不僅顯著地降低了成本,也顯著降低了系統(tǒng)維護(hù)和使用的復(fù)雜度,提升了系統(tǒng)可靠度。
后續(xù),我們計(jì)劃:
通過(guò)將流水線中部分網(wǎng)絡(luò)使用 Int8 量化以進(jìn)一步提升性能;
將整體流水線遷移到 CUDA C++ 代碼中進(jìn)一步提升性能;
把性能提升空余的計(jì)算資源用于提升網(wǎng)絡(luò)模型的復(fù)雜度以提升精度;
將 CenterNet 與 Dense Sematic 網(wǎng)絡(luò)特征提取部分替換成 Vision Transformer 以提升精度;
使用 Nsight 在 A100 真實(shí)環(huán)境中進(jìn)一步 profile,減少 overhead。
審核編輯:郭婷
-
NVIDIA
+關(guān)注
關(guān)注
14文章
4990瀏覽量
103119 -
攝像機(jī)
+關(guān)注
關(guān)注
3文章
1603瀏覽量
60076 -
CUDA
+關(guān)注
關(guān)注
0文章
121瀏覽量
13641
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論