你已經(jīng)建立了你的深度學習推理模型并將它們部署到 NVIDIA Triton Inference Serve 最大化模型性能。 你如何進一步加快你的模型的運行速度? 進入 NVIDIA模型分析器 ,一個收集模型計算需求的工具。
沒有這些信息,在理解在GPU上運行多少模型方面就存在知識差距。 通過收集冷熱儲存需求,您可以使用它們通知模型的調(diào)度,以獲得幾個好處:
最大化模型吞吐量—確保放置在每個GPU上的模型總和不超過可用內(nèi)存和GPU利用率的特定閾值,例如100%。這樣可以最大限度地提高硬件的吞吐量。
優(yōu)化硬件使用—檢查GPU內(nèi)存需求,以便在較少硬件上運行更多型號。您可以使用此數(shù)據(jù)來確定每個GPU可以加載的最大模型數(shù),而不是優(yōu)化吞吐量,從而減少所需的硬件,或者權(quán)衡吞吐量的權(quán)衡。
提高了可靠性—通過了解在GPU上加載的模型不會超出其能力,消除內(nèi)存不足錯誤。
此外,還有兩個關(guān)鍵的非調(diào)度好處:
有效的模式—比較和對比不同的模型,將計算需求作為一個額外的數(shù)據(jù)點來衡量模型的性能。這有助于生成更輕量級的模型,并減少推理所需的內(nèi)存量。
更好的硬件尺寸—使用內(nèi)存需求確定運行模型所需的確切硬件數(shù)量。
總之,理解推理模型的計算要求提供了從模型創(chuàng)建和硬件大小到模型的可靠、高效運行的大量好處。 下面我們來看看ModelAnalyzer,看看它如何為最高性能的推理解決方案做出貢獻。
獲取模型分析器Docker容器
在使用推理服務器容器之前,必須安裝一些軟件,如Docker。 有關(guān)更多信息,請參見 安裝Docker和NVIDIA Docke 一節(jié)進去 NVIDIA Docker:GPU服務器應用程序部署容易.
模型分析器作為Helm圖表、Docker容器或獨立命令行接口運行。 對于本教程,您可以從源代碼the構(gòu)建Docker容器 triton-inference-server/model_analyzer Github回購。
git clone https://github.com/triton-inference-server/model_analyzer.git cd model_analyzer docker build -t memory-analyzer
要為您的模型運行容器,請確保端口8000、8001和8002可用。 然后,運行以下命令,替換大寫參數(shù):
docker run -v /var/run/docker.sock:/var/run/docker.sock / -v /ABSOLUTE/PATH/TO/MODELS:ABSOLUTE/PATH/TO/MODELS / -v /ABSOLUTE/PATH/TO/EXPORT/DIRECTORY:/results --net=host / memory-analyzer:ANALYZER-VERSION / --batch BATCH-SIZES / --concurrency CONCURRENCY-VALUES / --model-names MODEL-NAMES / --triton-version TRITON-VERSION / --model-folder /ABSOLUTE/PATH/TO/MODELS / --export --export-path /results/
這里有一個示例命令供參考:
docker run -v /var/run/docker.sock:/var/run/docker.sock / -v /home/user/models: /home/user/models / -v /home/user/results:/results --net=host / memory-analyzer:latest / --batch 1,2,4 / --concurrency 1,2,4 / --model-names chest_xray,covid19_xray/ --triton-version 20.02-py3 / --model-folder /home/user/models / --export --export-path /results/
容器完成后,每個模型、批處理大小和并發(fā)值的度量將導出到您選擇的目錄中。 信息是通過在系統(tǒng)運行時收集度量來收集的,因此在一個孤立的GPU或僅運行模型分析器的系統(tǒng)上運行它是理想的。
使用計算需求進行優(yōu)化
下面是如何使用這些度量來優(yōu)化系統(tǒng)性能。 我們討論了兩個使用醫(yī)學推斷模型的案例研究:
第一個案例研究探討了如何將間歇性運行的系統(tǒng)的硬件最小化,例如需要在最小硬件上運行許多模型的低成本醫(yī)療提供商。
第二個案例研究探討了使用最少的硬件來最大化這些相同模型的吞吐量,例如在一致的基礎(chǔ)上運行許多模型的大型急診室。
這兩個案例研究都是手動完成這些步驟的,因此我們最后討論了將模型元數(shù)據(jù)納入自動調(diào)度的下一步。 對于這兩項研究,為了簡化分析,我們使用總結(jié)的數(shù)據(jù),對每個模型使用2的模型批處理大小和4的并發(fā)。
馬克斯記憶用法(%) | 馬克斯GPU使用(%) | 最大GPU內(nèi)存(MB) |
0 | 9 | 309 |
表1。 只運行TritonServer的內(nèi)存使用。
Model | Batch | 流率 | 馬克斯記憶用法(%) | 馬克斯GPU使用(%) | 最大GPU內(nèi)存(MB) | |
classification_breast | 2 | 4 | 1381.6推斷/秒 | 1 | 23 | 1461 |
classification_chest | 2 | 4 | 172.4推斷/秒 | 11 | 56 | 5035 |
分類_瑪利亞 | 2 | 4 | 586推斷/秒 | 2 | 43 | 1851 |
節(jié)段_CT_Colon_Tumo | 2 | 4 | 33.6推斷/秒 | 60 | 60 | 6955 |
segmentation_ct_胰腺 | 2 | 4 | 29.6推斷/秒 | 51 | 79 | 6955 |
節(jié)段_CT_脾 | 2 | 4 | 32推斷/秒 | 54 | 54 | 6955 |
肝段 | 2 | 4 | 28推斷/秒 | 53 | 76 | 11051 |
分段_MRI_腦_腫瘤 | 2 | 4 | 4推斷/秒 | 48 | 48 | 8579 |
分段_MRI_海馬 | 2 | 4 | 30.8推斷/秒 | 52 | 52 | 6955 |
表2。 每個運行模型的內(nèi)存使用情況。
通常,有幾種潛在的方法:
每個GPU放置一個模型。 這意味著這9種型號的9個GPU。 例如,如果要在DGX上運行,這種方法將需要兩個不能充分利用的DGX。
把所有的模型放在一個GPU上。 這只需要一個GPU,但會導致“內(nèi)存不足”錯誤。
在每個GPU上放置任意數(shù)量的模型。 這涉及到以前方法的問題。 如果每個GPU放置兩個模型,則只需要5個GPU。 然而,記憶錯誤仍然是一個風險,例如,如果你把肝臟分割和腦腫瘤分割模型放在一個GPU上。 同時,其他GPU沒有得到充分或最佳的利用,例如當您將乳房和胸部x射線分類放在一個GPU上時。
另一種選擇是什么?
案例研究:盡量減少間歇系統(tǒng)的硬件
想象一下,你有一個系統(tǒng),你知道它只會斷斷續(xù)續(xù)地出現(xiàn),所以你想在最少的硬件上安裝盡可能多的模型。 在這種情況下,GPU內(nèi)存是瓶頸。 您可以為Triton Server減去309MB的內(nèi)存,以單獨獲得模型的GPU內(nèi)存,然后查看在GPU上的一個服務器上可以容納多少模型。
表3顯示,可以匹配的模型只使用四個16GB GPU與以下配置,這協(xié)調(diào)了最小的GPU可能為這些模型,需要53GB的內(nèi)存。
GPU # | 模特兒典型 | 帶有服務器的GPU內(nèi)存(MB |
1 | 分類_胸部,節(jié)段_CT_結(jié)腸_腫瘤 | 11681 |
2 | classification_breast,segmentation_live | 12203 |
3 | 分類_瘧疾,節(jié)段_MRI_海馬,節(jié)段_CT_脾 | 15143 |
4 | 節(jié)段_CT_胰腺,節(jié)段_MRI_腦_腫瘤 | 15225 |
表3。 最小硬件的示例配置。
使用這種配置,您的GPU數(shù)量最少,同時保證沒有內(nèi)存錯誤。 這是一個很好的設(shè)置,用于間歇性地運行模型,當吞吐量不需要達到最大值時。
案例研究:最大限度地提高一致的、關(guān)鍵的系統(tǒng)的性能
對于此設(shè)置,最大吞吐量是優(yōu)先級,因此必須確保吞吐量不會因為所有模式的并發(fā)負載而下降。 查看所有指標,以確保內(nèi)存利用率、GPU利用率和GPU內(nèi)存總量不超過機器的計算資源。
As total GPU utilization adds up to 491% and would therefore require a minimum of five GPUs, compared to total memory utilization (332%, or four GPUs) or total GPU memory (52 GB, or four GPUs), GPU utilization is the bottleneck and a great place to start.
表4假設(shè)GPU利用率閾值為100%,并顯示了一個只有6個16GB GPU的示例配置。
GPU # | 模特兒典型 | 內(nèi)存使用(%) | GPU使用(%) | 帶有服務器的GPU內(nèi)存(MB |
1 | 節(jié)段_CT_Colon_Tumo | 60 | 60 | 6955 |
2 | 肝段 | 54 | 76 | 11051 |
3 | classification_chest,classification_breast | 12 | 79 | 2939 |
4 | segmentation_ct_pancreas | 51 | 79 | 6955 |
5 | 級化_級,細分_級 | 56 | 97 | 8497 |
6 | Segmentation_MRI_海馬,segmentation_mri_brain_tumo | 100 | 100 | 15225 |
表4。 最大吞吐量的示例配置。
這與每個模型的批處理大小和并發(fā)值相同。 通過調(diào)整,使用不同的批處理大小和并發(fā)值來最大化吞吐量,內(nèi)存和GPU利用率會有更高的變化,從而節(jié)省更多的資源。 此外,如果您的系統(tǒng)可以犧牲一些吞吐量,您可以使用更少的硬件,只需占用內(nèi)存或GPU利用率的100。
進一步用例:自動調(diào)度
雖然這兩個案例研究顯示了優(yōu)化系統(tǒng)運行的手工操作,但最有可能的用例是將這些數(shù)據(jù)自動納入調(diào)度。 調(diào)度規(guī)則將放在計算需求之上,例如在模型運行時不要使用超過80%的GPU或80%的GPU內(nèi)存。 這樣的規(guī)則是你的模式,模型的使用計算元數(shù)據(jù)收集。
有了計算機需求,您就可以確定什么對您最重要,并從硬件中獲得最大的性能。
結(jié)局推論
使用Triton Server工具Model Analyzer,您可以輕松高效地描述您的模型,使您能夠最大限度地提高硬件的性能。 無論您使用命令行接口、Docker容器還是Helm圖表,ModelAnalyzer都會收集模型的計算需求,允許您最大化性能并最小化運行模型所需的硬件。
正如將9個GPU減少到4個或6個GPU的案例研究所顯示的,將這些數(shù)據(jù)合并到您的調(diào)度中是非常強大的。 對數(shù)據(jù)的進一步探索提供了對批處理大小和并發(fā)如何影響模型的洞察,使您能夠使用Triton Server以最大的性能運行模型。
Model Analyzer 是開源的,在GitHub上可用。
關(guān)于作者
關(guān)于大衛(wèi)·亞斯特雷姆斯基
大衛(wèi)·亞斯特雷姆斯基是NVIDIA的軟件實習生,從事克拉拉部署工作。 他是一名碩士學位學生,在賓夕法尼亞大學學習計算機科學,對醫(yī)療AI充滿熱情,未來人人都能獲得高質(zhì)量的醫(yī)療保健。
審核編輯 黃昊宇
-
分析儀
+關(guān)注
關(guān)注
0文章
1516瀏覽量
52085 -
NVIDIA
+關(guān)注
關(guān)注
14文章
4994瀏覽量
103166 -
深度學習
+關(guān)注
關(guān)注
73文章
5504瀏覽量
121229
發(fā)布評論請先 登錄
相關(guān)推薦
評論