0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

利用NVIDIA模型分析儀最大限度地提高深度學習的推理性能

電子設(shè)計 ? 來源: 電子設(shè)計 ? 作者: 電子設(shè)計 ? 2020-10-21 19:01 ? 次閱讀

你已經(jīng)建立了你的深度學習推理模型并將它們部署到 NVIDIA Triton Inference Serve 最大化模型性能。 你如何進一步加快你的模型的運行速度? 進入 NVIDIA模型分析器 ,一個收集模型計算需求的工具。

沒有這些信息,在理解在GPU上運行多少模型方面就存在知識差距。 通過收集冷熱儲存需求,您可以使用它們通知模型的調(diào)度,以獲得幾個好處:

最大化模型吞吐量—確保放置在每個GPU上的模型總和不超過可用內(nèi)存和GPU利用率的特定閾值,例如100%。這樣可以最大限度地提高硬件的吞吐量。

優(yōu)化硬件使用—檢查GPU內(nèi)存需求,以便在較少硬件上運行更多型號。您可以使用此數(shù)據(jù)來確定每個GPU可以加載的最大模型數(shù),而不是優(yōu)化吞吐量,從而減少所需的硬件,或者權(quán)衡吞吐量的權(quán)衡。

提高了可靠性—通過了解在GPU上加載的模型不會超出其能力,消除內(nèi)存不足錯誤。

此外,還有兩個關(guān)鍵的非調(diào)度好處:

有效的模式—比較和對比不同的模型,將計算需求作為一個額外的數(shù)據(jù)點來衡量模型的性能。這有助于生成更輕量級的模型,并減少推理所需的內(nèi)存量。

更好的硬件尺寸—使用內(nèi)存需求確定運行模型所需的確切硬件數(shù)量。

總之,理解推理模型的計算要求提供了從模型創(chuàng)建和硬件大小到模型的可靠、高效運行的大量好處。 下面我們來看看ModelAnalyzer,看看它如何為最高性能的推理解決方案做出貢獻。

獲取模型分析器Docker容器

在使用推理服務器容器之前,必須安裝一些軟件,如Docker。 有關(guān)更多信息,請參見 安裝Docker和NVIDIA Docke 一節(jié)進去 NVIDIA Docker:GPU服務器應用程序部署容易.

模型分析器作為Helm圖表、Docker容器或獨立命令行接口運行。 對于本教程,您可以從源代碼the構(gòu)建Docker容器 triton-inference-server/model_analyzer Github回購。

git clone https://github.com/triton-inference-server/model_analyzer.git
cd model_analyzer
docker build -t memory-analyzer

要為您的模型運行容器,請確保端口8000、8001和8002可用。 然后,運行以下命令,替換大寫參數(shù)

docker run -v /var/run/docker.sock:/var/run/docker.sock /
-v /ABSOLUTE/PATH/TO/MODELS:ABSOLUTE/PATH/TO/MODELS /
-v /ABSOLUTE/PATH/TO/EXPORT/DIRECTORY:/results --net=host /
memory-analyzer:ANALYZER-VERSION /
--batch BATCH-SIZES /
--concurrency CONCURRENCY-VALUES /
--model-names MODEL-NAMES /
--triton-version TRITON-VERSION /
--model-folder /ABSOLUTE/PATH/TO/MODELS /
--export --export-path /results/

這里有一個示例命令供參考:

docker run -v /var/run/docker.sock:/var/run/docker.sock /
-v /home/user/models: /home/user/models /
-v /home/user/results:/results --net=host /
memory-analyzer:latest /
--batch 1,2,4 /
--concurrency 1,2,4 /
--model-names chest_xray,covid19_xray/
--triton-version 20.02-py3 /
--model-folder /home/user/models /
--export --export-path /results/

容器完成后,每個模型、批處理大小和并發(fā)值的度量將導出到您選擇的目錄中。 信息是通過在系統(tǒng)運行時收集度量來收集的,因此在一個孤立的GPU或僅運行模型分析器的系統(tǒng)上運行它是理想的。

使用計算需求進行優(yōu)化

下面是如何使用這些度量來優(yōu)化系統(tǒng)性能。 我們討論了兩個使用醫(yī)學推斷模型的案例研究:

第一個案例研究探討了如何將間歇性運行的系統(tǒng)的硬件最小化,例如需要在最小硬件上運行許多模型的低成本醫(yī)療提供商。

第二個案例研究探討了使用最少的硬件來最大化這些相同模型的吞吐量,例如在一致的基礎(chǔ)上運行許多模型的大型急診室。

這兩個案例研究都是手動完成這些步驟的,因此我們最后討論了將模型元數(shù)據(jù)納入自動調(diào)度的下一步。 對于這兩項研究,為了簡化分析,我們使用總結(jié)的數(shù)據(jù),對每個模型使用2的模型批處理大小和4的并發(fā)。

馬克斯記憶用法(%) 馬克斯GPU使用(%) 最大GPU內(nèi)存(MB)
0 9 309

表1。 只運行TritonServer的內(nèi)存使用。

Model Batch 流率 馬克斯記憶用法(%) 馬克斯GPU使用(%) 最大GPU內(nèi)存(MB)
classification_breast 2 4 1381.6推斷/秒 1 23 1461
classification_chest 2 4 172.4推斷/秒 11 56 5035
分類_瑪利亞 2 4 586推斷/秒 2 43 1851
節(jié)段_CT_Colon_Tumo 2 4 33.6推斷/秒 60 60 6955
segmentation_ct_胰腺 2 4 29.6推斷/秒 51 79 6955
節(jié)段_CT_脾 2 4 32推斷/秒 54 54 6955
肝段 2 4 28推斷/秒 53 76 11051
分段_MRI_腦_腫瘤 2 4 4推斷/秒 48 48 8579
分段_MRI_海馬 2 4 30.8推斷/秒 52 52 6955

表2。 每個運行模型的內(nèi)存使用情況。

通常,有幾種潛在的方法:

每個GPU放置一個模型。 這意味著這9種型號的9個GPU。 例如,如果要在DGX上運行,這種方法將需要兩個不能充分利用的DGX。

把所有的模型放在一個GPU上。 這只需要一個GPU,但會導致“內(nèi)存不足”錯誤。

在每個GPU上放置任意數(shù)量的模型。 這涉及到以前方法的問題。 如果每個GPU放置兩個模型,則只需要5個GPU。 然而,記憶錯誤仍然是一個風險,例如,如果你把肝臟分割和腦腫瘤分割模型放在一個GPU上。 同時,其他GPU沒有得到充分或最佳的利用,例如當您將乳房和胸部x射線分類放在一個GPU上時。

另一種選擇是什么?

案例研究:盡量減少間歇系統(tǒng)的硬件

想象一下,你有一個系統(tǒng),你知道它只會斷斷續(xù)續(xù)地出現(xiàn),所以你想在最少的硬件上安裝盡可能多的模型。 在這種情況下,GPU內(nèi)存是瓶頸。 您可以為Triton Server減去309MB的內(nèi)存,以單獨獲得模型的GPU內(nèi)存,然后查看在GPU上的一個服務器上可以容納多少模型。

表3顯示,可以匹配的模型只使用四個16GB GPU與以下配置,這協(xié)調(diào)了最小的GPU可能為這些模型,需要53GB的內(nèi)存。

GPU # 模特兒典型 帶有服務器的GPU內(nèi)存(MB
1 分類_胸部,節(jié)段_CT_結(jié)腸_腫瘤 11681
2 classification_breast,segmentation_live 12203
3 分類_瘧疾,節(jié)段_MRI_海馬,節(jié)段_CT_脾 15143
4 節(jié)段_CT_胰腺,節(jié)段_MRI_腦_腫瘤 15225

表3。 最小硬件的示例配置。

使用這種配置,您的GPU數(shù)量最少,同時保證沒有內(nèi)存錯誤。 這是一個很好的設(shè)置,用于間歇性地運行模型,當吞吐量不需要達到最大值時。

案例研究:最大限度地提高一致的、關(guān)鍵的系統(tǒng)的性能

對于此設(shè)置,最大吞吐量是優(yōu)先級,因此必須確保吞吐量不會因為所有模式的并發(fā)負載而下降。 查看所有指標,以確保內(nèi)存利用率、GPU利用率和GPU內(nèi)存總量不超過機器的計算資源。

As total GPU utilization adds up to 491% and would therefore require a minimum of five GPUs, compared to total memory utilization (332%, or four GPUs) or total GPU memory (52 GB, or four GPUs), GPU utilization is the bottleneck and a great place to start.

表4假設(shè)GPU利用率閾值為100%,并顯示了一個只有6個16GB GPU的示例配置。

GPU # 模特兒典型 內(nèi)存使用(%) GPU使用(%) 帶有服務器的GPU內(nèi)存(MB
1 節(jié)段_CT_Colon_Tumo 60 60 6955
2 肝段 54 76 11051
3 classification_chest,classification_breast 12 79 2939
4 segmentation_ct_pancreas 51 79 6955
5 級化_級,細分_級 56 97 8497
6 Segmentation_MRI_海馬,segmentation_mri_brain_tumo 100 100 15225

表4。 最大吞吐量的示例配置。

這與每個模型的批處理大小和并發(fā)值相同。 通過調(diào)整,使用不同的批處理大小和并發(fā)值來最大化吞吐量,內(nèi)存和GPU利用率會有更高的變化,從而節(jié)省更多的資源。 此外,如果您的系統(tǒng)可以犧牲一些吞吐量,您可以使用更少的硬件,只需占用內(nèi)存或GPU利用率的100。

進一步用例:自動調(diào)度

雖然這兩個案例研究顯示了優(yōu)化系統(tǒng)運行的手工操作,但最有可能的用例是將這些數(shù)據(jù)自動納入調(diào)度。 調(diào)度規(guī)則將放在計算需求之上,例如在模型運行時不要使用超過80%的GPU或80%的GPU內(nèi)存。 這樣的規(guī)則是你的模式,模型的使用計算元數(shù)據(jù)收集。

有了計算機需求,您就可以確定什么對您最重要,并從硬件中獲得最大的性能。

結(jié)局推論

使用Triton Server工具Model Analyzer,您可以輕松高效地描述您的模型,使您能夠最大限度地提高硬件的性能。 無論您使用命令行接口、Docker容器還是Helm圖表,ModelAnalyzer都會收集模型的計算需求,允許您最大化性能并最小化運行模型所需的硬件。

正如將9個GPU減少到4個或6個GPU的案例研究所顯示的,將這些數(shù)據(jù)合并到您的調(diào)度中是非常強大的。 對數(shù)據(jù)的進一步探索提供了對批處理大小和并發(fā)如何影響模型的洞察,使您能夠使用Triton Server以最大的性能運行模型。

Model Analyzer 是開源的,在GitHub上可用。

關(guān)于作者

關(guān)于大衛(wèi)·亞斯特雷姆斯基
大衛(wèi)·亞斯特雷姆斯基是NVIDIA的軟件實習生,從事克拉拉部署工作。 他是一名碩士學位學生,在賓夕法尼亞大學學習計算機科學,對醫(yī)療AI充滿熱情,未來人人都能獲得高質(zhì)量的醫(yī)療保健。


審核編輯 黃昊宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 分析儀
    +關(guān)注

    關(guān)注

    0

    文章

    1516

    瀏覽量

    52085
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    4994

    瀏覽量

    103166
  • 深度學習
    +關(guān)注

    關(guān)注

    73

    文章

    5504

    瀏覽量

    121229
收藏 人收藏

    評論

    相關(guān)推薦

    解鎖NVIDIA TensorRT-LLM的卓越性能

    Batching、Paged KV Caching、量化技術(shù) (FP8、INT4 AWQ、INT8 SmoothQuant 等) 以及更多功能,確保您的 NVIDIA GPU 能發(fā)揮出卓越的推理性能。
    的頭像 發(fā)表于 12-17 17:47 ?181次閱讀

    AI大模型深度學習的關(guān)系

    人類的學習過程,實現(xiàn)對復雜數(shù)據(jù)的學習和識別。AI大模型則是指模型的參數(shù)數(shù)量巨大,需要龐大的計算資源來進行訓練和推理
    的頭像 發(fā)表于 10-23 15:25 ?852次閱讀

    最大限度提高MSP430? FRAM的寫入速度

    電子發(fā)燒友網(wǎng)站提供《最大限度提高MSP430? FRAM的寫入速度.pdf》資料免費下載
    發(fā)表于 10-18 10:09 ?0次下載
    <b class='flag-5'>最大限度</b>地<b class='flag-5'>提高</b>MSP430? FRAM的寫入速度

    參數(shù)分析儀的技術(shù)原理和應用場景

    譜、紅外光譜、拉曼光譜等),它們利用樣品對光的吸收、發(fā)射或散射特性來進行分析。 質(zhì)譜分析也是化學分析的一種重要手段,它通過測量樣品中離子的質(zhì)量和相對豐度來確定化合物的組成。 力學
    發(fā)表于 10-17 14:42

    最大限度提高GSPS ADC中的SFDR性能:雜散源和Mitigat方法

    電子發(fā)燒友網(wǎng)站提供《最大限度提高GSPS ADC中的SFDR性能:雜散源和Mitigat方法.pdf》資料免費下載
    發(fā)表于 10-10 09:16 ?0次下載
    <b class='flag-5'>最大限度</b>地<b class='flag-5'>提高</b>GSPS ADC中的SFDR<b class='flag-5'>性能</b>:雜散源和Mitigat方法

    利用智能eFuses最大限度地縮短系統(tǒng)停機時間

    電子發(fā)燒友網(wǎng)站提供《利用智能eFuses最大限度地縮短系統(tǒng)停機時間.pdf》資料免費下載
    發(fā)表于 09-25 10:25 ?0次下載
    <b class='flag-5'>利用</b>智能eFuses<b class='flag-5'>最大限度</b>地縮短系統(tǒng)停機時間

    如何在C2000設(shè)備中最大限度利用GPIO

    電子發(fā)燒友網(wǎng)站提供《如何在C2000設(shè)備中最大限度利用GPIO.pdf》資料免費下載
    發(fā)表于 09-19 13:40 ?0次下載
    如何在C2000設(shè)備中<b class='flag-5'>最大限度</b>地<b class='flag-5'>利用</b>GPIO

    開箱即用,AISBench測試展示英特爾至強處理器的卓越推理性能

    近期,第五代英特爾?至強?可擴展處理器通過了中國電子技術(shù)標準化研究院組織的人工智能服務器系統(tǒng)性能測試(AISBench)。英特爾成為首批通過AISBench大語言模型(LLM)推理性能測試的企業(yè)
    的頭像 發(fā)表于 09-06 15:33 ?351次閱讀
    開箱即用,AISBench測試展示英特爾至強處理器的卓越<b class='flag-5'>推理性能</b>

    利用TI GaN中的集成電流檢測功能更大限度提高系統(tǒng)效率

    電子發(fā)燒友網(wǎng)站提供《利用TI GaN中的集成電流檢測功能更大限度提高系統(tǒng)效率.pdf》資料免費下載
    發(fā)表于 08-29 11:28 ?0次下載
    <b class='flag-5'>利用</b>TI GaN中的集成電流檢測功能更<b class='flag-5'>大限度</b><b class='flag-5'>提高</b>系統(tǒng)效率

    魔搭社區(qū)借助NVIDIA TensorRT-LLM提升LLM推理效率

    “魔搭社區(qū)是中國最具影響力的模型開源社區(qū),致力給開發(fā)者提供模型即服務的體驗。魔搭社區(qū)利用NVIDIA TensorRT-LLM,大大提高了大
    的頭像 發(fā)表于 08-23 15:48 ?460次閱讀

    深度學習模型量化方法

    深度學習模型量化是一種重要的模型輕量化技術(shù),旨在通過減少網(wǎng)絡參數(shù)的比特寬度來減小模型大小和加速推理
    的頭像 發(fā)表于 07-15 11:01 ?499次閱讀
    <b class='flag-5'>深度</b><b class='flag-5'>學習</b><b class='flag-5'>模型</b>量化方法

    【大語言模型:原理與工程實踐】揭開大語言模型的面紗

    復用和優(yōu)化效果。這些趨勢共同推動了大語言模型深度學習研究和應用中的重要地位。數(shù)據(jù)效應指出大型模型需要更多數(shù)據(jù)進行訓練,以提高性能。其次,表
    發(fā)表于 05-04 23:55

    利用NVIDIA產(chǎn)品技術(shù)組合提升用戶體驗

    本案例通過利用NVIDIA TensorRT-LLM加速指令識別深度學習模型,并借助NVIDIA
    的頭像 發(fā)表于 01-17 09:30 ?704次閱讀

    Torch TensorRT是一個優(yōu)化PyTorch模型推理性能的工具

    那么,什么是Torch TensorRT呢?Torch是我們大家聚在一起的原因,它是一個端到端的機器學習框架。而TensorRT則是NVIDIA的高性能深度
    的頭像 發(fā)表于 01-09 16:41 ?1761次閱讀
    Torch TensorRT是一個優(yōu)化PyTorch<b class='flag-5'>模型</b><b class='flag-5'>推理性能</b>的工具

    Wi-SUN 可最大限度提高太陽能跟蹤器的性能

    的影響。通過利用盡可能多的能量,太陽能光伏跟蹤器成為一大關(guān)鍵,可最大限度提高太陽能發(fā)電廠的投資回報。 無線帶來了可擴展性和更大的靈活性 在每個太陽能發(fā)電廠部署中,選擇無線還是有線連接的跟蹤器要取決于具體的要求、規(guī)
    的頭像 發(fā)表于 01-07 08:38 ?734次閱讀
    Wi-SUN 可<b class='flag-5'>最大限度</b>地<b class='flag-5'>提高</b>太陽能跟蹤器的<b class='flag-5'>性能</b>