0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

浪潮NF5468A5 GPU服務(wù)器整體設(shè)計(jì)及性能深度測(cè)評(píng)解讀

jf_pJlTbmA9 ? 來源:美通社 ? 作者:美通社 ? 2023-07-13 11:22 ? 次閱讀

近日,浪潮信息推出AI服務(wù)器 NF5468A5"超值機(jī)型 限免試用"活動(dòng)。浪潮NF5468A5是一款性能強(qiáng)大、應(yīng)用場(chǎng)景廣泛的GPU服務(wù)器,硬件設(shè)計(jì)合理,可最大化發(fā)揮核心組件的性能優(yōu)勢(shì),并通過分區(qū)散熱設(shè)計(jì)保障服務(wù)器穩(wěn)定運(yùn)行,同時(shí)廣泛兼容主流加速卡,計(jì)算性能強(qiáng)大,以更靈活的計(jì)算架構(gòu)最大程度地滿足用戶在圖像識(shí)別、自然語言處理、語音識(shí)別等多場(chǎng)景應(yīng)用需求,專業(yè)測(cè)評(píng)媒體將其比喻為"算力猛獸"。

本文將圍繞NF5468A5整體設(shè)計(jì)及性能測(cè)試進(jìn)行深度測(cè)評(píng)解讀,展現(xiàn)HPL、內(nèi)存帶寬、AI訓(xùn)練、AI推理、視頻編解碼、HASH等應(yīng)用場(chǎng)景的各類測(cè)試數(shù)據(jù),如對(duì)該AI服務(wù)器感興趣可以申請(qǐng)參加試用活動(dòng)。

浪潮NF5468A5服務(wù)器

NF5468A5是浪潮推出的一款面向AI訓(xùn)練和AI推理、視頻編解碼等多種應(yīng)用場(chǎng)景的全能型GPU服務(wù)器,在4U空間內(nèi)搭載2顆AMD EPYC處理器,支持多達(dá)8張雙寬加速卡。浪潮官網(wǎng)顯示,這款產(chǎn)品已經(jīng)支持NVIDIA、AMD、Intel、寒武紀(jì)、燧原等多家業(yè)界主流AI加速卡。

本次拿到的樣機(jī)采用如下配置:

1657592634368921.jpg

接下來,筆者將從系統(tǒng)解析、性能測(cè)試這兩個(gè)方面對(duì)浪潮NF5468A5服務(wù)器進(jìn)行測(cè)評(píng)。

1.NF5468A5系統(tǒng)解析

1.1整體系統(tǒng)設(shè)計(jì)

浪潮NF5468A5 AI服務(wù)器采用了4U機(jī)架式機(jī)箱,高x寬x深為175mm x 478mm x 830mm。整體風(fēng)格簡(jiǎn)約、硬朗,不論做工、還是用料、細(xì)節(jié),均彰顯出大廠品質(zhì)。

前面板沿用浪潮一貫穩(wěn)重的黑色,六邊形的格柵結(jié)構(gòu)由金屬制成,可以將風(fēng)扇高速旋轉(zhuǎn)產(chǎn)生的湍流風(fēng)切割成平穩(wěn)的平流風(fēng),從而更平穩(wěn)的吹向服務(wù)器內(nèi)部。前面板右上角,電源鍵下方是ID、Reset按鍵和系統(tǒng)狀態(tài)指示燈,前面板左上角則是VGA、兩個(gè)USB 3.0接口和管理接口。前面版的豐富接口,充分考慮了運(yùn)維人員的工作場(chǎng)景,十分便捷。

1657592629172943.jpg

浪潮NF5468A5前視圖

從后窗來看,NF5468A5在4U空間內(nèi)提供了8個(gè)全高全長(zhǎng)雙寬PCIe x16的物理插槽,支持最新PCIe Gen4,雙向通信帶寬高達(dá)64GB/s,相比PCIe Gen3,功耗不變,但通信性能提升1倍。在此基礎(chǔ)上產(chǎn)品還提供了3個(gè)全高全長(zhǎng)單寬x16物理槽位,可支持25G/100G/200G雙口光纖,或者千兆/萬兆RJ45網(wǎng)卡以及8/16端口12Gb/s RAID卡,可滿足客戶對(duì)網(wǎng)絡(luò)及存儲(chǔ)的要求。同時(shí)可支持1個(gè)OCP 3.0網(wǎng)卡專用插槽,支持熱插拔,將網(wǎng)卡更換時(shí)間從20分鐘縮短到1分鐘,能夠大幅提高運(yùn)維效率。

NF5468A5支持4個(gè)電源模組,可以提供1600W~3000W功率的80 PLUS鉑金電源模塊,效率高達(dá)94%,可選3+1冗余或者2+2冗余,多種組合的冗余電源設(shè)計(jì),充分考慮了不同配置AI服務(wù)器的負(fù)載情況,保障穩(wěn)定性。

1657592623839288.jpg

浪潮NF5468A5后視圖

整個(gè)服務(wù)器采用非常緊湊的布局設(shè)計(jì),總共分成四個(gè)功能區(qū)域,從前往后依次是:磁盤存儲(chǔ)區(qū)、系統(tǒng)散熱區(qū)、處理器+內(nèi)存區(qū)、GPU+IO擴(kuò)展區(qū)。

1657592618193834.jpg

浪潮NF5468A5內(nèi)部俯視圖

下面我們先看下CPU和內(nèi)存。這臺(tái)樣機(jī)搭配了2顆AMD EPYC 7543處理器,核心數(shù)達(dá)到了32核心64線程,基準(zhǔn)主頻2.8GHz,最大加速時(shí)鐘頻率3.7GHz,L3 Cache 256MB,功耗225W。另外,浪潮官網(wǎng)介紹NF5468A5可支持2顆AMD基于"Zen3"微架構(gòu)內(nèi)核的EPYC Milan-X處理器,最高128個(gè)核心256線程、1536MB L3 Cache 以及18 GT/s XGMI互連鏈路,CPU TDP最大支持280W。樣機(jī)配置了16根32G DDR4內(nèi)存,同時(shí)可以看到服務(wù)器主板整齊排布了32個(gè)DDR4內(nèi)存插槽,最大容量可達(dá)8TB,內(nèi)存總帶寬750GB/s,支持RDIMM/LRDIMM等類型的內(nèi)存條。NF5468A5強(qiáng)勁的處理器性能、巨大的內(nèi)存容量和帶寬,特別適合AI計(jì)算、云計(jì)算、HPC以及企業(yè)各類業(yè)務(wù)的工作負(fù)載。

1657592611600986.jpg

浪潮NF5468A5的CPU散熱器和內(nèi)存條

筆者手上的這臺(tái)NF5468A5,最吸引眼球的是本次測(cè)試樣機(jī)搭配了8顆NVIDIA A100 40G加速卡,從京東網(wǎng)上的報(bào)價(jià)看,8張A100的價(jià)格已經(jīng)與一款中高端轎車相當(dāng),這究竟是一款什么樣的AI服務(wù)器,筆者將帶大家一探究竟。

我們來重點(diǎn)看一下NF5468A5的GPU模組。樣機(jī)搭配了8張NVIDIA A100 PCIE 40GB GPU加速卡,由于每張卡功耗高達(dá)250W,服務(wù)器也給GPU板卡配置了單獨(dú)供電線,保證GPU卡的穩(wěn)定工作。為了滿足PCIE卡的高功率運(yùn)行,我們看到NF5468A5在GPU板上專門設(shè)計(jì)了4個(gè)用于大電流通流的bus bar,據(jù)浪潮的工程師介紹,bus bar的通流能力可以達(dá)到2880W,這對(duì)于各類PCIE加速卡的支持是非常強(qiáng)勁的。

NF5468A5提供了對(duì)豐富外插卡的支持,針對(duì)A100這種全高全長(zhǎng)的卡配置了專用支架,搭配尾部鎖片進(jìn)行固定,這樣能增強(qiáng)產(chǎn)品在運(yùn)輸過程中震動(dòng)、跌落情況下的可靠性。我們翻開尾部鎖片,旋轉(zhuǎn)藍(lán)色旋鈕,就能非常順利的取下GPU進(jìn)行更換,這種針對(duì)PCIE卡免工具的操作非常人性化。

1657592600358396.jpg

1.2系統(tǒng)散熱設(shè)計(jì)

從浪潮官網(wǎng)產(chǎn)品介紹中看到NF5468A5可以支持2顆280W CPU+8顆300W的GPU,在177mm的空間內(nèi)浪潮究竟是如何實(shí)現(xiàn)的?筆者找浪潮工程師拿到了系統(tǒng)風(fēng)流圖,從中可以看出,系統(tǒng)整體風(fēng)道采用前進(jìn)后出的方式,散熱風(fēng)流主要從前面板的硬盤及下方開孔處進(jìn)入系統(tǒng)。風(fēng)流經(jīng)系統(tǒng)風(fēng)扇后通過導(dǎo)風(fēng)罩的分配,一部分進(jìn)入下層前排CPU和內(nèi)存通道,一部分繼續(xù)往后吹;經(jīng)過CPU和內(nèi)存后的風(fēng)及未被預(yù)熱的風(fēng)大部分流向后方上面3U空間的GPU,小部分流向下面1U空間;最后經(jīng)后面板流出系統(tǒng)。如此巧妙的風(fēng)道設(shè)計(jì)和精準(zhǔn)的風(fēng)流控制,足見浪潮作為全球AI領(lǐng)導(dǎo)廠商深厚的設(shè)計(jì)功底。

1657592594297667.jpg

系統(tǒng)分離式風(fēng)流設(shè)計(jì)

這款服務(wù)器將整機(jī)柜產(chǎn)品中"風(fēng)扇墻"的設(shè)計(jì)理念搬到了4U機(jī)箱中,"風(fēng)扇墻"一共由6組可以單獨(dú)維護(hù)的子風(fēng)扇模組組成,風(fēng)扇后部搭配了流線型設(shè)計(jì)的導(dǎo)風(fēng)罩,覆蓋了從風(fēng)扇到GPU中間的區(qū)域,但整個(gè)導(dǎo)風(fēng)罩并沒有完全擋住風(fēng)扇的出風(fēng)區(qū)域,結(jié)合上面系統(tǒng)風(fēng)流圖也證明是為實(shí)現(xiàn)CPU和GPU獨(dú)立風(fēng)道的引流設(shè)計(jì),避免風(fēng)流的串?dāng)_,無論多"強(qiáng)悍"的CPU和GPU都可以馴服。

1657592588596928.jpg

NF5468A5中置風(fēng)扇墻和導(dǎo)流設(shè)計(jì)

1.3架構(gòu)設(shè)計(jì)

筆者查找了海外網(wǎng)站相關(guān)浪潮產(chǎn)品的介紹資料,找到一張產(chǎn)品的拓?fù)鋱D,發(fā)現(xiàn)有別于傳統(tǒng)CPU-PCIE Switch-GPU的設(shè)計(jì),浪潮產(chǎn)品采用CPU-GPU直連方式。跟浪潮工程師確認(rèn),送測(cè)的NF5468A5也采用類似設(shè)計(jì)。工程師介紹,由于省去了PCIE Switch,2顆CPU與GPU的通訊延遲能降低200~300ns,同時(shí)GPU到CPU的通信帶寬可以達(dá)到256GB/s,較GPU通過PCIE Switch只有1條與CPU PCIE通路比,帶寬提升4倍,這種極致的互聯(lián)架構(gòu)設(shè)計(jì),有助于提升GPU與CPU間數(shù)據(jù)通信的帶寬,有效降低數(shù)據(jù)的處理延遲。

1657592582340254.jpg

2.NF5468A5性能測(cè)評(píng)

2.1 HPL測(cè)試

樣機(jī)搭配2顆AMD EPYC 7543處理器,這款處理器是32核64線程,基準(zhǔn)主頻2.8GHz,L3 Cache 256MB,最大加速時(shí)鐘頻率最高可達(dá)3.7GHz,功耗225W。為了能夠了解CPU實(shí)際性能,下面將采用HPL基準(zhǔn)軟件進(jìn)行測(cè)試。

在計(jì)算機(jī)基準(zhǔn)測(cè)試軟件中,HPL是應(yīng)用最廣泛的基準(zhǔn)測(cè)試程序之一。通過使用高斯消元法對(duì)稠密線性方程組進(jìn)行求解,HPL可以準(zhǔn)確測(cè)試系統(tǒng)浮點(diǎn)計(jì)算指標(biāo)。在每年全球超級(jí)計(jì)算機(jī)排名TOP500中,HPL測(cè)試性能是唯一的評(píng)價(jià)標(biāo)準(zhǔn)。

由于筆者拿到的設(shè)備是一臺(tái)未預(yù)裝任何軟件的裸金屬服務(wù)器,為了進(jìn)行相關(guān)測(cè)試,首先在上面安裝了Ubuntu20.04操作系統(tǒng)。

然后用HPL軟件測(cè)試了系統(tǒng)的浮點(diǎn)運(yùn)行能力。通過如下命令,將測(cè)試進(jìn)程和CCD進(jìn)行綁定。

#mpi_options="--mca mpi_leave_pinned 1 --bind-to none --report-bindings --mca btl self,vader"
#mpi_options="$mpi_options --map-by ppr:1:l3cache -x OMP_NUM_THREADS=4 -x OMP_PROC_BIND=TRUE -x OMP_PLACES=cores"
#mpirun $mpi_options -app ./appfile_ccx

在運(yùn)行之前,還需要設(shè)置核心運(yùn)行在最高頻率,清除系統(tǒng)緩存,并開啟大頁內(nèi)存等設(shè)置,保證獲得當(dāng)前平臺(tái)最高性能。

echo 3 > /proc/sys/vm/drop_caches
echo 1 > /proc/sys/vm/compact_memory
echo 0 > /proc/sys/kernel/numa_balancing
echo‘a(chǎn)lways‘> /sys/kernel/mm/transparent_hugepage/enabled
echo‘a(chǎn)lways‘> /sys/kernel/mm/transparent_hugepage/defrag
sudocpupower frequency-set-g performance

最終測(cè)試浮點(diǎn)計(jì)算速度為2.69 TFLOPS,根據(jù)當(dāng)前AMD平臺(tái)理論浮點(diǎn)計(jì)算速度,計(jì)算效率達(dá)到93.74%。

1657592575570061.jpg

處理器浮點(diǎn)計(jì)算測(cè)試結(jié)果

2.2內(nèi)存帶寬測(cè)試

我們用業(yè)界主流的測(cè)試軟件STREAM對(duì)NF5468A5的內(nèi)存帶寬進(jìn)行了測(cè)試,測(cè)試參數(shù)如下:

# Thread Binding Options for AMD EPYC 7742/7763 Processor
$exportGOMP_CPU_AFFINITY=0-64:8
$exportOMP_NUM_THREADS=8

在運(yùn)行前,清除系統(tǒng)緩存并且開啟透明大頁內(nèi)存設(shè)置等,設(shè)置參數(shù)如下:

$echomadvise |tee/sys/kernel/mm/transparent_hugepage/enabled
$echomadvise |tee/sys/kernel/mm/transparent_hugepage/defrag
$ echo 3 > /proc/sys/vm/drop_caches
$ echo 1 > /proc/sys/kernel/numa_balancing

通過以上編譯和運(yùn)行過程中優(yōu)化,STREAM測(cè)試結(jié)果為373 GB/s,根據(jù)當(dāng)前平臺(tái)理論內(nèi)存帶寬409.6 GB/s,實(shí)測(cè)內(nèi)存帶寬效率達(dá)到91.1%。應(yīng)該說,這個(gè)效率非常高了。

1657592568796610.jpg

內(nèi)存帶寬測(cè)試結(jié)果

2.3訓(xùn)練性能測(cè)試

下面我們來測(cè)試NF5468A5的AI訓(xùn)練性能。樣機(jī)配置8張NVIDIA A100 PCIE 40GB GPU,這款GPU采用Ampere架構(gòu),基于7nm制造工藝,包含了超過540億個(gè)晶體管,擁有6912個(gè)CUDA核心,搭載了40GB HBM2內(nèi)存,具備1.6TB/s的內(nèi)存帶寬,F(xiàn)P64性能9.7 TFLOPS,F(xiàn)P32性能19.5 TFLOPS,F(xiàn)P16性能312 TFLOPS。

筆者從github網(wǎng)站上的公共倉庫https://github.com/mlcommons/training_results_v1.0中下載了MLPerf Training V1.0代碼,并使用這套代碼按照以下測(cè)試步驟在NF5468A5上訓(xùn)練ResNet50模型。MLPerf是一套衡量機(jī)器學(xué)習(xí)系統(tǒng)性能的權(quán)威標(biāo)準(zhǔn),將在標(biāo)準(zhǔn)目標(biāo)下訓(xùn)練或推理機(jī)器學(xué)習(xí)模型的時(shí)間,作為一套系統(tǒng)性能的測(cè)量標(biāo)準(zhǔn)。MLPerf由圖靈獎(jiǎng)得主大衛(wèi)·帕特森(David?Patterson)聯(lián)合谷歌、斯坦福、哈佛大學(xué)等單位共同成立,是國際上最有影響力的人工智能基準(zhǔn)測(cè)試之一。ResNet50是計(jì)算機(jī)視覺領(lǐng)域中最經(jīng)典的圖像分類模型,廣泛應(yīng)用于圖像識(shí)別、自動(dòng)駕駛等場(chǎng)景。

MLPerf代碼提供了容器配置文件,我們可以很方便的通過配置文件在自己的服務(wù)器設(shè)備上創(chuàng)建鏡像環(huán)境,鏡像中包含cuda、cudnn、nccl、mxnet等上層組件。但是在運(yùn)行容器之前,還需要在Host OS中安裝NVIDIA GPU Driver、docker、nvidia-docker這些基礎(chǔ)軟件。

首先,筆者參考https://docs.nvidia.com/datacenter/tesla/tesla-installation-notes/index.html#runfile教程在Ubuntu20.04操作系統(tǒng)中下載并安裝了R470.82.01版本的驅(qū)動(dòng);然后按照https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/install-guide.html#docker教程安裝docker和nvidia-docker。

通過以下命令構(gòu)建容器鏡像:

$ cd ~/training_results_v1.0/NVIDIA/benchmarks/resnet/implementations /mxnet
$ docker build -t mlperf1.0-nvidia:image_classification .

在測(cè)試之前,通過在nf5468a5_cxx.sh文中添加以下內(nèi)容綁定核心與進(jìn)程,最大化的利用系統(tǒng)中的計(jì)算資源,達(dá)到良好的負(fù)載均衡,保證獲得最優(yōu)的性能結(jié)果。

bind_cpu_cores=([0]="48-63,176-191" [1]="32-47,160-175" [2]="16-31,144-159" [3]="0-15,128-143"
[4]="112-127,240-254" [5]="96-111,224-239" [6]="80-95,208-223" [7]="64-79,192-207")
bind_mem=([0]="3" [1]="2" [2]="1" [3]="0"
[4]="7" [5]="6" [6]="5" [7]="4")

測(cè)試環(huán)境準(zhǔn)備完成,執(zhí)行以下指令開始測(cè)試:

激活環(huán)境變量:
$ source config_NF5468A5.sh
$ export CONT=mlperf1.0-nvidia:image_classification
$ export DATADIR=/home/data/mxnet_imagenet/
$ export LOGDIR=/home/resnet50/
執(zhí)行測(cè)試腳本:
$ ./run_with_docker.sh

1657592559231339.jpg

測(cè)試結(jié)果為21486 images/sec,也就是35分鐘即可完成ResNet50模型的訓(xùn)練。參考最近幾期MLPerf訓(xùn)練榜單,搭載8張NVIDIA A100 40G GPU卡的服務(wù)器的最好成績(jī)是36.2分鐘。可以說,在同等GPU配置的服務(wù)器中,浪潮NF5468A5的ResNet50訓(xùn)練性能是最好的。

2.4推理性能測(cè)試

筆者也測(cè)試在目前推理場(chǎng)景中熱度最高的NVIDIA Tesla T4,這款精致的GPU卡只有75W,采用Turing架構(gòu), 在半高卡的尺寸內(nèi)集成320個(gè)Turing Tensor Core和2560個(gè)Turing CUDA Core,配備16GB GDDR6,支持FP32/FP16/INT8/INT4等多種精度的運(yùn)算,F(xiàn)P16的峰值性能為65T,INT8為130T,INT4為260T。

1657592553472598.jpg

NVIDIA Tesla T4 GPU

推理性能測(cè)試同樣使用了MLPerf測(cè)試工具,本次測(cè)試是基于MLPerf Inference V1.0.復(fù)用了訓(xùn)練測(cè)試時(shí)使用的OS、docker、nvidia-docker等基礎(chǔ)軟件環(huán)境。

我們?cè)贜F5468A5搭載1張NVIDIA T4 GPU,使用github網(wǎng)站上的公開代碼https://github.com/mlcommons/inference_results_v1.0,按照如下步驟測(cè)試了ResNet50模型的推理性能:

同訓(xùn)練時(shí)一樣,首先要構(gòu)建容器鏡像:

# unzip mlperf-inference-release.zip
# cd /mlperf-inference-release/closed/Inspur
# export MLPERF_SCRATCH_PATH=/home/inspur/data/data_mlperf/
# make prebuild
(備注:prebuild后會(huì)自動(dòng)進(jìn)入容器實(shí)例)

然后執(zhí)行以下指令開始測(cè)試:

sudo CUDA_VISIBLE_DEVICES=0 make run RUN_ARGS="--benchmark=resnet50 --scenarios=Offline --config_ver=default --test_mode=PerformanceOnly --fast"

在圖像分類應(yīng)用場(chǎng)景中,使用ImageNet數(shù)據(jù)集,ResNet50測(cè)試結(jié)果是每秒處理5671.9張圖片。我們了解到NVIDIA T4的ResNet50推理性能為每秒5000張圖片左右。應(yīng)該說,在NF5468A5上測(cè)得的T4推理性能非常好了。

1657592539531419.jpg

ResNet50推理測(cè)試結(jié)果

筆者也拿到了寒武紀(jì)MLU270-S4推理加速卡。MLU270-S4采用TSMC 16nm工藝制造,集成16GB DDR4內(nèi)存,支持ECC,同時(shí)兼容INT4和INT16運(yùn)算,理論峰值分別達(dá)到256TOPS和64TOPS。

我們發(fā)現(xiàn)NF5468A5對(duì)寒武紀(jì)的板卡也做了很好的兼容性適配,BMC可以顯示MLU270-S4的資產(chǎn)信息,風(fēng)扇轉(zhuǎn)速也根據(jù)MLU270-S4的功耗進(jìn)行了調(diào)整,相比A100,能夠明顯感覺到風(fēng)扇轉(zhuǎn)速主動(dòng)降低了。不得不說,浪潮服務(wù)器的散熱控制做得很精細(xì)。

1657592531480757.jpg

寒武紀(jì)MLU270-S4加速卡

我們?cè)贜F5468A5上插了1張MLU270-S4,測(cè)試了Caffe框架下的ResNet18、PyTorch框架下的GoogleNet以及TensorFlow下的ResNet101v1.5、VGG16和InceptionV3這幾個(gè)模型的推理性能,在使用int8精度時(shí),計(jì)算性能分別為每秒7440、5800、2400、1400和1000張。

筆者分析,浪潮NF5468A5在訓(xùn)練和推理測(cè)試中能取得這么好的成績(jī)主要有三個(gè)原因:第一,ResNet50模型從算法上還是需要CPU進(jìn)行一定的圖像預(yù)取和處理操作,本次送測(cè)的AMD 7543具備32核心2.8GHz主頻,有助于圖像在CPU端的預(yù)處理工作;第二,NF5468A5采用CPU和GPU直連設(shè)計(jì),有效降低數(shù)據(jù)的處理延遲,同時(shí)單個(gè)CPU與GPU通信帶寬高達(dá)128GB/s;第三,NF5468A5可以支持NVME SSD作為數(shù)據(jù)盤,通過將多顆NVME SDD數(shù)據(jù)盤組建RAID,可以極大的提升磁盤IO能力,在AI這種需要頻繁讀取數(shù)據(jù)的場(chǎng)景中,能夠非常有效的避免因?yàn)镮O短板帶來的性能瓶頸。

2.5視頻編解碼性能測(cè)試

筆者在NF5468A5服務(wù)器上也評(píng)測(cè)了浪潮自研的M10A加速卡。

據(jù)浪潮官網(wǎng)介紹,M10A是一款面向AI場(chǎng)景優(yōu)化設(shè)計(jì)的VPU(Video Processing Unit), VPU是一種全新的視頻處理核心引擎,將視頻處理功能做成ASIC芯片,具有硬件編碼、硬件解碼、硬件轉(zhuǎn)碼等視頻加速功能,可以減少服務(wù)器在視頻處理業(yè)務(wù)上的計(jì)算性能消耗和降低視頻傳輸對(duì)網(wǎng)絡(luò)帶寬的需求。

M10A在8W功耗下可以提供16路1080P30視頻的加速能力,相當(dāng)于每路1080P視頻加速僅需0.5W。M10A針對(duì)H.265視頻格式壓縮算法進(jìn)行了特殊優(yōu)化,實(shí)測(cè)數(shù)據(jù)表明M10A的H.265編碼效果可以使得網(wǎng)絡(luò)帶寬利用率翻倍,同時(shí)計(jì)算CPU負(fù)荷最低可降至2%,適用于直播、短視頻、云游戲、視頻會(huì)議等場(chǎng)景。

1657592525599350.jpg

浪潮M10加速卡

在FFMPEG視頻框架下,我們直接用軟件SDK中的demo腳本,測(cè)試了M10A在不同視頻分辨率下的性能數(shù)據(jù),如下是16路1080P全高清視頻實(shí)時(shí)轉(zhuǎn)碼的性能測(cè)試情況:

1657592516368637.jpg

在測(cè)試的過程中,我們發(fā)現(xiàn)M10A VPU芯片內(nèi)部是"多核"結(jié)構(gòu),這將進(jìn)一步降低視頻處理延遲,提高多路視頻轉(zhuǎn)碼時(shí)的性能穩(wěn)定性。

從測(cè)試結(jié)果看到,M10A進(jìn)行16路1080P全高清視頻轉(zhuǎn)碼時(shí),每路視頻轉(zhuǎn)碼性能都能達(dá)到33fps,達(dá)到了浪潮官方宣傳的性能。

1657592508276273.jpg

M10A視頻轉(zhuǎn)碼性能測(cè)試結(jié)果

另外,我們還測(cè)試了4K超高清和720P高清分辨率下的M10A的性能數(shù)據(jù),分別可以達(dá)到4K 120fps和720P 960fps,解碼、編碼和轉(zhuǎn)碼的性能都是一致的。

在我們跟視頻行業(yè)技術(shù)大咖的交流中了解到,一張M10A的視頻處理能力相當(dāng)于一臺(tái)雙路服務(wù)器的性能,M10A具有高性能、低功耗的優(yōu)點(diǎn),這對(duì)視頻行業(yè)來說是一個(gè)非常高性價(jià)比的解決方案。

2.6 HASH性能測(cè)試

除了前面講到的幾張加速卡,筆者也嘗試了其他板卡,比如主流的消費(fèi)級(jí)顯卡RTX3090等,發(fā)現(xiàn)NF5468A5都做了很好的適配工作。

RTX3090采用第2代NVIDIA RTX架構(gòu)-NVIDIA Ampere架構(gòu),采用8納米工藝,擁有10496個(gè)CUDA核心,搭載了24 GB GDDR6X內(nèi)存,384bit位寬。

1657592501260401.jpg

RTX3090顯卡

下面,我們來看看浪潮5468A5搭載RTX3090顯卡在區(qū)塊鏈場(chǎng)景的性能?;赥-Rex這個(gè)知名的應(yīng)用軟件,筆者對(duì)業(yè)界主流的哈希算法進(jìn)行了性能測(cè)試。T-Rex不僅支持區(qū)塊鏈場(chǎng)景中最常用的ETHASH算法,也支持其他諸如BLAKE3、MTP等哈希算法。

1657592495703870.jpg

ETHASH算法性能測(cè)試過程

針對(duì)每種HASH算法,我們使用了t-rex軟件的benchmark模型,在單個(gè)3090顯卡上進(jìn)行測(cè)試,每次測(cè)試持續(xù)10分鐘時(shí)間,并記錄了最終的性能數(shù)據(jù),如下表所示。

浪潮NF5468A5+單卡RTX3090 HASH算法測(cè)試結(jié)果

1657592488177352.jpg

其中ETHASH算法的單卡性能達(dá)到了108MH/s。

這在很大程度上得益于NF5468A5優(yōu)秀的散熱設(shè)計(jì)。RTX3090的功耗高達(dá)350W,在區(qū)塊鏈場(chǎng)景,顯卡通常是7*24小時(shí)運(yùn)行,因此對(duì)散熱的要求非常高。筆者監(jiān)控了整個(gè)測(cè)試過程中的GPU功耗和溫度情況,發(fā)現(xiàn)在長(zhǎng)達(dá)半天的測(cè)試過程中,雖然GPU功耗長(zhǎng)期維持在330~340W之間,但是GPU的溫度一直維持在60℃左右,甚至在多卡同時(shí)運(yùn)行時(shí),GPU的溫度也能保持在60℃左右,可以看出NF5468A5的散熱設(shè)計(jì)做得相當(dāng)不錯(cuò)。

3. NF5468A5服務(wù)器測(cè)評(píng)總結(jié)

通過對(duì)產(chǎn)品外觀和內(nèi)部設(shè)計(jì)的評(píng)測(cè),我們看到,浪潮NF5468A5在產(chǎn)品設(shè)計(jì)上,存儲(chǔ)、計(jì)算、風(fēng)扇、GPU擴(kuò)展等各模塊簡(jiǎn)潔明朗,尤其是巧妙的分區(qū)散熱設(shè)計(jì)有效實(shí)現(xiàn)CPU與GPU模組的分流,豐富的存儲(chǔ)+IO擴(kuò)展性,同時(shí)人性化的設(shè)計(jì)以扎實(shí)的做工,也彰顯出浪潮對(duì)產(chǎn)品細(xì)節(jié)的嚴(yán)謹(jǐn)和大廠雄厚的設(shè)計(jì)實(shí)力。

在整體實(shí)際性能的綜合測(cè)試,得益于浪潮高效的產(chǎn)品架構(gòu),最大發(fā)揮CPU與GPU之間的通訊效能,處理器計(jì)算效率達(dá)到93.74%,實(shí)測(cè)內(nèi)存帶寬373 GB/s,搭配8張A100訓(xùn)練ResNet50模型得到每秒處理21486張圖片的驚人算力,在ImageNet數(shù)據(jù)集下進(jìn)行ResNet50推理測(cè)試展現(xiàn)超出T4標(biāo)稱13%的圖片處理能力,這臺(tái)算力猛獸全方位的表現(xiàn),相信給筆者和大家都留下了深刻的印象。

此外,ETHASH算法單卡性能突破100MH/s;很好地支持寒武紀(jì)國產(chǎn)推理卡,輕松實(shí)現(xiàn)每秒處理圖片超7000張;搭載視頻轉(zhuǎn)碼卡M10A展示了480fps 1080P視頻轉(zhuǎn)碼性能。浪潮NF5468A5還有很多意想不到的潛能,筆者期待進(jìn)一步的發(fā)掘,給大家?guī)砀实脑u(píng)測(cè)。

責(zé)任編輯:彭菁

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 浪潮
    +關(guān)注

    關(guān)注

    1

    文章

    465

    瀏覽量

    23903
  • 視頻編解碼
    +關(guān)注

    關(guān)注

    2

    文章

    54

    瀏覽量

    11774
  • gpu服務(wù)器
    +關(guān)注

    關(guān)注

    1

    文章

    19

    瀏覽量

    4398
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    雙料世界紀(jì)錄,被浪潮NF8380M5服務(wù)器“踩”在腳下

    日前,浪潮服務(wù)器NF8380M5在國際權(quán)威TPC-H測(cè)試中,以每小時(shí)完成1100113次查詢的性能成績(jī),刷新了3TB內(nèi)存配置10TB數(shù)據(jù)規(guī)模的TPC-H全球最高
    發(fā)表于 10-23 15:49 ?331次閱讀

    浪潮服務(wù)器支持賽靈思Alveo FPGA加速卡將全面上市

    浪潮宣布已在其NF5280M5、NF5468M5服務(wù)器上完成對(duì)賽靈思Alveo U200、Alveo U250 FPGA加速卡的全部認(rèn)證測(cè)試,搭載U200和U250的兩款
    發(fā)表于 06-12 17:48 ?1272次閱讀

    浪潮服務(wù)器將全面支持賽靈思FPGA加速卡

    浪潮宣布已在其NF5280M5、NF5468M5服務(wù)器上完成對(duì)賽靈思Alveo U200、Alveo U250 FPGA加速卡的全部認(rèn)證測(cè)試,搭載U200和U250的兩款
    發(fā)表于 08-05 17:51 ?1305次閱讀

    浪潮推出支持賽靈思 Alveo FPGA加速卡的服務(wù)器

    浪潮宣布已在其NF5280M5、NF5468M5服務(wù)器上完成對(duì)賽靈思Alveo U200、Alveo U250 FPGA加速卡的全部認(rèn)證測(cè)試,搭載U200和U250的兩款
    發(fā)表于 09-24 15:12 ?951次閱讀

    浪潮發(fā)布的最新AI服務(wù)器,將GPU資源利用率提升至前所未有的水平

    最新發(fā)布的浪潮AI服務(wù)器NF5468M6、NF5468A5實(shí)現(xiàn)了諸多創(chuàng)新設(shè)計(jì),兼顧了超強(qiáng)性能與靈活性,可以滿足日趨復(fù)雜且多元的AI計(jì)算需求,
    的頭像 發(fā)表于 06-23 10:56 ?1785次閱讀

    浪潮推出AI服務(wù)器新產(chǎn)品,可滿足日趨復(fù)雜且多元的AI計(jì)算需求

    6月22日,浪潮在ISC20大會(huì)期間發(fā)布支持最新NVIDIA® Ampere架構(gòu)A100 PCIe Gen4的AI服務(wù)器NF5468M6和N
    的頭像 發(fā)表于 06-24 11:34 ?2434次閱讀

    浪潮發(fā)布AI服務(wù)器NF5488A5,計(jì)算性能提升234%

    8月15日,在蘇州舉行的2020全球人工智能產(chǎn)品應(yīng)用博覽會(huì)(AIExpo2020)上,浪潮重磅發(fā)布人工智能服務(wù)器NF5488A5。在前不久公布的全球權(quán)威AI測(cè)試榜單MLPerf中,浪潮
    的頭像 發(fā)表于 08-19 17:06 ?2418次閱讀

    浪潮宣布支持NVIDIA的AI服務(wù)器NF5488M5-D和NF5488A5全球量產(chǎn)供貨

    北京2020年11月17日 /美通社/ -- 美國當(dāng)?shù)貢r(shí)間11月16日,SC20大會(huì)期間,浪潮宣布支持NVIDIA最新的A100 80G GPU的AI服務(wù)器
    的頭像 發(fā)表于 11-18 15:27 ?3183次閱讀

    浪潮宣布支持NVIDIA最新GPU的AI服務(wù)器全球量產(chǎn)供貨

    美國當(dāng)?shù)貢r(shí)間11月16日,SC20大會(huì)期間,浪潮宣布支持NVIDIA最新的A100 80G GPU的AI服務(wù)器NF5488M5-D和
    的頭像 發(fā)表于 11-18 17:50 ?2553次閱讀

    浪潮AI服務(wù)器NF5488A5的實(shí)測(cè)數(shù)據(jù)分享,單機(jī)最大推理路數(shù)提升88%

    近日,在GTC China元腦生態(tài)技術(shù)論壇上,中科極限元、趨動(dòng)科技、睿沿科技等元腦生態(tài)伙伴分享了多個(gè)場(chǎng)景下浪潮AI服務(wù)器NF5488A5的實(shí)測(cè)數(shù)據(jù),結(jié)果表明浪潮
    的頭像 發(fā)表于 12-24 15:25 ?2517次閱讀
    <b class='flag-5'>浪潮</b>AI<b class='flag-5'>服務(wù)器</b><b class='flag-5'>NF5488A5</b>的實(shí)測(cè)數(shù)據(jù)分享,單機(jī)最大推理路數(shù)提升88%

    浪潮服務(wù)器NF5488A5展現(xiàn)“AI機(jī)王”風(fēng)采,獲權(quán)威媒體STH 高度贊譽(yù)

    隨著智慧時(shí)代的到來,各行各業(yè)紛紛開始數(shù)字化轉(zhuǎn)型,算力需求呈指數(shù)級(jí)增長(zhǎng),市場(chǎng)對(duì)于服務(wù)器的要求也不斷提高。不久前,海外權(quán)威媒體 STH 對(duì)浪潮 AI 旗艦服務(wù)器 NF5488A5進(jìn)行了從內(nèi)
    的頭像 發(fā)表于 08-25 11:44 ?2573次閱讀
    <b class='flag-5'>浪潮</b><b class='flag-5'>服務(wù)器</b><b class='flag-5'>NF5488A5</b>展現(xiàn)“AI機(jī)王”風(fēng)采,獲權(quán)威媒體STH 高度贊譽(yù)

    浪潮GPU服務(wù)器NF5468A5深度評(píng)測(cè)

    據(jù)近日業(yè)界發(fā)布的評(píng)測(cè)報(bào)告顯示,以浪潮GPU服務(wù)器NF5468A5為平臺(tái),搭載2顆AMD Milan-X 7773X運(yùn)行常見的氣象應(yīng)用WRF和計(jì)算流體力學(xué)應(yīng)用OpenFOAM作為
    的頭像 發(fā)表于 06-10 16:29 ?1912次閱讀
    <b class='flag-5'>浪潮</b><b class='flag-5'>GPU</b><b class='flag-5'>服務(wù)器</b><b class='flag-5'>NF5468A5</b>的<b class='flag-5'>深度</b>評(píng)測(cè)

    浪潮NF5468A5系統(tǒng)解析

    NF5468A5支持4個(gè)電源模組,可以提供1600W~3000W功率的80 PLUS鉑金電源模塊,效率高達(dá)94%,可選3+1冗余或者2+2冗余,多種組合的冗余電源設(shè)計(jì),充分考慮了不同配置AI服務(wù)器的負(fù)載情況,保障穩(wěn)定性。
    的頭像 發(fā)表于 07-05 11:06 ?2037次閱讀

    浪潮信息NF5468服務(wù)器LLaMA訓(xùn)練性能

    浪潮信息宣布旗下NF5468系列AI服務(wù)器率先支持英偉達(dá)最新推出的L40S GPU,可為人工智能大模型訓(xùn)練和推理、元宇宙及圖形視頻處理等應(yīng)用提供強(qiáng)大算力。實(shí)際測(cè)試表明,搭載8顆NVID
    的頭像 發(fā)表于 09-22 11:16 ?2406次閱讀

    浪潮信息NF5468系列AI服務(wù)器率先支持英偉達(dá)最新推出的L40S GPU

    浪潮信息宣布旗下NF5468系列AI服務(wù)器率先支持英偉達(dá)最新推出的L40S GPU,可為人工智能大模型訓(xùn)練和推理、元宇宙及圖形視頻處理等應(yīng)用提供強(qiáng)大算力。實(shí)際測(cè)試表明,搭載8顆NVID
    的頭像 發(fā)表于 09-22 11:20 ?2553次閱讀