存儲(chǔ)與GPU性能皆已成倍增長(zhǎng),IO表現(xiàn)為何遲遲不見(jiàn)好轉(zhuǎn)?
伴隨著HPC、自動(dòng)駕駛、深度學(xué)習(xí)和VR/AR需求的不斷增加,IO性能也在逐步凸顯瓶頸,尤其是GPU與存儲(chǔ)之間的讀寫。處理器速度已經(jīng)從KHz進(jìn)化至了GHz,VRAM從KB進(jìn)化至了GB,IO速度也從KB/s進(jìn)化至了GB/s,然而GB/s的大幅度改善從直觀角度來(lái)看依然像是MB/s。
比如在有線連接的VR應(yīng)用中,圖形需要經(jīng)過(guò)電腦進(jìn)行處理,再經(jīng)有線傳輸顯示在VR屏幕上,這就引發(fā)了高延遲和長(zhǎng)讀取時(shí)間等問(wèn)題。這不禁讓人開始遐想,在CPU、GPU和存儲(chǔ)都已經(jīng)革新?lián)Q代的情況下,我們是否真正有效地應(yīng)用了硬件性能?為此微軟和英偉達(dá)都提出了直接存儲(chǔ)的概念來(lái)改善IO的現(xiàn)狀。
微軟:Windows上的DirectStorage
微軟在不久前的Windows 11發(fā)布會(huì)上重點(diǎn)提到了DirectStorage技術(shù),這是一個(gè)最初為主機(jī)設(shè)計(jì)的DirectX API,如今微軟也將把這一技術(shù)帶到PC上。
在當(dāng)前NVMe SSD和PCIe技術(shù)的演進(jìn)下,存儲(chǔ)帶寬遠(yuǎn)超舊式的硬盤存儲(chǔ)技術(shù),過(guò)去10MB每秒的速度已經(jīng)達(dá)到數(shù)GB每秒。但PC上的圖形工作量也在逐步進(jìn)化,數(shù)據(jù)量的增加對(duì)于讀取提出了更高的要求。過(guò)去大量數(shù)據(jù)的讀取只需要少量的IO請(qǐng)求,但如今的圖形渲染會(huì)將材質(zhì)等資源分成小塊,只有在場(chǎng)景提出要求時(shí)載入所需的部分,如此一來(lái)雖然提高了效率,卻引入了更多IO請(qǐng)求。
當(dāng)前的GPU資源讀取流程 / 微軟
而目前的存儲(chǔ)API并沒(méi)有對(duì)大量IO請(qǐng)求作出優(yōu)化,因此拖累了NVMe,使得讀寫瓶頸愈發(fā)明顯。即便采用高端的PC硬件,也無(wú)法飽和利用存儲(chǔ)帶寬優(yōu)勢(shì)。除此之外,這些數(shù)據(jù)往往需要經(jīng)過(guò)壓縮傳輸下一個(gè)環(huán)節(jié),傳入內(nèi)存后,還要CPU進(jìn)行一部分解壓工作,最后再傳入GPU顯存里,這樣一來(lái)每個(gè)節(jié)點(diǎn)都存在效率損失。
而DirectStorage采用了全新的路徑,從存儲(chǔ)讀取的數(shù)據(jù)傳給內(nèi)存后,直接傳給GPU顯存。而GPU對(duì)于這些數(shù)據(jù)的解壓速度遠(yuǎn)快于CPU,所以極大地優(yōu)化了IO性能。
英偉達(dá):RTX IO和Magnum IO GPUDirect Storage
英偉達(dá)在RTX 30系列顯卡上引入了RTX IO,面向消費(fèi)市場(chǎng),提升游戲場(chǎng)景下的讀取速度。英偉達(dá)稱RTX IO將與微軟的DirectStorage結(jié)合,與傳統(tǒng)硬盤下的存儲(chǔ)API相比,可將IO性能提高百倍。過(guò)去需要數(shù)十個(gè)CPU內(nèi)核的工作全部交由RTX GPU來(lái)處理。
值得一提的是,英偉達(dá)的RTX IO雖然也用到了微軟的DirectStorage,但該技術(shù)并沒(méi)有將數(shù)據(jù)傳輸?shù)絻?nèi)存,而是直接由SSD轉(zhuǎn)向GPU。微軟一名圖形開發(fā)者在GSL 2021大會(huì)上表示,未來(lái)DirectStorage的目標(biāo)也是繞過(guò)系統(tǒng)內(nèi)存。
GDS技術(shù) / 英偉達(dá)
除了消費(fèi)市場(chǎng)外,英偉達(dá)在HPC市場(chǎng)也推出了對(duì)應(yīng)的直接存儲(chǔ)技術(shù),Magnum IO GPUDirect Storage(GDS)。GDS技術(shù)同樣是一個(gè)繞過(guò)CPU的技術(shù),與消費(fèi)級(jí)GPU不同,HPC場(chǎng)景下往往要用到多塊GPU,如此一來(lái)受IO延遲和CPU的影響更大。GDS在本地存儲(chǔ)與GPU顯存之間建立直接的數(shù)據(jù)通道,消除了CPU引入的延遲和讀寫瓶頸。
GDS與CPU傳輸至GPU讀取性能對(duì)比 / 英偉達(dá)
在運(yùn)用GDS后,帶寬提升達(dá)到1.5倍,與傳統(tǒng)CPU回彈緩沖的數(shù)據(jù)路徑相比,CPU利用率也有2.8倍的提升。
目前英偉達(dá)已經(jīng)將這一技術(shù)加入到其HGX AI超算中,DDN、VAST和WEKA三家公司已經(jīng)開始了相關(guān)產(chǎn)品的量產(chǎn),而IBM、美光等五家廠商也在積極引入這一技術(shù)。三星、鎧俠、西數(shù)和戴爾等廠商也開始了GDS的早期集成與認(rèn)證計(jì)劃。
小結(jié)
直接存儲(chǔ)技術(shù)進(jìn)一步放大了GPU廠商與存儲(chǔ)廠商的優(yōu)勢(shì),目前HPC市場(chǎng)前景巨大,英偉達(dá)在相關(guān)業(yè)務(wù)上的盈利已經(jīng)讓其看到了商機(jī)。不僅是GPU,英偉達(dá)采用Arm架構(gòu)的Grace CPU同樣引入了NVLink這樣的數(shù)據(jù)傳輸改善方案。在這樣的性能改善下,即便存儲(chǔ)方案不同,英偉達(dá)的GPU也很可能成為HPC應(yīng)用的首選。
伴隨著HPC、自動(dòng)駕駛、深度學(xué)習(xí)和VR/AR需求的不斷增加,IO性能也在逐步凸顯瓶頸,尤其是GPU與存儲(chǔ)之間的讀寫。處理器速度已經(jīng)從KHz進(jìn)化至了GHz,VRAM從KB進(jìn)化至了GB,IO速度也從KB/s進(jìn)化至了GB/s,然而GB/s的大幅度改善從直觀角度來(lái)看依然像是MB/s。
比如在有線連接的VR應(yīng)用中,圖形需要經(jīng)過(guò)電腦進(jìn)行處理,再經(jīng)有線傳輸顯示在VR屏幕上,這就引發(fā)了高延遲和長(zhǎng)讀取時(shí)間等問(wèn)題。這不禁讓人開始遐想,在CPU、GPU和存儲(chǔ)都已經(jīng)革新?lián)Q代的情況下,我們是否真正有效地應(yīng)用了硬件性能?為此微軟和英偉達(dá)都提出了直接存儲(chǔ)的概念來(lái)改善IO的現(xiàn)狀。
微軟:Windows上的DirectStorage
微軟在不久前的Windows 11發(fā)布會(huì)上重點(diǎn)提到了DirectStorage技術(shù),這是一個(gè)最初為主機(jī)設(shè)計(jì)的DirectX API,如今微軟也將把這一技術(shù)帶到PC上。
在當(dāng)前NVMe SSD和PCIe技術(shù)的演進(jìn)下,存儲(chǔ)帶寬遠(yuǎn)超舊式的硬盤存儲(chǔ)技術(shù),過(guò)去10MB每秒的速度已經(jīng)達(dá)到數(shù)GB每秒。但PC上的圖形工作量也在逐步進(jìn)化,數(shù)據(jù)量的增加對(duì)于讀取提出了更高的要求。過(guò)去大量數(shù)據(jù)的讀取只需要少量的IO請(qǐng)求,但如今的圖形渲染會(huì)將材質(zhì)等資源分成小塊,只有在場(chǎng)景提出要求時(shí)載入所需的部分,如此一來(lái)雖然提高了效率,卻引入了更多IO請(qǐng)求。
當(dāng)前的GPU資源讀取流程 / 微軟
而目前的存儲(chǔ)API并沒(méi)有對(duì)大量IO請(qǐng)求作出優(yōu)化,因此拖累了NVMe,使得讀寫瓶頸愈發(fā)明顯。即便采用高端的PC硬件,也無(wú)法飽和利用存儲(chǔ)帶寬優(yōu)勢(shì)。除此之外,這些數(shù)據(jù)往往需要經(jīng)過(guò)壓縮傳輸下一個(gè)環(huán)節(jié),傳入內(nèi)存后,還要CPU進(jìn)行一部分解壓工作,最后再傳入GPU顯存里,這樣一來(lái)每個(gè)節(jié)點(diǎn)都存在效率損失。
而DirectStorage采用了全新的路徑,從存儲(chǔ)讀取的數(shù)據(jù)傳給內(nèi)存后,直接傳給GPU顯存。而GPU對(duì)于這些數(shù)據(jù)的解壓速度遠(yuǎn)快于CPU,所以極大地優(yōu)化了IO性能。
英偉達(dá):RTX IO和Magnum IO GPUDirect Storage
英偉達(dá)在RTX 30系列顯卡上引入了RTX IO,面向消費(fèi)市場(chǎng),提升游戲場(chǎng)景下的讀取速度。英偉達(dá)稱RTX IO將與微軟的DirectStorage結(jié)合,與傳統(tǒng)硬盤下的存儲(chǔ)API相比,可將IO性能提高百倍。過(guò)去需要數(shù)十個(gè)CPU內(nèi)核的工作全部交由RTX GPU來(lái)處理。
值得一提的是,英偉達(dá)的RTX IO雖然也用到了微軟的DirectStorage,但該技術(shù)并沒(méi)有將數(shù)據(jù)傳輸?shù)絻?nèi)存,而是直接由SSD轉(zhuǎn)向GPU。微軟一名圖形開發(fā)者在GSL 2021大會(huì)上表示,未來(lái)DirectStorage的目標(biāo)也是繞過(guò)系統(tǒng)內(nèi)存。
GDS技術(shù) / 英偉達(dá)
除了消費(fèi)市場(chǎng)外,英偉達(dá)在HPC市場(chǎng)也推出了對(duì)應(yīng)的直接存儲(chǔ)技術(shù),Magnum IO GPUDirect Storage(GDS)。GDS技術(shù)同樣是一個(gè)繞過(guò)CPU的技術(shù),與消費(fèi)級(jí)GPU不同,HPC場(chǎng)景下往往要用到多塊GPU,如此一來(lái)受IO延遲和CPU的影響更大。GDS在本地存儲(chǔ)與GPU顯存之間建立直接的數(shù)據(jù)通道,消除了CPU引入的延遲和讀寫瓶頸。
GDS與CPU傳輸至GPU讀取性能對(duì)比 / 英偉達(dá)
在運(yùn)用GDS后,帶寬提升達(dá)到1.5倍,與傳統(tǒng)CPU回彈緩沖的數(shù)據(jù)路徑相比,CPU利用率也有2.8倍的提升。
目前英偉達(dá)已經(jīng)將這一技術(shù)加入到其HGX AI超算中,DDN、VAST和WEKA三家公司已經(jīng)開始了相關(guān)產(chǎn)品的量產(chǎn),而IBM、美光等五家廠商也在積極引入這一技術(shù)。三星、鎧俠、西數(shù)和戴爾等廠商也開始了GDS的早期集成與認(rèn)證計(jì)劃。
小結(jié)
直接存儲(chǔ)技術(shù)進(jìn)一步放大了GPU廠商與存儲(chǔ)廠商的優(yōu)勢(shì),目前HPC市場(chǎng)前景巨大,英偉達(dá)在相關(guān)業(yè)務(wù)上的盈利已經(jīng)讓其看到了商機(jī)。不僅是GPU,英偉達(dá)采用Arm架構(gòu)的Grace CPU同樣引入了NVLink這樣的數(shù)據(jù)傳輸改善方案。在這樣的性能改善下,即便存儲(chǔ)方案不同,英偉達(dá)的GPU也很可能成為HPC應(yīng)用的首選。
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。
舉報(bào)投訴
-
微軟
+關(guān)注
關(guān)注
4文章
6598瀏覽量
104066 -
gpu
+關(guān)注
關(guān)注
28文章
4740瀏覽量
128951 -
HPC
+關(guān)注
關(guān)注
0文章
316瀏覽量
23773 -
英偉達(dá)
+關(guān)注
關(guān)注
22文章
3776瀏覽量
91110
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
λ-IO:存儲(chǔ)計(jì)算下的IO棧設(shè)計(jì)
動(dòng)機(jī)和背景? ? 存儲(chǔ)計(jì)算存儲(chǔ)資源的充分利用。IO棧是管理存儲(chǔ)器的的基本組件,包括設(shè)備驅(qū)動(dòng)、塊接口層、文件系統(tǒng),目前一些用戶空間IO庫(kù)(如S
GPU在虛擬現(xiàn)實(shí)中的表現(xiàn) 低功耗GPU的優(yōu)缺點(diǎn)
GPU在虛擬現(xiàn)實(shí)中的表現(xiàn) 虛擬現(xiàn)實(shí)(VR)技術(shù)的發(fā)展離不開高性能的圖形處理單元(GPU)。GPU在VR中扮演著至關(guān)重要的角色,它負(fù)責(zé)渲染復(fù)雜
NPU與GPU的性能對(duì)比
NPU(Neural Processing Unit,神經(jīng)網(wǎng)絡(luò)處理單元)與GPU(Graphics Processing Unit,圖形處理單元)在性能上各有千秋,它們各自的設(shè)計(jì)初衷和優(yōu)化方向決定了
DM6446+TLV320AIC33錄音功能不好,表現(xiàn)為能聽到錄制的聲音,但聲音小,是哪里出了問(wèn)題?
我現(xiàn)在平臺(tái)是DM6446+TLV320AIC33,用來(lái)實(shí)現(xiàn)錄音和播放功能,輸入為麥克風(fēng),輸出為耳機(jī)。現(xiàn)在播放功能是正常額,在耳機(jī)里能清楚地聽到播放的wav文件,問(wèn)題是錄音功能不好,表現(xiàn)為能聽到錄制的聲音,但聲音小。請(qǐng)教大家有可能是哪里出了問(wèn)題?
發(fā)表于 11-08 07:38
【「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗(yàn)】--了解算力芯片GPU
本篇閱讀學(xué)習(xí)第七、八章,了解GPU架構(gòu)演進(jìn)及CPGPU存儲(chǔ)體系與線程管理
█從圖形到計(jì)算的GPU架構(gòu)演進(jìn)
GPU圖像計(jì)算發(fā)展
●從三角形開始的幾何階段
在現(xiàn)代圖形渲染中,三角形是最常用
發(fā)表于 11-03 12:55
如何提高GPU性能
在當(dāng)今這個(gè)視覺(jué)至上的時(shí)代,GPU(圖形處理單元)的性能對(duì)于游戲玩家、圖形設(shè)計(jì)師、視頻編輯者以及任何需要進(jìn)行高強(qiáng)度圖形處理的用戶來(lái)說(shuō)至關(guān)重要。GPU不僅是游戲和多媒體應(yīng)用的心臟,它還在科學(xué)計(jì)算、深度
TLV320AIC3100IRHBR的MIC接口功能異常,主要表現(xiàn)為MIC管腳對(duì)GND的阻抗非常低,為什么?
TLV320AIC3100IRHBR的MIC接口功能異常,主要表現(xiàn)為MIC管腳對(duì)GND的阻抗非常低,一般這個(gè)是由什么原因造成的?
發(fā)表于 10-15 07:12
韓企存儲(chǔ)芯片在華熱銷,營(yíng)收翻倍增長(zhǎng)
2024年上半年,韓國(guó)存儲(chǔ)芯片巨頭三星電子與SK海力士在中國(guó)市場(chǎng)的表現(xiàn)極為亮眼,營(yíng)收均實(shí)現(xiàn)了超過(guò)100%的顯著增長(zhǎng)。這一驕人成績(jī)主要得益于全球存儲(chǔ)芯片市場(chǎng)需求的強(qiáng)勁復(fù)蘇以及產(chǎn)品價(jià)格的持
名單公布!【書籍評(píng)測(cè)活動(dòng)NO.43】 算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析
設(shè)計(jì)。在GPU和NPU等加速器部分,介紹了GPU為何能從單純的圖形任務(wù)處理器變成通用處理器。GPU在設(shè)計(jì)邏輯、存儲(chǔ)體系、線程管理,以及面向A
發(fā)表于 09-02 10:09
為什么倍壓整流電路輸出電流不隨倍壓倍數(shù)增加而成倍增加?
倍壓整流電路是一種特殊的電源電路,它能夠?qū)⑤斎氲牡碗妷航涣餍盘?hào)轉(zhuǎn)換為高電壓直流信號(hào),但其輸出電流并不隨倍壓倍數(shù)的增加而成倍增加。
光電倍增管的倍增方式有幾種
光電倍增管( PMT)的倍增方式主要依賴于二次電子發(fā)射效應(yīng),通過(guò)一系列的倍增極來(lái)放大初級(jí)光電子的數(shù)量。
全方位性能對(duì)比 | 遠(yuǎn)距離Wi-Fi VS 傳統(tǒng)Wi-Fi
應(yīng)用。然而在物聯(lián)網(wǎng)設(shè)備成倍增長(zhǎng)的今天,更多的應(yīng)用場(chǎng)景對(duì)通信的連接距離、功耗、穿透性、接入量方面有了更高的要求,需要一種更符合場(chǎng)景需要的可靠通信方式來(lái)保持聯(lián)通。自連遠(yuǎn)距
英飛凌推出高密度功率模塊,為AI數(shù)據(jù)中心提供基準(zhǔn)性能,降低總體擁有成本
? 【 2024 年 3 月 1 日, 德國(guó)慕尼黑和加利福尼亞州長(zhǎng)灘 訊】 人工智能(AI)正推動(dòng)全球數(shù)據(jù)生成量成倍增長(zhǎng),促使支持這一數(shù)據(jù)增長(zhǎng)的芯片對(duì)能源的需求日益增加。英飛凌科技股份公司近日推出
發(fā)表于 03-05 13:52
?916次閱讀
鴻蒙這么大聲勢(shì),為何遲遲看不見(jiàn)崗位?最新數(shù)據(jù)來(lái)了
對(duì)鴻蒙下一階段的發(fā)展更具信心。
鴻蒙人才供需
報(bào)告中的數(shù)據(jù)顯示,春節(jié)后第一周,鴻蒙相關(guān)職位數(shù)同比增長(zhǎng)163%,投遞人數(shù)同比增長(zhǎng)349%,即分別增至去年同期的2.6倍、4.5倍,漲勢(shì)突出。
這背后是自去年
發(fā)表于 02-29 20:53
華為P70系列廣角攝像頭升級(jí),出貨量預(yù)計(jì)增長(zhǎng)100%至120%
早前郭明錤預(yù)測(cè)過(guò),華為將于2024年上半年發(fā)布全新品牌P70系列,其中包含P70、P70 Pro與P70 Pro Art三款產(chǎn)品。同時(shí),負(fù)責(zé)供應(yīng)高品質(zhì)鏡頭的大立光與舜宇光學(xué)廠商(前者占比較大)將會(huì)在該系列手機(jī)銷售淡季間受益匪淺,因?yàn)槌鲐浟繉?b class='flag-5'>成倍增長(zhǎng)。
評(píng)論