曰批全过程免费视频观看软件 ,欧美日韩国产一区二区,天天躁日日躁狠狠躁欧美老妇AP

存儲(chǔ)與GPU性能皆已成倍增長(zhǎng)，IO表現(xiàn)為何遲遲不見(jiàn)好轉(zhuǎn)？

伴隨著HPC、自動(dòng)駕駛、深度學(xué)習(xí)和VR/AR需求的不斷增加，IO性能也在逐步凸顯瓶頸，尤其是GPU與存儲(chǔ)之間的讀寫。處理器速度已經(jīng)從KHz進(jìn)化至了GHz，VRAM從KB進(jìn)化至了GB，IO速度也從KB/s進(jìn)化至了GB/s，然而GB/s的大幅度改善從直觀角度來(lái)看依然像是MB/s。

比如在有線連接的VR應(yīng)用中，圖形需要經(jīng)過(guò)電腦進(jìn)行處理，再經(jīng)有線傳輸顯示在VR屏幕上，這就引發(fā)了高延遲和長(zhǎng)讀取時(shí)間等問(wèn)題。這不禁讓人開始遐想，在CPU、GPU和存儲(chǔ)都已經(jīng)革新?lián)Q代的情況下，我們是否真正有效地應(yīng)用了硬件性能？為此微軟和英偉達(dá)都提出了直接存儲(chǔ)的概念來(lái)改善IO的現(xiàn)狀。

微軟：Windows上的DirectStorage

微軟在不久前的Windows 11發(fā)布會(huì)上重點(diǎn)提到了DirectStorage技術(shù)，這是一個(gè)最初為主機(jī)設(shè)計(jì)的DirectX API，如今微軟也將把這一技術(shù)帶到PC上。

在當(dāng)前NVMe SSD和PCIe技術(shù)的演進(jìn)下，存儲(chǔ)帶寬遠(yuǎn)超舊式的硬盤存儲(chǔ)技術(shù)，過(guò)去10MB每秒的速度已經(jīng)達(dá)到數(shù)GB每秒。但PC上的圖形工作量也在逐步進(jìn)化，數(shù)據(jù)量的增加對(duì)于讀取提出了更高的要求。過(guò)去大量數(shù)據(jù)的讀取只需要少量的IO請(qǐng)求，但如今的圖形渲染會(huì)將材質(zhì)等資源分成小塊，只有在場(chǎng)景提出要求時(shí)載入所需的部分，如此一來(lái)雖然提高了效率，卻引入了更多IO請(qǐng)求。

當(dāng)前的GPU資源讀取流程 / 微軟

而目前的存儲(chǔ)API并沒(méi)有對(duì)大量IO請(qǐng)求作出優(yōu)化，因此拖累了NVMe，使得讀寫瓶頸愈發(fā)明顯。即便采用高端的PC硬件，也無(wú)法飽和利用存儲(chǔ)帶寬優(yōu)勢(shì)。除此之外，這些數(shù)據(jù)往往需要經(jīng)過(guò)壓縮傳輸下一個(gè)環(huán)節(jié)，傳入內(nèi)存后，還要CPU進(jìn)行一部分解壓工作，最后再傳入GPU顯存里，這樣一來(lái)每個(gè)節(jié)點(diǎn)都存在效率損失。

而DirectStorage采用了全新的路徑，從存儲(chǔ)讀取的數(shù)據(jù)傳給內(nèi)存后，直接傳給GPU顯存。而GPU對(duì)于這些數(shù)據(jù)的解壓速度遠(yuǎn)快于CPU，所以極大地優(yōu)化了IO性能。

英偉達(dá)：RTX IO和Magnum IO GPUDirect Storage

英偉達(dá)在RTX 30系列顯卡上引入了RTX IO，面向消費(fèi)市場(chǎng)，提升游戲場(chǎng)景下的讀取速度。英偉達(dá)稱RTX IO將與微軟的DirectStorage結(jié)合，與傳統(tǒng)硬盤下的存儲(chǔ)API相比，可將IO性能提高百倍。過(guò)去需要數(shù)十個(gè)CPU內(nèi)核的工作全部交由RTX GPU來(lái)處理。

值得一提的是，英偉達(dá)的RTX IO雖然也用到了微軟的DirectStorage，但該技術(shù)并沒(méi)有將數(shù)據(jù)傳輸?shù)絻?nèi)存，而是直接由SSD轉(zhuǎn)向GPU。微軟一名圖形開發(fā)者在GSL 2021大會(huì)上表示，未來(lái)DirectStorage的目標(biāo)也是繞過(guò)系統(tǒng)內(nèi)存。

GDS技術(shù) / 英偉達(dá)

除了消費(fèi)市場(chǎng)外，英偉達(dá)在HPC市場(chǎng)也推出了對(duì)應(yīng)的直接存儲(chǔ)技術(shù)，Magnum IO GPUDirect Storage（GDS）。GDS技術(shù)同樣是一個(gè)繞過(guò)CPU的技術(shù)，與消費(fèi)級(jí)GPU不同，HPC場(chǎng)景下往往要用到多塊GPU，如此一來(lái)受IO延遲和CPU的影響更大。GDS在本地存儲(chǔ)與GPU顯存之間建立直接的數(shù)據(jù)通道，消除了CPU引入的延遲和讀寫瓶頸。

GDS與CPU傳輸至GPU讀取性能對(duì)比 / 英偉達(dá)

在運(yùn)用GDS后，帶寬提升達(dá)到1.5倍，與傳統(tǒng)CPU回彈緩沖的數(shù)據(jù)路徑相比，CPU利用率也有2.8倍的提升。

目前英偉達(dá)已經(jīng)將這一技術(shù)加入到其HGX AI超算中，DDN、VAST和WEKA三家公司已經(jīng)開始了相關(guān)產(chǎn)品的量產(chǎn)，而IBM、美光等五家廠商也在積極引入這一技術(shù)。三星、鎧俠、西數(shù)和戴爾等廠商也開始了GDS的早期集成與認(rèn)證計(jì)劃。

小結(jié)

直接存儲(chǔ)技術(shù)進(jìn)一步放大了GPU廠商與存儲(chǔ)廠商的優(yōu)勢(shì)，目前HPC市場(chǎng)前景巨大，英偉達(dá)在相關(guān)業(yè)務(wù)上的盈利已經(jīng)讓其看到了商機(jī)。不僅是GPU，英偉達(dá)采用Arm架構(gòu)的Grace CPU同樣引入了NVLink這樣的數(shù)據(jù)傳輸改善方案。在這樣的性能改善下，即便存儲(chǔ)方案不同，英偉達(dá)的GPU也很可能成為HPC應(yīng)用的首選。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴