0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何用GPUDirect存儲(chǔ)器如何緩解CPU I / O瓶頸

星星科技指導(dǎo)員 ? 來源:NVIDIA ? 作者:NVIDIA ? 2022-04-10 10:59 ? 次閱讀

保持 GPUs 忙碌

隨著 AI 和 HPC 數(shù)據(jù)集的大小不斷增加,加載給定應(yīng)用程序的數(shù)據(jù)所花費(fèi)的時(shí)間開始對整個(gè)應(yīng)用程序的性能造成壓力。在考慮端到端應(yīng)用程序性能時(shí),快速 GPUs 越來越缺乏慢 I / O 。

I / O ,將數(shù)據(jù)從存儲(chǔ)器加載到 GPUs 進(jìn)行處理的過程,歷史上一直由 CPU 控制。隨著計(jì)算速度從較慢的 CPU 轉(zhuǎn)移到更快的 GPUs , I / O 成為整個(gè)應(yīng)用程序性能的瓶頸。

正如 GPU 直接 RDMA (遠(yuǎn)程直接存儲(chǔ)器地址)在網(wǎng)絡(luò)接口卡( NIC )和 GPU 內(nèi)存之間直接移動(dòng)數(shù)據(jù)時(shí)提高了帶寬和延遲,一種稱為 GPU 直接存儲(chǔ)的新技術(shù)使本地或遠(yuǎn)程存儲(chǔ)(如 NVMe 或 NVMe over Fabric , NVMe oF )和 GPU 內(nèi)存之間實(shí)現(xiàn)了直接數(shù)據(jù)路徑。 GPU 直接 RDMA 和 GPU 直接存儲(chǔ)器都避免了通過 CPU 內(nèi)存中的反彈緩沖區(qū)的額外拷貝,并使 NIC 或存儲(chǔ)器附近的直接內(nèi)存訪問( DMA )引擎能夠在直接路徑上將數(shù)據(jù)移入或移出 GPU 內(nèi)存—所有這些都不會(huì)給 CPU 或 GPU 帶來負(fù)擔(dān)。如圖 1 所示。對于 GPU 直接存儲(chǔ),存儲(chǔ)位置無關(guān)緊要;它可以在機(jī)柜內(nèi)、機(jī)架內(nèi)或通過網(wǎng)絡(luò)連接。在 CPU DGX-2 中,從 NVIDIA 系統(tǒng)內(nèi)存( SysMem )到 GPUs 的帶寬被限制為 50gb / s ,而來自 SysMem 、許多本地驅(qū)動(dòng)器和許多 NICs 的帶寬可以組合起來,從而在 DGX-2 中達(dá)到近 200gb / s 的帶寬上限。

圖 1 : GPU 內(nèi)存和 NVMe 驅(qū)動(dòng)器之間的標(biāo)準(zhǔn)路徑使用系統(tǒng)內(nèi)存中掛起的反彈緩沖區(qū) CPU 。通過完全跳過 CPU ,來自存儲(chǔ)器的直接數(shù)據(jù)路徑獲得了更高的帶寬。

在本博客中,我們將擴(kuò)展到一個(gè) 上一篇文章 演示 GPU 直接存儲(chǔ):一個(gè)概念證明,可以通過 NVMe 從位于給定服務(wù)器的本地存儲(chǔ)或機(jī)柜外部的存儲(chǔ)器直接訪問內(nèi)存( DMA )。我們證明了從存儲(chǔ)器到 GPU 的直接內(nèi)存訪問緩解了 CPU I / O 瓶頸,并提高了 I / O 帶寬和容量。此外,我們根據(jù) RAPIDS 項(xiàng)目的 GPU – 加速 CSV 閱讀器 提供了在圣何塞 GTC19 上展示的初始性能指標(biāo)。最后,我們將提供一些關(guān)鍵應(yīng)用程序的建議,這些應(yīng)用程序可以利用更快和更高的帶寬、更低的延遲和更大的存儲(chǔ)與 GPUs 之間的容量。

在以后的文章中,當(dāng)這個(gè)特性接近產(chǎn)品化時(shí),我們將描述如何對它進(jìn)行編程。一組新的 cuFile API 將被添加到 CUDA 中,以支持這個(gè)特性,并將本機(jī)集成到 RAPIDS ‘ cuDF 庫中。

直接內(nèi)存訪問是如何工作的?

PCI Express ( PCIe )接口將高速外圍設(shè)備(如網(wǎng)卡、 RAID / NVMe 存儲(chǔ)設(shè)備和 GPUs 連接到 CPU s 。用于 Volta GPUs 的系統(tǒng)接口 PCIe Gen3 可提供 16 GB / s 的聚合最大帶寬。一旦將協(xié)議頭的低效率和其他開銷考慮在內(nèi),最大可達(dá)數(shù)據(jù)速率超過 14gb / s 。

直接內(nèi)存訪問( DMA )使用復(fù)制引擎在 PCIe 上異步移動(dòng)大數(shù)據(jù)塊,而不是加載和存儲(chǔ)。它卸載了計(jì)算元素,讓它們可以自由地進(jìn)行其他工作。在 GPUs 和存儲(chǔ)相關(guān)設(shè)備(如 NVMe 驅(qū)動(dòng)程序和存儲(chǔ)控制器)中有 DMA 引擎,但通常在 CPU 中沒有。在某些情況下, DMA 引擎無法針對給定的目標(biāo)進(jìn)行編程;例如, GPU DMA 引擎不能以存儲(chǔ)為目標(biāo)。沒有 GPU 直接存儲(chǔ),存儲(chǔ) DMA 引擎無法通過文件系統(tǒng)以 GPU 內(nèi)存為目標(biāo)。

然而, DMA 引擎需要由 CPU 上的驅(qū)動(dòng)程序編程。當(dāng) CPU 對 GPU 的 DMA 進(jìn)行編程時(shí),從 CPU 到 GPU 的命令可能會(huì)干擾到 GPU 的其他命令。如果可以使用 NVMe 驅(qū)動(dòng)器或存儲(chǔ)附近其他地方的 DMA 引擎來移動(dòng)數(shù)據(jù),而不是使用 GPU 的 DMA 引擎,那么 CPU 和 GPU 之間的路徑就沒有干擾。與 GPU 的 DMA 引擎相比,我們在本地 NVMe 驅(qū)動(dòng)器上使用 DMA 引擎將 I / O 帶寬提高到 13 。 3 GB / s ,相對于下表 1 所示的 12 。 0 GB / s 的 CPU 到 GPU 內(nèi)存?zhèn)鬏斔俾?,性能提高了大約 10% 。

緩解 I / O 瓶頸及相關(guān)應(yīng)用

隨著研究人員將數(shù)據(jù)分析、人工智能和其他 GPU 加速應(yīng)用程序應(yīng)用于越來越大的數(shù)據(jù)集,其中一些數(shù)據(jù)集將無法完全放入 CPU 內(nèi)存甚至本地存儲(chǔ),因此,緩解存儲(chǔ)和 GPU 內(nèi)存之間的數(shù)據(jù)路徑上的 I / O 瓶頸將變得越來越重要。數(shù)據(jù)分析應(yīng)用程序?qū)Υ罅繑?shù)據(jù)進(jìn)行操作,這些數(shù)據(jù)往往從存儲(chǔ)中流入。在許多情況下,計(jì)算與通信的比率(也許用每字節(jié)的 flops 表示)非常低,這使得它們受到 IO 限制。例如,為了使深度學(xué)習(xí)能夠成功地訓(xùn)練神經(jīng)網(wǎng)絡(luò),每天要訪問許多組文件,每個(gè)文件的大小為 10MB ,并多次讀取。在這種情況下,優(yōu)化數(shù)據(jù)傳輸?shù)?GPU 可能會(huì)對訓(xùn)練人工智能模型的總時(shí)間產(chǎn)生重大而有益的影響。除了數(shù)據(jù)攝取優(yōu)化之外,深度學(xué)習(xí)培訓(xùn)還經(jīng)常涉及檢查點(diǎn)的過程,即在模型訓(xùn)練過程的各個(gè)階段,將訓(xùn)練好的網(wǎng)絡(luò)權(quán)重保存到磁盤上。根據(jù)定義,檢查點(diǎn)位于關(guān)鍵 I / O 路徑上,減少相關(guān)開銷可以縮短檢查點(diǎn)周期和加快模型恢復(fù)。

除了數(shù)據(jù)分析和深度學(xué)習(xí)之外,研究網(wǎng)絡(luò)交互的圖形分析還有很高的 I / O 需求。當(dāng)遍歷一個(gè)圖來尋找有影響的節(jié)點(diǎn)或從這里到那里的最短路徑時(shí),計(jì)算只占總求解時(shí)間的一小部分。從當(dāng)前節(jié)點(diǎn)開始,確定下一步要去哪里,可能涉及來自一個(gè) PB 大小的數(shù)據(jù)湖的 1 到數(shù)百個(gè)文件的 I / O 查詢。雖然本地緩存有助于跟蹤可直接操作的數(shù)據(jù),但圖形遍歷對延遲和帶寬都很敏感。隨著 NVIDIA 通過 cuGraph 庫 RAPIDS 擴(kuò)展了 GPU 圖形分析加速功能,消除文件 I / O 開銷對于繼續(xù)提供光速解決方案至關(guān)重要。

將存儲(chǔ)和帶寬選項(xiàng)擴(kuò)展到 GPUs

數(shù)據(jù)分析和人工智能之間的一個(gè)共同主題是,用于獲取見解的數(shù)據(jù)集通常是海量的。 NVIDIA DGX-2 由 16 個(gè) Tesla V100 組成,包含 30TB NVMe SSD 內(nèi)存( 8x 3 。 84TB )和 1 。 5TB 系統(tǒng)內(nèi)存的庫存配置。啟用驅(qū)動(dòng)器的 DMA 操作允許快速訪問內(nèi)存,同時(shí)增加帶寬、降低延遲和潛在的無限存儲(chǔ)容量。

圖 2 :從存儲(chǔ)模塊外部獲得更多帶寬和更多存儲(chǔ)空間。遠(yuǎn)離 PCI 交換機(jī)的 NIC 支持 NVMe-oF 的遠(yuǎn)程存儲(chǔ)擴(kuò)展,而 RAID 卡支持附近的存儲(chǔ)。所示的 RAID 卡僅為原型,并不表示當(dāng)前或未來的 DGX-2 產(chǎn)品。

DGX-2 機(jī)柜包含兩個(gè) CPU ,每個(gè) CPU 都有兩個(gè) PCIe 子樹實(shí)例,如圖 2 所示。從存儲(chǔ)器或 SysMem 到 GPUs 的多條 PCIe 路徑由兩個(gè)級(jí)別的 PCIe 交換機(jī)支持,這使得 DGX-2 成為 GPU 直接存儲(chǔ)原型化的良好測試工具。表 1 的左列列出了向 GPU 傳輸數(shù)據(jù)的各種來源,第二列列出了從該源測得的帶寬,第三列標(biāo)識(shí)了此類路徑的數(shù)量,最后一列是中間兩列的乘積,顯示了該類源可用的總帶寬。對于 4 個(gè) PCIe 樹( 12-12 。 5 GB / s )中的每一個(gè),從 CPU 的系統(tǒng)內(nèi)存( SysMem )有一條路徑,另一條路徑來自每個(gè) PCIe 樹上掛起的?個(gè)驅(qū)動(dòng)器的另一條路徑,速度為 13 。 3 GB / s 。 DGX-2s 每對 GPUs 都有一個(gè) PCIe 插槽。該插槽可以由一個(gè) NIC 占用,該 NIC 的測量速度為 10 。 5 GB / s ,或者,在本博客中使用的原型中,可以使用 RAID 卡,其測量速度為 14 GB / s 。 NVMe of ( over fabric )是一種通用協(xié)議,它使用 NIC 訪問遠(yuǎn)程存儲(chǔ),例如通過 Infiniband 網(wǎng)絡(luò)。如果在 8 個(gè) PCIe 插槽中使用 RAID 卡(圖 2 中每個(gè) PCIe 子樹 2 個(gè)),則在所有源上添加的 PCIe 帶寬的右側(cè)列總和為 215 GB / s ;如果在這些插槽中使用 NIC ,則總和會(huì)更低。

表 1 : DGX-2 到 GPUs 的帶寬選項(xiàng)。機(jī)柜內(nèi)有 4 個(gè) PCIe 子樹和 8 個(gè) NIC 或 RAID 卡。

GPU 直接存儲(chǔ)的一個(gè)主要優(yōu)點(diǎn)是,無論是存儲(chǔ)在存儲(chǔ)模塊內(nèi)部還是外部、系統(tǒng)內(nèi)存或 NVMe 驅(qū)動(dòng)器上的快速數(shù)據(jù)訪問都是跨各種源的累加。使用內(nèi)部 NVMe 和系統(tǒng)內(nèi)存并不排除使用 NVMe 或 RAID 存儲(chǔ)。最后,這些帶寬是雙向的,支持復(fù)雜的編排,其中數(shù)據(jù)可以從分布式存儲(chǔ)中引入,緩存在本地磁盤中,并且可以通過在 CPU 系統(tǒng)內(nèi)存***享的數(shù)據(jù)結(jié)構(gòu)與 CPU 協(xié)作,總帶寬超過 GPU 峰值 IO 的 90% 。對這三個(gè)源中的每一個(gè)的讀寫操作可能同時(shí)發(fā)生。圖 3 對各種來源進(jìn)行顏色編碼,并將相加組合顯示為堆疊條形圖。在下面的列標(biāo)簽中,源實(shí)例的數(shù)量在括號(hào)中,例如 16 個(gè) NVMe 驅(qū)動(dòng)器或 8 個(gè)執(zhí)行 NVMe 操作的 NIC 。每個(gè)選項(xiàng)可用的粗略容量顯示在列標(biāo)簽的最后。

圖 3 :來自不同來源的帶寬限制是累加的

GPU CSV 閱讀器加速案例研究

NVIDIA 支持的 RAPIDS 開源軟件 專注于端到端 GPU ——加速數(shù)據(jù)科學(xué)。其中一個(gè)庫 cuDF 提供了類似 pandas 的體驗(yàn),允許用戶在 GPU 上加載、過濾、連接、排序和瀏覽數(shù)據(jù)集。 NVIDIA 工程師能夠利用 GPU 直接存儲(chǔ)到 GPU 上,使吞吐量比原始的 cuDF CSV 閱讀器提高了 8 。 8 倍,比 cuDF 庫更新后使用的當(dāng)前最大努力實(shí)現(xiàn)速度提高了 1 。 5 倍。這些改進(jìn)如圖 4 所示。

圖 4 :最初的( 0 。 7 ) cuDF csv 峎 u 讀卡器實(shí)現(xiàn),在底部以綠色顯示,它沒有按 GPU 并發(fā)進(jìn)行伸縮,因?yàn)樗鼘?dǎo)致從 SysMem 到 GPU 的錯(cuò)誤,從存儲(chǔ)到 SysMem 的錯(cuò)誤,以及通過 CPU 緩沖區(qū)取消固定的數(shù)據(jù)移動(dòng)?,F(xiàn)在隨 RAPIDS 一起發(fā)布的改進(jìn)的 bounce buffer 實(shí)現(xiàn)使用了最好的可用內(nèi)存管理,顯式的數(shù)據(jù)移動(dòng)以黃色顯示。從預(yù)熱頁緩存讀取數(shù)據(jù)顯示為紅色虛線,藍(lán)色的 GPU 直接存儲(chǔ)優(yōu)于所有這些,僅受 NVMe 驅(qū)動(dòng)器速度的限制。這些測量碰巧只使用了 8 個(gè) GPUs 和 8 個(gè) NVMe 驅(qū)動(dòng)器。

此外,直接數(shù)據(jù)路徑將 80 GB 數(shù)據(jù)的端到端延遲降低了 3 。 8 倍。在另一個(gè)對 16 GPUs 的 cuDF CSV 閱讀器研究中,如圖 5 所示,使用藍(lán)色的直接、非錯(cuò)誤數(shù)據(jù)路徑,讀取帶寬更平滑、更可預(yù)測、延遲更低,而改進(jìn)的直接 cuDF 行為仍然使用紅色的反彈緩沖區(qū),或黃色的原始行為。

圖 5 : cuDF read _ csv 的延遲比較。當(dāng) CPU 反彈緩沖區(qū)在帶有錯(cuò)誤(黃色)的原始 cuDF 版本中使用時(shí),作為 GPUs 函數(shù)的延遲是不穩(wěn)定和不穩(wěn)定的。 cuDF 已經(jīng)過優(yōu)化,以消除直接傳輸( red )的故障,從而提高了性能和穩(wěn)定性。 GPU 直接存儲(chǔ)(藍(lán)色),在處理擴(kuò)展到額外的 GPUs 時(shí)提供平滑和可預(yù)測的延遲。

帶寬和 CPU 負(fù)載研究

圖 6 突出顯示了不同傳輸方法可實(shí)現(xiàn)的相對帶寬??梢允褂镁彌_ I / O 將數(shù)據(jù)從存儲(chǔ)器傳輸?shù)?CPU 內(nèi)存,并使用文件系統(tǒng)的頁緩存(黃線)進(jìn)行保留。使用頁緩存有一些開銷,比如在 CPU 內(nèi)存中增加一個(gè)副本,但是相對于 DMA 從存儲(chǔ)器中取出數(shù)據(jù)并使用一個(gè)緩沖區(qū)(紅線)直到傳輸大小足夠大,足以分?jǐn)?DMA 編程時(shí),這是一個(gè)勝利。因?yàn)槭褂?GPUDirect 存儲(chǔ)(藍(lán)線)的存儲(chǔ)器和 GPU 之間的帶寬比 CPU 和 GPU 之間的帶寬要高得多,所以它可以在任何傳輸大小下獲勝。

圖 6 : GPU 直接存儲(chǔ)( GDS )的帶寬明顯優(yōu)于使用緩沖區(qū)( CPU GPU )或使用緩沖 IO 啟用文件系統(tǒng)的頁緩存。 16 個(gè) NVMe 驅(qū)動(dòng)器與 16 個(gè) GPUs 一起使用。

獲得更高的帶寬是一回事,但有些應(yīng)用程序?qū)?CPU 負(fù)載很敏感。如果我們檢查這三種方法的帶寬除以 CPU 利用率,結(jié)果會(huì)更加引人注目,如圖 7 所示。

圖 7 :帶寬除以 CPU 核心的部分利用率。16個(gè) NVMe 驅(qū)動(dòng)器與16個(gè) GPU 一起使用

TPC-H 案例研究

TPC-H 是一個(gè)決策支持基準(zhǔn)。對于這個(gè)基準(zhǔn)測試有很多查詢,我們主要關(guān)注 QueryFour ( Q4 ),它傳輸大量數(shù)據(jù),并對這些數(shù)據(jù)的 GPU 進(jìn)行一些處理。數(shù)據(jù)的大小由比例因子( SF )決定。比例因子 1K 意味著數(shù)據(jù)集的大小接近 1TB ( 82 。 4GB 的二進(jìn)制數(shù)據(jù)); 10K 意味著 10 倍的大小,這不能完全放入 CPU 內(nèi)存中。在非 GPU 直接存儲(chǔ)的情況下, CPU 內(nèi)存中的空間必須被分配,從磁盤中填充,然后釋放,如果數(shù)據(jù)可以在消耗時(shí)按需直接傳輸?shù)?GPU 內(nèi)存中,那么所有這些都需要時(shí)間,而這些時(shí)間最終都是無關(guān)緊要的。圖 8 顯示了與不使用 GPU 直接存儲(chǔ)相比, GPU 直接存儲(chǔ)具有較大的性能提升: SF 1K 為 6 。 7 倍, SF 10K 為 32 。 8 倍。

圖 8 : TPC-H 查詢 4 ,有和沒有 GPU 直接存儲(chǔ)( GDS )。使用了 1K (~ 1TB )和 10K (~ 10TB )的比例因子( SF ),加速分別為 4 。 9x 和 19 。 6x 。 CPU 內(nèi)存中的重復(fù)分配、將數(shù)據(jù)加載到內(nèi)存中以及釋放 CPU 側(cè)的內(nèi)存是 GPU 直接存儲(chǔ)中避免的大瓶頸。

數(shù)據(jù)***案例研究

從存儲(chǔ)器到 GPU 的直接路徑也適用于不完全適合 GPU 幀緩沖區(qū)的數(shù)據(jù)集。在一個(gè)實(shí)驗(yàn)中, NVIDIA 使用了 1TB 的輸入數(shù)據(jù)集和 DGX-2 的 512GB 聚合 GPU 內(nèi)存,用 GPU 直接存儲(chǔ)來證明,即使在內(nèi)存超額訂閱的情況下, 16 GPUs 的數(shù)據(jù) I / O 速度也比主機(jī)內(nèi)存快。直接讀取和寫入數(shù)據(jù)的速度提高了 2 倍,但分塊、使用更小的批處理和其他優(yōu)化進(jìn)一步提高了速度。總的來說, GPU 直接存儲(chǔ)將數(shù)據(jù)操作速度提高了 4 。 3 倍。

GPU 直接存儲(chǔ)的值

GPU 直接存儲(chǔ)器提供的關(guān)鍵功能是,它使 DMA 能夠通過這個(gè)文件系統(tǒng)從存儲(chǔ)器到 GPU 存儲(chǔ)器。它以多種方式提供價(jià)值:

2-8 倍的帶寬,直接在存儲(chǔ)器和 GPU 之間傳輸數(shù)據(jù)。

顯式的數(shù)據(jù)傳輸既不出錯(cuò)也不經(jīng)過跳出緩沖區(qū),也具有較低的延遲;我們演示了低 3 。 8 倍的端到端延遲的示例。

避免顯式和直接傳輸?shù)腻e(cuò)誤可以使延遲在 GPU 并發(fā)性增加時(shí)保持穩(wěn)定和平坦。

在存儲(chǔ)器附近使用 DMA 引擎對 CPU 負(fù)載的影響較小,并且不會(huì)干擾 GPU 負(fù)載。使用更大尺寸的 GPU 直接存儲(chǔ),帶寬與部分 CPU 利用率之比要高得多。我們觀察到(但沒有在本博客中以圖形方式顯示)當(dāng)其他 DMA 引擎將數(shù)據(jù)推入或拉入 GPU 內(nèi)存時(shí), GPU 利用率仍然接近于零。

GPU 不僅成為帶寬最高的計(jì)算引擎,而且成為 IO 帶寬最高的計(jì)算單元,例如 215 GB / s ,而 CPU 的 50 GB / s 。

無論數(shù)據(jù)存儲(chǔ)在何處,所有這些好處都是可以實(shí)現(xiàn)的——實(shí)現(xiàn)對 PB 級(jí)遠(yuǎn)程存儲(chǔ)的快速訪問,甚至比 CPU 內(nèi)存中的頁緩存都要快。

從 CPU 存儲(chǔ)器、本地存儲(chǔ)器和遠(yuǎn)程存儲(chǔ)器進(jìn)入 GPU 存儲(chǔ)器的帶寬可以相加地組合起來,使進(jìn)入和流出 GPUs 的帶寬幾乎飽和。這變得越來越重要,來自大型分布式數(shù)據(jù)集的數(shù)據(jù)被緩存在本地存儲(chǔ)器中,工作表可以緩存在 CPU 系統(tǒng)內(nèi)存中,并與 CPU 協(xié)同使用。

除了使用 GPUs 而不是 CPU 加快計(jì)算的好處外,一旦整個(gè)數(shù)據(jù)處理管道轉(zhuǎn)移到 GPU 執(zhí)行,直接存儲(chǔ)就起到了一個(gè)力倍增器的作用。這一點(diǎn)變得尤為重要,因?yàn)閿?shù)據(jù)集大小不再適合系統(tǒng)內(nèi)存,而且 GPUs 的數(shù)據(jù) I / O 增長成為處理時(shí)間的瓶頸。當(dāng)人工智能和數(shù)據(jù)科學(xué)繼續(xù)重新定義可能的藝術(shù)時(shí),啟用直接路徑可以減少甚至完全緩解這個(gè)瓶頸。

關(guān)于作者

Adam Thompson 是 NVIDIA 的高級(jí)解決方案架構(gòu)師。他有信號(hào)處理方面的背景,他的職業(yè)生涯一直在參與和領(lǐng)導(dǎo)一些項(xiàng)目,這些項(xiàng)目專注于射頻分類、數(shù)據(jù)壓縮、高性能計(jì)算、統(tǒng)計(jì)信號(hào)處理以及管理和設(shè)計(jì)針對大數(shù)據(jù)框架的應(yīng)用程序。他擁有喬治亞理工大學(xué)電子與計(jì)算機(jī)工程碩士學(xué)位和克萊姆森大學(xué)學(xué)士學(xué)位。

CJ Newburn 是 NVIDIA 計(jì)算軟件組的首席架構(gòu)師,他領(lǐng)導(dǎo) HPC 戰(zhàn)略和軟件產(chǎn)品路線圖,特別關(guān)注系統(tǒng)和規(guī)模編程模型。 CJ 是 Magnum IO 的架構(gòu)師和 GPU Direct Storage 的聯(lián)合架構(gòu)師,與能源部領(lǐng)導(dǎo) Summit Dev 系列產(chǎn)品,并領(lǐng)導(dǎo) HPC 容器咨詢委員會(huì)。在過去的 20 年里, CJ 為硬件和軟件技術(shù)做出了貢獻(xiàn),擁有 100 多項(xiàng)專利。他是一個(gè)社區(qū)建設(shè)者,熱衷于將硬件和軟件平臺(tái)的核心功能從 HPC 擴(kuò)展到 AI 、數(shù)據(jù)科學(xué)和可視化。在卡內(nèi)基梅隆大學(xué)獲得博士學(xué)位之前, CJ 曾在幾家初創(chuàng)公司工作過,致力于語音識(shí)別器和 VLIW 超級(jí)計(jì)算機(jī)。他很高興能為他媽媽使用的批量產(chǎn)品工作。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5059

    瀏覽量

    103381
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4762

    瀏覽量

    129145
  • 計(jì)算機(jī)
    +關(guān)注

    關(guān)注

    19

    文章

    7525

    瀏覽量

    88356
收藏 人收藏

    評論

    相關(guān)推薦

    什么是ROM存儲(chǔ)器的定義

    一、ROM存儲(chǔ)器的定義 ROM存儲(chǔ)器是一種在計(jì)算機(jī)和電子設(shè)備中用于存儲(chǔ)固定數(shù)據(jù)的存儲(chǔ)器。與RAM(隨機(jī)存取存儲(chǔ)器)不同,ROM
    的頭像 發(fā)表于 11-04 09:59 ?947次閱讀

    內(nèi)存儲(chǔ)器主要用來存儲(chǔ)什么

    內(nèi)存儲(chǔ)器(內(nèi)部存儲(chǔ)器)是計(jì)算機(jī)硬件的重要組成部分,它直接與中央處理CPU)相連,用于存儲(chǔ)正在運(yùn)行的程序和當(dāng)前處理的數(shù)據(jù)。內(nèi)
    的頭像 發(fā)表于 10-14 09:55 ?996次閱讀

    內(nèi)存儲(chǔ)器分為隨機(jī)存儲(chǔ)器和什么

    ,Read-Only Memory)。 一、隨機(jī)存儲(chǔ)器(RAM) 隨機(jī)存儲(chǔ)器的定義和特點(diǎn) 隨機(jī)存儲(chǔ)器(RAM)是一種可讀寫的存儲(chǔ)器,其特點(diǎn)是可以隨機(jī)訪問
    的頭像 發(fā)表于 10-14 09:54 ?1341次閱讀

    高速緩沖存儲(chǔ)器有什么作用

    )技術(shù)實(shí)現(xiàn),而不是像系統(tǒng)主存那樣使用動(dòng)態(tài)隨機(jī)存儲(chǔ)器(DRAM)技術(shù)。SRAM具有訪問速度快但成本較高的特點(diǎn),這使得高速緩沖存儲(chǔ)器能夠在計(jì)算機(jī)系統(tǒng)中提供接近CPU速度的數(shù)據(jù)訪問能力。
    的頭像 發(fā)表于 09-10 14:09 ?1747次閱讀

    緩解ADC存儲(chǔ)器串?dāng)_的方法

    電子發(fā)燒友網(wǎng)站提供《緩解ADC存儲(chǔ)器串?dāng)_的方法.pdf》資料免費(fèi)下載
    發(fā)表于 09-06 10:15 ?0次下載
    <b class='flag-5'>緩解</b>ADC<b class='flag-5'>存儲(chǔ)器</b>串?dāng)_的方法

    PLC主要使用的存儲(chǔ)器類型

    PLC(可編程邏輯控制)中的存儲(chǔ)器是其重要組成部分,用于存儲(chǔ)程序、數(shù)據(jù)和系統(tǒng)信息。PLC的存儲(chǔ)器主要分為兩大類:系統(tǒng)存儲(chǔ)器和用戶
    的頭像 發(fā)表于 09-05 10:45 ?2976次閱讀

    內(nèi)部存儲(chǔ)器有哪些

    內(nèi)部存儲(chǔ)器,也稱為內(nèi)存(Memory),是計(jì)算機(jī)系統(tǒng)中用于暫時(shí)存儲(chǔ)程序和數(shù)據(jù)的重要組件。它直接與CPU相連,是CPU處理數(shù)據(jù)的主要來源。內(nèi)部存儲(chǔ)器
    的頭像 發(fā)表于 09-05 10:42 ?1868次閱讀

    ram存儲(chǔ)器和rom存儲(chǔ)器的區(qū)別是什么

    定義: RAM(Random Access Memory):隨機(jī)存取存儲(chǔ)器,是一種易失性存儲(chǔ)器,主要用于計(jì)算機(jī)和其他設(shè)備的臨時(shí)存儲(chǔ)。 ROM(Read-Only Memory):只讀存儲(chǔ)器
    的頭像 發(fā)表于 08-06 09:17 ?757次閱讀

    EEPROM存儲(chǔ)器如何加密

    EEPROM(Electrically Erasable Programmable Read-Only Memory,電可擦可編程只讀存儲(chǔ)器)是一種非易失性存儲(chǔ)器,它在斷電后仍能保持?jǐn)?shù)據(jù)。由于其可
    的頭像 發(fā)表于 08-05 18:05 ?1397次閱讀

    虛擬存儲(chǔ)器的概念和特征

    隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展,存儲(chǔ)器的容量和速度成為了影響計(jì)算機(jī)性能的關(guān)鍵因素。在解決內(nèi)存容量不足和速度瓶頸的過程中,虛擬存儲(chǔ)器(Virtual Memory)技術(shù)應(yīng)運(yùn)而生。虛擬存儲(chǔ)器技術(shù)
    的頭像 發(fā)表于 05-24 17:23 ?2063次閱讀

    內(nèi)存儲(chǔ)器與外存儲(chǔ)器的主要區(qū)別

    在計(jì)算機(jī)系統(tǒng)中,存儲(chǔ)器是不可或缺的核心部件,它負(fù)責(zé)存儲(chǔ)和處理各種數(shù)據(jù)和信息。根據(jù)存儲(chǔ)位置和功能的不同,存儲(chǔ)器可大致分為內(nèi)存儲(chǔ)器(簡稱內(nèi)存)和
    的頭像 發(fā)表于 05-22 18:16 ?5549次閱讀

    存儲(chǔ)器和寄存的區(qū)別

    在計(jì)算機(jī)系統(tǒng)中,存儲(chǔ)器和寄存是兩個(gè)至關(guān)重要的組成部分,它們各自承擔(dān)著不同的功能和角色。存儲(chǔ)器用于存放程序和數(shù)據(jù),是計(jì)算機(jī)系統(tǒng)的記憶設(shè)備;而寄存則是
    的頭像 發(fā)表于 05-12 16:55 ?2420次閱讀

    淺談存儲(chǔ)器層次結(jié)構(gòu)

    通過多級(jí)存儲(chǔ)器的設(shè)計(jì),存儲(chǔ)器層次結(jié)構(gòu)能夠在存儲(chǔ)容量和訪問速度之間找到一個(gè)平衡點(diǎn)。高速緩存存儲(chǔ)器和主存儲(chǔ)器提供了快速的訪問速度,而輔助
    發(fā)表于 02-19 13:54 ?878次閱讀
    淺談<b class='flag-5'>存儲(chǔ)器</b>層次結(jié)構(gòu)

    什么存儲(chǔ)器速度最快

    在計(jì)算機(jī)系統(tǒng)中,寄存(Register)通常是速度最快的存儲(chǔ)器。寄存是位于中央處理CPU)內(nèi)部的小型、高速
    發(fā)表于 02-05 09:43 ?4336次閱讀

    半導(dǎo)體存儲(chǔ)器有哪些 半導(dǎo)體存儲(chǔ)器分為哪兩種

    半導(dǎo)體存儲(chǔ)器(Semiconductor Memory)是一種電子元件,用于存儲(chǔ)和檢索數(shù)據(jù)。它由半導(dǎo)體材料制成,采用了半導(dǎo)體技術(shù),是計(jì)算機(jī)和電子設(shè)備中最常用的存儲(chǔ)器。 半導(dǎo)體存儲(chǔ)器可以
    的頭像 發(fā)表于 02-01 17:19 ?3227次閱讀