保持 GPUs 忙碌
隨著 AI 和 HPC 數(shù)據(jù)集的大小不斷增加,加載給定應(yīng)用程序的數(shù)據(jù)所花費(fèi)的時(shí)間開始對整個(gè)應(yīng)用程序的性能造成壓力。在考慮端到端應(yīng)用程序性能時(shí),快速 GPUs 越來越缺乏慢 I / O 。
I / O ,將數(shù)據(jù)從存儲(chǔ)器加載到 GPUs 進(jìn)行處理的過程,歷史上一直由 CPU 控制。隨著計(jì)算速度從較慢的 CPU 轉(zhuǎn)移到更快的 GPUs , I / O 成為整個(gè)應(yīng)用程序性能的瓶頸。
正如 GPU 直接 RDMA (遠(yuǎn)程直接存儲(chǔ)器地址)在網(wǎng)絡(luò)接口卡( NIC )和 GPU 內(nèi)存之間直接移動(dòng)數(shù)據(jù)時(shí)提高了帶寬和延遲,一種稱為 GPU 直接存儲(chǔ)的新技術(shù)使本地或遠(yuǎn)程存儲(chǔ)(如 NVMe 或 NVMe over Fabric , NVMe oF )和 GPU 內(nèi)存之間實(shí)現(xiàn)了直接數(shù)據(jù)路徑。 GPU 直接 RDMA 和 GPU 直接存儲(chǔ)器都避免了通過 CPU 內(nèi)存中的反彈緩沖區(qū)的額外拷貝,并使 NIC 或存儲(chǔ)器附近的直接內(nèi)存訪問( DMA )引擎能夠在直接路徑上將數(shù)據(jù)移入或移出 GPU 內(nèi)存—所有這些都不會(huì)給 CPU 或 GPU 帶來負(fù)擔(dān)。如圖 1 所示。對于 GPU 直接存儲(chǔ),存儲(chǔ)位置無關(guān)緊要;它可以在機(jī)柜內(nèi)、機(jī)架內(nèi)或通過網(wǎng)絡(luò)連接。在 CPU DGX-2 中,從 NVIDIA 系統(tǒng)內(nèi)存( SysMem )到 GPUs 的帶寬被限制為 50gb / s ,而來自 SysMem 、許多本地驅(qū)動(dòng)器和許多 NICs 的帶寬可以組合起來,從而在 DGX-2 中達(dá)到近 200gb / s 的帶寬上限。
圖 1 : GPU 內(nèi)存和 NVMe 驅(qū)動(dòng)器之間的標(biāo)準(zhǔn)路徑使用系統(tǒng)內(nèi)存中掛起的反彈緩沖區(qū) CPU 。通過完全跳過 CPU ,來自存儲(chǔ)器的直接數(shù)據(jù)路徑獲得了更高的帶寬。
在本博客中,我們將擴(kuò)展到一個(gè) 上一篇文章 演示 GPU 直接存儲(chǔ):一個(gè)概念證明,可以通過 NVMe 從位于給定服務(wù)器的本地存儲(chǔ)或機(jī)柜外部的存儲(chǔ)器直接訪問內(nèi)存( DMA )。我們證明了從存儲(chǔ)器到 GPU 的直接內(nèi)存訪問緩解了 CPU I / O 瓶頸,并提高了 I / O 帶寬和容量。此外,我們根據(jù) RAPIDS 項(xiàng)目的 GPU – 加速 CSV 閱讀器 提供了在圣何塞 GTC19 上展示的初始性能指標(biāo)。最后,我們將提供一些關(guān)鍵應(yīng)用程序的建議,這些應(yīng)用程序可以利用更快和更高的帶寬、更低的延遲和更大的存儲(chǔ)與 GPUs 之間的容量。
在以后的文章中,當(dāng)這個(gè)特性接近產(chǎn)品化時(shí),我們將描述如何對它進(jìn)行編程。一組新的 cuFile API 將被添加到 CUDA 中,以支持這個(gè)特性,并將本機(jī)集成到 RAPIDS ‘ cuDF 庫中。
直接內(nèi)存訪問是如何工作的?
PCI Express ( PCIe )接口將高速外圍設(shè)備(如網(wǎng)卡、 RAID / NVMe 存儲(chǔ)設(shè)備和 GPUs 連接到 CPU s 。用于 Volta GPUs 的系統(tǒng)接口 PCIe Gen3 可提供 16 GB / s 的聚合最大帶寬。一旦將協(xié)議頭的低效率和其他開銷考慮在內(nèi),最大可達(dá)數(shù)據(jù)速率超過 14gb / s 。
直接內(nèi)存訪問( DMA )使用復(fù)制引擎在 PCIe 上異步移動(dòng)大數(shù)據(jù)塊,而不是加載和存儲(chǔ)。它卸載了計(jì)算元素,讓它們可以自由地進(jìn)行其他工作。在 GPUs 和存儲(chǔ)相關(guān)設(shè)備(如 NVMe 驅(qū)動(dòng)程序和存儲(chǔ)控制器)中有 DMA 引擎,但通常在 CPU 中沒有。在某些情況下, DMA 引擎無法針對給定的目標(biāo)進(jìn)行編程;例如, GPU DMA 引擎不能以存儲(chǔ)為目標(biāo)。沒有 GPU 直接存儲(chǔ),存儲(chǔ) DMA 引擎無法通過文件系統(tǒng)以 GPU 內(nèi)存為目標(biāo)。
然而, DMA 引擎需要由 CPU 上的驅(qū)動(dòng)程序編程。當(dāng) CPU 對 GPU 的 DMA 進(jìn)行編程時(shí),從 CPU 到 GPU 的命令可能會(huì)干擾到 GPU 的其他命令。如果可以使用 NVMe 驅(qū)動(dòng)器或存儲(chǔ)附近其他地方的 DMA 引擎來移動(dòng)數(shù)據(jù),而不是使用 GPU 的 DMA 引擎,那么 CPU 和 GPU 之間的路徑就沒有干擾。與 GPU 的 DMA 引擎相比,我們在本地 NVMe 驅(qū)動(dòng)器上使用 DMA 引擎將 I / O 帶寬提高到 13 。 3 GB / s ,相對于下表 1 所示的 12 。 0 GB / s 的 CPU 到 GPU 內(nèi)存?zhèn)鬏斔俾?,性能提高了大約 10% 。
緩解 I / O 瓶頸及相關(guān)應(yīng)用
隨著研究人員將數(shù)據(jù)分析、人工智能和其他 GPU 加速應(yīng)用程序應(yīng)用于越來越大的數(shù)據(jù)集,其中一些數(shù)據(jù)集將無法完全放入 CPU 內(nèi)存甚至本地存儲(chǔ),因此,緩解存儲(chǔ)和 GPU 內(nèi)存之間的數(shù)據(jù)路徑上的 I / O 瓶頸將變得越來越重要。數(shù)據(jù)分析應(yīng)用程序?qū)Υ罅繑?shù)據(jù)進(jìn)行操作,這些數(shù)據(jù)往往從存儲(chǔ)中流入。在許多情況下,計(jì)算與通信的比率(也許用每字節(jié)的 flops 表示)非常低,這使得它們受到 IO 限制。例如,為了使深度學(xué)習(xí)能夠成功地訓(xùn)練神經(jīng)網(wǎng)絡(luò),每天要訪問許多組文件,每個(gè)文件的大小為 10MB ,并多次讀取。在這種情況下,優(yōu)化數(shù)據(jù)傳輸?shù)?GPU 可能會(huì)對訓(xùn)練人工智能模型的總時(shí)間產(chǎn)生重大而有益的影響。除了數(shù)據(jù)攝取優(yōu)化之外,深度學(xué)習(xí)培訓(xùn)還經(jīng)常涉及檢查點(diǎn)的過程,即在模型訓(xùn)練過程的各個(gè)階段,將訓(xùn)練好的網(wǎng)絡(luò)權(quán)重保存到磁盤上。根據(jù)定義,檢查點(diǎn)位于關(guān)鍵 I / O 路徑上,減少相關(guān)開銷可以縮短檢查點(diǎn)周期和加快模型恢復(fù)。
除了數(shù)據(jù)分析和深度學(xué)習(xí)之外,研究網(wǎng)絡(luò)交互的圖形分析還有很高的 I / O 需求。當(dāng)遍歷一個(gè)圖來尋找有影響的節(jié)點(diǎn)或從這里到那里的最短路徑時(shí),計(jì)算只占總求解時(shí)間的一小部分。從當(dāng)前節(jié)點(diǎn)開始,確定下一步要去哪里,可能涉及來自一個(gè) PB 大小的數(shù)據(jù)湖的 1 到數(shù)百個(gè)文件的 I / O 查詢。雖然本地緩存有助于跟蹤可直接操作的數(shù)據(jù),但圖形遍歷對延遲和帶寬都很敏感。隨著 NVIDIA 通過 cuGraph 庫 RAPIDS 擴(kuò)展了 GPU 圖形分析加速功能,消除文件 I / O 開銷對于繼續(xù)提供光速解決方案至關(guān)重要。
將存儲(chǔ)和帶寬選項(xiàng)擴(kuò)展到 GPUs
數(shù)據(jù)分析和人工智能之間的一個(gè)共同主題是,用于獲取見解的數(shù)據(jù)集通常是海量的。 NVIDIA DGX-2 由 16 個(gè) Tesla V100 組成,包含 30TB NVMe SSD 內(nèi)存( 8x 3 。 84TB )和 1 。 5TB 系統(tǒng)內(nèi)存的庫存配置。啟用驅(qū)動(dòng)器的 DMA 操作允許快速訪問內(nèi)存,同時(shí)增加帶寬、降低延遲和潛在的無限存儲(chǔ)容量。
圖 2 :從存儲(chǔ)模塊外部獲得更多帶寬和更多存儲(chǔ)空間。遠(yuǎn)離 PCI 交換機(jī)的 NIC 支持 NVMe-oF 的遠(yuǎn)程存儲(chǔ)擴(kuò)展,而 RAID 卡支持附近的存儲(chǔ)。所示的 RAID 卡僅為原型,并不表示當(dāng)前或未來的 DGX-2 產(chǎn)品。
DGX-2 機(jī)柜包含兩個(gè) CPU ,每個(gè) CPU 都有兩個(gè) PCIe 子樹實(shí)例,如圖 2 所示。從存儲(chǔ)器或 SysMem 到 GPUs 的多條 PCIe 路徑由兩個(gè)級(jí)別的 PCIe 交換機(jī)支持,這使得 DGX-2 成為 GPU 直接存儲(chǔ)原型化的良好測試工具。表 1 的左列列出了向 GPU 傳輸數(shù)據(jù)的各種來源,第二列列出了從該源測得的帶寬,第三列標(biāo)識(shí)了此類路徑的數(shù)量,最后一列是中間兩列的乘積,顯示了該類源可用的總帶寬。對于 4 個(gè) PCIe 樹( 12-12 。 5 GB / s )中的每一個(gè),從 CPU 的系統(tǒng)內(nèi)存( SysMem )有一條路徑,另一條路徑來自每個(gè) PCIe 樹上掛起的?個(gè)驅(qū)動(dòng)器的另一條路徑,速度為 13 。 3 GB / s 。 DGX-2s 每對 GPUs 都有一個(gè) PCIe 插槽。該插槽可以由一個(gè) NIC 占用,該 NIC 的測量速度為 10 。 5 GB / s ,或者,在本博客中使用的原型中,可以使用 RAID 卡,其測量速度為 14 GB / s 。 NVMe of ( over fabric )是一種通用協(xié)議,它使用 NIC 訪問遠(yuǎn)程存儲(chǔ),例如通過 Infiniband 網(wǎng)絡(luò)。如果在 8 個(gè) PCIe 插槽中使用 RAID 卡(圖 2 中每個(gè) PCIe 子樹 2 個(gè)),則在所有源上添加的 PCIe 帶寬的右側(cè)列總和為 215 GB / s ;如果在這些插槽中使用 NIC ,則總和會(huì)更低。
表 1 : DGX-2 到 GPUs 的帶寬選項(xiàng)。機(jī)柜內(nèi)有 4 個(gè) PCIe 子樹和 8 個(gè) NIC 或 RAID 卡。
GPU 直接存儲(chǔ)的一個(gè)主要優(yōu)點(diǎn)是,無論是存儲(chǔ)在存儲(chǔ)模塊內(nèi)部還是外部、系統(tǒng)內(nèi)存或 NVMe 驅(qū)動(dòng)器上的快速數(shù)據(jù)訪問都是跨各種源的累加。使用內(nèi)部 NVMe 和系統(tǒng)內(nèi)存并不排除使用 NVMe 或 RAID 存儲(chǔ)。最后,這些帶寬是雙向的,支持復(fù)雜的編排,其中數(shù)據(jù)可以從分布式存儲(chǔ)中引入,緩存在本地磁盤中,并且可以通過在 CPU 系統(tǒng)內(nèi)存***享的數(shù)據(jù)結(jié)構(gòu)與 CPU 協(xié)作,總帶寬超過 GPU 峰值 IO 的 90% 。對這三個(gè)源中的每一個(gè)的讀寫操作可能同時(shí)發(fā)生。圖 3 對各種來源進(jìn)行顏色編碼,并將相加組合顯示為堆疊條形圖。在下面的列標(biāo)簽中,源實(shí)例的數(shù)量在括號(hào)中,例如 16 個(gè) NVMe 驅(qū)動(dòng)器或 8 個(gè)執(zhí)行 NVMe 操作的 NIC 。每個(gè)選項(xiàng)可用的粗略容量顯示在列標(biāo)簽的最后。
圖 3 :來自不同來源的帶寬限制是累加的
GPU CSV 閱讀器加速案例研究
NVIDIA 支持的 RAPIDS 開源軟件 專注于端到端 GPU ——加速數(shù)據(jù)科學(xué)。其中一個(gè)庫 cuDF 提供了類似 pandas 的體驗(yàn),允許用戶在 GPU 上加載、過濾、連接、排序和瀏覽數(shù)據(jù)集。 NVIDIA 工程師能夠利用 GPU 直接存儲(chǔ)到 GPU 上,使吞吐量比原始的 cuDF CSV 閱讀器提高了 8 。 8 倍,比 cuDF 庫更新后使用的當(dāng)前最大努力實(shí)現(xiàn)速度提高了 1 。 5 倍。這些改進(jìn)如圖 4 所示。
圖 4 :最初的( 0 。 7 ) cuDF csv 峎 u 讀卡器實(shí)現(xiàn),在底部以綠色顯示,它沒有按 GPU 并發(fā)進(jìn)行伸縮,因?yàn)樗鼘?dǎo)致從 SysMem 到 GPU 的錯(cuò)誤,從存儲(chǔ)到 SysMem 的錯(cuò)誤,以及通過 CPU 緩沖區(qū)取消固定的數(shù)據(jù)移動(dòng)?,F(xiàn)在隨 RAPIDS 一起發(fā)布的改進(jìn)的 bounce buffer 實(shí)現(xiàn)使用了最好的可用內(nèi)存管理,顯式的數(shù)據(jù)移動(dòng)以黃色顯示。從預(yù)熱頁緩存讀取數(shù)據(jù)顯示為紅色虛線,藍(lán)色的 GPU 直接存儲(chǔ)優(yōu)于所有這些,僅受 NVMe 驅(qū)動(dòng)器速度的限制。這些測量碰巧只使用了 8 個(gè) GPUs 和 8 個(gè) NVMe 驅(qū)動(dòng)器。
此外,直接數(shù)據(jù)路徑將 80 GB 數(shù)據(jù)的端到端延遲降低了 3 。 8 倍。在另一個(gè)對 16 GPUs 的 cuDF CSV 閱讀器研究中,如圖 5 所示,使用藍(lán)色的直接、非錯(cuò)誤數(shù)據(jù)路徑,讀取帶寬更平滑、更可預(yù)測、延遲更低,而改進(jìn)的直接 cuDF 行為仍然使用紅色的反彈緩沖區(qū),或黃色的原始行為。
圖 5 : cuDF read _ csv 的延遲比較。當(dāng) CPU 反彈緩沖區(qū)在帶有錯(cuò)誤(黃色)的原始 cuDF 版本中使用時(shí),作為 GPUs 函數(shù)的延遲是不穩(wěn)定和不穩(wěn)定的。 cuDF 已經(jīng)過優(yōu)化,以消除直接傳輸( red )的故障,從而提高了性能和穩(wěn)定性。 GPU 直接存儲(chǔ)(藍(lán)色),在處理擴(kuò)展到額外的 GPUs 時(shí)提供平滑和可預(yù)測的延遲。
帶寬和 CPU 負(fù)載研究
圖 6 突出顯示了不同傳輸方法可實(shí)現(xiàn)的相對帶寬??梢允褂镁彌_ I / O 將數(shù)據(jù)從存儲(chǔ)器傳輸?shù)?CPU 內(nèi)存,并使用文件系統(tǒng)的頁緩存(黃線)進(jìn)行保留。使用頁緩存有一些開銷,比如在 CPU 內(nèi)存中增加一個(gè)副本,但是相對于 DMA 從存儲(chǔ)器中取出數(shù)據(jù)并使用一個(gè)緩沖區(qū)(紅線)直到傳輸大小足夠大,足以分?jǐn)?DMA 編程時(shí),這是一個(gè)勝利。因?yàn)槭褂?GPUDirect 存儲(chǔ)(藍(lán)線)的存儲(chǔ)器和 GPU 之間的帶寬比 CPU 和 GPU 之間的帶寬要高得多,所以它可以在任何傳輸大小下獲勝。
圖 6 : GPU 直接存儲(chǔ)( GDS )的帶寬明顯優(yōu)于使用緩沖區(qū)( CPU GPU )或使用緩沖 IO 啟用文件系統(tǒng)的頁緩存。 16 個(gè) NVMe 驅(qū)動(dòng)器與 16 個(gè) GPUs 一起使用。
獲得更高的帶寬是一回事,但有些應(yīng)用程序?qū)?CPU 負(fù)載很敏感。如果我們檢查這三種方法的帶寬除以 CPU 利用率,結(jié)果會(huì)更加引人注目,如圖 7 所示。
圖 7 :帶寬除以 CPU 核心的部分利用率。16個(gè) NVMe 驅(qū)動(dòng)器與16個(gè) GPU 一起使用
TPC-H 案例研究
TPC-H 是一個(gè)決策支持基準(zhǔn)。對于這個(gè)基準(zhǔn)測試有很多查詢,我們主要關(guān)注 QueryFour ( Q4 ),它傳輸大量數(shù)據(jù),并對這些數(shù)據(jù)的 GPU 進(jìn)行一些處理。數(shù)據(jù)的大小由比例因子( SF )決定。比例因子 1K 意味著數(shù)據(jù)集的大小接近 1TB ( 82 。 4GB 的二進(jìn)制數(shù)據(jù)); 10K 意味著 10 倍的大小,這不能完全放入 CPU 內(nèi)存中。在非 GPU 直接存儲(chǔ)的情況下, CPU 內(nèi)存中的空間必須被分配,從磁盤中填充,然后釋放,如果數(shù)據(jù)可以在消耗時(shí)按需直接傳輸?shù)?GPU 內(nèi)存中,那么所有這些都需要時(shí)間,而這些時(shí)間最終都是無關(guān)緊要的。圖 8 顯示了與不使用 GPU 直接存儲(chǔ)相比, GPU 直接存儲(chǔ)具有較大的性能提升: SF 1K 為 6 。 7 倍, SF 10K 為 32 。 8 倍。
圖 8 : TPC-H 查詢 4 ,有和沒有 GPU 直接存儲(chǔ)( GDS )。使用了 1K (~ 1TB )和 10K (~ 10TB )的比例因子( SF ),加速分別為 4 。 9x 和 19 。 6x 。 CPU 內(nèi)存中的重復(fù)分配、將數(shù)據(jù)加載到內(nèi)存中以及釋放 CPU 側(cè)的內(nèi)存是 GPU 直接存儲(chǔ)中避免的大瓶頸。
數(shù)據(jù)***案例研究
從存儲(chǔ)器到 GPU 的直接路徑也適用于不完全適合 GPU 幀緩沖區(qū)的數(shù)據(jù)集。在一個(gè)實(shí)驗(yàn)中, NVIDIA 使用了 1TB 的輸入數(shù)據(jù)集和 DGX-2 的 512GB 聚合 GPU 內(nèi)存,用 GPU 直接存儲(chǔ)來證明,即使在內(nèi)存超額訂閱的情況下, 16 GPUs 的數(shù)據(jù) I / O 速度也比主機(jī)內(nèi)存快。直接讀取和寫入數(shù)據(jù)的速度提高了 2 倍,但分塊、使用更小的批處理和其他優(yōu)化進(jìn)一步提高了速度。總的來說, GPU 直接存儲(chǔ)將數(shù)據(jù)操作速度提高了 4 。 3 倍。
GPU 直接存儲(chǔ)的值
GPU 直接存儲(chǔ)器提供的關(guān)鍵功能是,它使 DMA 能夠通過這個(gè)文件系統(tǒng)從存儲(chǔ)器到 GPU 存儲(chǔ)器。它以多種方式提供價(jià)值:
2-8 倍的帶寬,直接在存儲(chǔ)器和 GPU 之間傳輸數(shù)據(jù)。
顯式的數(shù)據(jù)傳輸既不出錯(cuò)也不經(jīng)過跳出緩沖區(qū),也具有較低的延遲;我們演示了低 3 。 8 倍的端到端延遲的示例。
避免顯式和直接傳輸?shù)腻e(cuò)誤可以使延遲在 GPU 并發(fā)性增加時(shí)保持穩(wěn)定和平坦。
在存儲(chǔ)器附近使用 DMA 引擎對 CPU 負(fù)載的影響較小,并且不會(huì)干擾 GPU 負(fù)載。使用更大尺寸的 GPU 直接存儲(chǔ),帶寬與部分 CPU 利用率之比要高得多。我們觀察到(但沒有在本博客中以圖形方式顯示)當(dāng)其他 DMA 引擎將數(shù)據(jù)推入或拉入 GPU 內(nèi)存時(shí), GPU 利用率仍然接近于零。
GPU 不僅成為帶寬最高的計(jì)算引擎,而且成為 IO 帶寬最高的計(jì)算單元,例如 215 GB / s ,而 CPU 的 50 GB / s 。
無論數(shù)據(jù)存儲(chǔ)在何處,所有這些好處都是可以實(shí)現(xiàn)的——實(shí)現(xiàn)對 PB 級(jí)遠(yuǎn)程存儲(chǔ)的快速訪問,甚至比 CPU 內(nèi)存中的頁緩存都要快。
從 CPU 存儲(chǔ)器、本地存儲(chǔ)器和遠(yuǎn)程存儲(chǔ)器進(jìn)入 GPU 存儲(chǔ)器的帶寬可以相加地組合起來,使進(jìn)入和流出 GPUs 的帶寬幾乎飽和。這變得越來越重要,來自大型分布式數(shù)據(jù)集的數(shù)據(jù)被緩存在本地存儲(chǔ)器中,工作表可以緩存在 CPU 系統(tǒng)內(nèi)存中,并與 CPU 協(xié)同使用。
除了使用 GPUs 而不是 CPU 加快計(jì)算的好處外,一旦整個(gè)數(shù)據(jù)處理管道轉(zhuǎn)移到 GPU 執(zhí)行,直接存儲(chǔ)就起到了一個(gè)力倍增器的作用。這一點(diǎn)變得尤為重要,因?yàn)閿?shù)據(jù)集大小不再適合系統(tǒng)內(nèi)存,而且 GPUs 的數(shù)據(jù) I / O 增長成為處理時(shí)間的瓶頸。當(dāng)人工智能和數(shù)據(jù)科學(xué)繼續(xù)重新定義可能的藝術(shù)時(shí),啟用直接路徑可以減少甚至完全緩解這個(gè)瓶頸。
關(guān)于作者
Adam Thompson 是 NVIDIA 的高級(jí)解決方案架構(gòu)師。他有信號(hào)處理方面的背景,他的職業(yè)生涯一直在參與和領(lǐng)導(dǎo)一些項(xiàng)目,這些項(xiàng)目專注于射頻分類、數(shù)據(jù)壓縮、高性能計(jì)算、統(tǒng)計(jì)信號(hào)處理以及管理和設(shè)計(jì)針對大數(shù)據(jù)框架的應(yīng)用程序。他擁有喬治亞理工大學(xué)電子與計(jì)算機(jī)工程碩士學(xué)位和克萊姆森大學(xué)學(xué)士學(xué)位。
CJ Newburn 是 NVIDIA 計(jì)算軟件組的首席架構(gòu)師,他領(lǐng)導(dǎo) HPC 戰(zhàn)略和軟件產(chǎn)品路線圖,特別關(guān)注系統(tǒng)和規(guī)模編程模型。 CJ 是 Magnum IO 的架構(gòu)師和 GPU Direct Storage 的聯(lián)合架構(gòu)師,與能源部領(lǐng)導(dǎo) Summit Dev 系列產(chǎn)品,并領(lǐng)導(dǎo) HPC 容器咨詢委員會(huì)。在過去的 20 年里, CJ 為硬件和軟件技術(shù)做出了貢獻(xiàn),擁有 100 多項(xiàng)專利。他是一個(gè)社區(qū)建設(shè)者,熱衷于將硬件和軟件平臺(tái)的核心功能從 HPC 擴(kuò)展到 AI 、數(shù)據(jù)科學(xué)和可視化。在卡內(nèi)基梅隆大學(xué)獲得博士學(xué)位之前, CJ 曾在幾家初創(chuàng)公司工作過,致力于語音識(shí)別器和 VLIW 超級(jí)計(jì)算機(jī)。他很高興能為他媽媽使用的批量產(chǎn)品工作。
審核編輯:郭婷
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5059瀏覽量
103381 -
gpu
+關(guān)注
關(guān)注
28文章
4762瀏覽量
129145 -
計(jì)算機(jī)
+關(guān)注
關(guān)注
19文章
7525瀏覽量
88356
發(fā)布評論請先 登錄
相關(guān)推薦
評論