WEKA是可擴展軟件定義數(shù)據(jù)平臺的先驅(qū),NVIDIA 正在與其合作,將 WEKA 先進的數(shù)據(jù)平臺解決方案與功能強大的NVIDIA BlueField DPU相結(jié)合。
WEKA 數(shù)據(jù)平臺的高級存儲軟件可充分發(fā)揮 AI 和性能密集型工作負載的潛力,而 NVIDIA BlueField DPU 則徹底改變了數(shù)據(jù)的訪問、移動和安全性。這些前沿技術(shù)的集成將開創(chuàng)前所未有的數(shù)據(jù)管理效率和速度的新時代,并有望重塑高性能數(shù)據(jù)訪問的格局。
解決高效的 AI 工作流程
AI 的迅速崛起推動了計算能力和網(wǎng)絡速度的指數(shù)級增長,對存儲資源提出了非常高的需求。雖然 NVIDIA GPU 提供了令人驚嘆的可擴展、高效的計算能力,但是它們還需要高速的數(shù)據(jù)訪問。
WEKA 與 NVIDIA 的合作解決了這一挑戰(zhàn)。它們共同滿足了模型訓練和推理任務(包括檢索增強生成,RAG)對 PB 級數(shù)據(jù)進行高帶寬網(wǎng)絡訪問的關(guān)鍵需求。
關(guān)于 RAG 的用例,可閱讀以下文章:
借助加速以太網(wǎng)網(wǎng)絡和網(wǎng)絡存儲擴展企業(yè) RAG
該聯(lián)合解決方案專為處理豐富的圖像和視頻數(shù)據(jù)、向量數(shù)據(jù)庫以及大量元數(shù)據(jù)保存的復雜性而設計。這確保了無縫且高效的 AI 工作流程,使集成變得及時,并成為未來數(shù)據(jù)驅(qū)動創(chuàng)新的關(guān)鍵。
提高吞吐量和安全性 降低延遲
此次合作的核心是集成 WEKA 客戶端,并通過使用Virtio-FS 代碼來完成。它直接在 BlueField DPU 上運行,而不是在主機服務器的 CPU 上運行。這種創(chuàng)新方法具有以下關(guān)鍵優(yōu)勢:
提高吞吐量:BlueField 硬件加速功能可實現(xiàn)更快的數(shù)據(jù)傳輸速率。
降低延遲:通過在 BlueField DPU 上運行 WEKA 客戶端,數(shù)據(jù)訪問操作可以繞過主機 CPU,從而顯著降低延遲。
CPU 卸載:通過將 WEKA 客戶端遷移到 DPU,可以釋放寶貴的主機 CPU 資源用于應用程序處理,從而有可能提高整體系統(tǒng)性能和效率。
增強安全性:將存儲操作卸載到 DPU 可創(chuàng)建額外的隔離層,從而增強整體系統(tǒng)安全性。
Virtio-FS 代碼的實現(xiàn)有助于主機系統(tǒng)與網(wǎng)絡數(shù)據(jù)之間的無縫通信,在不犧牲性能的情況下實現(xiàn)高效的文件系統(tǒng)操作。通過在 BlueField DPU 上運行 WEKA 客戶端,可以從 CPU 卸載文件系統(tǒng)任務,從而減少開銷,并釋放高達 20% 的 CPU 資源以用于應用程序。
這種方法還可確保虛擬化環(huán)境中的本地文件系統(tǒng)效率和跨平臺兼容性。此外,Virtio-FS 旨在適應不斷發(fā)展的 DPU 技術(shù),采用NVIDIA DOCA 軟件框架來簡化未來的開發(fā)流程,并兼容新一代 NVIDIA BlueField DPU。
將 Virtio-FS 與 NVIDIA BlueField DPU 結(jié)合使用,可將高效、直接的文件共享與強大的卸載和加速功能的優(yōu)勢結(jié)合起來。這種協(xié)同作用可提高性能、降低系統(tǒng)復雜性,并支持適合 AI 工作負載的現(xiàn)代可擴展架構(gòu)。
圖 1:在 NVIDIA BlueField-3 DPU 上運行 WEKA 客戶端可提高吞吐量、延遲和安全
硬件加速數(shù)據(jù)處理
AI 訓練和推理對存儲提出了獨特的挑戰(zhàn),每個挑戰(zhàn)都有不同的要求。訓練需要高吞吐量來處理大型數(shù)據(jù)集和寫入密集型操作,而推理需要出色的讀取性能和低延遲來實現(xiàn)實時響應。這兩種情況通常都依賴于共享文件系統(tǒng)。NVIDIA BlueField DPU 通過提供硬件加速數(shù)據(jù)處理來優(yōu)化訓練和推理工作負載。
優(yōu)化 AI 模型訓練
AI 模型訓練對存儲提出了很高的要求,需要快速訪問龐大的數(shù)據(jù)池來支持 GPU 的生產(chǎn)力。訓練過程包括定期讀取大型數(shù)據(jù)池,以及頻繁的持續(xù)寫入操作,例如記錄日志、保存檢查點和記錄指標。BlueField DPU 提供強大的寫入性能和優(yōu)化的讀/寫平衡,并有效提供高 IOPS。
適用于推理的低延遲和高讀取性能
AI 推理具有不同的存儲需求,需要快速訪問來自多個來源的少量數(shù)據(jù),以保持較低的用戶響應時間。低延遲對于實時或近乎實時的處理至關(guān)重要,因為延遲會影響應用程序的響應能力和有效性。推理通常需要使用多個經(jīng)過訓練的模型和其他數(shù)據(jù)源來快速做出預測或決策。BlueField DPU 提供快速讀取性能,這對于保持數(shù)據(jù)流暢運行至關(guān)重要,從而為時間敏感型 AI 應用程序提供準確的輸出。
平衡訓練和推理以提高 AI 性能和效率
訓練和推理之間的特定壓力略有不同。平衡這些需求對于構(gòu)建高效且富有彈性的 AI 存儲架構(gòu)至關(guān)重要,對于創(chuàng)建有效且強大的 AI 存儲解決方案也至關(guān)重要。將 WEKA 數(shù)據(jù)平臺客戶端與 NVIDIA BlueField DPU 集成,可提高訓練和推理工作負載的存儲性能,并提高解決方案的效率和安全性。
總結(jié)
在 NVIDIA BlueField DPU 上運行 WEKA 客戶端有助于從 WEKA 文件系統(tǒng)訪問文件,從而充分發(fā)揮性能密集型工作負載的潛力,并有利于數(shù)據(jù)訪問、移動和安全性。
在 SC 2024 大會上,WEKA 和 NVIDIA 通過現(xiàn)場演示展示了集成解決方案的實際優(yōu)勢。與會者見證了通過提高數(shù)據(jù)訪問速度和高效工作負載處理來加速 AI 數(shù)據(jù)處理。我們的專家團隊隨時可為您解答問題,并就此解決方案如何改變您的數(shù)據(jù)中心運營提供見解。
-
以太網(wǎng)
+關(guān)注
關(guān)注
40文章
5439瀏覽量
171971 -
NVIDIA
+關(guān)注
關(guān)注
14文章
5013瀏覽量
103243 -
AI
+關(guān)注
關(guān)注
87文章
31097瀏覽量
269423 -
DPU
+關(guān)注
關(guān)注
0文章
365瀏覽量
24213
原文標題:NVIDIA BlueField DPU 與 WEKA 客戶端的集成提高了 AI 工作負載的效率
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論