Artificial intelligence (人工智能)在企業(yè)中越來(lái)越普遍。語(yǔ)音識(shí)別、推薦和欺詐檢測(cè)只是人工智能和 深度學(xué)習(xí) ( DL )驅(qū)動(dòng)的數(shù)百個(gè)應(yīng)用程序中的少數(shù)幾個(gè)
為了支持這些人工智能應(yīng)用程序,企業(yè)希望優(yōu)化人工智能服務(wù)器和性能網(wǎng)絡(luò)。不幸的是,在企業(yè)人工智能的開(kāi)發(fā)中,存儲(chǔ)基礎(chǔ)設(shè)施需求往往被忽視。然而,為了成功采用人工智能,必須考慮一個(gè)全面的存儲(chǔ)部署戰(zhàn)略,該戰(zhàn)略考慮了人工智能的增長(zhǎng)、經(jīng)得起未來(lái)考驗(yàn)和互操作性。
這篇文章強(qiáng)調(diào)了企業(yè)在為人工智能應(yīng)用程序規(guī)劃數(shù)據(jù)存儲(chǔ)基礎(chǔ)設(shè)施以最大限度地提高業(yè)務(wù)成效時(shí)應(yīng)考慮的重要因素。我討論了云與本地存儲(chǔ)解決方案的比較,以及在支持 GPU 的虛擬機(jī)( VM )中對(duì)更高性能存儲(chǔ)的需求。
為什么企業(yè)部署需要人工智能存儲(chǔ)決策
流行的短語(yǔ)“你可以現(xiàn)在給我錢(qián),也可以以后給我錢(qián)”意味著在做當(dāng)前決定時(shí)最好考慮未來(lái)。通常,支持 AI 或 DL 應(yīng)用程序的存儲(chǔ)解決方案只能滿足應(yīng)用程序的即時(shí)需求,而沒(méi)有充分考慮未來(lái)的成本和靈活性。
從長(zhǎng)遠(yuǎn)來(lái)看,從存儲(chǔ)的角度來(lái)看,今天花些錢(qián)來(lái)證明您的人工智能環(huán)境是經(jīng)得起未來(lái)考驗(yàn)的,這可能更具成本效益。決策者必須捫心自問(wèn):
我的人工智能存儲(chǔ)基礎(chǔ)設(shè)施能否適應(yīng)云或混合模式?
選擇對(duì)象、塊或文件存儲(chǔ)是否會(huì)限制未來(lái)企業(yè)部署的靈活性?
是否可以使用成本較低的存儲(chǔ)層或混合模型來(lái)存檔,或用于不需要昂貴、快速存儲(chǔ)的數(shù)據(jù)集?
如果沒(méi)有直接的 a / B 比較,企業(yè)存儲(chǔ)決策對(duì) AI 部署的影響并不總是明顯的。今天的錯(cuò)誤決策可能會(huì)導(dǎo)致性能下降,并且無(wú)法在未來(lái)有效地?cái)U(kuò)展業(yè)務(wù)運(yùn)營(yíng)。
規(guī)劃 AI 存儲(chǔ)基礎(chǔ)架構(gòu)時(shí)的主要考慮事項(xiàng)
以下是部署和規(guī)劃存儲(chǔ)時(shí)需要考慮的各種因素。圖 1 概述了數(shù)據(jù)中心、預(yù)算、互操作性和存儲(chǔ)類型注意事項(xiàng)。
AI 性能和 GPU
在評(píng)估存儲(chǔ)性能之前,考慮人工智能性能的一個(gè)關(guān)鍵因素是讓高性能企業(yè) GPU 加速 machine-learning 、 DL 和推理應(yīng)用程序的培訓(xùn)。
許多數(shù)據(jù)中心服務(wù)器沒(méi)有 GPU 來(lái)加速人工智能應(yīng)用程序,因此在考慮性能時(shí),最好先看看 GPU 資源。
大型數(shù)據(jù)集并不總是適合 GPU 內(nèi)存。這一點(diǎn)很重要,因?yàn)楫?dāng)完整的數(shù)據(jù)集不適合 GPU 內(nèi)存時(shí), GPU 提供的性能較差。在這種情況下,數(shù)據(jù)在 GPU 內(nèi)存之間交換,從而影響性能。模型訓(xùn)練需要更長(zhǎng)時(shí)間,推理性能可能會(huì)受到影響。
某些應(yīng)用程序,如欺詐檢測(cè),可能具有極端的實(shí)時(shí)性要求,當(dāng) GPU 內(nèi)存正在等待數(shù)據(jù)時(shí),這些要求會(huì)受到影響。
存儲(chǔ)注意事項(xiàng)
存儲(chǔ)始終是一個(gè)重要的考慮因素。在部署新的人工智能應(yīng)用程序時(shí),現(xiàn)有的存儲(chǔ)解決方案可能無(wú)法正常工作。
您現(xiàn)在可能需要 NVMe 閃存或直接 GPU 內(nèi)存訪問(wèn)的速度才能獲得所需的性能。然而,隨著存儲(chǔ)對(duì)人工智能數(shù)據(jù)的需求隨著時(shí)間的推移而增加,您可能不知道明天的存儲(chǔ)期望是什么。對(duì)于某些應(yīng)用程序,幾乎沒(méi)有太高的存儲(chǔ)性能,尤其是在實(shí)時(shí)用例(如交易前欺詐檢測(cè))的情況下。
對(duì)于人工智能驅(qū)動(dòng)的應(yīng)用程序,沒(méi)有“一刀切”的存儲(chǔ)解決方案。
性能只是一個(gè)存儲(chǔ)考慮因素。另一個(gè)是擴(kuò)展能力。培訓(xùn)數(shù)據(jù)正在增長(zhǎng)。推斷數(shù)據(jù)正在增長(zhǎng)。存儲(chǔ)必須能夠在容量和性能方面進(jìn)行擴(kuò)展,并且在許多情況下能夠跨多個(gè)存儲(chǔ)節(jié)點(diǎn)進(jìn)行擴(kuò)展。簡(jiǎn)單地說(shuō),滿足您當(dāng)前需求的存儲(chǔ)設(shè)備可能并不總能適應(yīng)明天的挑戰(zhàn)。
底線:隨著培訓(xùn)和推理工作量的增加,容量和性能也必須增加。它應(yīng)該只考慮具有保持 GPU 繁忙的性能的可擴(kuò)展存儲(chǔ)解決方案,以獲得最佳的 AI 性能。
數(shù)據(jù)中心注意事項(xiàng)
數(shù)據(jù)處理器( DPU )是基礎(chǔ)設(shè)施技術(shù)的最新發(fā)展,將數(shù)據(jù)中心和人工智能存儲(chǔ)提升到了一個(gè)全新的水平。
雖然不是存儲(chǔ)產(chǎn)品, DPU 重新定義了數(shù)據(jù)中心存儲(chǔ)。它旨在集成存儲(chǔ)、處理和網(wǎng)絡(luò),使整個(gè)數(shù)據(jù)中心成為企業(yè)的計(jì)算機(jī)。
在規(guī)劃和部署存儲(chǔ)時(shí),了解 DPU 的功能非常重要,因?yàn)?DPU 將存儲(chǔ)服務(wù)從數(shù)據(jù)中心處理器和存儲(chǔ)設(shè)備上卸載。對(duì)于許多存儲(chǔ)產(chǎn)品, DPU 互連數(shù)據(jù)中心可以實(shí)現(xiàn)更高效的擴(kuò)展。
例如 NVIDIA BlueField DPU 支持以下功能:
結(jié)構(gòu)上的 NVMe ( NVMe oF )
GPUDirect 存儲(chǔ)
加密
彈性塊存儲(chǔ)
擦除編碼(用于數(shù)據(jù)完整性)
減壓
重復(fù)數(shù)據(jù)消除
遠(yuǎn)程存儲(chǔ)訪問(wèn)的存儲(chǔ)性能就像存儲(chǔ)直接連接到 AI 服務(wù)器一樣。 DPU 有助于實(shí)現(xiàn)可擴(kuò)展的軟件定義存儲(chǔ),以及網(wǎng)絡(luò)和網(wǎng)絡(luò)安全加速。
預(yù)算考慮因素
成本仍然是一個(gè)關(guān)鍵因素。雖然需要部署最高吞吐量和最低延遲的存儲(chǔ),但根據(jù) AI 應(yīng)用程序的不同,并不總是必要的。
為了進(jìn)一步擴(kuò)大存儲(chǔ)預(yù)算, IT 部門(mén)必須了解每個(gè) AI 應(yīng)用程序的存儲(chǔ)性能要求(帶寬、 IOPs 和延遲)。
例如,如果一個(gè)人工智能應(yīng)用程序的數(shù)據(jù)集很大,但性能要求最低,那么傳統(tǒng)硬盤(pán)驅(qū)動(dòng)器( HDD )可能就足夠了,同時(shí)大大降低了存儲(chǔ)成本。當(dāng)數(shù)據(jù)集的“熱”數(shù)據(jù)完全符合 GPU 內(nèi)存時(shí),尤其如此。
另一種節(jié)省成本的選擇是使用混合存儲(chǔ),將閃存用作緩存,以提高性能,同時(shí)降低駐留在 HDD 上的不經(jīng)常訪問(wèn)的數(shù)據(jù)的存儲(chǔ)成本。有一些混合閃存/硬盤(pán)存儲(chǔ)產(chǎn)品的性能幾乎與所有閃存一樣好,因此探索混合存儲(chǔ)選項(xiàng)對(duì)于沒(méi)有極端性能要求的應(yīng)用程序來(lái)說(shuō)意義重大。
較舊、存檔和不經(jīng)常使用的數(shù)據(jù)和數(shù)據(jù)集可能仍有未來(lái)價(jià)值,但駐留在昂貴的主存儲(chǔ)上并不經(jīng)濟(jì)劃算。
硬盤(pán)仍然具有很大的財(cái)務(wù)意義,尤其是在需要時(shí)可以無(wú)縫訪問(wèn)數(shù)據(jù)的情況下。根據(jù)訪問(wèn)的大小和頻率,兩層云和內(nèi)部部署存儲(chǔ)解決方案也具有財(cái)務(wù)意義。市場(chǎng)上有許多這樣的解決方案。
互操作性因素
從存儲(chǔ)角度評(píng)估云和數(shù)據(jù)中心的互操作性非常重要。即使在虛擬機(jī)驅(qū)動(dòng)的數(shù)據(jù)中心內(nèi),也有互操作性因素需要評(píng)估。
云和數(shù)據(jù)中心注意事項(xiàng)
人工智能應(yīng)用程序是在本地運(yùn)行,還是在云端運(yùn)行,或者兩者都運(yùn)行?即使應(yīng)用程序可以在任何一個(gè)地方運(yùn)行,也不能保證應(yīng)用程序的性能不會(huì)隨位置而變化。例如,如果云中使用的存儲(chǔ)類與本地使用的存儲(chǔ)類不同,則可能會(huì)出現(xiàn)性能問(wèn)題。必須考慮存儲(chǔ)類別。
假設(shè)使用使用高性能閃存的支持?jǐn)?shù)據(jù)中心 GPU 的服務(wù)器在所需的八小時(shí)窗口內(nèi)完成對(duì)大型推薦模型的再培訓(xùn)。將相同的應(yīng)用程序以同等 GPU 馬力移動(dòng)到云端可能會(huì)導(dǎo)致培訓(xùn)在 24 小時(shí)內(nèi)完成,遠(yuǎn)遠(yuǎn)超出所需的 8 小時(shí)窗口。為什么?
一些人工智能應(yīng)用程序需要某種類型的存儲(chǔ)(快速閃存、大型存儲(chǔ)緩存、 DMA 存儲(chǔ)訪問(wèn)、存儲(chǔ)類內(nèi)存( SCM )讀取性能等),但并非總是可以通過(guò)云服務(wù)獲得。
關(guān)鍵是,無(wú)論數(shù)據(jù)中心或云存儲(chǔ)選擇如何,某些人工智能應(yīng)用程序都會(huì)產(chǎn)生類似的結(jié)果。其他應(yīng)用程序可能對(duì)存儲(chǔ)敏感。
僅僅因?yàn)橐粋€(gè)應(yīng)用程序是由 Kubernetes 在云中進(jìn)行容器化和編排的,它不能保證類似的數(shù)據(jù)中心結(jié)果。以這種方式來(lái)看,當(dāng)考慮性能時(shí),容器并不總是提供跨數(shù)據(jù)中心和云互操作性。為了實(shí)現(xiàn)有效的數(shù)據(jù)中心和云互操作性,請(qǐng)確保兩個(gè)域中的存儲(chǔ)選擇都能產(chǎn)生良好的結(jié)果。
VM 注意事項(xiàng)
如今,大多數(shù)數(shù)據(jù)中心服務(wù)器沒(méi)有 GPU 來(lái)加速人工智能和創(chuàng)造性工作負(fù)載。明天,數(shù)據(jù)中心的格局可能會(huì)大不相同。無(wú)論是 conversational AI 、欺詐檢測(cè) recommender systems 、視頻分析還是許多其他用例,企業(yè)都被迫使用人工智能來(lái)提高競(jìng)爭(zhēng)力。
GPU 在工作站上很常見(jiàn),但 GPU 工作站提供的加速度無(wú)法在組織內(nèi)輕松共享。
企業(yè)必須準(zhǔn)備的范式轉(zhuǎn)變是在虛擬機(jī)環(huán)境中共享基于服務(wù)器、支持 GPU 的資源。 NVIDIA AI 企業(yè) 等解決方案的可用性使企業(yè)中的任何人都可以共享支持 GPU 的虛擬機(jī)。
簡(jiǎn)而言之,現(xiàn)在企業(yè)中的任何人都可以在 vSphere 環(huán)境中的 VM 內(nèi)輕松運(yùn)行耗電的 AI 應(yīng)用程序。
那么這對(duì)虛擬機(jī)存儲(chǔ)意味著什么呢?支持 GPU 的虛擬機(jī)的存儲(chǔ)必須滿足 AI 應(yīng)用程序和共享虛擬機(jī)用戶的共享性能要求。這意味著給定虛擬機(jī)的存儲(chǔ)性能高于非共享環(huán)境中所需的存儲(chǔ)性能。
這還意味著,為此類虛擬機(jī)分配的物理存儲(chǔ)可能在容量和性能方面更具可擴(kuò)展性。在高度共享的虛擬機(jī)中,可以使用專用的全閃存類內(nèi)存( SCM )陣列,通過(guò)聚合以太網(wǎng)上的 RDMA 連接到支持 GPU 的服務(wù)器,以實(shí)現(xiàn)最高的性能和擴(kuò)展。
存儲(chǔ)類型
關(guān)于為人工智能應(yīng)用程序選擇對(duì)象、塊或文件存儲(chǔ)的深入討論超出了本文的范圍。也就是說(shuō),我在這里提到它是因?yàn)檫@是一個(gè)重要的考慮因素,但并不總是一個(gè)直接的決定。
對(duì)象存儲(chǔ)
例如,如果所需的應(yīng)用程序需要對(duì)象存儲(chǔ),那么所需的存儲(chǔ)類型顯而易見(jiàn)。一些人工智能應(yīng)用程序利用了對(duì)象元數(shù)據(jù),同時(shí)也受益于平面地址空間對(duì)象存儲(chǔ)架構(gòu)的無(wú)限規(guī)模。人工智能分析可以利用豐富的對(duì)象元數(shù)據(jù)實(shí)現(xiàn)精確的數(shù)據(jù)分類和組織,使數(shù)據(jù)更有用,更易于管理和理解。
塊存儲(chǔ)
盡管云中支持塊存儲(chǔ),但真正海量的云數(shù)據(jù)集往往是基于對(duì)象的。塊存儲(chǔ)可以為結(jié)構(gòu)化數(shù)據(jù)和事務(wù)應(yīng)用程序提供更高的性能。
塊存儲(chǔ)缺少元數(shù)據(jù)信息,這使得任何旨在從元數(shù)據(jù)中獲益的應(yīng)用程序都無(wú)法使用塊存儲(chǔ)。許多傳統(tǒng)的企業(yè)應(yīng)用程序都是建立在塊存儲(chǔ)基礎(chǔ)上的,但云中對(duì)象存儲(chǔ)的出現(xiàn)導(dǎo)致許多現(xiàn)代應(yīng)用程序?qū)iT(mén)為使用對(duì)象存儲(chǔ)的原生云部署而設(shè)計(jì)。
文件存儲(chǔ)
當(dāng)人工智能應(yīng)用程序跨通用文件協(xié)議訪問(wèn)數(shù)據(jù)時(shí),顯而易見(jiàn)的存儲(chǔ)選擇是基于文件的。例如,人工智能驅(qū)動(dòng)的圖像識(shí)別和分類引擎可能需要訪問(wèn)基于文件的圖像。
部署選項(xiàng)可能有所不同,從專用文件服務(wù)器到構(gòu)建在對(duì)象或塊存儲(chǔ)體系結(jié)構(gòu)之上的 NAS 磁頭。 NAS 頭可以導(dǎo)出 NFS 或 SMB 文件協(xié)議,以便將文件訪問(wèn)到底層塊或?qū)ο蟠鎯?chǔ)體系結(jié)構(gòu)。這可以為人工智能和數(shù)據(jù)中心網(wǎng)絡(luò)客戶端的文件存儲(chǔ)訪問(wèn)提供高水平的靈活性和經(jīng)得起未來(lái)考驗(yàn)的塊或?qū)ο蟠鎯?chǔ)。
人工智能的存儲(chǔ)類型決策必須基于對(duì)當(dāng)前所需內(nèi)容的良好理解以及長(zhǎng)期人工智能部署策略。全面評(píng)估每種存儲(chǔ)類型的優(yōu)缺點(diǎn)。通常沒(méi)有一個(gè)“一刀切”的答案,在某些情況下,所有三種存儲(chǔ)類型(對(duì)象、塊和文件)都有意義。
企業(yè)存儲(chǔ)決策的關(guān)鍵要點(diǎn)
解決人工智能解決方案的存儲(chǔ)需求沒(méi)有單一的方法。然而,這里有幾個(gè)核心原則,可以用來(lái)做出明智的人工智能存儲(chǔ)決策:
如果訓(xùn)練和推理不是 GPU 加速的,人工智能解決方案的任何存儲(chǔ)選擇都可能毫無(wú)意義。
為可能需要遠(yuǎn)遠(yuǎn)超出當(dāng)前估計(jì)的 IT 資源和相關(guān)存儲(chǔ)做好準(zhǔn)備。
不要認(rèn)為現(xiàn)有存儲(chǔ)對(duì)于新的或擴(kuò)展的人工智能解決方案來(lái)說(shuō)“足夠好”。隨著時(shí)間的推移,與現(xiàn)有存儲(chǔ)相比,具有更高成本、性能和可擴(kuò)展性的存儲(chǔ)實(shí)際上可能更高效。
始終考慮與云的互操作性,因?yàn)槟脑铺峁┥炭赡軣o(wú)法提供本地存儲(chǔ)選項(xiàng)。
戰(zhàn)略 IT 規(guī)劃應(yīng)考慮 DPU 的基礎(chǔ)架構(gòu)和存儲(chǔ)優(yōu)勢(shì)。
當(dāng)你計(jì)劃在企業(yè)中使用人工智能時(shí),不要將存儲(chǔ)放在列表的底部。存儲(chǔ)對(duì)人工智能成功的影響可能比你想象的要大。
關(guān)于作者
André Franklin 是 NVIDIA 數(shù)據(jù)科學(xué)營(yíng)銷(xiāo)團(tuán)隊(duì)的一員,專注于 NVIDIA 支持的工作站和服務(wù)器的基礎(chǔ)設(shè)施解決方案。他在多個(gè)企業(yè)解決方案方面擁有豐富的經(jīng)驗(yàn),包括 NetApp 、 Hewlett-Packard enterprise 和具有預(yù)測(cè)分析功能的靈活存儲(chǔ)陣列。安德烈居住在加利福尼亞州北部,以駕駛無(wú)線電控制的模型飛機(jī)、滑冰和拍攝大自然遠(yuǎn)足而聞名。
審核編輯:郭婷
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5063瀏覽量
103435 -
gpu
+關(guān)注
關(guān)注
28文章
4762瀏覽量
129165 -
人工智能
+關(guān)注
關(guān)注
1793文章
47535瀏覽量
239368
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論