超算,是計(jì)算產(chǎn)業(yè)的明珠,是人類探索未知的航船。超算的發(fā)展與變化,不僅代表著各個(gè)國家與地區(qū)間的科技競爭力,更將作為趨勢風(fēng)向標(biāo),影響整個(gè)數(shù)字化體系的走向。
在目前階段,超算與AI計(jì)算的融合是大勢所趨。為了將AI模型與AI計(jì)算融入超算體系,一輪新的超算變革正在醞釀發(fā)生。與此同時(shí),一個(gè)關(guān)鍵問題也顯露了出來:我們是否需要配合AI大模型風(fēng)潮,打造全新且獨(dú)立的存儲(chǔ)體系?
在超算領(lǐng)域擁有廣泛聲譽(yù)的橡樹嶺國家實(shí)驗(yàn)室(Oak Ridge National Laboratory),已經(jīng)就這個(gè)問題給出了明確的答案:需要。
日前,我們在橡樹嶺實(shí)驗(yàn)室發(fā)布的面向2027年構(gòu)建下一代數(shù)據(jù)中心相關(guān)計(jì)劃中已經(jīng)看到,其明確提出了應(yīng)對十億到百億級(jí)大模型的引入,除了需要面向傳統(tǒng)HPC場景的PFS(Parallel file system 并行文件系統(tǒng)),還需要單獨(dú)設(shè)立AOS(AI-optimized storage AI 優(yōu)化存儲(chǔ))存儲(chǔ)系統(tǒng),并給出了相關(guān)的詳細(xì)品類定義與規(guī)格約束。
這個(gè)信息為何重要?其又將如何影響計(jì)算與存儲(chǔ)產(chǎn)業(yè)的持續(xù)發(fā)展?
讓我們共同來解讀一下,這個(gè)智能時(shí)代的存力信標(biāo)。
科學(xué)之巔的超算答案
不久之前,諾蘭導(dǎo)演的電影《奧本海默》在全球熱映,其中對曼哈頓工程的描繪讓人印象深刻。
事實(shí)上,曼哈頓工程的影響遠(yuǎn)不止于影片介紹的范圍。成立于1934年,隸屬于美國能源部的橡樹嶺國家實(shí)驗(yàn)室,原本就屬于曼哈頓工程的一部分。作為美國乃至全球最具代表性的國家實(shí)驗(yàn)室,其存在目的是攻克當(dāng)下最嚴(yán)峻的科學(xué)難題,開發(fā)具有跨時(shí)代意義的技術(shù)。
從上世紀(jì)40年代開發(fā)核反應(yīng)堆,到率先在完成中子散射開展材料的相關(guān)研究,再到為半導(dǎo)體產(chǎn)業(yè)提供了一系列信息與相關(guān)技術(shù)。橡樹嶺國家實(shí)驗(yàn)室可謂在每個(gè)階段都深度參與了信息時(shí)代的重大科學(xué)發(fā)現(xiàn),被譽(yù)為人類科學(xué)之巔。
時(shí)間來到今天,橡樹嶺國家實(shí)驗(yàn)室最具盛名的能力就是超算。在的2022年全球超算Top500名單中,橡樹嶺國家實(shí)驗(yàn)室的Frontier超級(jí)計(jì)算機(jī)系統(tǒng)奪得第一。其憑借1.102 Exaflop/s的HPL分?jǐn)?shù),成為人類有史以來第一臺(tái)“E級(jí)超算”計(jì)算機(jī)。也就是說,F(xiàn)rontier實(shí)現(xiàn)了斷代式的驚人算力,其超算性能大于排在它身后的468個(gè)超算體系之和。同時(shí),F(xiàn)rontier還是全球AI計(jì)算能力最強(qiáng)的計(jì)算體系之一,其AI計(jì)算能力已經(jīng)投身到了智能交通、智能醫(yī)療等領(lǐng)域的探索中。
由此可見,橡樹嶺國家實(shí)驗(yàn)室在超算領(lǐng)域擁有極強(qiáng)的先進(jìn)性,堪稱廣義超算領(lǐng)域的絕對權(quán)威。而在打造Frontier為代表的超算體系過程中,實(shí)驗(yàn)室也正以更加深邃的目光,望向AI計(jì)算與存儲(chǔ)的前沿探索之路。
他們給出的AI存力答案,顯然可以被更多超算體系,乃至數(shù)字化建設(shè)整體所參考。
對AI存力底座的明確定義
長久以來,我們都知道AI專項(xiàng)算力的重要性。那么是否需要在存儲(chǔ)領(lǐng)域構(gòu)建AI專項(xiàng)存力呢?這一直是個(gè)業(yè)界激烈爭論的問題。而橡樹嶺國家實(shí)驗(yàn)室的答案,或許可以起到一錘定音的效果。在其發(fā)布的面向2027構(gòu)建下一代數(shù)據(jù)中心方案中,明確提出了面對大模型的引入,除了需要面向傳統(tǒng)超算場景的存儲(chǔ)體系之外,要單獨(dú)設(shè)立AOS(AI-optimized storage)品類。這也就是說,要建設(shè)傳統(tǒng)超算業(yè)務(wù)和面向AI業(yè)務(wù)負(fù)載的兩套I/O存儲(chǔ)系統(tǒng)——PFS和AOS,即構(gòu)建更適應(yīng)、更匹配AI負(fù)載的專項(xiàng)存儲(chǔ)。
這是因?yàn)橄饦鋷X國家實(shí)驗(yàn)室已經(jīng)意識(shí)到,未來超算將面臨著越來越多的AI處理任務(wù)。這不僅僅需要算力系統(tǒng)的提升,更需要單獨(dú)針對存儲(chǔ)系統(tǒng)進(jìn)行升級(jí)。因此對AI工作負(fù)載定制全新的存儲(chǔ)子系統(tǒng)至關(guān)重要。
兩套I/O存儲(chǔ)系統(tǒng)相比較的話,很容易找到區(qū)別。
傳統(tǒng)的PFS,更多是針對單一POSIX文件命名空間,整體業(yè)務(wù)的I/O較大,并且更多針對大文件進(jìn)行運(yùn)算處理,更強(qiáng)調(diào)集群聚合帶寬,對小文件的創(chuàng)建或讀取性能要求并不高。
而相較于PFS,AI應(yīng)用折射到AOS負(fù)載上的文件更加復(fù)雜,大小不一,并且數(shù)據(jù)密集型分析占據(jù)了更大比重,在全流程中會(huì)產(chǎn)生大量的數(shù)據(jù)或元數(shù)據(jù)隨機(jī)讀寫情況。這就需要存儲(chǔ)系統(tǒng)既具備高達(dá)千萬級(jí)的IOPS與OPS、又擁有十TB/s級(jí)別的超高帶寬來進(jìn)行高速順序讀寫。
簡而言之,新的AI負(fù)載會(huì)帶來巨大的存儲(chǔ)性能需求,這是傳統(tǒng)PFS系統(tǒng)所謂無法負(fù)擔(dān)的。只有存儲(chǔ)性能極大升級(jí),才能讓AI算力利用率提升,整個(gè)模型的訓(xùn)練效率升級(jí)。
其次,極為重要的一點(diǎn)在于AI場景下計(jì)算節(jié)點(diǎn)故障率高,平均要達(dá)到天級(jí)甚至小時(shí)級(jí)就出現(xiàn)故障,因此需要頻繁的斷點(diǎn)續(xù)訓(xùn),并且還有可能需要很多階段性的模型數(shù)據(jù)與窗體數(shù)據(jù)定期保存。因此與傳統(tǒng)的超算任務(wù)相比,AI任務(wù)需要存儲(chǔ)具有更大的容量以及更高的效率。
接下來,我們還要看到共享存儲(chǔ)的必要性。橡樹嶺國家實(shí)驗(yàn)室要求計(jì)算任務(wù)在任何計(jì)算節(jié)點(diǎn)都可以隨機(jī)訪問任何一個(gè)文件,從而確保AI任務(wù)在任何節(jié)點(diǎn)訪問時(shí)性能具有強(qiáng)一致性。
除此之外,AOS還具備在底層文件系統(tǒng)與AOS之間的高效并行數(shù)據(jù)傳輸能力,從而確保文件的跨層調(diào)度能力。
為了保護(hù)珍貴的AI數(shù)據(jù)資產(chǎn),AOS對存儲(chǔ)可靠性的要求也提升了很多。由于各種AI訓(xùn)練大量采用分布式,需要在單點(diǎn)故障后依舊保持?jǐn)?shù)據(jù)高可用、任務(wù)不中斷。這需要滿足跨節(jié)點(diǎn)的EC(Erasure Coding)能力,不像一些傳統(tǒng)并行文件系統(tǒng)僅可做到節(jié)點(diǎn)內(nèi)EC,當(dāng)節(jié)點(diǎn)宕機(jī)后就會(huì)出現(xiàn)數(shù)據(jù)丟失、數(shù)據(jù)完整性受損,并且對于故障后的數(shù)據(jù)重構(gòu)的性能速度,也規(guī)定了相關(guān)時(shí)長。
最后,AOS還需要具備本地?cái)?shù)據(jù)的清洗與處理的能力,包含敏感信息去除、隱私信息過濾,甚至轉(zhuǎn)碼、去重等工作,從而簡化數(shù)據(jù)預(yù)訓(xùn)練工作,提升AI任務(wù)的整體效率。
總結(jié)來說,橡樹嶺國家實(shí)驗(yàn)室已經(jīng)明確提出,AI大模型浪潮不僅需要專項(xiàng)算力,還需要專項(xiàng)存力。傳統(tǒng)的并行文件系統(tǒng)已經(jīng)無法滿足AI任務(wù)的需求,AI存儲(chǔ)的門檻正在變得更高,定義正在更加清晰明確。
由橡樹嶺國家實(shí)驗(yàn)室的超算探索出發(fā),AI存力的概念將影響到整個(gè)產(chǎn)業(yè)。
存儲(chǔ)發(fā)展的時(shí)代信標(biāo)
橡樹嶺國家實(shí)驗(yàn)室的發(fā)現(xiàn),可以說是一個(gè)時(shí)代信標(biāo),它將輻射到更廣泛的區(qū)域,給存儲(chǔ)產(chǎn)業(yè)的升級(jí)發(fā)展提出明確信號(hào)。
首先,業(yè)界可以由此凝結(jié)成一個(gè)共識(shí):AI需要專業(yè)算力,也需要專業(yè)存儲(chǔ)。AI存力概念將成為大模型時(shí)代主導(dǎo)存儲(chǔ)產(chǎn)業(yè)的骨干。
其次,我們可以看到超算領(lǐng)域?qū)⑹紫鹊玫絾⑹尽T谌蚋鱾€(gè)國家與地區(qū),超算都是國之利器,是科技競賽的關(guān)鍵節(jié)點(diǎn)。而在超算與AI水乳交融的發(fā)展趨勢下,超算場景必須積極引入AI存力升級(jí),設(shè)置專業(yè)的外置存儲(chǔ),并且積極踐行以存強(qiáng)算,通過存儲(chǔ)升級(jí)來提升AI算力利用率。比如將AI大模型密集型計(jì)算之前,為了降低計(jì)算通信開銷比,可以將一部分?jǐn)?shù)據(jù)預(yù)處理下沉到存儲(chǔ)層完成,以此節(jié)省AI算力。最終可以通過存儲(chǔ)來提升超算體系的先進(jìn)性與自主性。
接下來,我們還可以看到這一趨勢將釋放到超算場景之外。在AI大模型走入千行百業(yè)的進(jìn)程中,各個(gè)領(lǐng)域都需要考慮存儲(chǔ)是否能夠適配AI模型與算力系統(tǒng)。適時(shí)進(jìn)行存儲(chǔ)升級(jí),實(shí)現(xiàn)存、算、AI的相輔相成,是智能化發(fā)展過程中的關(guān)鍵。
這些啟示,對于中國存儲(chǔ)產(chǎn)業(yè)的發(fā)展,尤有至關(guān)重要的意義。
存力勃發(fā),時(shí)代之選
在大模型發(fā)展中,存力是前提條件,也是產(chǎn)業(yè)支柱。尤其對應(yīng)到中國在實(shí)現(xiàn)科技自立自強(qiáng),推進(jìn)數(shù)實(shí)融合的大勢當(dāng)中。AI浪潮恰好是一個(gè)絕佳契機(jī),可以以最低成本,最高價(jià)值實(shí)現(xiàn)存儲(chǔ)產(chǎn)業(yè)的全面升級(jí)更新。
從目前全球主流趨勢來看,存儲(chǔ)升級(jí)對AI發(fā)展的助力是多方位、全面性的。是一個(gè)高吞吐、可共享、大容量、高可靠的存儲(chǔ)系統(tǒng),是產(chǎn)業(yè)智能化、經(jīng)濟(jì)智能化發(fā)展的關(guān)鍵。
在這個(gè)趨勢下,中國存力建設(shè)有以下幾個(gè)機(jī)遇需要緊緊把握:
1.擴(kuò)大存力規(guī)模,提升先進(jìn)存儲(chǔ)占比。
隨著AI大模型的崛起,以及AI深入到超算、大型政企數(shù)字化等場景,會(huì)有更多企業(yè)傾向于進(jìn)行本地化的AI訓(xùn)練與相關(guān)數(shù)據(jù)存儲(chǔ)。這個(gè)過程中,既需要擴(kuò)大存力整體規(guī)模,也需要提升以全閃存為代表的先進(jìn)存儲(chǔ)占比,以此來滿足智能化發(fā)展所需。
2.提升存儲(chǔ)技術(shù)創(chuàng)新,應(yīng)對AI時(shí)代的數(shù)據(jù)復(fù)雜性。
AI帶來了數(shù)據(jù)復(fù)雜性與應(yīng)用流程多樣性等一系列挑戰(zhàn),因此存儲(chǔ)的先進(jìn)性必須得到進(jìn)一步提升。比如說,在建設(shè)數(shù)據(jù)湖的過程中,多數(shù)據(jù)中心、多業(yè)務(wù)系統(tǒng)的數(shù)據(jù)歸集緩慢且復(fù)雜,跨業(yè)務(wù)的數(shù)據(jù)倒換的低效且繁瑣,都給存儲(chǔ)帶來了考驗(yàn)。因此,存儲(chǔ)需要提升協(xié)議互通能力、數(shù)據(jù)跨域調(diào)度、跨系統(tǒng)可視化數(shù)據(jù)管理等能力。以存儲(chǔ)技術(shù)創(chuàng)新,應(yīng)對AI時(shí)代的一系列技術(shù)挑戰(zhàn)。
3.提升存儲(chǔ)安全與運(yùn)維能力,確保AI發(fā)展無憂。
AI大模型不僅帶來了數(shù)據(jù)的復(fù)雜性,還帶來了一系列全新的安全隱患,以及愈加復(fù)雜的存儲(chǔ)運(yùn)維管理壓力。因此,存儲(chǔ)需要積極踐行主動(dòng)安全、自動(dòng)運(yùn)維等能力,從而確保AI體系的健康發(fā)展。
在這些努力的堅(jiān)持不懈下,AI存力將得到極大發(fā)展。就像我們知道AI算力即生產(chǎn)力,AI存力也將在未來成為生產(chǎn)力釋放的關(guān)鍵,成為產(chǎn)業(yè)智能化的引擎。
總結(jié)起來,一項(xiàng)產(chǎn)業(yè)升級(jí)與技術(shù)發(fā)展,首先需要找到信標(biāo),讀懂趨勢。如果說此前我們對于AI專項(xiàng)存儲(chǔ)的定義與發(fā)展還有爭議,那么橡樹嶺國家實(shí)驗(yàn)室對未來數(shù)據(jù)中心的定義,就是為這一爭論畫下了句號(hào)。
依靠其在超算領(lǐng)域,乃至全球科研界的地位,首先我們可以看到AI存儲(chǔ)本身的絕對必要性。其次可以對AI存儲(chǔ)的定義、門檻與發(fā)展規(guī)范提出詳細(xì)的要求。由此一來,我們可以在越來越多的證據(jù)下,清楚地看到AI大模型時(shí)代存儲(chǔ)升級(jí)的必然。
AI存力的價(jià)值,在頂級(jí)實(shí)驗(yàn)室的論證與探索中可以證明;在存儲(chǔ)產(chǎn)業(yè)多年來走向自主化、先進(jìn)化的發(fā)展腳步中可以證明;在每一次AI訓(xùn)練之后,模型開發(fā)者對存儲(chǔ)價(jià)值的慨嘆中可以證明。
抓住AI機(jī)遇,促使存力勃發(fā),是時(shí)代之選,更是時(shí)代之幸。
-
存儲(chǔ)
+關(guān)注
關(guān)注
13文章
4314瀏覽量
85846 -
AI
+關(guān)注
關(guān)注
87文章
30892瀏覽量
269083 -
超算
+關(guān)注
關(guān)注
1文章
115瀏覽量
9077 -
大模型
+關(guān)注
關(guān)注
2文章
2450瀏覽量
2705 -
存力
+關(guān)注
關(guān)注
0文章
23瀏覽量
86
發(fā)布評(píng)論請先 登錄
相關(guān)推薦
評(píng)論