用于模擬各類(lèi)場(chǎng)景的高性能計(jì)算(HPC)類(lèi)工作負(fù)載,總會(huì)產(chǎn)生大量有待篩選的數(shù)據(jù)。事實(shí)上,這也正是HPC與AI的最大區(qū)別:前者輸入數(shù)據(jù)少,輸出數(shù)據(jù)多;后者則需要輸入大量信息,通過(guò)訓(xùn)練轉(zhuǎn)化為神經(jīng)網(wǎng)絡(luò)中的少量參數(shù)和權(quán)重。
但在HPC模擬所生成的數(shù)萬(wàn)億個(gè)粒子當(dāng)中,真正值得研究人員關(guān)注的可能只是幾百或幾千個(gè)粒子的實(shí)際行為。
洛斯阿拉莫斯國(guó)家實(shí)驗(yàn)室副部門(mén)負(fù)責(zé)人加里·格里德(Gary Grider)在采訪中表示,“這就像是大海撈針,實(shí)際要尋找的只是總體數(shù)據(jù)中的小小一部分。”這個(gè)問(wèn)題在體量較小的數(shù)據(jù)集上相對(duì)好些,但阿拉莫斯實(shí)驗(yàn)室卻向來(lái)以超大規(guī)模研究著稱(chēng)?!拔覀兛赡軙?huì)運(yùn)行一個(gè)內(nèi)存占用量高達(dá)PB級(jí)別的實(shí)驗(yàn),而它往往每隔幾分鐘就輸出一次PB級(jí)數(shù)據(jù)”,且整個(gè)過(guò)程會(huì)持續(xù)半年之久。
為了篩選這些數(shù)據(jù),科學(xué)家們使用一套分析工具來(lái)查明到底哪些信息真正具有價(jià)值。過(guò)去幾年來(lái),阿拉莫斯實(shí)驗(yàn)室一直在想辦法讓分析負(fù)載跟數(shù)據(jù)盡可能接近,甚至考慮把計(jì)算轉(zhuǎn)移到閃存或硬盤(pán)控制器上。從某種意義上說(shuō),阿拉莫斯實(shí)驗(yàn)室及其合作伙伴想要構(gòu)建一套大型磁盤(pán)控制器集群,利用上面的空閑時(shí)鐘周期來(lái)處理分析功能。
阿拉莫斯實(shí)驗(yàn)室的研究人員已經(jīng)取得了一定進(jìn)展。通過(guò)與SK海力士合作,他們實(shí)現(xiàn)了將規(guī)約功能引入控制器的概念驗(yàn)證,借此獲得了幾個(gè)數(shù)量級(jí)的性能改進(jìn)。
格里德表示,“我們已經(jīng)證明,通過(guò)對(duì)規(guī)約這類(lèi)簡(jiǎn)單分析的全速執(zhí)行,磁盤(pán)驅(qū)動(dòng)器自身就能從磁盤(pán)內(nèi)提取數(shù)據(jù),從而徹底消除了傳輸帶寬產(chǎn)生的成本?!?/p>
跟能源部下轄的其他HPC實(shí)驗(yàn)室一樣,阿拉莫斯實(shí)驗(yàn)室同樣采用分層存儲(chǔ)架構(gòu),目前已經(jīng)開(kāi)始在更大的磁盤(pán)池上做類(lèi)似的探索。為了更進(jìn)一步,阿拉莫斯實(shí)驗(yàn)室與希捷簽訂了合作研發(fā)協(xié)議。
“事實(shí)證明,希捷方面也在嘗試將部分負(fù)載轉(zhuǎn)移到存儲(chǔ)設(shè)備上。他們已經(jīng)擁有原型方案,處理器就部署在磁盤(pán)驅(qū)動(dòng)器旁邊?!?/p>
彈性問(wèn)題
但大家都知道,機(jī)械硬盤(pán)與閃存不同。閃存內(nèi)部不存在移動(dòng)部件,而且在使用壽命之內(nèi)具有相對(duì)更可預(yù)測(cè)的故障率。相比之下,硬盤(pán)驅(qū)動(dòng)器內(nèi)部存在機(jī)械結(jié)構(gòu),隨時(shí)都有可能發(fā)生故障。這就要求對(duì)硬盤(pán)做一定程度的彈性化改造——換言之,引入擦除碼或RAID。
“但這也會(huì)增加分析流程的復(fù)雜度。要進(jìn)行分析,我們必須了解數(shù)據(jù)是什么。但磁盤(pán)驅(qū)動(dòng)器往往做不到它一點(diǎn),它只會(huì)把所有信息都看作數(shù)據(jù)塊?!?/p>
因此加里德的團(tuán)隊(duì)必須從零開(kāi)始構(gòu)建一套專(zhuān)用于存儲(chǔ)加速分析的文件系統(tǒng),否則一切都只是空談。
“我們不希望這事只有阿拉莫斯實(shí)驗(yàn)室自己參與,畢竟我們后續(xù)得定期采購(gòu)、還需要廠商提供售后支持?!?/p>
于是,阿拉莫斯實(shí)驗(yàn)室選擇對(duì)現(xiàn)有文件系統(tǒng)做“魔改”,選擇的則是Sun Microsystems早年間打造的Zettabyte文件系統(tǒng)。這是一套專(zhuān)門(mén)管理大型彈性磁盤(pán)驅(qū)動(dòng)器池的系統(tǒng),如今被人們親切稱(chēng)為Spinning Rust。ZFS還能配合Gluster實(shí)現(xiàn)多節(jié)點(diǎn)擴(kuò)展,Gluster則是Red Hat當(dāng)初收購(gòu)來(lái)的集群文件系統(tǒng)。至于分析任務(wù),工程師們將努力調(diào)整文件系統(tǒng),讓它能與Apache的分析堆棧配合運(yùn)作。
“我們希望努力打造出任何人都能使用的標(biāo)準(zhǔn)工具?!?/p>
雖然阿拉莫斯實(shí)驗(yàn)室及其合作伙伴有望構(gòu)建起一套能夠直驅(qū)分析處理的文件系統(tǒng),但其初期部署難度絕不是一般用戶(hù)所能承受的。
因此,格里德希望進(jìn)一步完善文件系統(tǒng)和分析工具,吸引標(biāo)準(zhǔn)機(jī)構(gòu)和軟件開(kāi)發(fā)者為其添加更多功能,最終打造出一款面向主流受眾的新方案。
任重而道遠(yuǎn)
格里德也承認(rèn),這方面還有很多工作要做?!耙_(dá)到消費(fèi)級(jí)應(yīng)用的程度,可謂是任重而道遠(yuǎn)。我們接下來(lái)要做的是將其轉(zhuǎn)化成某種對(duì)象模型,而不再是文件中的一個(gè)個(gè)塊?!?/p>
目前,阿拉莫斯實(shí)驗(yàn)室的初步目標(biāo)是將少量分析功能轉(zhuǎn)移至磁盤(pán)控制器。
“我們還沒(méi)有將完整的分析工作負(fù)載轉(zhuǎn)移到磁盤(pán)驅(qū)動(dòng)器上,目前做的主要是規(guī)約還有一部分合并。但總體來(lái)看,規(guī)約已經(jīng)可以在設(shè)備層次上實(shí)現(xiàn),之后還有合并和排序這類(lèi)通常在閃存或內(nèi)存中實(shí)現(xiàn)的操作?!?/p>
目前最大的障礙并不是算力,而是磁盤(pán)所內(nèi)置的有限內(nèi)存。格里德坦言,“現(xiàn)在磁盤(pán)的內(nèi)置內(nèi)存太小,不足以做排序,只能完成選擇操作。所以接下來(lái)的問(wèn)題是,我們要怎樣增加磁盤(pán)的內(nèi)置內(nèi)存容量來(lái)提升操作復(fù)雜度。”
審核編輯 :李倩
-
驅(qū)動(dòng)器
+關(guān)注
關(guān)注
52文章
8236瀏覽量
146369 -
控制器
+關(guān)注
關(guān)注
112文章
16361瀏覽量
178071 -
機(jī)械硬盤(pán)
+關(guān)注
關(guān)注
1文章
222瀏覽量
25399
原文標(biāo)題:洛斯阿拉莫斯實(shí)驗(yàn)室聯(lián)手希捷,嘗試將計(jì)算與機(jī)械硬盤(pán)相結(jié)合
文章出處:【微信號(hào):cunchujie,微信公眾號(hào):存儲(chǔ)界】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論