算力是集信息計(jì)算力、網(wǎng)絡(luò)運(yùn)載力、數(shù)據(jù)存儲(chǔ)力于一體的新型生產(chǎn)力,主要通過算力中心等算力基礎(chǔ)設(shè)施向社會(huì)提供服務(wù)。算力基礎(chǔ)設(shè)施是新型信息基礎(chǔ)設(shè)施的重要組成部分,呈現(xiàn)多元泛在、智能敏捷、安全可靠、綠色低碳等特征,對(duì)于助推產(chǎn)業(yè)轉(zhuǎn)型升級(jí)、賦能科技創(chuàng)新進(jìn)步、滿足人民美好生活需要和實(shí)現(xiàn)社會(huì)高效能治理具有重要意義。
在第二屆“華彩杯”算力大賽啟動(dòng)會(huì)上,中國工程院院士鄔賀銓作了《算力十問》的主題演講。
一問:如何準(zhǔn)確衡量算力?
鄔賀銓指出,現(xiàn)有測(cè)算方法難以精準(zhǔn)衡量算力。國內(nèi)企業(yè)服務(wù)器的出貨量并不等于國內(nèi)市場(chǎng)的使用量,而且進(jìn)口國外的服務(wù)器未統(tǒng)計(jì)在內(nèi);服務(wù)器出貨量也不等于上架量,更不等于已經(jīng)加電使用量。通常服務(wù)器集群的算力不等于集群內(nèi)服務(wù)器算力之和;通過問卷調(diào)研方法收集的數(shù)據(jù)也未必能全面反映目前實(shí)際使用情況。
二問:超算、通算、智算三類算力是否可以互相調(diào)劑?
超算和通算可否承擔(dān)生成式大模型的訓(xùn)練和推理任務(wù)?智算適合承擔(dān)目前超算和通算的任務(wù)嗎?建設(shè)兼具三類節(jié)點(diǎn)能力的融合算力中心會(huì)有利于三類算力的調(diào)度嗎?
三問:三類算力有無合理比例?
鄔賀銓認(rèn)為,不同地區(qū)需求不同,不可能有固定的比例。通常國家與區(qū)域創(chuàng)新中心城市對(duì)超算有較大需求;機(jī)密性和時(shí)延敏感性決定了城市政務(wù)數(shù)據(jù)和重要企業(yè)關(guān)鍵數(shù)據(jù)盡量在同城通算;東部地區(qū)的AI訓(xùn)練任務(wù)重、智算比例高;西部算力樞紐也需要增加智算能力,但一般西部地區(qū)以配置通算為主。
四問:何謂合適的算存比?
鄔賀銓強(qiáng)調(diào),存力與算力需配合,避免因存力短缺造成算力等待而影響處理效率。而存力按位于服務(wù)器內(nèi)外分為內(nèi)存與外存,對(duì)于CPU密集型計(jì)算任務(wù),影響算力效率與性能的主要是內(nèi)存,據(jù)分析合理的算存比是GFlops/GB為1;對(duì)I/O密集計(jì)算任務(wù),需頻繁訪問外存,如何考慮計(jì)入外存力的算存比合理取值,值得商榷。鄔賀銓同時(shí)指出,存力有HDD機(jī)械硬盤和SDD固態(tài)硬盤之分,后者可節(jié)能70%,但我國SDD僅占24.7%,不及美國一半。
五問:如何根據(jù)大模型參數(shù)量及訓(xùn)練數(shù)據(jù)量來設(shè)計(jì)算力需求?
AI模型參數(shù)是指深度神經(jīng)網(wǎng)絡(luò)各層神經(jīng)元間連接矩陣的權(quán)重和偏置,模型輸出值=權(quán)重×輸入值+偏置。
算力規(guī)模(峰值Flops)≈8×訓(xùn)練數(shù)據(jù)(tokens Byte)×模型參數(shù)/訓(xùn)練時(shí)間(秒)×算力利用率(0.3~0.55)。
存力規(guī)模(Byte)≈10×模型參數(shù)×計(jì)算精度(Byte)。
理論上可以通過增加訓(xùn)練時(shí)長來降低對(duì)大模型訓(xùn)練算力的需求,但訓(xùn)練時(shí)長的增加意味算力芯片集群出錯(cuò)的次數(shù)增加,為應(yīng)對(duì)出錯(cuò)所需存盤開銷也增加,計(jì)算效率顯著下降。據(jù)OpenAI的經(jīng)驗(yàn),模型大小和數(shù)據(jù)集大小及用于訓(xùn)練的算力規(guī)模三個(gè)因素同時(shí)放大才有最佳效果,據(jù)分析,當(dāng)不受其他兩個(gè)因素的制約時(shí),大模型性能與單個(gè)因素都有冪律關(guān)系。
六問:如何利用邊緣與終端的算力?
當(dāng)邊緣/終端具有70億參數(shù)以上的推理能力時(shí),邊緣/終端可離線進(jìn)行推理任務(wù),目前手機(jī)可支持130億參數(shù),2024年還會(huì)出現(xiàn)支持千億參數(shù)的手機(jī)。當(dāng)邊緣/終端僅具有10億參數(shù)的推理能力時(shí),需要與云端協(xié)同提供智能能力。鄔賀銓提出,單終端算力小,數(shù)以億計(jì)的終端算力集合就非??捎^,但跨終端的協(xié)同計(jì)算是否可行值得商榷。
七問:異地算力節(jié)點(diǎn)的協(xié)同可行嗎?
鄔賀銓認(rèn)為,將算力集群擴(kuò)展到跨域,多個(gè)異地的算力節(jié)點(diǎn)共同承擔(dān)一個(gè)計(jì)算任務(wù),實(shí)時(shí)性的交互要求光傳輸系統(tǒng)無損和確定性時(shí)延,任何丟包和抖動(dòng)都無法保證計(jì)算效率;在異屬異構(gòu)的場(chǎng)景下異地協(xié)同計(jì)算的實(shí)施可操作性更是挑戰(zhàn)。他強(qiáng)調(diào),集約化建設(shè)大型算力節(jié)點(diǎn)比分布異地協(xié)同能夠顯著提升能效和算力效率,東數(shù)西算和數(shù)據(jù)災(zāi)備都需要在異地算力樞紐間建立廣域連接,但這僅是算力任務(wù)的轉(zhuǎn)移而不是異地實(shí)時(shí)協(xié)同計(jì)算。
八問:算力的接入需要集中管理與指配嗎?
不通過國家算力調(diào)度平臺(tái)能夠構(gòu)建全國一體化算力網(wǎng)和算力大市場(chǎng)嗎?或者可以由算力節(jié)點(diǎn)擁有方和需求方聯(lián)合建立算力服務(wù)聯(lián)盟,以市場(chǎng)機(jī)制來溝通供需。另外,在強(qiáng)調(diào)企業(yè)為主體發(fā)揮市場(chǎng)有效作用的前提下,還需要強(qiáng)化有為政府的角色,通過建立結(jié)對(duì)子等東西部聯(lián)動(dòng)機(jī)制強(qiáng)化區(qū)域間算力協(xié)同。
九問:算網(wǎng)協(xié)同做什么和如何做?
算力與網(wǎng)絡(luò)往往屬于不同的運(yùn)營主體,跨運(yùn)營商的協(xié)同調(diào)度也有管理難題。而且網(wǎng)絡(luò)通常并不感知所承載的數(shù)據(jù)屬性。當(dāng)前,首先要厘清算網(wǎng)協(xié)同的標(biāo)準(zhǔn)與方法,發(fā)揮IPv6的分段選路、SRV6作為算網(wǎng)協(xié)同統(tǒng)一承載協(xié)議的作用,通過編程空間實(shí)現(xiàn)云網(wǎng)/算網(wǎng)的融通。
十問:如何解除中小企業(yè)使用算力的顧慮?
鄔賀銓建議,政府站臺(tái)主導(dǎo)建設(shè)面向中小企業(yè)的云智平臺(tái),降低企業(yè)利用算力的門檻和對(duì)安全的擔(dān)心。
-
超算
+關(guān)注
關(guān)注
1文章
115瀏覽量
9074 -
算力
+關(guān)注
關(guān)注
1文章
977瀏覽量
14809 -
大模型
+關(guān)注
關(guān)注
2文章
2448瀏覽量
2700
原文標(biāo)題:算力十問:超算智算,通算及算存比
文章出處:【微信號(hào):AI_Architect,微信公眾號(hào):智能計(jì)算芯世界】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論