“百模大戰(zhàn)”愈演愈烈,AI產(chǎn)業(yè)化前夜似乎已在不知不覺中來臨。海量數(shù)據(jù)爆發(fā),計算量指數(shù)級增長,傳統(tǒng)基礎(chǔ)設(shè)施架構(gòu)下的算力已經(jīng)無法滿足模型時代的需求。據(jù)OpenAI測算,全球AI訓(xùn)練所用的計算量呈現(xiàn)指數(shù)級增長,平均每3.43個月便會增長一倍,目前計算量已擴(kuò)大30萬倍,遠(yuǎn)超算力增長速度。國家信息中心聯(lián)合浪潮信息發(fā)布的《智能計算中心創(chuàng)新發(fā)展指南》顯示,當(dāng)前我國超過30個城市正在建設(shè)或提出建設(shè)智算中心,但仍然無法滿足相關(guān)需求。模型建設(shè)究竟需要多少算力?如何更大程度挖掘出現(xiàn)有算力的潛力?又該如何通過優(yōu)化資源調(diào)度讓算力價值最大化?模型“狂歡”之后,是時候回歸“冷靜”了。
01. 供需失衡下的算力之困
打造一個AI大模型究竟需要多少算力?公開數(shù)據(jù)顯示,ChatGPT初始所需的算力就是1萬塊英偉達(dá)A100(一種AI芯片),價格超過7億元。后續(xù)的調(diào)優(yōu)訓(xùn)練每天消耗算力大概是3640PFLOPS,需要7至8個算力達(dá)500PFLOPS的數(shù)據(jù)中心支持,建設(shè)成本約為三、四十億元。
“大模型的用戶量、訪問速度、網(wǎng)絡(luò)帶寬、訓(xùn)練模式等都會影響到其算力需求的大小?!敝袊茖W(xué)院計算技術(shù)研究所研究員張云泉在接受《中國電子報》記者采訪時表示,“要訓(xùn)練一個中國版的ChatGPT,首先要部署價值至少7億元的硬件設(shè)施,還要準(zhǔn)備大筆訓(xùn)練調(diào)優(yōu)的費(fèi)用?!?/p>
騰訊云異構(gòu)計算產(chǎn)品負(fù)責(zé)人宋丹丹對《中國電子報》記者介紹稱,大模型對算力的要求分為訓(xùn)練和推理兩個階段。訓(xùn)練需要短時間內(nèi)的并行算力,而且要在短時間內(nèi)能夠做到交付,對算力的量、算力的穩(wěn)定性和性能、彈性擴(kuò)縮容能力有高要求。進(jìn)入推理階段,對于單位算力的性價比、成本、算力所處的位置、端應(yīng)用服務(wù)是否能夠快速連接等要求比較高。這就要求企業(yè)具備海量的可擴(kuò)縮容的高性能算力,并且這些算力能夠穩(wěn)定交付。
近日,廣發(fā)證券對國內(nèi)AI大模型的訓(xùn)練和推理階段算力需求,以及相應(yīng)的成本進(jìn)行了測算。結(jié)果顯示,在暫不考慮軟件層面算法優(yōu)化帶來的模型消耗算力成本下降的前提下,國內(nèi)大模型在訓(xùn)練與推理階段或?qū)a(chǎn)生相當(dāng)于1.1萬臺或3.8萬臺(樂觀假設(shè)下)高端AI服務(wù)器的算力需求,以單片A100售價10萬元、AI加速卡價值量占服務(wù)器整機(jī)約70%計算,則對應(yīng)約126億元或434億元增量AI服務(wù)器市場規(guī)模。
“實(shí)際上,算力之困已經(jīng)爆發(fā)了?!睆堅迫寡?,國內(nèi)目前大模型存在技術(shù)水平不高、同質(zhì)化等問題,主要是算力層面和國外差距比較大,沒有算力基礎(chǔ),后面算法等都無法進(jìn)一步發(fā)展。大模型企業(yè)不是不愿意盡快更新迭代,而是算力不夠用,只能精打細(xì)算。
浪潮云首席技術(shù)官孫思清在接受《中國電子報》記者采訪時表示,從通用算力到智能算力,算力需求的變化其實(shí)與場景需求密切相關(guān)。伴隨模型參數(shù)規(guī)模越來越大,智能化程度越來越高,對并行計算能力以及包括存儲、網(wǎng)絡(luò)等在內(nèi)的底層基礎(chǔ)硬件能力,以及擴(kuò)展性、靈活性的要求也越高。此外,算力還要與大模型本身進(jìn)行更好的適配。
模型層出不窮,智能算力需求隨之激增。據(jù)一些服務(wù)器廠商透露,目前智算服務(wù)器出貨量已經(jīng)超過通用CPU。不過,孫思清表示,未來,隨著軟硬件升級和大模型核心技術(shù)的提升,同等規(guī)模的大模型所需算力也許會逐漸減少。
實(shí)際上,不只是大模型,人工智能應(yīng)用已無處不在。這些看得見的應(yīng)用背后,皆是看不見的智能算力在支撐。如何破解算力供需失衡的新課題?業(yè)內(nèi)專家普遍認(rèn)為,要做“加法”,也要做“減法”。
02. 做“加法”:軟硬皆施,提升利用率
“我國算力的利用率只有30%。”中國工程院院士鄔賀銓坦言。工信部最新數(shù)據(jù)顯示,中國算力總規(guī)模居全球第二,保持30%左右的年增長率。新增算力設(shè)施中,智能算力占比已超過50%。在多個權(quán)威市場分析機(jī)構(gòu)的排名中,美國和中國都屬于算力的領(lǐng)跑者,主要差距在于計算效率和應(yīng)用水平。
提升算力供給能力是重中之重?!安煌诔阈枰?4位雙精度浮點(diǎn)運(yùn)算,智能算力多為32及以下的低精度運(yùn)算,它是分階段的,可以通過硬件加速來實(shí)現(xiàn)算力提升?!睆堅迫硎?。比如,隨著數(shù)據(jù)量的增長和計算任務(wù)的復(fù)雜化,CPU、GPU需要具備更高的計算和處理能力,存儲器需要具備更大的容量和更快的讀寫速度。同時,算力提升還需要更大的網(wǎng)絡(luò)帶寬、速度更快的網(wǎng)絡(luò)設(shè)備,從而更快地完成大規(guī)模數(shù)據(jù)傳輸和處理。
“硬件層面,CPU、GPU等核心硬件的性能越來越高,將有效提升算力供給能力;軟件層面,模型算法和計算框架的優(yōu)化,也能緩解一定的算力壓力,減少對算力的依賴。”孫思清表示。這“一增一減”之間,算力供需平衡將找到新的出路。
“智算即異構(gòu)計算。相對于只用CPU的通用計算,在服務(wù)器里CPU+GPU就是異構(gòu)計算。背后的邏輯,是讓最適合的專用硬件去做最適合的事?!彼蔚さけ硎?,“對于整個算力的優(yōu)化是分層級解決的。除了計算資源自身的架構(gòu)和性能提升,也就是卡的迭代外,我們會在虛擬化層,通過GPU虛擬化或者計算池化等等一系列的技術(shù),把算力做更多的多機(jī)多卡互聯(lián),然后把它以云服務(wù)、容器、Serverless或者實(shí)例的模式更靈活地對外使用。在平臺層,通過任務(wù)流的模式,以深入上層服務(wù)的方式進(jìn)一步優(yōu)化計算效率?!?/p>
鄔賀銓指出,降低算力使用門檻,才能讓更多企業(yè)用得上、用得起現(xiàn)有的算力資源。目前國外有些企業(yè)已經(jīng)把硬件服務(wù)器資源開放出來,也包括算力、算法的模型平臺。而在國內(nèi),百度、阿里、華為等大企業(yè)也已開放平臺,這意味著中小企業(yè)只要有意愿需求,都可以利用這些平臺做數(shù)據(jù)訓(xùn)練?!澳壳皣鴥?nèi)已經(jīng)意識到要讓算力更簡單、降低算力使用門檻的趨勢?!彼f道。
03. 做“減法”:化繁為簡,優(yōu)化資源調(diào)度
要讓算力發(fā)揮更大價值,除了提升現(xiàn)有算力利用率,還可以通過簡化算力資源匹配與調(diào)度過程的方式實(shí)現(xiàn)事半功倍的效果。
日前,復(fù)旦大學(xué)率先選擇將智能計算平臺CFFF部署在公有云上。據(jù)復(fù)旦大學(xué)“浩清”教授、人工智能創(chuàng)新與產(chǎn)業(yè)研究院院長漆遠(yuǎn)透露,有賴于公共云模式,跑在CFFF平臺上的項(xiàng)目可享受到超千卡并行的智能算力,千卡并行的有效算力達(dá)到行業(yè)領(lǐng)先的92%,可拓展性達(dá)到萬卡,萬卡并行有效算力也可達(dá)90%。
中國工程院院士、阿里云創(chuàng)始人王堅指出,從計算到智算,公共云提供的是像電一樣的計算服務(wù),把算力基礎(chǔ)設(shè)施部署在公共云上將加速推動產(chǎn)業(yè)步入開放發(fā)展的新階段。在他看來,AI大模型的訓(xùn)練和運(yùn)營需要集約化、在線的算力基礎(chǔ)設(shè)施。集約化的算力基礎(chǔ)設(shè)施是基礎(chǔ)支撐,要求更高的計算并行性、更高的計算效率、更低的計算成本,并且要求適配各類專用計算芯片。在線化對算力提出更高要求,從模型訓(xùn)練和應(yīng)用看,需要形成“用戶膨脹、使用反饋、模型進(jìn)化”的飛輪效應(yīng),海量用戶在線使用和大規(guī)模API調(diào)用集成等都需要在線化的算力資源。這種集約化、在線化的需求,與公共云集中建設(shè)運(yùn)維、彈性伸縮、按需服務(wù)的商業(yè)模式不謀而合。
“云是大模型最好的承載方式,也是訓(xùn)練和應(yīng)用大模型的最佳平臺?!彼蔚さぶ赋?,一方面,云上具備領(lǐng)先的軟硬件架構(gòu)、面向未來的技術(shù)架構(gòu)和研發(fā)體系。對AI企業(yè)而言,從本地搭建服務(wù)器架構(gòu)可能不是一個合適的選擇。借助云上豐富的能力和產(chǎn)品,如云上的算力、網(wǎng)絡(luò)、向量數(shù)據(jù)庫,企業(yè)可以聚焦于大模型研發(fā)本身,業(yè)務(wù)開發(fā)的敏捷度也能進(jìn)一步提升。另一方面,打造大模型需要的算力規(guī)模,對企業(yè)現(xiàn)金流的挑戰(zhàn)很大。云上的算力形式,可以根據(jù)用戶需求靈活分配計算資源,同時也提升了大模型的訓(xùn)練和推理效率。
孫思清認(rèn)為,公有云集約化的特點(diǎn)有助于算力共享模式的實(shí)現(xiàn)。大模型的訓(xùn)練并不是一直滿負(fù)荷進(jìn)行的,空閑的時候,可以利用云的模式將算力池化,與其他有算力需求的企業(yè)共享。但同時他也指出,現(xiàn)實(shí)操作起來存在困難,數(shù)據(jù)歸屬、隱私保護(hù)、合規(guī)性等問題都需要考慮。
他表示,算力可以當(dāng)作“水電”來用,但數(shù)據(jù)不可以。“水電”能動,但“水廠”“電廠”不能動,分布式算力并不能適用所有場景。此外,算力互聯(lián)還需建立標(biāo)準(zhǔn)化的運(yùn)營體系,算力如何計量、如何付費(fèi)、如何結(jié)算都需要探討。
張云泉表示,具體問題要具體分析,不能一概而論。幾十億參數(shù)規(guī)模的大模型放在云上可以,幾百億、上千億規(guī)模的大模型肯定不行。中等規(guī)模以下的智算中心可以部署在公有云上,但大規(guī)模的智算中心如果部署在公有云上,網(wǎng)絡(luò)延遲會很大,難以支撐高端計算。另外,運(yùn)營商也會考慮到用云成本以及上云后是否會被云廠商“鎖定”等問題。
他認(rèn)為,優(yōu)化算力調(diào)度不能光靠算力網(wǎng)絡(luò)的互聯(lián)互通來解決問題。首先要盡快推進(jìn)接口協(xié)議,定義標(biāo)準(zhǔn)、建立標(biāo)準(zhǔn);其次要優(yōu)化算力調(diào)度管理軟件,同時建設(shè)安全體系;此外,要選擇成熟芯片和生態(tài)完善的技術(shù)路線,這樣智算中心用起來效率才能達(dá)到比較高的水平。建議組建生態(tài)聯(lián)合體,共同打造1~2個大規(guī)模的智算中心,協(xié)同訓(xùn)練少數(shù)幾個通用大模型,共享算力資源。”
“未來,大模型將走向相對開放的生態(tài),開源是一個重要趨勢?!睂O思清說道。他建議,政府層面應(yīng)做好算力資源的統(tǒng)籌,重點(diǎn)聚焦合規(guī)性管控和集約化建設(shè),把握好節(jié)奏,避免“一窩蜂”導(dǎo)致大量算力的浪費(fèi)。企業(yè)層面應(yīng)持續(xù)加打技術(shù)創(chuàng)新與場景實(shí)踐力度,分工合作,協(xié)同發(fā)展。
-
運(yùn)營商
+關(guān)注
關(guān)注
4文章
2398瀏覽量
44532 -
AI
+關(guān)注
關(guān)注
87文章
31294瀏覽量
269648 -
算力
+關(guān)注
關(guān)注
1文章
1007瀏覽量
14883 -
大模型
+關(guān)注
關(guān)注
2文章
2514瀏覽量
2931
原文標(biāo)題:模型“狂歡”之下, 算力之困何解?
文章出處:【微信號:算力基建,微信公眾號:算力基建】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論