2023年大煉模型興起,全球范圍內(nèi)都出現(xiàn)了算力供不應(yīng)求、一卡難求的情況。各地紛紛興建數(shù)據(jù)中心、智算中心,來解決國產(chǎn)大模型的算力短缺問題。
今年算力市場又倒向了另一個方向,算力開始過剩和大量閑置了。
主要體現(xiàn)在,高端顯卡囤積居奇的生意不好做了,“GPU倒?fàn)敗钡呐笥讶σ呀?jīng)從“欲購從速,過時不候”,變成了“A100/H100滯銷,幫幫我們”。而算力租賃市場,理想情況下的上架率應(yīng)該是80%,但很多集群只能達(dá)到30%甚至更低,投入大量資金建設(shè)的算力閑置,租不出去。
于是一種聲音開始甚囂塵上,認(rèn)為算力荒已經(jīng)緩解了,供過于求,應(yīng)該放慢自主化智算的建設(shè)。還有人說,智算中心建的太多了,大模型都用不完了。
發(fā)展自主化智算,到底還有沒有必要?
還記得2023年算力荒焦灼、智算建設(shè)突飛猛進(jìn)的時候,倪光南院士曾提到過:各地盲目建設(shè)各種低水平智算中心,讓人唏噓不已,一定要警惕“技術(shù)房地產(chǎn)”和“數(shù)字爛尾樓”。所謂“技術(shù)房地產(chǎn)”,就是算力資源賣不出去,只能變成一堆放著服務(wù)器的磚頭水泥房子,閑置在那里。
短短一年多時間,從算力短缺到算力過剩,究竟是怎么發(fā)生的?目前來看,閑置算力主要集中在三種情況:
1.用不起。英偉達(dá)的高端顯卡GPU是AI訓(xùn)練的首選,2023年一度一卡難求。以N卡為主的智算資源閑置,一是因為巨頭們此前已經(jīng)大量囤積采購了GPU,需求減少;二是炒作之后價格昂貴,即使價格回落,中小企業(yè)還是用不起。在很多討論“算力過?!钡脑u論區(qū),我們總能看到“降價試試”的留言,說明高端AI算力的需求仍在,只是昂貴的N卡被價格勸退了。
2.不好用。國產(chǎn)卡組成的算力集群,也存在上架率不高、資源閑置的問題,主要是不好用。因為國產(chǎn)卡的集中度不高,一個千卡或萬卡集群,往往是由各類國產(chǎn)算力卡組成的,異構(gòu)算力之間的協(xié)同調(diào)度,涉及大量工程化細(xì)節(jié),沒有做好就無法開箱即用。勉強用了,又時不時出現(xiàn)業(yè)務(wù)中斷、算效不高、恢復(fù)訓(xùn)練慢等各種問題,導(dǎo)致客戶流失。這類被迫閑置的國產(chǎn)算力,正是沒有考慮配套,盲目建設(shè)的低水平智算中心。
3.用不上?!鞍倌4髴?zhàn)”之后,企業(yè)不再大煉模型,預(yù)訓(xùn)練的算力需求也就大幅下降,算力市場開始轉(zhuǎn)向以推理算力為主。但推理市場的爆發(fā),需要一個過程,目前AI的行業(yè)滲透率還比較低,總體不到10%,很多企業(yè)對AI的投入以嘗試為主,還沒有大規(guī)模爆發(fā)。所以,訓(xùn)練用算力開始出現(xiàn)閑置,而推理用算力還未大規(guī)模崛起,因此短缺問題尚未完全顯現(xiàn)。
低水平算力的閑置與過剩,再一次警醒我們:一個繁榮健康的算力市場,關(guān)鍵不是建出來,而是用起來。
這種情況下,仍然大力發(fā)展自主化智算,還有必要嗎?
我們認(rèn)為,這個問題的答案不該有猶豫,要旗幟鮮明地,鼓勵自主化智算基礎(chǔ)設(shè)施的繼續(xù)建設(shè)、加速建設(shè)。
首先,從長期看,國內(nèi)智算屬于后發(fā),基礎(chǔ)仍然薄弱。
中國智算的進(jìn)步速度是很快的,但也要客觀看到,美國這樣的IT先行者,從20世紀(jì)90年代以來就在IT建設(shè)上大力投入。根據(jù)彼得森國際經(jīng)濟(jì)研究所的消息,在2024年美國在電子制造業(yè)建設(shè)方面(主要是芯片)的投資,就超過了1996年至2020年(24年的時間跨度)的總投資。而產(chǎn)業(yè)界,xAI、Meta、OpenAI等海外AI巨頭,都在積極布局十萬卡、五十萬卡規(guī)模的智算集群。
所以,國內(nèi)自主化智算近年來的發(fā)展雖然迅猛,也是在積極補課,打牢基礎(chǔ)。這時候如果停止,不僅會前功盡棄,還會讓中美在AI基礎(chǔ)設(shè)施上的差距進(jìn)一步拉大。
從近期看,自主化AI算力需求仍然沒有得到充分滿足,算力荒仍在。
一方面,海外AI算力進(jìn)口受到限制,極不穩(wěn)定。目前,國內(nèi)AI訓(xùn)練芯片市場英偉達(dá)占據(jù)了80%~80%的市場份額,要避免威脅供應(yīng)鏈安全,這種情況必須盡快改變。上海的“算力浦江”智算行動實施方案(2024—2025年)要在2025年,實現(xiàn)新建智算中心的國產(chǎn)算力芯片使用占比超過50%;《北京市算力基礎(chǔ)設(shè)施建設(shè)實施方案(2024—2027年)》則提出,2027年要具備100%自主可控智算中心建設(shè)能力。
三年左右,從不到20%發(fā)展到100%。所以,如今的自主化智算不是太多了,而是還不夠。
與此同時,算力需求仍在增長。大模型的規(guī)模法則仍在繼續(xù),以Sora為代表的視頻生成模型對算力的需求量是LLM大模型的數(shù)倍,已經(jīng)出現(xiàn)了“一棟樓放不下一個模型”“一個模型需要多個集群”的情況,超萬卡智算中心是必不可少的基礎(chǔ)設(shè)施,目前國內(nèi)的十萬卡集群還遠(yuǎn)遠(yuǎn)不足。
此外,大煉模型的階段雖然結(jié)束了,但基礎(chǔ)模型的市場集中度提高和能力提高,又會釋放AI應(yīng)用需求,促進(jìn)AI的行業(yè)滲透率、普及率,導(dǎo)致AI推理算力的需求爆發(fā),急需要更多高質(zhì)量算力來滿足。目前部分國產(chǎn)AI算力集群的利用率極高,西安昇騰智能科技有限公司的人工智算中心算力使用率就高達(dá)98.5%;曙光在長沙的5A級智算中心,也吸引上百家企業(yè)入駐,實現(xiàn)萬余個商業(yè)應(yīng)用接入。因此,隨著產(chǎn)業(yè)智能化升級的繼續(xù)推進(jìn),國產(chǎn)AI算力荒不是已經(jīng)解決,而是從現(xiàn)在開始重視和應(yīng)對。
互聯(lián)網(wǎng)產(chǎn)業(yè)的核心,當(dāng)然不是寬帶和機房,但沒有“寬帶高速公路”,就沒有美國互聯(lián)網(wǎng)經(jīng)濟(jì)的爆發(fā);移動互聯(lián)網(wǎng)的核心,也不是基站,但沒有廣泛覆蓋的4G基站,就沒有智能手機和移動應(yīng)用軟件的興起。AI大模型也是一樣, AI作為一種依附在基礎(chǔ)設(shè)施之上的軟件技術(shù),核心不是智算,但沒有自主化智算,國內(nèi)AI絕不可能獨善其身、獨自蓬勃發(fā)展。
因此,自主化智算并不存在過剩,更不該就此放慢發(fā)展。
綜上,“國內(nèi)AI算力過?!?,是個假問題,“如何合理地推進(jìn)自主化智算的建設(shè)”,才是真問題。
解決這個真問題,國內(nèi)智算產(chǎn)業(yè)已經(jīng)來到了承上啟下的新階段。不僅要追求把智算中心“建起來”,還要能運營好、用起來。
因此,智算廠商的競爭,也從售賣硬件資源與智算解決方案,轉(zhuǎn)變?yōu)槎嗑S度、綜合性、長期服務(wù)的競爭。比如華為昇騰AI全棧、中科曙光的“立體計算”、寧暢的“全局智算”、聯(lián)想的“萬全生態(tài)”,新華三的“1+N”智算等,以更全面的能力,支撐自主化智算的建設(shè)運營。
追求全面,并不意味著胡子眉毛一把抓,目前來看,智算廠商們主要集中解決自主化AI算力的幾個痛點問題:
1.異構(gòu)問題。目前,國產(chǎn)AI芯片還無法規(guī)?;鲐?,市場集中度較低,因此都是以混合算力的形式,來加入智算集群。多元異構(gòu)算力的協(xié)同調(diào)度、管理、算效、業(yè)務(wù)可靠性等,面臨很多技術(shù)挑戰(zhàn)。如果一個企業(yè)或開發(fā)者,要針對ABCD不同廠商的卡進(jìn)行適配開發(fā),是不可能的。所以,就需要智算廠商提供相應(yīng)的系統(tǒng)平臺,屏蔽底層異構(gòu)硬件的復(fù)雜性,讓大家用好國產(chǎn)算卡。比如聯(lián)想的萬全異構(gòu)智算平臺,實現(xiàn)異構(gòu)化AI算力的管理與調(diào)配;新華三面向異構(gòu)智算的智能管理平臺,一站式應(yīng)對多樣化的AI應(yīng)用場景。
2.算效問題。解決“低質(zhì)量算力過剩,自主化高質(zhì)量算力不足”的結(jié)構(gòu)性問題,需要進(jìn)一步提高國產(chǎn)AI的性能。面對工藝制程的限制,可以通過軟硬件系統(tǒng)的無縫配合,從而實現(xiàn)國產(chǎn)算卡性能的充分釋放。以昇騰為例,就與昇思緊密結(jié)合,為各類智算場景提供高性能的自主化AI算力,深圳鵬城實驗室的“鵬城云腦Ⅱ”就依托昇騰實現(xiàn)了中國首個自主可控的E級智能算力平臺,可以提供不低于1000Pops的整機AI計算能力。
3.運營問題。如今,一些地方在智算中心建設(shè)之前,開始提出上架率、收益率等要求,需要保證項目投運后有一定的使用率。同時,也會要求建設(shè)方提供設(shè)計、使用、運營等一體化服務(wù),避免智算中心因無人運營而成為“數(shù)字爛尾樓”。以用促建、以服促用,已經(jīng)是自主化智算發(fā)展的必然潮流。比如新華三與杭州市合作,打造“圖靈小鎮(zhèn)”,培育AIGC產(chǎn)業(yè)和數(shù)字人才;中科曙光“立體計算”主張“算力建設(shè)、應(yīng)用賦能、生態(tài)共生”三位一體,推動多元算力向新質(zhì)生產(chǎn)力轉(zhuǎn)化,目前已經(jīng)在5A級智算中心落地實踐。
回顧這一年多來,國內(nèi)智算的發(fā)展突飛猛進(jìn),取得了舉世矚目的成績,我們不必再為算力荒而憂心忡忡。但人無遠(yuǎn)慮必有近憂,AI算力的自主化之路不能就此戛然而止,而要一鼓作氣,再加把勁,把已經(jīng)取得的成果夯實,為接下來的智能浪潮做好準(zhǔn)備。
避免低質(zhì)量算力過剩,與加速自主化智算發(fā)展,這兩件事可以并行不悖,也應(yīng)該理性分開看待。
審核編輯 黃宇
-
AI
+關(guān)注
關(guān)注
87文章
30851瀏覽量
269028 -
算力
+關(guān)注
關(guān)注
1文章
973瀏覽量
14806
發(fā)布評論請先 登錄
相關(guān)推薦
評論