0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

算力荒緩解,自主化智算還有必要嗎?

腦極體 ? 來源:腦極體 ? 作者:腦極體 ? 2024-12-23 11:01 ? 次閱讀

wKgZPGdo0nWALojkAAqPBb7uwEU656.jpg

2023年大煉模型興起,全球范圍內(nèi)都出現(xiàn)了算力供不應(yīng)求、一卡難求的情況。各地紛紛興建數(shù)據(jù)中心、智算中心,來解決國產(chǎn)大模型的算力短缺問題。

今年算力市場又倒向了另一個方向,算力開始過剩和大量閑置了。

主要體現(xiàn)在,高端顯卡囤積居奇的生意不好做了,“GPU倒?fàn)敗钡呐笥讶σ呀?jīng)從“欲購從速,過時不候”,變成了“A100/H100滯銷,幫幫我們”。而算力租賃市場,理想情況下的上架率應(yīng)該是80%,但很多集群只能達(dá)到30%甚至更低,投入大量資金建設(shè)的算力閑置,租不出去。

于是一種聲音開始甚囂塵上,認(rèn)為算力荒已經(jīng)緩解了,供過于求,應(yīng)該放慢自主化智算的建設(shè)。還有人說,智算中心建的太多了,大模型都用不完了。

發(fā)展自主化智算,到底還有沒有必要?

wKgZPGdo0naAdNk3AAJhzAurqOk162.jpg

還記得2023年算力荒焦灼、智算建設(shè)突飛猛進(jìn)的時候,倪光南院士曾提到過:各地盲目建設(shè)各種低水平智算中心,讓人唏噓不已,一定要警惕“技術(shù)房地產(chǎn)”和“數(shù)字爛尾樓”。所謂“技術(shù)房地產(chǎn)”,就是算力資源賣不出去,只能變成一堆放著服務(wù)器的磚頭水泥房子,閑置在那里。

短短一年多時間,從算力短缺到算力過剩,究竟是怎么發(fā)生的?目前來看,閑置算力主要集中在三種情況:

1.用不起。英偉達(dá)的高端顯卡GPU是AI訓(xùn)練的首選,2023年一度一卡難求。以N卡為主的智算資源閑置,一是因為巨頭們此前已經(jīng)大量囤積采購了GPU,需求減少;二是炒作之后價格昂貴,即使價格回落,中小企業(yè)還是用不起。在很多討論“算力過?!钡脑u論區(qū),我們總能看到“降價試試”的留言,說明高端AI算力的需求仍在,只是昂貴的N卡被價格勸退了。

2.不好用。國產(chǎn)卡組成的算力集群,也存在上架率不高、資源閑置的問題,主要是不好用。因為國產(chǎn)卡的集中度不高,一個千卡或萬卡集群,往往是由各類國產(chǎn)算力卡組成的,異構(gòu)算力之間的協(xié)同調(diào)度,涉及大量工程化細(xì)節(jié),沒有做好就無法開箱即用。勉強用了,又時不時出現(xiàn)業(yè)務(wù)中斷、算效不高、恢復(fù)訓(xùn)練慢等各種問題,導(dǎo)致客戶流失。這類被迫閑置的國產(chǎn)算力,正是沒有考慮配套,盲目建設(shè)的低水平智算中心。

3.用不上?!鞍倌4髴?zhàn)”之后,企業(yè)不再大煉模型,預(yù)訓(xùn)練的算力需求也就大幅下降,算力市場開始轉(zhuǎn)向以推理算力為主。但推理市場的爆發(fā),需要一個過程,目前AI的行業(yè)滲透率還比較低,總體不到10%,很多企業(yè)對AI的投入以嘗試為主,還沒有大規(guī)模爆發(fā)。所以,訓(xùn)練用算力開始出現(xiàn)閑置,而推理用算力還未大規(guī)模崛起,因此短缺問題尚未完全顯現(xiàn)。

低水平算力的閑置與過剩,再一次警醒我們:一個繁榮健康的算力市場,關(guān)鍵不是建出來,而是用起來。

wKgZPGdo0naAC-z0AAH4xXRpIuk209.jpg

這種情況下,仍然大力發(fā)展自主化智算,還有必要嗎?

我們認(rèn)為,這個問題的答案不該有猶豫,要旗幟鮮明地,鼓勵自主化智算基礎(chǔ)設(shè)施的繼續(xù)建設(shè)、加速建設(shè)。

首先,從長期看,國內(nèi)智算屬于后發(fā),基礎(chǔ)仍然薄弱。

中國智算的進(jìn)步速度是很快的,但也要客觀看到,美國這樣的IT先行者,從20世紀(jì)90年代以來就在IT建設(shè)上大力投入。根據(jù)彼得森國際經(jīng)濟(jì)研究所的消息,在2024年美國在電子制造業(yè)建設(shè)方面(主要是芯片)的投資,就超過了1996年至2020年(24年的時間跨度)的總投資。而產(chǎn)業(yè)界,xAI、Meta、OpenAI等海外AI巨頭,都在積極布局十萬卡、五十萬卡規(guī)模的智算集群。

所以,國內(nèi)自主化智算近年來的發(fā)展雖然迅猛,也是在積極補課,打牢基礎(chǔ)。這時候如果停止,不僅會前功盡棄,還會讓中美在AI基礎(chǔ)設(shè)施上的差距進(jìn)一步拉大。

從近期看,自主化AI算力需求仍然沒有得到充分滿足,算力荒仍在。

一方面,海外AI算力進(jìn)口受到限制,極不穩(wěn)定。目前,國內(nèi)AI訓(xùn)練芯片市場英偉達(dá)占據(jù)了80%~80%的市場份額,要避免威脅供應(yīng)鏈安全,這種情況必須盡快改變。上海的“算力浦江”智算行動實施方案(2024—2025年)要在2025年,實現(xiàn)新建智算中心的國產(chǎn)算力芯片使用占比超過50%;《北京市算力基礎(chǔ)設(shè)施建設(shè)實施方案(2024—2027年)》則提出,2027年要具備100%自主可控智算中心建設(shè)能力。

三年左右,從不到20%發(fā)展到100%。所以,如今的自主化智算不是太多了,而是還不夠。

與此同時,算力需求仍在增長。大模型的規(guī)模法則仍在繼續(xù),以Sora為代表的視頻生成模型對算力的需求量是LLM大模型的數(shù)倍,已經(jīng)出現(xiàn)了“一棟樓放不下一個模型”“一個模型需要多個集群”的情況,超萬卡智算中心是必不可少的基礎(chǔ)設(shè)施,目前國內(nèi)的十萬卡集群還遠(yuǎn)遠(yuǎn)不足。

此外,大煉模型的階段雖然結(jié)束了,但基礎(chǔ)模型的市場集中度提高和能力提高,又會釋放AI應(yīng)用需求,促進(jìn)AI的行業(yè)滲透率、普及率,導(dǎo)致AI推理算力的需求爆發(fā),急需要更多高質(zhì)量算力來滿足。目前部分國產(chǎn)AI算力集群的利用率極高,西安昇騰智能科技有限公司的人工智算中心算力使用率就高達(dá)98.5%;曙光在長沙的5A級智算中心,也吸引上百家企業(yè)入駐,實現(xiàn)萬余個商業(yè)應(yīng)用接入。因此,隨著產(chǎn)業(yè)智能化升級的繼續(xù)推進(jìn),國產(chǎn)AI算力荒不是已經(jīng)解決,而是從現(xiàn)在開始重視和應(yīng)對。

互聯(lián)網(wǎng)產(chǎn)業(yè)的核心,當(dāng)然不是寬帶和機房,但沒有“寬帶高速公路”,就沒有美國互聯(lián)網(wǎng)經(jīng)濟(jì)的爆發(fā);移動互聯(lián)網(wǎng)的核心,也不是基站,但沒有廣泛覆蓋的4G基站,就沒有智能手機和移動應(yīng)用軟件的興起。AI大模型也是一樣, AI作為一種依附在基礎(chǔ)設(shè)施之上的軟件技術(shù),核心不是智算,但沒有自主化智算,國內(nèi)AI絕不可能獨善其身、獨自蓬勃發(fā)展。

因此,自主化智算并不存在過剩,更不該就此放慢發(fā)展。

wKgZPGdo0niAeCxJAAJVXfK1gHM154.jpg

綜上,“國內(nèi)AI算力過?!?,是個假問題,“如何合理地推進(jìn)自主化智算的建設(shè)”,才是真問題。

解決這個真問題,國內(nèi)智算產(chǎn)業(yè)已經(jīng)來到了承上啟下的新階段。不僅要追求把智算中心“建起來”,還要能運營好、用起來。

因此,智算廠商的競爭,也從售賣硬件資源與智算解決方案,轉(zhuǎn)變?yōu)槎嗑S度、綜合性、長期服務(wù)的競爭。比如華為昇騰AI全棧、中科曙光的“立體計算”、寧暢的“全局智算”、聯(lián)想的“萬全生態(tài)”,新華三的“1+N”智算等,以更全面的能力,支撐自主化智算的建設(shè)運營。

wKgZO2do0niAR8yCAABY6QimnW4345.jpg

追求全面,并不意味著胡子眉毛一把抓,目前來看,智算廠商們主要集中解決自主化AI算力的幾個痛點問題:

1.異構(gòu)問題。目前,國產(chǎn)AI芯片還無法規(guī)?;鲐?,市場集中度較低,因此都是以混合算力的形式,來加入智算集群。多元異構(gòu)算力的協(xié)同調(diào)度、管理、算效、業(yè)務(wù)可靠性等,面臨很多技術(shù)挑戰(zhàn)。如果一個企業(yè)或開發(fā)者,要針對ABCD不同廠商的卡進(jìn)行適配開發(fā),是不可能的。所以,就需要智算廠商提供相應(yīng)的系統(tǒng)平臺,屏蔽底層異構(gòu)硬件的復(fù)雜性,讓大家用好國產(chǎn)算卡。比如聯(lián)想的萬全異構(gòu)智算平臺,實現(xiàn)異構(gòu)化AI算力的管理與調(diào)配;新華三面向異構(gòu)智算的智能管理平臺,一站式應(yīng)對多樣化的AI應(yīng)用場景。

2.算效問題。解決“低質(zhì)量算力過剩,自主化高質(zhì)量算力不足”的結(jié)構(gòu)性問題,需要進(jìn)一步提高國產(chǎn)AI的性能。面對工藝制程的限制,可以通過軟硬件系統(tǒng)的無縫配合,從而實現(xiàn)國產(chǎn)算卡性能的充分釋放。以昇騰為例,就與昇思緊密結(jié)合,為各類智算場景提供高性能的自主化AI算力,深圳鵬城實驗室的“鵬城云腦Ⅱ”就依托昇騰實現(xiàn)了中國首個自主可控的E級智能算力平臺,可以提供不低于1000Pops的整機AI計算能力。

3.運營問題。如今,一些地方在智算中心建設(shè)之前,開始提出上架率、收益率等要求,需要保證項目投運后有一定的使用率。同時,也會要求建設(shè)方提供設(shè)計、使用、運營等一體化服務(wù),避免智算中心因無人運營而成為“數(shù)字爛尾樓”。以用促建、以服促用,已經(jīng)是自主化智算發(fā)展的必然潮流。比如新華三與杭州市合作,打造“圖靈小鎮(zhèn)”,培育AIGC產(chǎn)業(yè)和數(shù)字人才;中科曙光“立體計算”主張“算力建設(shè)、應(yīng)用賦能、生態(tài)共生”三位一體,推動多元算力向新質(zhì)生產(chǎn)力轉(zhuǎn)化,目前已經(jīng)在5A級智算中心落地實踐。

wKgZPGdo0nmAP-crAAM0iGTYFJI731.jpg

回顧這一年多來,國內(nèi)智算的發(fā)展突飛猛進(jìn),取得了舉世矚目的成績,我們不必再為算力荒而憂心忡忡。但人無遠(yuǎn)慮必有近憂,AI算力的自主化之路不能就此戛然而止,而要一鼓作氣,再加把勁,把已經(jīng)取得的成果夯實,為接下來的智能浪潮做好準(zhǔn)備。

避免低質(zhì)量算力過剩,與加速自主化智算發(fā)展,這兩件事可以并行不悖,也應(yīng)該理性分開看待。

wKgZO2do0nqAIjXLAAHUxLhXXGs779.jpg

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    30851

    瀏覽量

    269028
  • 算力
    +關(guān)注

    關(guān)注

    1

    文章

    973

    瀏覽量

    14806
收藏 人收藏

    評論

    相關(guān)推薦

    調(diào)度的基礎(chǔ)知識

    編者按 “調(diào)度”的概念,這幾年越來越多的被提及。剛聽到這個概念的時候,我腦海里一直拐不過彎。作為底層芯片出身的我,一直認(rèn)為:是硬件的服務(wù)器和集群,他在某個地方,就是固定的;根本
    的頭像 發(fā)表于 11-27 17:13 ?176次閱讀
    <b class='flag-5'>算</b><b class='flag-5'>力</b>調(diào)度的基礎(chǔ)知識

    基礎(chǔ)篇:從零開始了解

    即計算能力(Computing Power),狹義上指對數(shù)字問題的運算能力,而廣義上指對輸入信息處理后實現(xiàn)結(jié)果輸出的一種能力。雖然處理的內(nèi)容不同,但處理過程的能力都可抽象為。比
    的頭像 發(fā)表于 11-15 14:22 ?631次閱讀
    <b class='flag-5'>算</b><b class='flag-5'>力</b>基礎(chǔ)篇:從零開始了解<b class='flag-5'>算</b><b class='flag-5'>力</b>

    企業(yè)AI租賃是什么

    企業(yè)AI租賃是指企業(yè)通過互聯(lián)網(wǎng)向?qū)I(yè)的提供商租用所需的計算資源,以滿足其AI應(yīng)用的需求。以下是對企業(yè)AI
    的頭像 發(fā)表于 11-14 09:30 ?575次閱讀

    GPU開發(fā)平臺是什么

    隨著AI技術(shù)的廣泛應(yīng)用,需求呈現(xiàn)出爆發(fā)式增長。AI租賃作為一種新興的服務(wù)模式,正逐漸成為企業(yè)獲取
    的頭像 發(fā)表于 10-31 10:31 ?178次閱讀

    本源量子等向北京“金融量子云實驗平臺”提供自主量子

    近日,由本源量子提供自主量子主的“金融量子云實驗平臺”正式上線,該平臺由北京金融科技產(chǎn)業(yè)聯(lián)盟主辦,本源量子公司聯(lián)合共建,云端可提供量子真機
    的頭像 發(fā)表于 10-30 08:05 ?213次閱讀
    本源量子等向北京“金融量子云實驗平臺”提供<b class='flag-5'>自主</b>量子<b class='flag-5'>算</b><b class='flag-5'>力</b>

    大模型時代的需求

    現(xiàn)在AI已進(jìn)入大模型時代,各企業(yè)都爭相部署大模型,但如何保證大模型的,以及相關(guān)的穩(wěn)定性和性能,是一個極為重要的問題,帶著這個極為重要的問題,我需要在此書中找到答案。
    發(fā)表于 08-20 09:04

    中科曙光入選2024服務(wù)產(chǎn)業(yè)圖譜及服務(wù)產(chǎn)品名錄

    近日,中國信通院公布首個《服務(wù)產(chǎn)業(yè)圖譜(2024年)》及《服務(wù)產(chǎn)品名錄(2024年)》。曙光智構(gòu)建的全國一體
    的頭像 發(fā)表于 08-06 14:23 ?690次閱讀

    曙光攜手“互聯(lián)公共服務(wù)平臺”提高全國匹配效率

    的互聯(lián)互通,助力“互聯(lián)公共服務(wù)平臺”功能完善,實現(xiàn)全國一體體系建設(shè)目標(biāo)。 ? ? ? ? ? 按規(guī)劃,“
    的頭像 發(fā)表于 07-16 15:45 ?693次閱讀

    力系列基礎(chǔ)篇——與計算機性能:解鎖超能力的神秘力量!

    在《力系列基礎(chǔ)篇——101:從零開始了解》中,相信各位粉絲初步了解到人工智能的“發(fā)動機”和核心驅(qū)動力:
    的頭像 發(fā)表于 07-11 08:04 ?104次閱讀
    <b class='flag-5'>算</b>力系列基礎(chǔ)篇——<b class='flag-5'>算</b><b class='flag-5'>力</b>與計算機性能:解鎖超能力的神秘力量!

    基礎(chǔ)設(shè)施的風(fēng)險與挑戰(zhàn)

    編者按網(wǎng)絡(luò)有一個美好的愿景,就是希望網(wǎng),能像電力和電網(wǎng)一樣:
    的頭像 發(fā)表于 06-13 08:27 ?550次閱讀
    <b class='flag-5'>算</b><b class='flag-5'>力</b>基礎(chǔ)設(shè)施的風(fēng)險與挑戰(zhàn)

    力系列基礎(chǔ)篇——101:從零開始了解

    相信大家已經(jīng)感受到,我們正處在一個人工智能時代。如果要問在人工智能時代最重要的是什么?那必須是:!
    的頭像 發(fā)表于 04-24 08:05 ?1002次閱讀
    <b class='flag-5'>算</b>力系列基礎(chǔ)篇——<b class='flag-5'>算</b><b class='flag-5'>力</b>101:從零開始了解<b class='flag-5'>算</b><b class='flag-5'>力</b>

    十問:超,通存比

    鄔賀銓指出,現(xiàn)有測算方法難以精準(zhǔn)衡量。國內(nèi)企業(yè)服務(wù)器的出貨量并不等于國內(nèi)市場的使用量,而且進(jìn)口國外的服務(wù)器未統(tǒng)計在內(nèi);服務(wù)器出貨量也不等于上架量,更不等于已經(jīng)加電使用量。通常服務(wù)器集群的
    的頭像 發(fā)表于 04-13 11:40 ?4506次閱讀

    聚焦全國一體體系構(gòu)建,憶聯(lián)以強大存“引擎”釋放潛能

    是數(shù)字時代的生產(chǎn),為數(shù)字經(jīng)濟(jì)與實體經(jīng)濟(jì)深度融合提供了強大支持。在不久前結(jié)束的全國兩會中,“全國一體
    的頭像 發(fā)表于 03-22 18:13 ?529次閱讀
    聚焦全國一體<b class='flag-5'>化</b><b class='flag-5'>算</b><b class='flag-5'>力</b>體系構(gòu)建,憶聯(lián)以強大存<b class='flag-5'>力</b>“引擎”釋放<b class='flag-5'>算</b><b class='flag-5'>力</b>潛能

    智能規(guī)模超通用,大模型對智能提出高要求

    電子發(fā)燒友網(wǎng)報道(文/李彎彎)是設(shè)備通過處理數(shù)據(jù),實現(xiàn)特定結(jié)果輸出的計算能力,常用FLOPS作為計量單位。FLOPS是Floating-point Operations Per Second
    的頭像 發(fā)表于 02-06 00:08 ?6340次閱讀

    大茉莉X16-P,5800M大稱王稱霸

    Rykj365
    發(fā)布于 :2024年01月25日 14:54:52