0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

模型“狂歡”之下,算力之困何解?

sakobpqhz ? 來源:算力基建 ? 2023-08-23 16:09 ? 次閱讀

“百模大戰(zhàn)”愈演愈烈,AI產(chǎn)業(yè)化前夜似乎已在不知不覺中來臨。海量數(shù)據(jù)爆發(fā),計算量指數(shù)級增長,傳統(tǒng)基礎(chǔ)設(shè)施架構(gòu)下的算力已經(jīng)無法滿足模型時代的需求。據(jù)OpenAI測算,全球AI訓(xùn)練所用的計算量呈現(xiàn)指數(shù)級增長,平均每3.43個月便會增長一倍,目前計算量已擴(kuò)大30萬倍,遠(yuǎn)超算力增長速度。國家信息中心聯(lián)合浪潮信息發(fā)布的《智能計算中心創(chuàng)新發(fā)展指南》顯示,當(dāng)前我國超過30個城市正在建設(shè)或提出建設(shè)智算中心,但仍然無法滿足相關(guān)需求。模型建設(shè)究竟需要多少算力?如何更大程度挖掘出現(xiàn)有算力的潛力?又該如何通過優(yōu)化資源調(diào)度讓算力價值最大化?模型“狂歡”之后,是時候回歸“冷靜”了。

01. 供需失衡下的算力之困

打造一個AI大模型究竟需要多少算力?公開數(shù)據(jù)顯示,ChatGPT初始所需的算力就是1萬塊英偉達(dá)A100(一種AI芯片),價格超過7億元。后續(xù)的調(diào)優(yōu)訓(xùn)練每天消耗算力大概是3640PFLOPS,需要7至8個算力達(dá)500PFLOPS的數(shù)據(jù)中心支持,建設(shè)成本約為三、四十億元。

“大模型的用戶量、訪問速度、網(wǎng)絡(luò)帶寬、訓(xùn)練模式等都會影響到其算力需求的大小?!敝袊茖W(xué)院計算技術(shù)研究所研究員張云泉在接受《中國電子報》記者采訪時表示,“要訓(xùn)練一個中國版的ChatGPT,首先要部署價值至少7億元的硬件設(shè)施,還要準(zhǔn)備大筆訓(xùn)練調(diào)優(yōu)的費(fèi)用?!?/p>

騰訊云異構(gòu)計算產(chǎn)品負(fù)責(zé)人宋丹丹對《中國電子報》記者介紹稱,大模型對算力的要求分為訓(xùn)練和推理兩個階段。訓(xùn)練需要短時間內(nèi)的并行算力,而且要在短時間內(nèi)能夠做到交付,對算力的量、算力的穩(wěn)定性和性能、彈性擴(kuò)縮容能力有高要求。進(jìn)入推理階段,對于單位算力的性價比、成本、算力所處的位置、端應(yīng)用服務(wù)是否能夠快速連接等要求比較高。這就要求企業(yè)具備海量的可擴(kuò)縮容的高性能算力,并且這些算力能夠穩(wěn)定交付。

近日,廣發(fā)證券對國內(nèi)AI大模型的訓(xùn)練和推理階段算力需求,以及相應(yīng)的成本進(jìn)行了測算。結(jié)果顯示,在暫不考慮軟件層面算法優(yōu)化帶來的模型消耗算力成本下降的前提下,國內(nèi)大模型在訓(xùn)練與推理階段或?qū)a(chǎn)生相當(dāng)于1.1萬臺或3.8萬臺(樂觀假設(shè)下)高端AI服務(wù)器的算力需求,以單片A100售價10萬元、AI加速卡價值量占服務(wù)器整機(jī)約70%計算,則對應(yīng)約126億元或434億元增量AI服務(wù)器市場規(guī)模。

“實(shí)際上,算力之困已經(jīng)爆發(fā)了?!睆堅迫寡?,國內(nèi)目前大模型存在技術(shù)水平不高、同質(zhì)化等問題,主要是算力層面和國外差距比較大,沒有算力基礎(chǔ),后面算法等都無法進(jìn)一步發(fā)展。大模型企業(yè)不是不愿意盡快更新迭代,而是算力不夠用,只能精打細(xì)算。

浪潮云首席技術(shù)官孫思清在接受《中國電子報》記者采訪時表示,從通用算力到智能算力,算力需求的變化其實(shí)與場景需求密切相關(guān)。伴隨模型參數(shù)規(guī)模越來越大,智能化程度越來越高,對并行計算能力以及包括存儲、網(wǎng)絡(luò)等在內(nèi)的底層基礎(chǔ)硬件能力,以及擴(kuò)展性、靈活性的要求也越高。此外,算力還要與大模型本身進(jìn)行更好的適配。

模型層出不窮,智能算力需求隨之激增。據(jù)一些服務(wù)器廠商透露,目前智算服務(wù)器出貨量已經(jīng)超過通用CPU。不過,孫思清表示,未來,隨著軟硬件升級和大模型核心技術(shù)的提升,同等規(guī)模的大模型所需算力也許會逐漸減少。

實(shí)際上,不只是大模型,人工智能應(yīng)用已無處不在。這些看得見的應(yīng)用背后,皆是看不見的智能算力在支撐。如何破解算力供需失衡的新課題?業(yè)內(nèi)專家普遍認(rèn)為,要做“加法”,也要做“減法”。

02. 做“加法”:軟硬皆施,提升利用率

“我國算力的利用率只有30%。”中國工程院院士鄔賀銓坦言。工信部最新數(shù)據(jù)顯示,中國算力總規(guī)模居全球第二,保持30%左右的年增長率。新增算力設(shè)施中,智能算力占比已超過50%。在多個權(quán)威市場分析機(jī)構(gòu)的排名中,美國和中國都屬于算力的領(lǐng)跑者,主要差距在于計算效率和應(yīng)用水平。

提升算力供給能力是重中之重?!安煌诔阈枰?4位雙精度浮點(diǎn)運(yùn)算,智能算力多為32及以下的低精度運(yùn)算,它是分階段的,可以通過硬件加速來實(shí)現(xiàn)算力提升?!睆堅迫硎?。比如,隨著數(shù)據(jù)量的增長和計算任務(wù)的復(fù)雜化,CPU、GPU需要具備更高的計算和處理能力,存儲器需要具備更大的容量和更快的讀寫速度。同時,算力提升還需要更大的網(wǎng)絡(luò)帶寬、速度更快的網(wǎng)絡(luò)設(shè)備,從而更快地完成大規(guī)模數(shù)據(jù)傳輸和處理。

“硬件層面,CPU、GPU等核心硬件的性能越來越高,將有效提升算力供給能力;軟件層面,模型算法和計算框架的優(yōu)化,也能緩解一定的算力壓力,減少對算力的依賴。”孫思清表示。這“一增一減”之間,算力供需平衡將找到新的出路。

“智算即異構(gòu)計算。相對于只用CPU的通用計算,在服務(wù)器里CPU+GPU就是異構(gòu)計算。背后的邏輯,是讓最適合的專用硬件去做最適合的事?!彼蔚さけ硎?,“對于整個算力的優(yōu)化是分層級解決的。除了計算資源自身的架構(gòu)和性能提升,也就是卡的迭代外,我們會在虛擬化層,通過GPU虛擬化或者計算池化等等一系列的技術(shù),把算力做更多的多機(jī)多卡互聯(lián),然后把它以云服務(wù)、容器、Serverless或者實(shí)例的模式更靈活地對外使用。在平臺層,通過任務(wù)流的模式,以深入上層服務(wù)的方式進(jìn)一步優(yōu)化計算效率?!?/p>

鄔賀銓指出,降低算力使用門檻,才能讓更多企業(yè)用得上、用得起現(xiàn)有的算力資源。目前國外有些企業(yè)已經(jīng)把硬件服務(wù)器資源開放出來,也包括算力、算法的模型平臺。而在國內(nèi),百度、阿里、華為等大企業(yè)也已開放平臺,這意味著中小企業(yè)只要有意愿需求,都可以利用這些平臺做數(shù)據(jù)訓(xùn)練?!澳壳皣鴥?nèi)已經(jīng)意識到要讓算力更簡單、降低算力使用門檻的趨勢?!彼f道。

03. 做“減法”:化繁為簡,優(yōu)化資源調(diào)度

要讓算力發(fā)揮更大價值,除了提升現(xiàn)有算力利用率,還可以通過簡化算力資源匹配與調(diào)度過程的方式實(shí)現(xiàn)事半功倍的效果。

日前,復(fù)旦大學(xué)率先選擇將智能計算平臺CFFF部署在公有云上。據(jù)復(fù)旦大學(xué)“浩清”教授、人工智能創(chuàng)新與產(chǎn)業(yè)研究院院長漆遠(yuǎn)透露,有賴于公共云模式,跑在CFFF平臺上的項(xiàng)目可享受到超千卡并行的智能算力,千卡并行的有效算力達(dá)到行業(yè)領(lǐng)先的92%,可拓展性達(dá)到萬卡,萬卡并行有效算力也可達(dá)90%。

中國工程院院士、阿里云創(chuàng)始人王堅指出,從計算到智算,公共云提供的是像電一樣的計算服務(wù),把算力基礎(chǔ)設(shè)施部署在公共云上將加速推動產(chǎn)業(yè)步入開放發(fā)展的新階段。在他看來,AI大模型的訓(xùn)練和運(yùn)營需要集約化、在線的算力基礎(chǔ)設(shè)施。集約化的算力基礎(chǔ)設(shè)施是基礎(chǔ)支撐,要求更高的計算并行性、更高的計算效率、更低的計算成本,并且要求適配各類專用計算芯片。在線化對算力提出更高要求,從模型訓(xùn)練和應(yīng)用看,需要形成“用戶膨脹、使用反饋、模型進(jìn)化”的飛輪效應(yīng),海量用戶在線使用和大規(guī)模API調(diào)用集成等都需要在線化的算力資源。這種集約化、在線化的需求,與公共云集中建設(shè)運(yùn)維、彈性伸縮、按需服務(wù)的商業(yè)模式不謀而合。

“云是大模型最好的承載方式,也是訓(xùn)練和應(yīng)用大模型的最佳平臺?!彼蔚さぶ赋?,一方面,云上具備領(lǐng)先的軟硬件架構(gòu)、面向未來的技術(shù)架構(gòu)和研發(fā)體系。對AI企業(yè)而言,從本地搭建服務(wù)器架構(gòu)可能不是一個合適的選擇。借助云上豐富的能力和產(chǎn)品,如云上的算力、網(wǎng)絡(luò)、向量數(shù)據(jù)庫,企業(yè)可以聚焦于大模型研發(fā)本身,業(yè)務(wù)開發(fā)的敏捷度也能進(jìn)一步提升。另一方面,打造大模型需要的算力規(guī)模,對企業(yè)現(xiàn)金流的挑戰(zhàn)很大。云上的算力形式,可以根據(jù)用戶需求靈活分配計算資源,同時也提升了大模型的訓(xùn)練和推理效率。

孫思清認(rèn)為,公有云集約化的特點(diǎn)有助于算力共享模式的實(shí)現(xiàn)。大模型的訓(xùn)練并不是一直滿負(fù)荷進(jìn)行的,空閑的時候,可以利用云的模式將算力池化,與其他有算力需求的企業(yè)共享。但同時他也指出,現(xiàn)實(shí)操作起來存在困難,數(shù)據(jù)歸屬、隱私保護(hù)、合規(guī)性等問題都需要考慮。

他表示,算力可以當(dāng)作“水電”來用,但數(shù)據(jù)不可以。“水電”能動,但“水廠”“電廠”不能動,分布式算力并不能適用所有場景。此外,算力互聯(lián)還需建立標(biāo)準(zhǔn)化的運(yùn)營體系,算力如何計量、如何付費(fèi)、如何結(jié)算都需要探討。

張云泉表示,具體問題要具體分析,不能一概而論。幾十億參數(shù)規(guī)模的大模型放在云上可以,幾百億、上千億規(guī)模的大模型肯定不行。中等規(guī)模以下的智算中心可以部署在公有云上,但大規(guī)模的智算中心如果部署在公有云上,網(wǎng)絡(luò)延遲會很大,難以支撐高端計算。另外,運(yùn)營商也會考慮到用云成本以及上云后是否會被云廠商“鎖定”等問題。

他認(rèn)為,優(yōu)化算力調(diào)度不能光靠算力網(wǎng)絡(luò)的互聯(lián)互通來解決問題。首先要盡快推進(jìn)接口協(xié)議,定義標(biāo)準(zhǔn)、建立標(biāo)準(zhǔn);其次要優(yōu)化算力調(diào)度管理軟件,同時建設(shè)安全體系;此外,要選擇成熟芯片和生態(tài)完善的技術(shù)路線,這樣智算中心用起來效率才能達(dá)到比較高的水平。建議組建生態(tài)聯(lián)合體,共同打造1~2個大規(guī)模的智算中心,協(xié)同訓(xùn)練少數(shù)幾個通用大模型,共享算力資源。”

“未來,大模型將走向相對開放的生態(tài),開源是一個重要趨勢?!睂O思清說道。他建議,政府層面應(yīng)做好算力資源的統(tǒng)籌,重點(diǎn)聚焦合規(guī)性管控和集約化建設(shè),把握好節(jié)奏,避免“一窩蜂”導(dǎo)致大量算力的浪費(fèi)。企業(yè)層面應(yīng)持續(xù)加打技術(shù)創(chuàng)新與場景實(shí)踐力度,分工合作,協(xié)同發(fā)展。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 運(yùn)營商
    +關(guān)注

    關(guān)注

    4

    文章

    2398

    瀏覽量

    44532
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    31294

    瀏覽量

    269648
  • 算力
    +關(guān)注

    關(guān)注

    1

    文章

    1007

    瀏覽量

    14883
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2514

    瀏覽量

    2931

原文標(biāo)題:模型“狂歡”之下, 算力之困何解?

文章出處:【微信號:算力基建,微信公眾號:算力基建】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    中心的如何衡量?

    作為當(dāng)下科技發(fā)展的重要基礎(chǔ)設(shè)施,其的衡量關(guān)乎其能否高效支撐人工智能、大數(shù)據(jù)分析等智能應(yīng)用的運(yùn)行。以下是對智中心算衡量的詳細(xì)闡述:一、
    的頭像 發(fā)表于 01-16 14:03 ?101次閱讀
    <b class='flag-5'>算</b>智<b class='flag-5'>算</b>中心的<b class='flag-5'>算</b><b class='flag-5'>力</b>如何衡量?

    科技云報到:要更要“利”,“精裝”觸發(fā)大模型產(chǎn)業(yè)新變局?

    科技云報到:要更要“利”,“精裝”觸發(fā)大模型產(chǎn)業(yè)新變局?
    的頭像 發(fā)表于 01-16 10:24 ?48次閱讀

    燧原科技AIGC生態(tài)破局

    近日,“太湖智·芯火燎原”AI產(chǎn)業(yè)生態(tài)大會在江蘇省無錫市順利召開,大會攜手“政、產(chǎn)、學(xué)、研、投”各方伙伴,共同探討人工智能領(lǐng)域的最新技術(shù)成果與未來發(fā)展趨勢。區(qū)領(lǐng)導(dǎo)顧國棟、李桂林、闕堯堯參加活動。
    的頭像 發(fā)表于 01-15 14:27 ?107次閱讀

    浪潮信息與智源研究院攜手共建大模型多元生態(tài)

    近日,浪潮信息與北京智源人工智能研究院正式簽署戰(zhàn)略合作協(xié)議,雙方將緊密合作,共同構(gòu)建大模型多元開源創(chuàng)新生態(tài)。 此次合作旨在提升大模型創(chuàng)新研發(fā)的
    的頭像 發(fā)表于 12-31 11:49 ?263次閱讀

    中國大會召開,業(yè)界首個高質(zhì)量評估體系發(fā)布

    首次完整地構(gòu)建了人工智能時代高質(zhì)量的理論體系,并探索性提出業(yè)界首個 "五位一體"的高質(zhì)量評估體系。 發(fā)布現(xiàn)場 在當(dāng)前由大模型和AIG
    的頭像 發(fā)表于 09-28 16:50 ?286次閱讀
    中國<b class='flag-5'>算</b><b class='flag-5'>力</b>大會召開,業(yè)界首個<b class='flag-5'>算</b><b class='flag-5'>力</b>高質(zhì)量評估體系發(fā)布

    中國智能汽車騰飛,為什么異構(gòu)是第一生產(chǎn)?

    智能時代的“世紀(jì)車”,異構(gòu)是第一驅(qū)動力
    的頭像 發(fā)表于 09-14 10:32 ?3763次閱讀
    中國智能汽車騰飛,為什么異構(gòu)<b class='flag-5'>算</b><b class='flag-5'>力</b>是第一生產(chǎn)<b class='flag-5'>力</b>?

    淺析三大異同

    隨著一年多前ChatGPT的出現(xiàn)引爆人工智能(AI)浪潮,支撐大模型背后的“”概念突然闖進(jìn)我們的視野,成為科技圈炙手可熱的新詞,引領(lǐng)著最新潮流。作為數(shù)字經(jīng)濟(jì)時代新生產(chǎn),也許不少人
    的頭像 發(fā)表于 08-30 12:56 ?1048次閱讀
    淺析三大<b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>之</b>異同

    摩爾線程GPU底座助力大模型產(chǎn)業(yè)發(fā)展

    以大模型為代表的新一代人工智能技術(shù)是引領(lǐng)新一輪科技革命和產(chǎn)業(yè)變革的戰(zhàn)略性技術(shù)和重要驅(qū)動力量,隨著對需求的日益高漲,人工智能底座公司日
    的頭像 發(fā)表于 08-27 16:15 ?636次閱讀

    模型時代的需求

    現(xiàn)在AI已進(jìn)入大模型時代,各企業(yè)都爭相部署大模型,但如何保證大模型,以及相關(guān)的穩(wěn)定性和性能,是一個極為重要的問題,帶著這個極為重要的問
    發(fā)表于 08-20 09:04

    摩爾線程張建中:以國產(chǎn)助力數(shù)智世界,滿足大模型需求

    摩爾線程創(chuàng)始人兼CEO張建中在會上透露,為了滿足國內(nèi)對AI的迫切需求,他們正在積極尋求與國內(nèi)頂尖科研機(jī)構(gòu)的深度合作,共同推動更大規(guī)模的AI智集群項(xiàng)目。
    的頭像 發(fā)表于 05-10 16:36 ?997次閱讀

    力系列基礎(chǔ)篇——101:從零開始了解

    相信大家已經(jīng)感受到,我們正處在一個人工智能時代。如果要問在人工智能時代最重要的是什么?那必須是:!
    的頭像 發(fā)表于 04-24 08:05 ?1002次閱讀
    <b class='flag-5'>算</b>力系列基礎(chǔ)篇——<b class='flag-5'>算</b><b class='flag-5'>力</b>101:從零開始了解<b class='flag-5'>算</b><b class='flag-5'>力</b>

    數(shù)據(jù)語料庫、算法框架和芯片在AI大模型中的作用和影響

    數(shù)據(jù)語料庫、算法框架和芯片的確是影響AI大模型發(fā)展的三大重要因素。
    的頭像 發(fā)表于 03-01 09:42 ?1208次閱讀

    能RADXA微服務(wù)器試用體驗(yàn)】Radxa Fogwise 1684X Mini 規(guī)格

    ChatGLM2-6B、AIGC、Llama2、SAM、Whisper等超大參數(shù)模型 還有一份詳細(xì)的英文的規(guī)格表: 另外,能RADXA微服務(wù)器服務(wù)器,還是大學(xué)生集成電路創(chuàng)新創(chuàng)業(yè)大賽# 第八屆集創(chuàng)賽杯賽題目
    發(fā)表于 02-28 11:21

    智能規(guī)模超通用,大模型對智能提出高要求

    電子發(fā)燒友網(wǎng)報道(文/李彎彎)是設(shè)備通過處理數(shù)據(jù),實(shí)現(xiàn)特定結(jié)果輸出的計算能力,常用FLOPS作為計量單位。FLOPS是Floating-point Operations Per Second
    的頭像 發(fā)表于 02-06 00:08 ?6450次閱讀

    大茉莉X16-P,5800M大稱王稱霸

    Rykj365
    發(fā)布于 :2024年01月25日 14:54:52