0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

芯片、模型生態(tài)分散,無(wú)問(wèn)芯穹、沐曦、壁仞談國(guó)產(chǎn)算力瓶頸破局之道

Carol Li ? 來(lái)源:電子發(fā)燒友 ? 作者:李彎彎 ? 2024-07-07 11:14 ? 次閱讀

電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)近日,2024世界人工智能大會(huì)正在舉行,無(wú)問(wèn)芯穹聯(lián)合創(chuàng)始人兼CEO夏立雪在大會(huì)論壇上談到一個(gè)現(xiàn)象,從GPT-3到GPT-4,無(wú)論是算力還是大模型能力都遵循指數(shù)級(jí)增長(zhǎng),而GPT-4之后的一段時(shí)間里,無(wú)論是OpenAI發(fā)布的新模型,還是其他大模型,整體算法能力進(jìn)入了放緩甚至是停滯的階段。

夏立雪認(rèn)為,這其中,表面上看是大模型的發(fā)展放緩或者停止了,其實(shí)背后的邏輯卻是支撐算法的算力遇到了瓶頸。在他看來(lái),算力是AI發(fā)展的前哨和基石,支撐模型能力邁向下一代的算力系統(tǒng),還需要去研發(fā)和構(gòu)建。

國(guó)內(nèi)模型層和芯片層生態(tài)相對(duì)分散

為了應(yīng)對(duì)大模型對(duì)算力的需求,國(guó)內(nèi)外巨頭都在加大對(duì)算力資源的投入,如國(guó)外的微軟、谷歌、Meta、OpenAI,以及國(guó)內(nèi)的大廠百度,移動(dòng)、聯(lián)通、電信三大運(yùn)營(yíng)商等都在構(gòu)建萬(wàn)卡集群,萬(wàn)卡集群儼然成為了大模型性能提升的兵家必爭(zhēng)之地。

然而相比之下,國(guó)外模型層與芯片層生態(tài)相對(duì)集中,算法廠商不超過(guò)10家,芯片廠商差不多是兩家,英偉達(dá)AMD。國(guó)內(nèi)生態(tài)則是一個(gè)非常分散的狀態(tài),大家都知道,中國(guó)百模大戰(zhàn),包括非常多通用的基座大模型,還有很多行業(yè)大模型。芯片層面,除了英偉達(dá)和AMD之外,國(guó)內(nèi)還有非常多算力芯片廠商去爭(zhēng)相擴(kuò)展市場(chǎng)。

這些分散的生態(tài),就會(huì)面臨很多生態(tài)打通的關(guān)鍵問(wèn)題。因此,在國(guó)內(nèi),雖然大家知道構(gòu)建萬(wàn)卡集群非常重要。而且據(jù)統(tǒng)計(jì),現(xiàn)在國(guó)內(nèi)已經(jīng)有一百多個(gè)建設(shè)方宣布正在建設(shè)或者已經(jīng)建設(shè)了千卡集群,這里面大部分采用的是異構(gòu)算力,原因之一是國(guó)內(nèi)的生態(tài)非常分散,另外是在供應(yīng)方面,需要非常多不同的卡來(lái)滿足集群性能需求。

夏立雪談到,這些異構(gòu)的芯片之間,存在一種“生態(tài)豎井”,即硬件生態(tài)系統(tǒng)封閉且互不兼容。用了A卡的開(kāi)發(fā)者,無(wú)法輕易遷移至B卡上展開(kāi)工作,也難以同時(shí)使用A卡和B卡完成大模型訓(xùn)練或推理。

這導(dǎo)致,如果一個(gè)算力集群中存在兩種或以上的芯片,算力使用方會(huì)面臨一系列技術(shù)挑戰(zhàn),比如不同硬件平臺(tái)適配不同的軟件棧和工具鏈,而某些任務(wù)更容易在特定類(lèi)型的芯片上運(yùn)行,開(kāi)發(fā)者若要在異構(gòu)芯片上從事生產(chǎn),就需要為每種芯片定制和優(yōu)化代碼,這大大增加了開(kāi)發(fā)和維護(hù)的復(fù)雜性。這也使得多種算力芯片被投入各地集群從事AI生產(chǎn),而“生態(tài)豎井”的存在,讓“多芯片”并不等于“大算力”。

無(wú)問(wèn)芯穹提出了異構(gòu)千卡混訓(xùn)解決方案。異構(gòu)芯片間的混訓(xùn)主要面臨兩大挑戰(zhàn),一是異構(gòu)卡通信庫(kù)差異,導(dǎo)致異構(gòu)卡之間通信難;二是異構(gòu)卡之間性能差異,導(dǎo)致模型分布式訓(xùn)練低效。

為此,無(wú)問(wèn)芯穹建立了一個(gè)通用集合通信庫(kù),實(shí)現(xiàn)不同芯片的高效通信;然后提出了一種基于流水線并行的非均勻拆分方案,以解決不同種芯片負(fù)載均衡的問(wèn)題;最后提出了一個(gè)自研的混訓(xùn)性能預(yù)測(cè)工具,用于判斷最優(yōu)的非均勻拆分策略,指導(dǎo)千卡異構(gòu)集群訓(xùn)練。從實(shí)際千卡混合訓(xùn)練效果可見(jiàn),無(wú)問(wèn)芯穹千卡異構(gòu)混合訓(xùn)練集群算力利用率最高達(dá)到了97.6%。

沐曦、壁仞談“算力瓶頸破局之術(shù)”

在某個(gè)論壇“算力瓶頸破局之術(shù)”的圓桌討論環(huán)節(jié),沐曦聯(lián)合創(chuàng)始人兼軟件CTO楊建分別從算法層面和芯片層面談到解決之道。首先是算法層面,硅基的算力三年只能提升三倍,而大模型對(duì)算力的需求則要求吞吐量三年提升750倍。在楊建看來(lái),這用硬件的方法無(wú)論如何也達(dá)不到,單從芯片層面無(wú)法解決這個(gè)問(wèn)題。

他認(rèn)為,今天大家追捧的Transfomer算法可能是錯(cuò)的,即使大家也在Transfomer軟件上進(jìn)行一些創(chuàng)新,其實(shí)作用并不大。我們還是需要從基本的算法層面出發(fā),思考怎么從算法上進(jìn)行改變,才能讓算法在三年內(nèi)推理效率提高750倍。大模型已經(jīng)進(jìn)入一個(gè)新的時(shí)代,Transfomer的時(shí)代已經(jīng)結(jié)束了,大家需要思考的是怎么突破Transfomer的限制。

接著看從芯片層面的破局,楊建認(rèn)為,這很難。他認(rèn)為,我們與美國(guó)算力差距會(huì)在2029年達(dá)到最大。首先,我們與英偉達(dá)存在工藝上的差距。其次,我們無(wú)法進(jìn)口最先進(jìn)的芯片,在2029年的時(shí)候,中國(guó)芯片仍然還是會(huì)落后英偉達(dá)。據(jù)他推算,到2029年,中國(guó)的算力綜合,可能不到美國(guó)的四分之一。

其實(shí),在2022年之前,我們與美國(guó)的算力基本上是一比一,2023年開(kāi)始急劇下降,可以看到,美國(guó)很多企業(yè)部署集群都是一萬(wàn)張卡以上,國(guó)內(nèi)到五千張卡已經(jīng)非常了不起了。因此,我們與美國(guó)算力的差距,從2023年開(kāi)始逐步擴(kuò)大,到2029年會(huì)到達(dá)一個(gè)高峰值,原因是,美國(guó)對(duì)算力需求的總量到那時(shí)候再往上添加意義不大了。

但國(guó)內(nèi)單芯片的算力到那時(shí)候還是沒(méi)有辦法去趕上美國(guó),因此在楊建看來(lái),當(dāng)沒(méi)有辦法從這個(gè)層面去破局的時(shí)候,我們需要跳出原來(lái)的圈子。

怎么做呢?他談到,英偉達(dá)B200其實(shí)給出了一個(gè)很好的例子,一直以來(lái)AMD在chiplet上都非常領(lǐng)先,它無(wú)論是CPU還是GPU都要做chiplet。然而英偉達(dá)在B200上又做了一個(gè)新的chiplet,它把中間的傳輸性一下子提升到了10TB per second,這是一個(gè)全新的架構(gòu),AMD完全沒(méi)有往這個(gè)方向走。

中國(guó)在chiplet方向其實(shí)已經(jīng)走得很遠(yuǎn),不僅有chiplet封裝,還有Die to Die封裝,還有wafer to wafer的封裝,中國(guó)的芯片公司如果想要在硬件上提升,其實(shí)可以利用先進(jìn)封裝這個(gè)優(yōu)勢(shì),去思考如何提高提高單芯片的性能。

此外,除了提升單芯片性能之外,還可以去思考怎么從系統(tǒng)級(jí)做優(yōu)化,以前基本上是一個(gè)CPU帶8張卡,現(xiàn)在可以思考是不是能夠一個(gè)CPU帶16張卡、32張卡。單芯片算力不夠,是不是能通過(guò)系統(tǒng)級(jí)互聯(lián)結(jié)構(gòu),在互聯(lián)上進(jìn)行一些加速,從而達(dá)到更好的性能。數(shù)據(jù)傳輸在算力上是一個(gè)非常重要的方面,可以探索好的壓縮算法技術(shù),通過(guò)壓縮數(shù)據(jù)本身,而不改變推理和訓(xùn)練的精度,來(lái)提升效率。

壁仞科技副總裁兼AI軟件首席架構(gòu)師丁云帆從三個(gè)維度談到算力瓶頸的破局之法。大模型的訓(xùn)練是一個(gè)系統(tǒng)工程,它需要軟件和硬件結(jié)合起來(lái),同時(shí)也需要算法和工程協(xié)同,在這樣一個(gè)復(fù)雜的系統(tǒng)里,它面臨非常多的挑戰(zhàn)。

丁云帆提到三個(gè)點(diǎn),一是硬件算力,二是軟硬結(jié)合之后的有效算力,三是異構(gòu)混訓(xùn)的聚合算力。硬件算力,即單卡的算力乘以卡的個(gè)數(shù),單卡的算力可能因?yàn)橹瞥痰仍?,它能做到的上限有限,不過(guò)單卡本身微架構(gòu)層面仍談?dòng)袆?chuàng)新的空間。比如,壁仞在第一代產(chǎn)品里用了chiplet架構(gòu),這就是用chiplet的當(dāng)時(shí)提升從單卡層面提升算力。

單卡之外,還有單機(jī),傳統(tǒng)基本上是單機(jī)8卡,現(xiàn)在可以通過(guò)一些方式做到單機(jī)16卡,把單機(jī)性能提升上去。單機(jī)之外,現(xiàn)在還可以看到有很多千卡集群、萬(wàn)卡集群,通過(guò)更大規(guī)模的集群去提升算力,這個(gè)時(shí)候網(wǎng)絡(luò)對(duì)基礎(chǔ)設(shè)施的要求會(huì)非常高。

有了超大集群之后,最終軟件是不是能夠把集群的算力發(fā)揮出來(lái),這就談到了軟硬件結(jié)合的有效算力,丁云帆將這個(gè)效率總結(jié)了三個(gè)點(diǎn):首先是,集群的調(diào)度效率怎么樣,比如說(shuō),有一萬(wàn)張卡,調(diào)度效率不好,相當(dāng)于可能在用的只有九千張;其次是能不能夠用好它,也就能不能夠通過(guò)算法功能的協(xié)同,訓(xùn)練把算法的性能優(yōu)化上去,尤其是大規(guī)模參數(shù)的大模型,在超大集群里,如何去做模型拆分、做各種并行策略,真正把集群的算力發(fā)揮出來(lái);

其三大規(guī)模集群還有一個(gè)穩(wěn)定問(wèn)題,無(wú)論是采用英偉達(dá)還是國(guó)產(chǎn)的算力芯片,都會(huì)存在這個(gè)問(wèn)題,大規(guī)模集群的故障率非常高,可能分配有10個(gè)小時(shí),卻只能用到8個(gè)小時(shí)。這需要對(duì)故障的檢測(cè)能夠自動(dòng)定位出來(lái),出了故障之后,能夠更快速的恢復(fù)它。

聚合算力,現(xiàn)在可以看到建了很多千卡集群、萬(wàn)卡集群,可能有些集群用的同一種英偉達(dá)的卡,它也可能是很多小的池子,現(xiàn)在隨著更多國(guó)產(chǎn)GPU的落地,這又會(huì)出現(xiàn)新的池子。對(duì)于用戶來(lái)說(shuō),這么多小池子,是不是能夠聚合起來(lái)去訓(xùn)一個(gè)大的模型。那么這個(gè)在互聯(lián)互通層面,首先要通,其次通行的效率怎么樣,肯定會(huì)有通行快慢的問(wèn)題,這種異構(gòu)的并行的拆分策略就非常關(guān)鍵。

總結(jié)來(lái)說(shuō),就是硬件算力、軟硬件結(jié)合的有效算力、聚合算力,我們從這三個(gè)維度都把相關(guān)的工作做好,即使是國(guó)產(chǎn)單個(gè)芯片看上去不夠強(qiáng),我們通過(guò)這樣的方式也能夠把國(guó)產(chǎn)算力提升到滿足大模型訓(xùn)練的需求。

寫(xiě)在最后

隨著大模型的發(fā)展,其性能提升放緩甚至停滯,而這背后則是支撐算法的算力遇到瓶頸。國(guó)內(nèi)外都在加大千卡、萬(wàn)卡集群的建設(shè)來(lái)提升算力,然而這其中仍然存在問(wèn)題,在國(guó)內(nèi)芯片生態(tài)分散,集群使用多種芯片,異構(gòu)芯片之間的混訓(xùn)存在挑戰(zhàn)。同時(shí)相對(duì)于國(guó)外,國(guó)產(chǎn)單芯片存在落差,如何通過(guò)本身優(yōu)勢(shì),如chiplet,來(lái)提升單機(jī)、集群的算力,如何通過(guò)軟硬件結(jié)合提升算法訓(xùn)練效率等,都是可以思考突破算力瓶頸的方向。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    30891

    瀏覽量

    269083
  • 算力芯片
    +關(guān)注

    關(guān)注

    0

    文章

    46

    瀏覽量

    4527
  • AI算力
    +關(guān)注

    關(guān)注

    0

    文章

    72

    瀏覽量

    8677
  • 壁仞科技
    +關(guān)注

    關(guān)注

    1

    文章

    55

    瀏覽量

    2739
  • 沐曦
    +關(guān)注

    關(guān)注

    0

    文章

    26

    瀏覽量

    1156
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    國(guó)產(chǎn)集群黑馬!源一號(hào)SADA集群綜合評(píng)測(cè)表現(xiàn)優(yōu)異

    近日,加佳科技源一號(hào)SADA集群項(xiàng)目一期順利通過(guò)工信部中國(guó)軟件評(píng)測(cè)中心權(quán)威評(píng)測(cè)認(rèn)證。本次測(cè)試涵蓋了項(xiàng)目一期已上線的1024張高性能
    的頭像 發(fā)表于 12-25 11:16 ?219次閱讀
    <b class='flag-5'>國(guó)產(chǎn)</b>智<b class='flag-5'>算</b>集群黑馬!<b class='flag-5'>曦</b>源一號(hào)SADA<b class='flag-5'>算</b><b class='flag-5'>力</b>集群綜合評(píng)測(cè)表現(xiàn)優(yōu)異

    科技聯(lián)合中國(guó)電信等合作伙伴共同發(fā)布智異構(gòu)四混訓(xùn)解決方案

    工智能實(shí)驗(yàn)室等發(fā)布了“智異構(gòu)四混訓(xùn)解決方案”,打造、網(wǎng)絡(luò)、平臺(tái)、通信庫(kù)、框架全棧異構(gòu)方案,實(shí)現(xiàn)異構(gòu)
    的頭像 發(fā)表于 12-07 17:56 ?972次閱讀

    性能提升近一倍!科技攜手無(wú)問(wèn),在千卡訓(xùn)練集群等領(lǐng)域取得技術(shù)新突破

    隨著智能需求的倍增,到2024年,千卡集群已成為國(guó)內(nèi)大模型訓(xùn)練的必備場(chǎng)景。
    發(fā)表于 11-05 18:45 ?640次閱讀
    性能提升近一倍!<b class='flag-5'>壁</b><b class='flag-5'>仞</b>科技攜手<b class='flag-5'>無(wú)</b><b class='flag-5'>問(wèn)</b><b class='flag-5'>芯</b><b class='flag-5'>穹</b>,在千卡訓(xùn)練集群等領(lǐng)域取得技術(shù)新突破

    無(wú)問(wèn)獲完成5億元A輪融資

    近日,大模型基礎(chǔ)設(shè)施領(lǐng)域的創(chuàng)新企業(yè)無(wú)問(wèn)宣布成功完成5億元人民幣的A輪融資。此輪融資由社?;鹬嘘P(guān)村自主創(chuàng)新專(zhuān)項(xiàng)基金(君聯(lián)資本擔(dān)任管理人)
    的頭像 發(fā)表于 09-03 15:41 ?327次閱讀

    上海無(wú)問(wèn)獲多家投資方投資

    近日,上海無(wú)問(wèn)智能科技有限公司宣布完成新一輪工商變更,公司股東陣容顯著增強(qiáng)。此次變更中,順為資本旗下北京順贏股權(quán)投資合伙企業(yè)、聯(lián)想旗下的中小企業(yè)發(fā)展基金聯(lián)想(天津)合伙企業(yè)等多家知
    的頭像 發(fā)表于 08-08 16:27 ?699次閱讀

    無(wú)問(wèn)發(fā)布千卡規(guī)模異構(gòu)芯片混訓(xùn)平臺(tái)

    在科技日新月異的今天,人工智能領(lǐng)域的每一次突破都引領(lǐng)著行業(yè)的新一輪變革。2024年世界人工智能大會(huì)AI基礎(chǔ)設(shè)施論壇上,無(wú)問(wèn)以其卓越的創(chuàng)新力和前瞻視野,再次成為全場(chǎng)矚目的焦點(diǎn)。7月4
    的頭像 發(fā)表于 07-08 14:27 ?674次閱讀

    科技為中國(guó)移動(dòng)呼和浩特智中心提供強(qiáng)大

    ? 隨著人工智能技術(shù)的飛速發(fā)展,高性能計(jì)算中心成為推動(dòng)AI創(chuàng)新和應(yīng)用的關(guān)鍵基礎(chǔ)設(shè)施。近日,中國(guó)移動(dòng)智中心(呼和浩特)成功上線運(yùn)營(yíng)。國(guó)內(nèi)領(lǐng)先的GPU企業(yè)科技的礪系列通用GPU
    的頭像 發(fā)表于 07-05 17:16 ?1286次閱讀

    科技亮相數(shù)字中國(guó)建設(shè)峰會(huì)

    能 智筑國(guó)基”人工智能生態(tài)大會(huì)上,中國(guó)移動(dòng)正式宣布開(kāi)放大模型訓(xùn)練基地、大模型評(píng)測(cè)基地、大模型產(chǎn)業(yè)創(chuàng)新基地等三大人工智能基地。
    的頭像 發(fā)表于 05-28 18:44 ?934次閱讀
    <b class='flag-5'>壁</b><b class='flag-5'>仞</b>科技亮相數(shù)字中國(guó)建設(shè)峰會(huì)

    摩爾線程與無(wú)問(wèn)國(guó)產(chǎn)GPU上首次實(shí)現(xiàn)大模型實(shí)訓(xùn)

    近日,摩爾線程與無(wú)問(wèn)共同宣布,雙方已正式完成基于國(guó)產(chǎn)全功能GPU千卡集群的3B規(guī)模大模型實(shí)訓(xùn)
    的頭像 發(fā)表于 05-27 10:59 ?662次閱讀

    摩爾線程與無(wú)問(wèn)宣布完成基于GPU千卡集群的3B規(guī)模大模型實(shí)訓(xùn)

    摩爾線程聯(lián)合無(wú)問(wèn)宣布,雙方已在本周正式完成基于國(guó)產(chǎn)全功能GPU千卡集群的3B規(guī)模大模型實(shí)訓(xùn)。
    的頭像 發(fā)表于 05-27 10:44 ?479次閱讀
    摩爾線程與<b class='flag-5'>無(wú)</b><b class='flag-5'>問(wèn)</b><b class='flag-5'>芯</b><b class='flag-5'>穹</b>宣布完成基于GPU千卡集群的3B規(guī)模大<b class='flag-5'>模型</b>實(shí)訓(xùn)

    科技加入中國(guó)移動(dòng)“融創(chuàng)未來(lái)”網(wǎng)絡(luò)創(chuàng)新聯(lián)合體

    近日,以“網(wǎng)絡(luò)點(diǎn)亮AI新時(shí)代”為主題的2024中國(guó)移動(dòng)網(wǎng)絡(luò)大會(huì)在蘇州舉行。作為中國(guó)移動(dòng)的
    的頭像 發(fā)表于 04-30 09:36 ?942次閱讀
    <b class='flag-5'>壁</b><b class='flag-5'>仞</b>科技加入中國(guó)移動(dòng)“融創(chuàng)未來(lái)”<b class='flag-5'>算</b><b class='flag-5'>力</b>網(wǎng)絡(luò)創(chuàng)新聯(lián)合體

    摩爾線程與無(wú)問(wèn)聯(lián)手開(kāi)啟千億大模型服務(wù)新篇章

    3月31日,無(wú)問(wèn)AI優(yōu)化論壇暨產(chǎn)品發(fā)布會(huì)在上海成功舉辦,重磅發(fā)布了“
    的頭像 發(fā)表于 04-01 11:11 ?677次閱讀
    摩爾線程與<b class='flag-5'>無(wú)</b><b class='flag-5'>問(wèn)</b><b class='flag-5'>芯</b><b class='flag-5'>穹</b>聯(lián)手開(kāi)啟千億大<b class='flag-5'>模型</b>服務(wù)新篇章

    燧原科技與無(wú)問(wèn)簽約宣布共同打造千卡集群案例

    3月31日,在無(wú)問(wèn)舉辦的以“多元計(jì)算·泛在鏈接”為主題的AI優(yōu)化論壇暨產(chǎn)品發(fā)布會(huì)上,燧原
    的頭像 發(fā)表于 04-01 10:48 ?881次閱讀

    科技正式加入大模型應(yīng)用生態(tài)共同體

    3月23日,2024全球開(kāi)發(fā)者先鋒大會(huì)于上海徐匯舉辦,并正式啟動(dòng)大模型應(yīng)用生態(tài)共同體。大會(huì)期間,科技作為
    的頭像 發(fā)表于 03-25 10:00 ?570次閱讀

    AMD與無(wú)問(wèn)達(dá)成戰(zhàn)略合作,共同推進(jìn)商用AI性能

    近日,AMD與無(wú)問(wèn)宣布達(dá)成戰(zhàn)略合作。未來(lái),雙方將攜手并進(jìn),致力于大幅提高商用AI應(yīng)用的性能,共同推動(dòng)整個(gè)生態(tài)系統(tǒng)的發(fā)展。
    的頭像 發(fā)表于 01-10 18:23 ?1610次閱讀