0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

奔向大模型時代,存算一體成為突破算力瓶頸的關(guān)鍵技術(shù)?

Carol Li ? 來源:電子發(fā)燒友網(wǎng) ? 作者:李彎彎 ? 2023-04-03 00:28 ? 次閱讀

電子發(fā)燒友網(wǎng)報道(文/李彎彎)大模型的訓(xùn)練和推理需要高性能的算力支持。以ChatGPT為例,據(jù)估算,在訓(xùn)練方面,1746億參數(shù)的GPT-3模型大約需要375-625臺8卡DGXA100服務(wù)器訓(xùn)練10天左右,對應(yīng)A100GPU數(shù)量約3000-5000張。

在推理方面,如果以A100GPU單卡單字輸出需要350ms為基準(zhǔn)計算,假設(shè)每日訪問客戶數(shù)量高達(dá)5,000萬人時,按單客戶每日發(fā)問ChatGPT應(yīng)用10次,單次需要50字回答,則每日消耗GPU的計算時間將會高達(dá)243萬個小時,對應(yīng)的GPU需求數(shù)量將超過10萬個。

大模型的訓(xùn)練和推理依賴通用GPU

算力即計算能力,具體指硬件對數(shù)據(jù)收集、傳輸、計算和存儲的能力,算力的大小表明了對數(shù)字化信息處理能力的強弱,常用計量單位是FLOPS(Floating-pointoperationspersecond),表示每秒浮點運算次數(shù)。

當(dāng)前大模型的訓(xùn)練和推理多采用GPGPU。GPGPU是一種由GPU去除圖形處理和輸出,僅保留科學(xué)計算、AI訓(xùn)練和推理功能的GPU。GPU芯片最初用于計算機系統(tǒng)圖像顯示的運算,但因其相比于擅長橫向計算的CPU更擅長于并行計算,在涉及到大量的矩陣或向量計算的AI計算中很有優(yōu)勢,GPGPU應(yīng)運而生。

在這波ChatGPT浪潮中長期押注AI的英偉達(dá)可以說受益最多,ChatGPT、包括各種大模型的訓(xùn)練和推理,基本都采用英偉達(dá)的GPU。目前國內(nèi)多個廠商都在布局GPGPU,包括天數(shù)智芯、燧原科技、壁仞科技、登臨科技等,不過當(dāng)前還較少能夠應(yīng)用于大模型。

事實上業(yè)界認(rèn)為,隨著模型參數(shù)越來越大,GPU在提供算力支持上也存在瓶頸。在GPT-2之前的模型時代,GPU內(nèi)存還能滿足AI大模型的需求,近年來,隨著Transformer模型的大規(guī)模發(fā)展和應(yīng)用,模型大小每兩年平均增長240倍,實際上GPT-3等大模型的參數(shù)增長已經(jīng)超過了GPU內(nèi)存的增長。傳統(tǒng)的設(shè)計趨勢已經(jīng)不能適應(yīng)當(dāng)前的需求,芯片內(nèi)部、芯片之間或AI加速器之間的通信成為了AI計算的瓶頸。

存算一體技術(shù)如何突破算力瓶頸

而存算一體作為一種新型架構(gòu)形式受到關(guān)注,存算一體將存儲和計算有機結(jié)合,直接在存儲單元中處理數(shù)據(jù),避免了在存儲單元和計算單元之間頻繁轉(zhuǎn)移數(shù)據(jù),減少了不必要的數(shù)據(jù)搬移造成的開銷,不僅大幅降低了功耗,還可以利用存儲單元進行邏輯計算提高算力,顯著提升計算效率。

大模型的訓(xùn)練和部署不僅對算力提出了高要求,對能耗的要求也很高,從這個角度來看,存算一體降低功耗,提升計算效率等特性在大模型方面確實更具優(yōu)勢。

因為獨具優(yōu)勢,過去幾年已經(jīng)有眾多企業(yè)進入到存算一體領(lǐng)域,包括知存科技、千芯科技、蘋芯科技、后摩智能、億鑄科技等。各企業(yè)的技術(shù)方向也有所不同,從介質(zhì)層面來看,有的采用NORFlash,有的采用SRAM,也有的采用RRAM。

從目前的情況來看,基于NORFlash的存算一體產(chǎn)品,在算力上難以做大,應(yīng)用場景主要是對算力要求不高,對功耗要求高的可穿戴設(shè)備等領(lǐng)域;基于SRAM的存算一體算力可以更大些,能夠用于自動駕駛領(lǐng)域;而真正能夠在算力上實現(xiàn)突破,可以稱之為大算力AI芯片的,目前只有億鑄科技主推的基于RRAM的存算一體技術(shù)。

在大模型對大算力的需求背景下,億鑄科技近期更是提出了存算一體超異構(gòu)計算。超異構(gòu)計算能夠把更多的異構(gòu)計算整合重構(gòu),從而各類型處理器間充分地、靈活地進行數(shù)據(jù)交互而形成的計算。

簡單來說,就是結(jié)合DSA、GPU、CPU、CIM等多個類型引擎的優(yōu)勢,實現(xiàn)性能的飛躍:DSA負(fù)責(zé)相對確定的大計算量的工作;GPU負(fù)責(zé)應(yīng)用層有一些性能敏感的并且有一定彈性的工作;CPU啥都能干,負(fù)責(zé)兜底;CIM就是存內(nèi)計算,超異構(gòu)和普通異構(gòu)的主要區(qū)別就是加入了CIM,由此可以實現(xiàn)同等算力,更低能耗,同等能耗,更高算力。另外,CIM由于器件的優(yōu)勢,能負(fù)擔(dān)比DSA更大的算力。

億鑄科技創(chuàng)始人、董事長兼CEO熊大鵬博士表示,存算一體超異構(gòu)計算的好處在于:一是在系統(tǒng)層,能夠把整體的效率做到最優(yōu);二是在軟件層,能夠?qū)崿F(xiàn)跨平臺架構(gòu)統(tǒng)一。

基于存算一體超異構(gòu)概念,億鑄科技提出了自己的技術(shù)暢想:若能把新型憶阻器技術(shù)(RRAM)、存算一體架構(gòu)、芯粒技術(shù)(Chiplet)、3D封裝等技術(shù)結(jié)合,將會實現(xiàn)更大的有效算力、放置更多的參數(shù)、實現(xiàn)更高的能效比、更好的軟件兼容性、從而突破性能瓶頸,抬高AI大算力芯片的發(fā)展天花板。

圖源:億鑄科技

目前國內(nèi)已公開的能夠?qū)崿F(xiàn)存算一體AI大算力的芯片公司僅有億鑄科技,其基于RRAM的存算一體AI大算力芯片將在今年回片。

小結(jié)

無論是大模型的訓(xùn)練還是部署,對大算力芯片的需求都很大,從目前的情況來看,大模型的訓(xùn)練在很長時間都將要依賴于英偉達(dá)的GPU芯片。

而在大模型的推理部署方面,除了GPU,存算一體將是非常合適的選擇。未來大模型的部署規(guī)模會很大,從前不久英偉達(dá)專門推出適合大型語言模型部署的芯片平臺也能看出來。據(jù)億鑄科技透露,公司規(guī)劃的產(chǎn)品,在同等功耗下,性能將超越英偉達(dá)H100系列的推理芯片。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    30896

    瀏覽量

    269086
  • 大數(shù)據(jù)
    +關(guān)注

    關(guān)注

    64

    文章

    8889

    瀏覽量

    137442
  • 存算一體
    +關(guān)注

    關(guān)注

    0

    文章

    102

    瀏覽量

    4302
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2450

    瀏覽量

    2706
收藏 人收藏

    評論

    相關(guān)推薦

    一體化與邊緣計算:重新定義智能計算的未來

    隨著數(shù)據(jù)量爆炸式增長和智能化應(yīng)用的普及,計算與存儲的高效整合逐漸成為科技行業(yè)關(guān)注的重點。數(shù)據(jù)存儲和處理需求的快速增長推動了對計算架構(gòu)的重新設(shè)計,“一體化”
    的頭像 發(fā)表于 11-12 01:05 ?225次閱讀
    <b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b>化與邊緣計算:重新定義智能計算的未來

    一體架構(gòu)創(chuàng)新助力國產(chǎn)大AI芯片騰飛

    在灣芯展SEMiBAY2024《AI芯片與高性能計算(HPC)應(yīng)用論壇》上,億鑄科技高級副總裁徐芳發(fā)表了題為《一體架構(gòu)創(chuàng)新助力國產(chǎn)大
    的頭像 發(fā)表于 10-23 14:48 ?297次閱讀

    科技新突破:首款支持多模態(tài)一體AI芯片成功問世

    一體介質(zhì),通過存儲單元和計算單元的深度融合,采用22nm成熟工藝制程,有效把控制造成本。與傳統(tǒng)架構(gòu)下的AI芯片相比,該款芯片在、能效
    發(fā)表于 09-26 13:51 ?408次閱讀
    科技新<b class='flag-5'>突破</b>:首款支持多模態(tài)<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b>AI芯片成功問世

    模型時代需求

    現(xiàn)在AI已進入大模型時代,各企業(yè)都爭相部署大模型,但如何保證大模型,以及相關(guān)的穩(wěn)定性和性能
    發(fā)表于 08-20 09:04

    后摩智能推出邊端大模型AI芯片M30,展現(xiàn)出一體架構(gòu)優(yōu)勢

    了基于M30芯片的智模組(SoM)和謀??AI加速卡。 ? 后摩智能一體架構(gòu)芯片產(chǎn)品 ? 后摩智能是
    的頭像 發(fā)表于 07-03 00:58 ?4202次閱讀

    科技助力AI應(yīng)用落地:WTMDK2101-ZT1評估板實地評測與性能揭秘

    中得到彰顯。一體架構(gòu)的突破傳統(tǒng)馮·諾依曼架構(gòu)的范式探索成為重要趨勢。這種架構(gòu)改變了
    發(fā)表于 05-16 16:38

    探索內(nèi)計算—基于 SRAM 的內(nèi)計算與基于 MRAM 的一體的探究

    本文深入探討了基于SRAM和MRAM的一體技術(shù)在計算領(lǐng)域的應(yīng)用和發(fā)展。首先,介紹了基于SRAM的內(nèi)邏輯計算
    的頭像 發(fā)表于 05-16 16:10 ?2818次閱讀
    探索<b class='flag-5'>存</b>內(nèi)計算—基于 SRAM 的<b class='flag-5'>存</b>內(nèi)計算與基于 MRAM 的<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b>的探究

    科技攜手北大共建一體技術(shù)實驗室,推動AI創(chuàng)新

    揭牌儀式結(jié)束后,王紹迪在北大集成電路學(xué)院舉辦的“未名·芯”論壇上做了主題演講,分享了他對于多模態(tài)大模型時代內(nèi)計算發(fā)展的見解。他強調(diào)了
    的頭像 發(fā)表于 05-08 17:25 ?953次閱讀

    北京大學(xué)-知科技一體聯(lián)合實驗室揭牌,開啟知科技產(chǎn)學(xué)研融合戰(zhàn)略新升級

    、知科技首席科學(xué)家郭昕婕博士及企業(yè)研發(fā)相關(guān)負(fù)責(zé)人參加了現(xiàn)場揭牌儀式。面向多模態(tài)大模型時代產(chǎn)業(yè)發(fā)展新需求,雙方將攜手踏上探索
    的頭像 發(fā)表于 05-07 19:31 ?1427次閱讀
    北京大學(xué)-知<b class='flag-5'>存</b>科技<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b>聯(lián)合實驗室揭牌,開啟知<b class='flag-5'>存</b>科技產(chǎn)學(xué)研融合戰(zhàn)略新升級

    液冷是大模型需求的必然選擇?|英偉達(dá) GTC 2024六大亮點

    在這個以高性能計算和大模型推動未來通用人工智能時代,成為科技發(fā)展的隱形支柱。本文將重點探討
    的頭像 發(fā)表于 04-10 12:57 ?597次閱讀
    液冷是大<b class='flag-5'>模型</b>對<b class='flag-5'>算</b><b class='flag-5'>力</b>需求的必然選擇?|英偉達(dá) GTC 2024六大亮點

    聚焦全國一體體系構(gòu)建,憶聯(lián)以強大“引擎”釋放潛能

    是數(shù)字時代的生產(chǎn),為數(shù)字經(jīng)濟與實體經(jīng)濟深度融合提供了強大支持。在不久前結(jié)束的全國兩會中,“全國一體
    的頭像 發(fā)表于 03-22 18:13 ?531次閱讀
    聚焦全國<b class='flag-5'>一體</b>化<b class='flag-5'>算</b><b class='flag-5'>力</b>體系構(gòu)建,憶聯(lián)以強大<b class='flag-5'>存</b><b class='flag-5'>力</b>“引擎”釋放<b class='flag-5'>算</b><b class='flag-5'>力</b>潛能

    什么是通感一體化?通感一體化的應(yīng)用場景

    通感一體化可廣泛應(yīng)用于智能家居、智慧城市、智慧交通、醫(yī)療健康等方面。文檔君為大家搜集了些典型的應(yīng)用場景。 智能家居 通感一體化利用基站
    發(fā)表于 01-18 16:12 ?1.1w次閱讀
    什么是通感<b class='flag-5'>算</b><b class='flag-5'>一體</b>化?通感<b class='flag-5'>算</b><b class='flag-5'>一體</b>化的應(yīng)用場景

    科技云報道:“一體”是大模型AI芯片的破局關(guān)鍵

    下的新需求
    的頭像 發(fā)表于 01-08 13:10 ?405次閱讀

    一體芯片如何支持Transformer等不同模型?

    后摩智能致力于打造通用人工智能芯片,自主研發(fā)的一體芯片在支持各類模型方面表現(xiàn)突出,包括YOLO系列網(wǎng)絡(luò)、BEV系列網(wǎng)絡(luò)、點云系列網(wǎng)絡(luò)等。
    的頭像 發(fā)表于 01-05 14:14 ?1356次閱讀

    SRAM一體芯片的研究現(xiàn)狀和發(fā)展趨勢

    人工智能時代對計算芯片的和能效都提出了極高要求。一體芯片
    的頭像 發(fā)表于 01-02 11:02 ?2498次閱讀
    SRAM<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b>芯片的研究現(xiàn)狀和發(fā)展趨勢