0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

存算一體行業(yè)2024年回顧與2025年展望

后摩智能 ? 來源:后摩智能 ? 2025-01-23 11:24 ? 次閱讀

2024年,大模型技術(shù)的迅猛發(fā)展成為人工智能領(lǐng)域的核心驅(qū)動(dòng)力,其對(duì)硬件算力和存儲(chǔ)效率的極致需求,促使存算一體技術(shù)在全球范圍內(nèi)迎來前所未有的關(guān)注與突破。隨著模型參數(shù)規(guī)模的持續(xù)膨脹和應(yīng)用場(chǎng)景的不斷拓展,存算一體技術(shù)作為解決數(shù)據(jù)傳輸瓶頸、提升計(jì)算效率的關(guān)鍵方案,展現(xiàn)出巨大的發(fā)展?jié)摿Α?/p>

在大模型的推動(dòng)下,存算一體技術(shù)在學(xué)術(shù)界和產(chǎn)業(yè)界均取得了顯著進(jìn)展。學(xué)術(shù)研究聚焦于如何通過存內(nèi)計(jì)算優(yōu)化大模型的訓(xùn)練與推理效率,從底層存儲(chǔ)介質(zhì)的創(chuàng)新到系統(tǒng)架構(gòu)的優(yōu)化,為存算一體技術(shù)的未來發(fā)展提供了豐富的理論支持。與此同時(shí),產(chǎn)業(yè)界則通過技術(shù)創(chuàng)新和商業(yè)化落地,加速了存算一體技術(shù)在端側(cè)、邊緣計(jì)算和數(shù)據(jù)中心等領(lǐng)域的廣泛應(yīng)用。從三星與SK海力士推動(dòng)LPDDR6-PIM 技術(shù)的標(biāo)準(zhǔn)化,到后摩智能推出端邊大模型AI芯片,再到d-Matrix首款基于數(shù)字存算的AI芯片出貨,這些事件不僅標(biāo)志著存算一體技術(shù)的商業(yè)化進(jìn)程加速,也反映了行業(yè)對(duì)大模型時(shí)代算力需求的積極回應(yīng)。

隨著技術(shù)的不斷成熟和市場(chǎng)需求的持續(xù)增長(zhǎng),存算一體技術(shù)正逐漸成為推動(dòng)人工智能、邊緣計(jì)算和高性能計(jì)算領(lǐng)域發(fā)展的關(guān)鍵力量。2024年,存算一體技術(shù)在大模型背景下的創(chuàng)新與應(yīng)用,不僅為智能設(shè)備和數(shù)據(jù)中心的性能提升提供了新的解決方案,也為未來技術(shù)發(fā)展提供了新方向。

Part 1.2024年存算一體行業(yè)要事回顧

一、學(xué)術(shù)界重點(diǎn)研究一覽

1、由 ISSCC 洞察存內(nèi)計(jì)算的學(xué)術(shù)前沿

ISSCC 是集成電路行業(yè)年度的頂級(jí)會(huì)議,作為每年年初的學(xué)術(shù)盛會(huì),可以一瞥現(xiàn)階段學(xué)術(shù)界關(guān)注的技術(shù)熱點(diǎn)和目前實(shí)驗(yàn)室/研究機(jī)構(gòu)的技術(shù)水平。這里將列舉幾個(gè)存內(nèi)計(jì)算相關(guān)的重點(diǎn)工作,希望能從盡可能多的視角觀察存內(nèi)計(jì)算技術(shù)的應(yīng)用。

11.3 歐洲人工智能的初創(chuàng)公司 Axelera AI 推出一款基于數(shù)字 SRAM 存內(nèi)計(jì)算(DIMC)的端側(cè)視覺模型推理的SoC。該芯片利用RISC-V CPU、L1 Cache 和 DIMC 單元構(gòu)建基本的AI core,AI core之間利用NOC互聯(lián),并與系統(tǒng)總控、外設(shè)控制互聯(lián)。芯片在12nm、144mm2的面積下實(shí)現(xiàn)了32 Mb的 SRAM-IMC 容量,達(dá)到了209.6 TOPS的計(jì)算吞吐以及5~15 W的典型功耗,在 ResNet-50和YoloV5 的模型上展現(xiàn)出極高的幀率和極低的功耗。

論文鏈接:

11.3:

https://ieeexplore.ieee.org/abstract/document/10454395

20.1 聯(lián)發(fā)科(MediaTeK)提出了一款Mobile SoC中用于圖像超分辨率的處理器,采用數(shù)字存內(nèi)計(jì)算單元作為執(zhí)行卷積的計(jì)算單元,芯片采用了一種多個(gè)卷積核之間流水處理的架構(gòu),在實(shí)現(xiàn)任務(wù)的靈活分割的同時(shí)盡可能最大化復(fù)用激活值,提升系統(tǒng)吞吐和能量效率。最終芯片在3nm下實(shí)現(xiàn)了 12TOPS/mm2的算力密度和 23.2TOPS/W的系統(tǒng)能效。

論文鏈接:

20.1 :

https://ieeexplore.ieee.org/abstract/document/10454482

30 DSA Section:該Section 聚焦在領(lǐng)域?qū)S玫奶幚砥骷軜?gòu),其中不乏使用存內(nèi)計(jì)算技術(shù)的工作:

* 30.3 & 30.5 分別利用 SRAM和eDRAM 兩種片上的存儲(chǔ)器的存內(nèi)計(jì)算做算法問題求解,分別針對(duì) SAT 問題和 Ising 問題,利用陣列式存儲(chǔ)器本身的陣列特性去模擬 NP hard 問題的求解;

* 30.6 使用 SRAM-CIM 作為 RSIC-V CPU的向量協(xié)處理器,極大提高了計(jì)算的通用性。該工作使用數(shù)字域的 SRAM-CIM 替代了原本向量協(xié)處理器中的向量寄存器VRF),直接減少了CPU 到 VRF 之間的數(shù)據(jù)移動(dòng),提高系統(tǒng)能效的同時(shí)也提升了芯片的算力密度;

論文鏈接:

30.3:

https://ieeexplore.ieee.org/abstract/document/10454397

30.5:

https://ieeexplore.ieee.org/abstract/document/10454272

30.6:

https://ieeexplore.ieee.org/abstract/document/10454387

34 CIM Section:該部分的工作聚焦在具體的存內(nèi)計(jì)算電路設(shè)計(jì),存儲(chǔ)器的類型以片上的 SRAM 和 eDRAM 為主:

* 34.1 & 34.2 清華大學(xué)和臺(tái)灣清華大學(xué)分別從數(shù)據(jù)編碼格式和極致的電路優(yōu)化兩方面入手,致力于更高精度的存內(nèi)計(jì)算技術(shù)。清華大學(xué)的研究團(tuán)隊(duì)提出一種 POSIT 的編碼格式,在傳統(tǒng)的浮點(diǎn)數(shù)據(jù)格式基礎(chǔ)上增加額外一級(jí)管理位來適應(yīng)不同的數(shù)據(jù)分布形式,基于該格式實(shí)現(xiàn)的存內(nèi)計(jì)算宏單元以更低的計(jì)算能耗達(dá)到了更高的計(jì)算精度。臺(tái)灣清華大學(xué)的研究人員在16 nm下使用4T的 Gain Cell 提高存儲(chǔ)密度,其核心創(chuàng)新在于極細(xì)粒度的整型和浮點(diǎn)型計(jì)算的重構(gòu),在執(zhí)行整型計(jì)算時(shí),浮點(diǎn)的指數(shù)加法電路被重構(gòu)為整型加法樹,而浮點(diǎn)對(duì)指電路被重構(gòu)為整型計(jì)算中的稀疏檢測(cè)電路,極大地提高了重構(gòu)效率;

論文鏈接:

34.1:

https://ieeexplore.ieee.org/abstract/document/10454567/

34.2:

https://ieeexplore.ieee.org/abstract/document/10454447

* 34.3 & 34.6 東南大學(xué)和后摩智能團(tuán)隊(duì)以及中科院微電子研究所的團(tuán)隊(duì)均采用了數(shù)字模擬混合的方式試圖在計(jì)算精度和計(jì)算能效之間做出權(quán)衡。東南大學(xué)和后摩智能的團(tuán)隊(duì)采用了一種“閃電型”比特?cái)U(kuò)展的存內(nèi)計(jì)算方式,相較于之前的數(shù)?;旌系姆指罘桨父玫貦?quán)衡了計(jì)算精度和計(jì)算能效,使用的模擬多周期累加的方案也更適合累加長(zhǎng)度更大的網(wǎng)絡(luò)部署。微電子所團(tuán)隊(duì)的工作使用模擬存內(nèi)計(jì)算+數(shù)字存外計(jì)算保障計(jì)算精度的同時(shí)提升計(jì)算能效,其采用外積計(jì)算數(shù)據(jù)很好地重構(gòu)了整型/浮點(diǎn)的數(shù)據(jù)類型;

論文鏈接:

34.3:

https://ieeexplore.ieee.org/abstract/document/10454278

34.6:

https://ieeexplore.ieee.org/abstract/document/10454313

2、存內(nèi)計(jì)算相關(guān)研究在計(jì)算機(jī)體系結(jié)構(gòu)領(lǐng)域頂會(huì)上持續(xù)火熱

四月,ASPLOS 在美國圣地亞哥召開,來自中科院計(jì)算所的工作:CIM-MLC: A Multi-level Compilation Stack for Computing-In-Memory Accelerators 提出了面向存算多種類存算一體芯片的多層次開源編譯框架,作為連接多種類的存算硬件與多種類的算法算子之間的中間層。存內(nèi)計(jì)算作為一種新的硬件架構(gòu)范式,對(duì)其軟件編譯的討論十分重要。

論文鏈接:

https://dl.acm.org/doi/abs/10.1145/3620665.3640359

同樣是 ASPLOS 上,來自北京大學(xué)和 KAIST 的研究人員都基于目前已有商用的 DRAM-PIM 和傳統(tǒng) NPU/GPU 的協(xié)同工作系統(tǒng),分別對(duì)大語言模型加速的兩種技術(shù):Speculative Inference 和 Batched Inference做架構(gòu)設(shè)計(jì)探索,形成兩套軟硬件協(xié)同設(shè)計(jì):SpecPIM 和 NPU-PIM。其中,SpecPIM 敏銳地捕捉到了 Speculative Inference 中大模型和小模型同時(shí)推理時(shí)算法需求的異質(zhì)性與 GPU+DRAM-PIM 的硬件能力異質(zhì)性相吻合,亟需一套架構(gòu)-數(shù)據(jù)流的協(xié)同探索以發(fā)現(xiàn)推理時(shí)最優(yōu)的軟件-硬件配置。而在 NPU-PIM 中,研究人員發(fā)現(xiàn)在服務(wù)器端 Batch size 很大的推理場(chǎng)景時(shí),ffn 算子為計(jì)算密集型算子,而 Attention 算子由于每個(gè) Batch對(duì)應(yīng)的KV Cache 不同,為存儲(chǔ)密集型算子。與 SpecPIM 一樣,這種算法需求上的異質(zhì)性在 NPU+DRAM-PIM 的系統(tǒng)中同樣存在強(qiáng)的協(xié)同設(shè)計(jì)需求,啟發(fā)了研究人員的軟硬件協(xié)同設(shè)計(jì)方法,包含軟件上的數(shù)據(jù)流調(diào)度和 PIM 計(jì)算單元的電路優(yōu)化。

論文鏈接:

https://dl.acm.org/doi/abs/10.1145/3620666.3651352

https://dl.acm.org/doi/abs/10.1145/3620666.3651380

六月底,ISCA 在阿根廷布宜諾斯艾利斯召開,清華大學(xué)和上海交通大學(xué)都捕捉到了目前已有的 DRAM-PIM 芯片中計(jì)算Bank間調(diào)度受限的問題,利用軟硬件協(xié)同設(shè)計(jì)和內(nèi)存空間管理形成兩套解決辦法:NDPBridge 和 UM-PIM。其中,NDPBridge 在硬件上設(shè)計(jì)了一套Bank 和 Bank 之間以及 Rank 和 Rank 之間數(shù)據(jù)包收集和派發(fā)的橋接路由單元,軟件上提出一套數(shù)據(jù)傳輸感知的調(diào)度策略,最小化交互的延遲開銷。UM-PIM 提出了一種具有統(tǒng)一和共享內(nèi)存空間的 DRAM-PIM 系統(tǒng),允許 CPU 和 PIM 所需要的兩種不同數(shù)據(jù)排布的頁面共存于同一個(gè)內(nèi)存空間中,最小化因 PIM 本身特性導(dǎo)致的冗余的數(shù)據(jù)重排拷貝。UM-PIM 在硬件層面通過在 PIM 的 DIMM一側(cè)設(shè)計(jì)硬件接口,實(shí)現(xiàn)物理到硬件地址的動(dòng)態(tài)映射,加速數(shù)據(jù)重新布局過程的同時(shí)降低了 CPU 與PIM 之間的通信開銷,有效提升系統(tǒng)性能。

論文鏈接:

https://ieeexplore.ieee.org/abstract/document/10609679/

https://ieeexplore.ieee.org/abstract/document/10609641

十一月初,MICRO 在美國德克薩斯召開,中科院計(jì)算所發(fā)表一篇基于芯粒互聯(lián)的 Flash內(nèi)計(jì)算的邊緣端大模型推理芯片,該設(shè)計(jì)在 3D-Nand Flash 原本的數(shù)據(jù)讀出Cache die上集成計(jì)算單元和Ecc 糾錯(cuò),用于大模型推理中的ffn算子的矩陣乘,再通過2.5D封裝工藝集成Flash和處理attention 算子的 NPU,在系統(tǒng)外部外掛 DRAM 存儲(chǔ)推理過程產(chǎn)生的動(dòng)態(tài)KV Cache。該設(shè)計(jì)利用先進(jìn)的封裝工藝和近 Flash 的存內(nèi)計(jì)算將大容量 NvM 提升到更高的層級(jí),顛覆了傳統(tǒng)的體系結(jié)構(gòu)中的存儲(chǔ)層級(jí),為邊緣端大模型的推理提供更大的存儲(chǔ)容量和更高效的數(shù)據(jù)調(diào)度方案。

論文鏈接:https://ieeexplore.ieee.org/abstract/document/10764574

3、存內(nèi)計(jì)算相關(guān)算法研究亮相深度學(xué)習(xí)頂會(huì) ICLR

RPTQ(Reorder-based Post-training Quantization)是后摩智能團(tuán)隊(duì)與華中科技大學(xué)等合作單位提出的一種全新的量化方法,旨在解決量化Transformer 時(shí)激活通道之間的數(shù)值范圍差異問題。相較于以往的研究,RPTQ 首次將3位激活引入了 LLMs,實(shí)現(xiàn)了顯著的內(nèi)存節(jié)省,例如在量化 OPT-175B 模型方面,內(nèi)存消耗降低了高達(dá)80%。RPTQ 的關(guān)鍵思想是通過重新排列激活通道并按簇量化,從而減少通道范圍差異的影響。同時(shí),通過操作融合,避免了顯式重新排序的操作,使得 RPTQ的開銷幾乎為零。通過這種方法,RPTQ 有效地解決了激活通道數(shù)值范圍差異導(dǎo)致的量化誤差問題。

論文鏈接:

https://arxiv.org/abs/2304.01089

五月,ICLR 在奧地利維也納召開,后摩智能團(tuán)隊(duì)與伊利諾伊理工和伯克利大學(xué)等單位合作提出的另一種創(chuàng)新性量化方法 PB-LLM,相較于傳統(tǒng)的二值化方法,PB-LLM 采用了部分二值化的策略,即將一部分顯著權(quán)重分配到高位存儲(chǔ),從而在實(shí)現(xiàn)極端低位量化的同時(shí),保持了Transformer 的語言推理能力。通過對(duì)顯著權(quán)重的充分利用,PB-LLM取得了顯著的性能提升,為Transformer 的內(nèi)存消耗和計(jì)算復(fù)雜度提供了有效的解決方案。這是學(xué)術(shù)界首次探索對(duì)Transformer 權(quán)重?cái)?shù)值二值化的工作,助力大語言模型在存內(nèi)計(jì)算中的應(yīng)用。

論文鏈接:

https://arxiv.org/abs/2310.00034

二、產(chǎn)業(yè)界重點(diǎn)事件盤點(diǎn)

1、三星與SK海力士推動(dòng) LPDDR6-PIM 技術(shù)的標(biāo)準(zhǔn)化與應(yīng)用

2024年,三星電子與SK海力士攜手合作,致力于標(biāo)準(zhǔn)化“低功耗雙倍數(shù)據(jù)速率6(LPDDR6)-內(nèi)存處理(PIM)”產(chǎn)品。這一合作標(biāo)志著存算一體技術(shù)在移動(dòng)端應(yīng)用的又一重要里程碑。三星積極響應(yīng)蘋果的需求,著力研究新的低功耗雙倍數(shù)據(jù)速率LPDDR DRAM封裝方式,并計(jì)劃在iPhone DRAM中應(yīng)用LPDDR6-PIM 技術(shù)。

這一舉措不僅旨在提升端側(cè)AI性能,還在數(shù)據(jù)處理速度和能效方面帶來顯著突破,有望改變消費(fèi)電子設(shè)備存儲(chǔ)芯片的應(yīng)用格局。通過標(biāo)準(zhǔn)化進(jìn)程,LPDDR6-PIM 技術(shù)能夠更高效地應(yīng)用于各類數(shù)據(jù)密集型任務(wù)場(chǎng)景,例如在金融領(lǐng)域的信貸風(fēng)險(xiǎn)評(píng)估中,可大幅縮短評(píng)估時(shí)間;在電商的商品推薦系統(tǒng)中,能顯著提升推薦準(zhǔn)確率。這一合作有力地促進(jìn)了存算一體技術(shù)在行業(yè)應(yīng)用中的規(guī)范化和規(guī)?;l(fā)展,為未來智能設(shè)備的性能提升奠定了堅(jiān)實(shí)基礎(chǔ)。

2、后摩智能推出端邊大模型AI芯片后摩漫界M30

2024年,國內(nèi)AI芯片企業(yè)后摩智能成功推出基于存算一體架構(gòu)的邊端大模型AI芯片——后摩漫界M30,以及配套的計(jì)算模組、計(jì)算盒子、AI加速卡等系列硬件產(chǎn)品,實(shí)現(xiàn)了存算一體技術(shù)在端邊大模型領(lǐng)域的應(yīng)用突破。M30將存儲(chǔ)與計(jì)算集成在同一芯片上,有效解決了傳統(tǒng)架構(gòu)中數(shù)據(jù)傳輸延遲的問題,極大地提高了計(jì)算效率和吞吐量。M30提供100至256TOPS算力,功耗為12至35W,支持 ChatGLM、Llama2、通義千問等多種大模型。在AI PC、智能座艙、NAS 等設(shè)備中, M30 展現(xiàn)出卓越的大模型運(yùn)行能力,為端邊大模型的商業(yè)化落地提供了堅(jiān)實(shí)可靠的算力支撐。

這一成果不僅推動(dòng)了存算一體技術(shù)在邊緣計(jì)算領(lǐng)域的廣泛應(yīng)用,也為智能設(shè)備的高效運(yùn)行提供了新的解決方案,進(jìn)一步拓展了存算一體技術(shù)在消費(fèi)電子和工業(yè)自動(dòng)化等領(lǐng)域的應(yīng)用前景。后摩智能已與聯(lián)想集團(tuán)達(dá)成戰(zhàn)略合作,結(jié)合后摩智能在存算一體AI芯片領(lǐng)域的創(chuàng)新優(yōu)勢(shì)和聯(lián)想在PC領(lǐng)域的深厚積累,共同推動(dòng)AI算力向邊緣側(cè)和端側(cè)下沉。

3、d-Matrix 首款A(yù)I芯片出貨,數(shù)字存算一體技術(shù)助力性能飛躍

2024年11月,微軟支持的硅谷初創(chuàng)公司 d-Matrix 宣布其首款A(yù)I芯片 Corsair正式出貨,標(biāo)志著存算一體技術(shù)在高性能計(jì)算領(lǐng)域的商業(yè)化取得重大突破。Corsair 芯片在單臺(tái)服務(wù)器中為 Llama3 8B 模型提供每秒處理60,000個(gè)tokens 的性能,每個(gè)token 延遲僅為1毫秒,交互速度提升10倍,能效提高3倍。其關(guān)鍵亮點(diǎn)包括 150TB/s 的超高內(nèi)存帶寬、2400 TFLOP 的8位峰值計(jì)算能力和2GB 集成性能內(nèi)存,以及高達(dá)256GB 的片外容量?jī)?nèi)存。

d-Matrix 通過 DIMC 技術(shù),將計(jì)算單元直接集成到存儲(chǔ)器中,減少了數(shù)據(jù)移動(dòng),顯著降低了延遲和能耗。這種架構(gòu)特別適合AI推理任務(wù),能夠有效消除數(shù)據(jù)移動(dòng)帶來的能耗和延遲。Corsair 的推出不僅展示了存算一體技術(shù)在高性能計(jì)算領(lǐng)域的巨大潛力,還為AI芯片市場(chǎng)注入了新的活力,為存算一體技術(shù)的廣泛應(yīng)用提供了有力證明。

4、Graphcore 被日本軟銀集團(tuán)收購

2024年7月15日,英國的 Graphcore 公司被日本軟銀集團(tuán)收購。盡管交易細(xì)節(jié)尚未公開,但此次收購使 Graphcore 得以繼續(xù)運(yùn)營并保留其管理團(tuán)隊(duì)。此前,Graphcore 推出的智能處理單元(IPU)芯片曾被視為英偉達(dá)的有力競(jìng)爭(zhēng)者。

此次收購事件不僅為 Graphcore 帶來了新的發(fā)展機(jī)遇,也給存算一體芯片市場(chǎng)的競(jìng)爭(zhēng)態(tài)勢(shì)和產(chǎn)業(yè)布局帶來了新的變數(shù)。軟銀集團(tuán)的介入可能會(huì)引發(fā)行業(yè)內(nèi)的資源整合與技術(shù)融合,進(jìn)一步推動(dòng)存算一體技術(shù)在全球范圍內(nèi)的發(fā)展和應(yīng)用。

Part 2.2025年存算一體技術(shù)與應(yīng)用趨勢(shì)展望

1、多樣化的存內(nèi)計(jì)算技術(shù)涌現(xiàn)

隨著大模型技術(shù)的快速發(fā)展,存內(nèi)計(jì)算技術(shù)將呈現(xiàn)多樣化和多層次化的發(fā)展趨勢(shì)?;诓煌鎯?chǔ)介質(zhì)的存內(nèi)計(jì)算方案,如 Flash、SRAM、DRAM和RRAM(憶阻器)等,將并行發(fā)展以滿足多樣化的應(yīng)用場(chǎng)景需求。Flash 存內(nèi)計(jì)算以其低功耗和小算力的特點(diǎn),適用于智能穿戴設(shè)備等端側(cè)場(chǎng)景;SRAM 作為當(dāng)前最成熟的存儲(chǔ)介質(zhì),SRAM 的制作工藝、研發(fā)工具和 CMOS 集成的電路模型都更加成熟穩(wěn)定,同時(shí) SRAM 具有更快的操作速度和耐久性,可以實(shí)時(shí)在存算單元中刷新計(jì)算數(shù)據(jù),為大算力提供重要的保障;DRAM 能夠在相同芯片面積上實(shí)現(xiàn)比 SRAM 更高的存儲(chǔ)密度,這使得能夠提供大容量的內(nèi)存,更適合數(shù)據(jù)中心和AI訓(xùn)練等高性能需求場(chǎng)景。

新型存儲(chǔ)工藝包括 RRAM、MRAM 等,相比于傳統(tǒng)的非易失存儲(chǔ)(如Flash), 新型存儲(chǔ)的讀寫性能更好、具備更好的工藝可擴(kuò)展性。從端側(cè)到邊緣側(cè)(如自動(dòng)駕駛)再到云端(如大模型訓(xùn)練),存內(nèi)計(jì)算技術(shù)將根據(jù)不同場(chǎng)景提供從低功耗到高性能的多樣化解決方案。同時(shí),存內(nèi)計(jì)算還將與感存算一體、近存計(jì)算等技術(shù)深度融合,形成多層次的技術(shù)生態(tài),滿足從數(shù)據(jù)采集到處理的全鏈條需求。

2、DRAM 存內(nèi)計(jì)算硬件商業(yè)化加速

2025年,基于 DRAM 的存內(nèi)計(jì)算硬件將迎來商業(yè)化加速。三星、SK海力士等半導(dǎo)體巨頭已推出 HBM-PIM(高帶寬內(nèi)存存內(nèi)計(jì)算)產(chǎn)品,通過在DRAM芯片中嵌入計(jì)算單元,顯著提升了AI訓(xùn)練和推理的效率。例如,三星的 HBM-PIM 在AI氣候模擬項(xiàng)目中實(shí)現(xiàn)了性能提升2.5倍、能耗降低60%的優(yōu)異表現(xiàn)。DRAM存內(nèi)計(jì)算通過減少數(shù)據(jù)搬運(yùn),大幅降低了硬件成本和功耗。以數(shù)據(jù)中心為例,采用該技術(shù)后,硬件成本可降低50%,運(yùn)營成本減少20%-30%。隨著JEDEC 等標(biāo)準(zhǔn)組織的推動(dòng),DRAM 存內(nèi)計(jì)算的接口和架構(gòu)將逐步統(tǒng)一,這將有力促進(jìn)產(chǎn)業(yè)鏈上下游的協(xié)同發(fā)展,加速存內(nèi)計(jì)算技術(shù)在數(shù)據(jù)中心等領(lǐng)域的廣泛應(yīng)用。

3、先進(jìn)封裝技術(shù)助力存內(nèi)計(jì)算架構(gòu)升級(jí)

2025年,2.5D、3D 和3.5D 等先進(jìn)封裝技術(shù)將繼續(xù)推動(dòng)存內(nèi)計(jì)算架構(gòu)的升級(jí)。通過將計(jì)算芯片和存儲(chǔ)芯片緊密堆疊,這些技術(shù)能夠有效縮短數(shù)據(jù)傳輸路徑,大幅提升訪存帶寬。AMDIntel采用2.5D封裝的 HBM 技術(shù)已在高性能計(jì)算領(lǐng)域取得顯著成效,驗(yàn)證了先進(jìn)集成技術(shù)在存內(nèi)計(jì)算中的巨大潛力。

3D 封裝技術(shù)通過將計(jì)算單元和存儲(chǔ)單元垂直堆疊,實(shí)現(xiàn)了更極致的存算融合,不僅提升了芯片的集成度,還顯著降低了功耗和延遲,特別適用于AI推理和邊緣計(jì)算場(chǎng)景。作為3D 封裝的升級(jí)版,3.5D 技術(shù)引入了更復(fù)雜的互連結(jié)構(gòu)和散熱方案,進(jìn)一步提升了芯片的性能和可靠性。例如,臺(tái)積電的3.5D 封裝技術(shù)已在AI芯片中實(shí)現(xiàn)商用,為存內(nèi)計(jì)算新架構(gòu)的發(fā)展提供了有力支持。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 存算一體
    +關(guān)注

    關(guān)注

    0

    文章

    105

    瀏覽量

    4368
  • 后摩智能
    +關(guān)注

    關(guān)注

    0

    文章

    26

    瀏覽量

    1255
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2669

    瀏覽量

    3282

原文標(biāo)題:大模型驅(qū)動(dòng)下的存算一體技術(shù):2024年回顧與2025年前瞻

文章出處:【微信號(hào):后摩智能,微信公眾號(hào):后摩智能】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 0人收藏

    評(píng)論

    相關(guān)推薦

    2025照明行業(yè)外貿(mào)前景展望

    當(dāng)前的外貿(mào)形勢(shì),簡(jiǎn)要對(duì)2025照明行業(yè)外貿(mào)發(fā)展態(tài)勢(shì)進(jìn)行預(yù)判,為企業(yè)外貿(mào)市場(chǎng)建設(shè)提供借鑒和參考。 、2024
    的頭像 發(fā)表于 02-14 10:54 ?256次閱讀
    <b class='flag-5'>2025</b><b class='flag-5'>年</b>照明<b class='flag-5'>行業(yè)</b>外貿(mào)前景<b class='flag-5'>展望</b>

    佑駕創(chuàng)新的2024回顧2025展望

    2月12日,佑駕創(chuàng)新舉辦2024度表彰大會(huì),激勵(lì)與表彰在2024度作出突出成績(jī)的團(tuán)隊(duì)和個(gè)人。站在新一年的開端,董事長(zhǎng)劉國清在會(huì)上發(fā)表了開
    的頭像 發(fā)表于 02-13 15:48 ?140次閱讀

    曬獎(jiǎng)品——2024度優(yōu)秀版主

    感謝電子發(fā)燒友論壇,給予我2024度優(yōu)秀版主的光榮稱號(hào)。今天收到了獎(jiǎng)杯,分享如下: 在2025里,我獎(jiǎng)繼續(xù)努力為論壇做貢獻(xiàn)。 祝咱電子發(fā)燒友論壇
    發(fā)表于 01-19 11:20

    Imagination:2025強(qiáng)勢(shì)復(fù)蘇,邊緣AI、汽車帶給半導(dǎo)體IP廠商新動(dòng)能

    又到了歲末年初之際,回顧過去的2024,半導(dǎo)體產(chǎn)業(yè)有增長(zhǎng)也有陣痛,復(fù)盤2024的半導(dǎo)體產(chǎn)業(yè)狀況,有哪些長(zhǎng)足的進(jìn)展又有哪些短板?
    發(fā)表于 01-09 13:47 ?379次閱讀
    Imagination:<b class='flag-5'>2025</b><b class='flag-5'>年</b>強(qiáng)勢(shì)復(fù)蘇,邊緣AI、汽車帶給半導(dǎo)體IP廠商新動(dòng)能

    Roc Yang對(duì)2025半導(dǎo)體市場(chǎng)的分析與展望

    正值歲末年初之際,我們回顧2024,半導(dǎo)體產(chǎn)業(yè)經(jīng)歷了增長(zhǎng)與陣痛并存的局面,復(fù)盤2024的半導(dǎo)體產(chǎn)業(yè)狀況,有哪些長(zhǎng)足的進(jìn)展又有哪些短板?
    的頭像 發(fā)表于 01-06 09:36 ?385次閱讀
    Roc Yang對(duì)<b class='flag-5'>2025</b><b class='flag-5'>年</b>半導(dǎo)體市場(chǎng)的分析與<b class='flag-5'>展望</b>

    江波龍:值25周之際,展望2025,存儲(chǔ)邁向新高度

    正值歲末年初之際,回顧過去的2024,半導(dǎo)體產(chǎn)業(yè)有增長(zhǎng)也有陣痛,復(fù)盤2024的半導(dǎo)體產(chǎn)業(yè)狀況,有哪些長(zhǎng)足的進(jìn)展又有哪些短板?
    發(fā)表于 12-30 18:11 ?996次閱讀

    科技詹慕航:AI蓬勃發(fā)展,一體走向AI芯片的主流架構(gòu)

    又到了歲末年初之際,回顧過去的2024,半導(dǎo)體產(chǎn)業(yè)有增長(zhǎng)也有陣痛,復(fù)盤2024的半導(dǎo)體產(chǎn)業(yè)狀況,有哪些長(zhǎng)足的進(jìn)展又有哪些短板?
    發(fā)表于 12-30 09:14 ?1514次閱讀
    知<b class='flag-5'>存</b>科技詹慕航:AI蓬勃發(fā)展,<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b>走向AI芯片的主流架構(gòu)

    蘋芯科技:邊緣和端側(cè)AI力或成2025重要增長(zhǎng)點(diǎn),一體架構(gòu)崛起是必然趨勢(shì)

    又到了歲末年初之際,回顧過去的2024,半導(dǎo)體產(chǎn)業(yè)有增長(zhǎng)也有陣痛,復(fù)盤2024的半導(dǎo)體產(chǎn)業(yè)狀況,有哪些長(zhǎng)足的進(jìn)展又有哪些短板?
    發(fā)表于 12-26 15:39 ?689次閱讀
    蘋芯科技:邊緣和端側(cè)AI<b class='flag-5'>算</b>力或成<b class='flag-5'>2025</b><b class='flag-5'>年</b>重要增長(zhǎng)點(diǎn),<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b>架構(gòu)崛起是必然趨勢(shì)

    一體化與邊緣計(jì)算:重新定義智能計(jì)算的未來

    隨著數(shù)據(jù)量爆炸式增長(zhǎng)和智能化應(yīng)用的普及,計(jì)算與存儲(chǔ)的高效整合逐漸成為科技行業(yè)關(guān)注的重點(diǎn)。數(shù)據(jù)存儲(chǔ)和處理需求的快速增長(zhǎng)推動(dòng)了對(duì)計(jì)算架構(gòu)的重新設(shè)計(jì),“一體化”技術(shù)應(yīng)運(yùn)而生。同時(shí),隨著物
    的頭像 發(fā)表于 11-12 01:05 ?363次閱讀
    <b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b>化與邊緣計(jì)算:重新定義智能計(jì)算的未來

    一體架構(gòu)創(chuàng)新助力國產(chǎn)大力AI芯片騰飛

    在灣芯展SEMiBAY2024《AI芯片與高性能計(jì)算(HPC)應(yīng)用論壇》上,億鑄科技高級(jí)副總裁徐芳發(fā)表了題為《一體架構(gòu)創(chuàng)新助力國產(chǎn)大
    的頭像 發(fā)表于 10-23 14:48 ?451次閱讀

    后摩智能首款一體智駕芯片獲評(píng)突出創(chuàng)新產(chǎn)品獎(jiǎng)

    近日,20246月29日,由深圳市汽車電子行業(yè)協(xié)會(huì)主辦的「第十三屆國際汽車電子產(chǎn)業(yè)峰會(huì)暨2023度汽車電子科學(xué)技術(shù)獎(jiǎng)?lì)C獎(jiǎng)典禮」在深圳寶安隆重舉行。后摩智能首款
    的頭像 發(fā)表于 09-24 16:51 ?617次閱讀

    中科曙光入選2024力服務(wù)產(chǎn)業(yè)圖譜及力服務(wù)產(chǎn)品名錄

    近日,中國信通院公布首個(gè)《力服務(wù)產(chǎn)業(yè)圖譜(2024)》及《力服務(wù)產(chǎn)品名錄(2024)》。
    的頭像 發(fā)表于 08-06 14:23 ?890次閱讀

    后摩智能推出邊端大模型AI芯片M30,展現(xiàn)出一體架構(gòu)優(yōu)勢(shì)

    了基于M30芯片的智模組(SoM)和力謀??AI加速卡。 ? 后摩智能一體架構(gòu)芯片產(chǎn)品 ? 后摩智能是家專注于
    的頭像 發(fā)表于 07-03 00:58 ?4467次閱讀

    探索內(nèi)計(jì)算—基于 SRAM 的內(nèi)計(jì)算與基于 MRAM 的一體的探究

    本文深入探討了基于SRAM和MRAM的一體技術(shù)在計(jì)算領(lǐng)域的應(yīng)用和發(fā)展。首先,介紹了基于SRAM的內(nèi)邏輯計(jì)算技術(shù),包括其原理、優(yōu)勢(shì)以及在神經(jīng)網(wǎng)絡(luò)領(lǐng)域的應(yīng)用。其次,詳細(xì)討論了基于MR
    的頭像 發(fā)表于 05-16 16:10 ?3273次閱讀
    探索<b class='flag-5'>存</b>內(nèi)計(jì)算—基于 SRAM 的<b class='flag-5'>存</b>內(nèi)計(jì)算與基于 MRAM 的<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b>的探究

    2024工業(yè)行業(yè)轉(zhuǎn)型展望

    行業(yè)變革中的挑戰(zhàn)與機(jī)遇 2024將是全球工業(yè)格局發(fā)生重大變化的一年。CADENAS著眼于最重要的五大主題:數(shù)字化轉(zhuǎn)型、技能短缺、供應(yīng)鏈、可持續(xù)發(fā)展和人工智能(AI)。這些領(lǐng)域?yàn)槿蚬?/div>
    發(fā)表于 02-23 16:55

    電子發(fā)燒友

    中國電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會(huì)員交流學(xué)習(xí)
    • 獲取您個(gè)性化的科技前沿技術(shù)信息
    • 參加活動(dòng)獲取豐厚的禮品