0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

大算力模型,HBM、Chiplet和CPO等技術(shù)打破技術(shù)瓶頸

智能計算芯世界 ? 來源:智能計算芯世界 ? 2023-04-16 10:42 ? 次閱讀

大語言模型涉及對高性能硬件(如 GPU、TPU)、大規(guī)模高質(zhì)量數(shù)據(jù)集的需求以及軟件算法的提高等多方面要求。

1.HBM 技術(shù):高吞吐高帶寬,AI 帶動需求激增

HBM(High Bandwidth Memory)意為高帶寬存儲器,是一種硬件存儲介質(zhì),是高性能 GPU 的核心組件。HBM 具有高吞吐高帶寬的特性,受到工業(yè)界和學(xué)術(shù)界的關(guān)注。它單顆粒的帶寬可以達(dá)到 256 GB/s,遠(yuǎn)超過 DDR4 和 GDDR6。DDR4 是 CPU 和硬件處理單元的常用外掛存儲設(shè)備,但是它的吞吐能力不足以滿足當(dāng)今計算需求,特別是在 AI 計算、區(qū)塊鏈和數(shù)字貨幣挖礦等大數(shù)據(jù)處理訪存需求極高的領(lǐng)域。GDDR6 也比不上 HBM,它單顆粒的帶寬只有 64 GB/s,是HBM 的 1/4。而 DDR4 3200 需要至少 8 顆粒才能提供 25.6 GB/s 的帶寬,是 HBM 的 1/10。

HBM 使用多根數(shù)據(jù)線實現(xiàn)高帶寬,完美解決傳統(tǒng)存儲效率低的問題。HBM 的核心原理和普通的 DDR、GDDR 完全一樣,但是 HBM 使用多根數(shù)據(jù)線實現(xiàn)了高帶寬。HBM/HBM2 使用 1024 根數(shù)據(jù)線傳輸數(shù)據(jù),作為對比,GDDR 是 32 根,DDR 是 64 根。HBM 需要使用額外的硅聯(lián)通層,通過晶片堆疊技術(shù)與處理器連接。這么多的連接線保持高傳輸頻率會帶來高功耗。因此 HBM 的數(shù)據(jù)傳輸頻率相對很低,HBM2 也只有 2 Gbps,作為對比,GDDR6 是 16 Gbps,DDR4 3200 是3.2 Gbps。這些特點導(dǎo)致了 HBM 技術(shù)高成本,容量不可擴,高延遲等缺點。

5302957a-dbb6-11ed-bfe3-dac502259ad0.png

530b0e58-dbb6-11ed-bfe3-dac502259ad0.png

HBM 可以被廣泛的應(yīng)用到汽車高帶寬存儲器,GPU 顯存芯片,部分 CPU 的內(nèi)存芯片,邊緣 AI加速卡,Chiplets 等硬件中。在高端 GPU 芯片產(chǎn)品中,比如 NVDIA 面向數(shù)據(jù)中心的 A100 等加速卡中就使用了 HBM;部分 CPU 的內(nèi)存芯片,如目前富岳中的 A64FX 等 HPC 芯片中也有應(yīng)用到。車輛在快速移動時,攝像頭、傳感器會捕獲大量的數(shù)據(jù),為了更快速的處理數(shù)據(jù),HBM是最合適的選擇。Chiplets 在設(shè)計過程中沒有降低對內(nèi)存的需求,隨著異構(gòu)計算(尤其是小芯片)的發(fā)展,芯片會加速對高帶寬內(nèi)存的需求,無論是 HBM、GDDR6 還是 LPDDR6。

HBM 緩解帶寬瓶頸,是 AI 時代不可或缺的關(guān)鍵技術(shù)。AI 處理器架構(gòu)的探討從學(xué)術(shù)界開始,當(dāng)時的模型簡單,算力低,后來模型加深,算力需求增加,帶寬瓶頸出現(xiàn),也就是 IO 問題。這個問題可以通過增大片內(nèi)緩存、優(yōu)化調(diào)度模型等方法解決。但是隨著 AI 大模型和云端 AI處理的發(fā)展,計算單元劇增,IO 問題更嚴(yán)重了。要解決這個問題需要付出很高的代價(比如增加 DDR 接口通道數(shù)量、片內(nèi)緩存容量、多芯片互聯(lián)),這便是 HBM 出現(xiàn)的意義。HBM 用晶堆疊技術(shù)和硅聯(lián)通層把處理器和存儲器連接起來,把 AI/深度學(xué)習(xí)完全放到片上,提高集成度,降低功耗,不受芯片引腳數(shù)量的限制。HBM 在一定程度上解決了 IO 瓶頸。未來人工智能的數(shù)據(jù)量、計算量會越來越大,超過現(xiàn)有的 DDR/GDDR 帶寬瓶頸,HBM 可能會是唯一的解決方案。

巨頭領(lǐng)跑,各大存儲公司都已在 HBM 領(lǐng)域參與角逐。SK 海力士、三星、美光等存儲巨頭在HBM 領(lǐng)域展開了升級競賽,國內(nèi)佰維存儲等公司持續(xù)關(guān)注 HBM 領(lǐng)域。SK 海力士早在 2021 年10 月就開發(fā)出全球首款 HBM3,2022 年 6 月量產(chǎn)了 HBM3 DRAM 芯片,并將供貨英偉達(dá),持續(xù)鞏固其市場領(lǐng)先地位。三星也在積極跟進(jìn),在 2022 年技術(shù)發(fā)布會上發(fā)布的內(nèi)存技術(shù)發(fā)展路線圖中,HBM3 技術(shù)已經(jīng)量產(chǎn)。

2、Chiplet技術(shù):全產(chǎn)業(yè)鏈升級降本增效,國內(nèi)外大廠前瞻布局

Chiplet 即根據(jù)計算單元或功能單元將 SOC 進(jìn)行分解,分別選擇合適制程工藝制造。隨著處理器的核越來越多,芯片復(fù)雜度增加、設(shè)計周期越來越長,SoC 芯片驗證的時間、成本也急劇增加,特別是高端處理芯片、大芯片。當(dāng)前集成電路工藝在物理、化學(xué)很多方面都達(dá)到了極限,大芯片快要接近制造瓶頸,傳統(tǒng)的 SoC 已經(jīng)很難繼續(xù)被采納。Chiplet,俗稱小芯片、芯粒,是將一塊原本復(fù)雜的 SoC 芯片,從設(shè)計的時候就按照不同的計算單元或功能單元進(jìn)行分解,然后每個單元分別選擇最合適的半導(dǎo)體制程工藝進(jìn)行制造,再通過先進(jìn)封裝技術(shù)將各自單元彼此互聯(lián)。Chiplet 是一種類似搭樂高積木的方法,能將采用不同制造商、不同制程工藝的各種功能芯片進(jìn)行組裝,從而實現(xiàn)更高良率、更低成本。

Chiplet 可以從多個維度降低成本,延續(xù)摩爾定律的“經(jīng)濟效益”。隨著半導(dǎo)體工藝制程推進(jìn),晶體管尺寸越來越逼近物理極限,所耗費的時間及成本越來越高,同時所能夠帶來的“經(jīng)濟效益”的也越來越有限。Chiplet 技術(shù)可從三個不同的維度來降低成本:

(1)可大幅度提高大型芯片的良率:芯片的良率與芯片面積有關(guān),Chiplet 設(shè)計將大芯片分成小模塊可以有效改善良率,降低因不良率導(dǎo)致的成本增加。

(2)可降低設(shè)計的復(fù)雜度和設(shè)計成本:Chiplet 通過在芯片設(shè)計階段就將 Soc 按照不同功能模塊分解成可重復(fù)云涌的小芯粒,是一種新形式的 IP 復(fù)用,可大幅度降低設(shè)計復(fù)雜度和成本累次增加。

(3)可降低芯片制造的成本:在 Soc 中的一些主要邏輯計算單元是依賴于先進(jìn)工藝制程來提升性能,但其他部分對制程的要求并不高,一些成熟制程即可滿足需求。將Soc進(jìn)行Chiplet化后對于不同的芯??蛇x擇對應(yīng)合適的工藝制程進(jìn)行分開制造,極大降低芯片的制造成本。

Chiplet 為全產(chǎn)業(yè)鏈提供了升級機會。在后摩爾時代,Chiplet 可以開啟一個新的芯片生態(tài)。2022年 3 月,Chiplet的高速互聯(lián)標(biāo)準(zhǔn)——UCIe(UniversalChiplet Interconnect Express,通用芯?;ヂ?lián)技術(shù))正式推出,旨在芯片封裝層面確立互聯(lián)互通的統(tǒng)一標(biāo)準(zhǔn),打造一個開放性的 Chiplet 生態(tài)系統(tǒng)。巨頭們合力搭建起了統(tǒng)一的 Chiplet 互聯(lián)標(biāo)準(zhǔn),將加速推動開放的Chiplet 平臺發(fā)展,并橫跨 x86、Arm、RISC-V 等架構(gòu)和指令集。Chiplet 的影響力也從設(shè)計端走到芯片制造與封裝環(huán)節(jié)。在芯片小型化的設(shè)計過程中,需要添加更多 I/O 與其他芯片芯片接口,裸片尺寸必須要保持較大的空白空間。而且,要想保證 Chiplet 的信號傳輸質(zhì)量就需要發(fā)展高密度、大寬帶布線的先進(jìn)封裝技術(shù)。另外,Chiplet 也影響到從 EDA 廠商晶圓制造和封裝公司、芯粒 IP 供應(yīng)商、Chiplet 產(chǎn)品及系統(tǒng)設(shè)計公司到 Fabless 設(shè)計廠商的產(chǎn)業(yè)鏈各個環(huán)節(jié)的參與者。

531f7f0a-dbb6-11ed-bfe3-dac502259ad0.png

(1)最先受到影響的是芯片 IP 設(shè)計企業(yè),Chiplet 本質(zhì)就是不同的 IP 芯片化,國內(nèi)類似 IP 商均有望參與其中,比如華為海思有 IP 甚至指令集開發(fā)實力的公司,推出基于 RISC-V 內(nèi)核的處理器(玄鐵 910)阿里平頭哥半導(dǎo)體公司,獨立的第三方 IP 廠商,如芯動科技、芯原股份、芯耀輝、銳成芯微、芯來等眾多 IP 公司等。

(2)Chiplet 需要 EDA 工具從架構(gòu)探索、芯片設(shè)計、物理及封裝實現(xiàn)等提供全面支持,為國內(nèi) EDA 企業(yè)發(fā)展帶來了突破口。芯和半導(dǎo)體已全面支持 2.5D Interposer、3DIC 和 Chiplet 設(shè)計。

(3)Chiplet 也推動了先進(jìn)封裝技術(shù)的發(fā)展。根據(jù)長電科技公告,在封測技術(shù)領(lǐng)域取得新的突破。4nm 芯片作為先進(jìn)硅節(jié)點技術(shù),是導(dǎo)入 Chiplet 封裝的一部分通富微電提供晶圓級及基板級封裝兩種解決方案,其中晶圓級 TSV 技術(shù)是 Chiplet 技術(shù)路徑的一個重要部分。

532b4394-dbb6-11ed-bfe3-dac502259ad0.png

國外芯片廠率先發(fā)力,通過 Chiplet 實現(xiàn)收益。AMD 的 EPYC 率先采用了 Chiplet 結(jié)構(gòu),實現(xiàn)了在服務(wù)器 CPU 市場上的翻身。隨后,Ryzen 產(chǎn)品上重用了 EYPC Rome 的 CCD,這樣的 chiplet設(shè)計極好的降低了總研發(fā)費用。2023 年 1 月,Intel 發(fā)布了采用了 Chiplet 技術(shù)的第四代至強可擴展處理器 Sapphire Rapids 以及英特爾數(shù)據(jù)中心 GPU Max 系列等。Sapphire Rapids是 Intel 首個基于 Chiplet 設(shè)計的處理器,被稱為“算力神器”。Xilinx 的 2011 Virtex-72000T 是 4 個裸片的 Chiplet 設(shè)計。Xilinx 也是業(yè)界唯一的同構(gòu)和異構(gòu)的 3D IC。

3、CPO 技術(shù):提升數(shù)據(jù)中心及云計算效率,應(yīng)用領(lǐng)域廣泛

CPO(Co-packaged,共封裝光學(xué)技術(shù))是高速電信號能夠高質(zhì)量的在交換芯片和光引擎之間傳輸。在 5G 時代,計算、傳輸、存儲的帶寬要求越來越高,同時硅光技術(shù)也越來越成熟,因此板上和板間的光互連成為了一種必要的方式。隨著通道數(shù)大幅增加,需要專用集成電路(ASIC)來控制多個光收發(fā)模塊。傳統(tǒng)的連接方式是 Pluggable(可插拔),即光引擎是可插拔的光模塊,通過光纖和 SerDes 通道與網(wǎng)絡(luò)交換芯片(AISC)連接。之后發(fā)展出了 NPO(Near-packaged,近封裝光學(xué)),一種將光引擎和交換芯片分別裝配在同一塊 PCB 基板上的方式。而CPO 是一種將交換芯片和光引擎共同裝配在同一個 Socketed(插槽)上的方式,形成芯片和模組的共封裝,從而降低網(wǎng)絡(luò)設(shè)備的功耗和散熱問題。NPO 是 CPO 的過渡階段,相對容易實現(xiàn),而 CPO 是最終解決方案。

533b9064-dbb6-11ed-bfe3-dac502259ad0.png

隨著大數(shù)據(jù)及 AI 的發(fā)展,數(shù)據(jù)中心的需求激增,CPO 有著廣泛的應(yīng)用前景。在數(shù)據(jù)中心領(lǐng)域,CPO 技術(shù)可以實現(xiàn)更高的數(shù)據(jù)密度和更快的數(shù)據(jù)傳輸速度,還可以減少系統(tǒng)的功耗和空間占用,降低數(shù)據(jù)中心的能源消耗和維護成本,能夠應(yīng)用于高速網(wǎng)絡(luò)交換、服務(wù)器互聯(lián)和分布式存儲等領(lǐng)域,例如,F(xiàn)acebook 在其自研的數(shù)據(jù)中心網(wǎng)絡(luò) Fabric Aggregator 中采用了CPO 技術(shù),提高了網(wǎng)絡(luò)的速度和質(zhì)量。在云計算領(lǐng)域,CPO 技術(shù)可以實現(xiàn)高速云計算和大規(guī)模數(shù)據(jù)處理。例如微軟在其云計算平臺 Azure 中采用了 CPO 技術(shù),實現(xiàn)更高的數(shù)據(jù)密度和更快的數(shù)據(jù)傳輸速度,提高云計算的效率和性能。

在 5G 通信領(lǐng)域,CPO 技術(shù)可以實現(xiàn)更快的無線數(shù)據(jù)傳輸和更穩(wěn)定的網(wǎng)絡(luò)連接。例如華為在其 5G 通信系統(tǒng)中采用了 CPO 技術(shù),將收發(fā)器和芯片封裝在同一個封裝體中,從而實現(xiàn)了高速、高密度、低功耗的通信。除此之外,5G/6G 用戶的增加,人工智能、機器學(xué)習(xí) (ML)、物聯(lián)網(wǎng) (IoT) 和虛擬現(xiàn)實流量的延遲敏感型流量激增,對光收發(fā)器的數(shù)據(jù)速率要求將快速增長;AI、ML、VR 和 AR 對數(shù)據(jù)中心的帶寬要求巨大,并且對低延遲有極高的要求,未來 CPO 的市場規(guī)模將持續(xù)高速擴大。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4739

    瀏覽量

    128941
  • 物聯(lián)網(wǎng)
    +關(guān)注

    關(guān)注

    2909

    文章

    44634

    瀏覽量

    373311
  • chiplet
    +關(guān)注

    關(guān)注

    6

    文章

    432

    瀏覽量

    12593
  • CPO
    CPO
    +關(guān)注

    關(guān)注

    0

    文章

    18

    瀏覽量

    184

原文標(biāo)題:大算力模型,HBM、Chiplet和CPO等技術(shù)打破技術(shù)瓶頸

文章出處:【微信號:AI_Architect,微信公眾號:智能計算芯世界】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    芯片、模型生態(tài)分散,無問芯穹、沐曦、壁仞談國產(chǎn)瓶頸破局之道

    ,而GPT-4之后的一段時間里,無論是OpenAI發(fā)布的新模型,還是其他大模型,整體算法能力進(jìn)入了放緩甚至是停滯的階段。 夏立雪認(rèn)為,這其中,表面上看是大模型的發(fā)展放緩或者停止了,其實背后的邏輯卻是支撐算法的
    的頭像 發(fā)表于 07-07 11:14 ?4562次閱讀
    芯片、<b class='flag-5'>模型</b>生態(tài)分散,無問芯穹、沐曦、壁仞談國產(chǎn)<b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>瓶頸</b>破局之道

    再躍升!億萬克發(fā)布新一代AI服務(wù)器——G882N7+!

    異構(gòu)智,指的是利用不同類型的處理器,比如CPU、GPU、FPGA進(jìn)行并行計算,來適應(yīng)不同任務(wù)的計算需求,提高計算效率和性能。 ? 隨著人工智能技術(shù)熱潮的不斷發(fā)展,大模型迅猛發(fā)展呈現(xiàn)
    的頭像 發(fā)表于 10-25 17:02 ?212次閱讀

    億鑄科技熊大鵬探討AI大芯片的挑戰(zhàn)與解決策略

    在SEMiBAY2024《HBM與存儲器技術(shù)與應(yīng)用論壇》上,億鑄科技的創(chuàng)始人、董事長兼CEO熊大鵬博士發(fā)表了題為《超越極限:大芯片的技術(shù)
    的頭像 發(fā)表于 10-25 11:52 ?394次閱讀

    【「芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗】--全書概覽

    詳細(xì)。了解芯片機制原理、架構(gòu)組織形式邏輯,對我們軟件開發(fā)芯片方案能起到很好的促進(jìn)作用。后面就是進(jìn)行具體的閱讀與學(xué)習(xí)理解了。
    發(fā)表于 10-15 22:08

    摩爾線程GPU底座助力大模型產(chǎn)業(yè)發(fā)展

    以大模型為代表的新一代人工智能技術(shù)是引領(lǐng)新一輪科技革命和產(chǎn)業(yè)變革的戰(zhàn)略性技術(shù)和重要驅(qū)動力量,隨著對需求的日益高漲,人工智能
    的頭像 發(fā)表于 08-27 16:15 ?606次閱讀

    模型時代的需求

    現(xiàn)在AI已進(jìn)入大模型時代,各企業(yè)都爭相部署大模型,但如何保證大模型,以及相關(guān)的穩(wěn)定性和性能,是一個極為重要的問題,帶著這個極為重要的問
    發(fā)表于 08-20 09:04

    名單公布!【書籍評測活動NO.41】大模型時代的基礎(chǔ)架構(gòu):大模型中心建設(shè)指南

    工作日內(nèi)未聯(lián)系,視為放棄本次試用評測資格! 書籍介紹 大模型是近年來引人注目的熱點之一。大模型蓬勃發(fā)展的基礎(chǔ),是針對其需求設(shè)計的及基礎(chǔ)架構(gòu)。本書針對如何為大
    發(fā)表于 08-16 18:33

    IaaS+on+DPU(IoD)+下一代高性能底座技術(shù)白皮書

    、VMware、Palo Alto 公司紛紛推出相關(guān)解決方案。這些方案背后共同的本質(zhì)思想是:將云計算的 IaaS 層組件從服務(wù)器側(cè)卸載后圍繞 DPU 構(gòu)筑高性能底座,與 AWS、阿里云的
    發(fā)表于 07-24 15:32

    HBM:突破AI內(nèi)存瓶頸,技術(shù)迭代引領(lǐng)高性能存儲新紀(jì)元

    HBM制造集成前道工藝與先進(jìn)封裝,TSV、EMC、鍵合工藝是關(guān)鍵。HBM制造的關(guān)鍵在于TSV DRAM,以及每層TSV DRAM之間的連接方式。
    發(fā)表于 03-14 09:58 ?1251次閱讀
    <b class='flag-5'>HBM</b>:突破AI<b class='flag-5'>算</b><b class='flag-5'>力</b>內(nèi)存<b class='flag-5'>瓶頸</b>,<b class='flag-5'>技術(shù)</b>迭代引領(lǐng)高性能存儲新紀(jì)元

    時代, 如何打破內(nèi)存墻

    來源:Ambarella安霸 何小林 近年來,人工智能應(yīng)用正經(jīng)歷一輪快速的發(fā)展與普及,而以ChatGPT先進(jìn)的大模型技術(shù)在此過程中起到了關(guān)鍵作用。這些模型對計算能力的需求不斷攀升,催
    的頭像 發(fā)表于 03-06 19:51 ?318次閱讀
    大<b class='flag-5'>算</b><b class='flag-5'>力</b>時代, 如何<b class='flag-5'>打破</b>內(nèi)存墻

    智能規(guī)模超通用,大模型對智能提出高要求

    的縮寫,即每秒所能夠進(jìn)行的浮點運算數(shù)目(每秒浮點運算量)。 ? 可以分為通用、智能
    的頭像 發(fā)表于 02-06 00:08 ?6344次閱讀

    2023年Chiplet發(fā)展進(jìn)入新階段,半導(dǎo)體封測、IP企業(yè)多次融資

    電子發(fā)燒友網(wǎng)報道(文/劉靜)半導(dǎo)體行業(yè)進(jìn)入“后摩爾時代”,Chiplet技術(shù)成為突破芯片和集成度瓶頸的關(guān)鍵。隨著
    的頭像 發(fā)表于 01-17 01:18 ?2182次閱讀
    2023年<b class='flag-5'>Chiplet</b>發(fā)展進(jìn)入新階段,半導(dǎo)體封測、IP企業(yè)多次融資

    模型智能的革命:如何打破瓶頸

    模型的參數(shù)量主要取決于隱藏層的維度和構(gòu)成模型的Block的數(shù)量,我們假定隱藏層的維度為 h,Block 的數(shù)量為 i,那么,大模型的參數(shù)量為 。
    發(fā)表于 01-16 11:34 ?499次閱讀
    大<b class='flag-5'>模型</b>智能的革命:如何<b class='flag-5'>打破</b><b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>瓶頸</b>

    什么是Chiplet技術(shù)?Chiplet技術(shù)有哪些優(yōu)缺點?

    組件。這種技術(shù)的核心思想是將大型集成電路拆分成更小、更模塊化的部分,以便更靈活地設(shè)計、制造和組裝芯片。Chiplet技術(shù)可以突破單芯片光刻面積的瓶頸,減少對先進(jìn)工藝制程的依賴,提高芯片
    的頭像 發(fā)表于 01-08 09:22 ?5206次閱讀

    深度解析HBM內(nèi)存技術(shù)

    HBM作為基于3D堆棧工藝的高性能DRAM,打破內(nèi)存帶寬及功耗瓶頸。HBM(High Bandwidth Memory)即高帶寬存儲器,通過使用先進(jìn)封裝(如TSV硅通孔、微凸塊)將多個
    的頭像 發(fā)表于 01-02 09:59 ?5276次閱讀
    深度解析<b class='flag-5'>HBM</b>內(nèi)存<b class='flag-5'>技術(shù)</b>