0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

英偉達江郎才盡,下一代芯片架構(gòu)變化只是封裝

佐思汽車研究 ? 來源:佐思汽車研究 ? 2023-09-28 15:55 ? 次閱讀

2023年8月23日,英偉達宣布下一代汽車芯片Thor量產(chǎn)時間略有推遲,正式量產(chǎn)在2026財年,英偉達的財政年度與自然年相差11個月,也就是說正式量產(chǎn)最遲可能是2026年1月。

FY2019-FY2024H1英偉達自動駕駛AI座艙業(yè)績情況

66a75e76-5db1-11ee-939d-92fbcf53809c.png

圖片來源:英偉達

英偉達通常兩年升級一次芯片架構(gòu)。在2022年英偉達透露即將在2024年推出Blackwell架構(gòu),而Thor也會采用Blackwell架構(gòu)。

Blackwell是致敬美國統(tǒng)計學家,加利福尼亞大學伯克利分校統(tǒng)計學名譽教授,拉奧-布萊克韋爾定理的提出者之一David Harold Blackwell。

英偉達Blackwell架構(gòu)

Blackwell架構(gòu)將采用COPA-GPU設計。很多人認為COPA-GPU就是Chiplet,不過COPA-GPU不是嚴格意義上的Chiplet,眾所周知,英偉達一直對Chiplet缺乏興趣。在2017年英偉達曾提出非常近似Chiplet的MCM設計,但在2021年12月,英偉達發(fā)表了一篇名為《GPU Domain Specialization via Composable On-Package Architecture》的論文,應該就是Blackwell架構(gòu)的論文,這篇論文則否定了Chiplet設計。

2017年6月英偉達發(fā)表論文《MCM-GPU: Multi-Chip-Module GPUs for Continued Performance Scalability》提出了MCM設計。

MCM-GPU設計

671c1d56-5db1-11ee-939d-92fbcf53809c.png

圖片來源:英偉達

MCM-GPU設計基本就是現(xiàn)在比較火爆的Chiplet設計,但英偉達一直未將MCM付諸實際設計中。英偉達一直堅持Monolithic單一光刻設計,這是因為die與die之間通訊帶寬永遠無法和monolithic內(nèi)部的通訊帶寬相比,換句話說Chiplet不適合高AI算力場合,在純CPU領域是Chiplet的最佳應用領域。

MCM-GPU架構(gòu)

672f363e-5db1-11ee-939d-92fbcf53809c.png

圖片來源:英偉達

英偉達2017年論文提及的MCM-GPU架構(gòu)如上圖。英偉達在MCM-GPU架構(gòu)里主要引入了L1.5緩存,它介于L1緩存和L2緩存之間,XBAR是Crossbar,英偉達的解釋是The Crossbar (XBAR) is responsible for carrying packets from a given source unit to a specific destination unit,有點像交換或路由。GPM就是GPU模塊。

不同容量L1.5緩存下各種應用的速度對比

6747d770-5db1-11ee-939d-92fbcf53809c.png

圖片來源:英偉達

上圖是英偉達2017年論文仿真不同容量L1.5緩存下各種應用的速度對比,不過彼時各種應用還是各種浮點數(shù)學運算和存儲密集型算子,而非深度學習。

Transformer時代相對CNN時代,存儲密集型算子所占比例大幅增加。

67507312-5db1-11ee-939d-92fbcf53809c.png

676828b8-5db1-11ee-939d-92fbcf53809c.png

以上是Transformer的計算過程,在此計算過程中,矩陣乘法是典型的計算密集型算子,也叫GEMM(通用矩陣乘法)。存儲密集型算子分兩種,一種是矢量或張量的神經(jīng)激活,多非線性運算,也叫GEMV (通用矩陣矢量乘法)。另一種是逐點元素型element-wise,典型的如矩陣反轉(zhuǎn),實際沒有任何運算,只是存儲行列對調(diào)。

三星對GPT大模型workload分析

678f1b12-5db1-11ee-939d-92fbcf53809c.png

圖片來源:三星

上圖中,在運算操作數(shù)量上,GEMV所占比例高達86.53%,在大模型運算延遲分析上,82.27%的延遲都來自GEMV;GEMM占比只有2.12%;非線性運算也就是神經(jīng)元激活部分占的比例也遠高于GEMM。

三星對GPU利用率的分析

6799a14a-5db1-11ee-939d-92fbcf53809c.png

圖片來源:三星

上圖可以看出在GEMV算子時,GPU的利用率很低,一般不超過20%,換句話說80%的時間GPU都是在等待存儲數(shù)據(jù)的搬運。GPU的靈活性還是比較高的,如果換做靈活性比較差的AI專用加速器,如谷歌的TPU,那么GEMV的利用率會更低,不到10%甚至5%。

三星的GPT瓶頸分析

67b0019c-5db1-11ee-939d-92fbcf53809c.png

圖片來源:三星

Roof-line訪存與算力模型

67cb4966-5db1-11ee-939d-92fbcf53809c.png

圖片來源:互聯(lián)網(wǎng)

上圖是鼎鼎大名的roof-line訪存與算力模型。

COPA-GPU架構(gòu)

67d48008-5db1-11ee-939d-92fbcf53809c.png

圖片來源:英偉達

上圖是2021年12月英偉達論文提出的COPA-GPU架構(gòu),實際就是把一個特別大容量的L2緩存die分離出來。因為如果還是monolithic設計,那么整個die的面積會超過1000平方毫米,不過***決定了芯片的最大die size不超過880平方毫米,所以必須將L2分離。

67ef0162-5db1-11ee-939d-92fbcf53809c.png

注:GPU-N就是英偉達的COPA-GPU。

圖片來源:英偉達

不同容量L2緩存對應的延遲

6805ca46-5db1-11ee-939d-92fbcf53809c.png

圖片來源:英偉達

上圖是不同容量L2緩存對應的延遲情況,顯然L2緩存越高,延遲越低,不過在small-batch時不明顯。

幾種COPA-GPU的封裝分析

6814f318-5db1-11ee-939d-92fbcf53809c.png

圖片來源:英偉達

從英偉達的論文里我們看不到架構(gòu)方面的絲毫改進,只有封裝領域的改變。這篇論文實際應該由臺積電來寫,因為英偉達完全無法掌控芯片的封測工藝,CoWoS就是為英偉達這種設計而設計的,而CoWoS誕生在10年以前。

大模型不斷消耗更多的算力和存儲,這顯然違背了自然界效率至上的原則,或許人類正在錯誤的道路上狂奔。

免責說明:本文觀點和數(shù)據(jù)僅供參考,和實際情況可能存在偏差。本文不構(gòu)成投資建議,文中所有觀點、數(shù)據(jù)僅代表筆者立場,不具有任何指導、投資和決策意見。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4766

    瀏覽量

    129194
  • 芯片架構(gòu)

    關注

    1

    文章

    31

    瀏覽量

    14578
  • 英偉達
    +關注

    關注

    22

    文章

    3833

    瀏覽量

    91649

原文標題:英偉達江郎才盡,下一代芯片架構(gòu)變化只是封裝

文章出處:【微信號:zuosiqiche,微信公眾號:佐思汽車研究】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關推薦

    黃仁勛宣布:豐田與英偉達攜手打造下一代自動駕駛汽車

    近日,英偉達公司首席執(zhí)行官黃仁勛在次公開場合透露,英偉達將與全球知名汽車制造商豐田攜手合作,共同開發(fā)下一代自動駕駛汽車技術(shù)。這合作標志著
    的頭像 發(fā)表于 01-09 10:25 ?336次閱讀

    蘋果下一代芯片,采用新封裝

    半導體行業(yè)觀察 來源:內(nèi)容編譯自phonearena,謝謝。 根據(jù)TF International 分析師郭明淇在網(wǎng)上發(fā)布的份報告,蘋果的 M 系列芯片即將采用全新的設計。向可靠的郭明池表示
    的頭像 發(fā)表于 12-26 13:24 ?126次閱讀

    今日看點丨龍芯中科:下一代桌面芯片3B6600預計明年上半年交付流片;消息稱英偉達 Thor 芯片量產(chǎn)大幅推遲

    方面,龍芯中科下一代服務器芯片3C6000目前處于樣片階段,預計2025年Q2完成產(chǎn)品化并正式發(fā)布。根據(jù)內(nèi)部自測的結(jié)果,公司16核32線程的3C6000/S性能可對標至強4314,雙硅片封裝的32核
    發(fā)表于 12-17 11:17 ?628次閱讀

    英偉達加速Rubin平臺AI芯片推出,SK海力士提前交付HBM4存儲器

    日,英偉達(NVIDIA)的主要高帶寬存儲器(HBM)供應商南韓SK集團會長崔泰源透露,英偉達執(zhí)行長黃仁勛已要求SK海力士提前六個月交付用于英偉下一代AI
    的頭像 發(fā)表于 11-05 14:22 ?512次閱讀

    通過下一代引線式邏輯IC封裝實現(xiàn)小型加固型應用

    電子發(fā)燒友網(wǎng)站提供《通過下一代引線式邏輯IC封裝實現(xiàn)小型加固型應用.pdf》資料免費下載
    發(fā)表于 08-29 11:05 ?0次下載
    通過<b class='flag-5'>下一代</b>引線式邏輯IC<b class='flag-5'>封裝</b>實現(xiàn)小型加固型應用

    IaaS+on+DPU(IoD)+下一代高性能算力底座技術(shù)白皮書

    大規(guī)模生產(chǎn)環(huán)境落地應用的條件。某種程度上,IoD 技術(shù)已成為下一代高性能算力底座的核心技術(shù)與最佳實踐。 白皮書下載:*附件:IaaS+on+DPU(IoD)+下一代高性能算力底座+技術(shù)白皮書(1).pdf
    發(fā)表于 07-24 15:32

    24芯M16插頭在下一代技術(shù)中的潛力

      德索工程師說道隨著科技的飛速發(fā)展,下一代技術(shù)正逐漸展現(xiàn)出其獨特的魅力和潛力。在這背景下,24芯M16插頭作為種高性能、多功能的連接器,將在下一代技術(shù)中發(fā)揮至關重要的作用。以下是
    的頭像 發(fā)表于 06-15 18:03 ?369次閱讀
    24芯M16插頭在<b class='flag-5'>下一代</b>技術(shù)中的潛力

    英偉達加速AI芯片迭代,推出Rubin架構(gòu)計劃

    在近日舉辦的COMPUTEX 2024展會上,英偉達CEO黃仁勛再次展現(xiàn)了公司在人工智能(AI)芯片領域的雄心壯志。他公布了下一代AI芯片架構(gòu)
    的頭像 發(fā)表于 06-03 11:36 ?848次閱讀

    英偉達業(yè)績強勁,Blackwell AI芯片助推下一波增長?

     在與分析師的電話會議上,英偉達首席執(zhí)行官黃仁勛透露,公司即將推出的Blackwell AI芯片將于本季度發(fā)貨,下季度產(chǎn)量將有所提升,“隨著下一代Blackwell架構(gòu)
    的頭像 發(fā)表于 05-23 15:55 ?511次閱讀

    豐田、日產(chǎn)和本田將合作開發(fā)下一代汽車的AI和芯片

    豐田、日產(chǎn)和本田等日本主要汽車制造商確實計劃聯(lián)手開發(fā)下一代汽車的軟件,包括在生成式人工智能(AI)和半導體(芯片)等領域進行合作。
    的頭像 發(fā)表于 05-20 10:25 ?1006次閱讀

    步解讀英偉達 Blackwell 架構(gòu)、NVlink及GB200 超級芯片

    2024年3月19日,[英偉達]CEO[黃仁勛]在GTC大會上公布了新一代AI芯片架構(gòu)BLACKWELL,并推出基于該架構(gòu)的超級
    發(fā)表于 05-13 17:16

    使用NVIDIA Holoscan for Media構(gòu)建下一代直播媒體應用

    NVIDIA Holoscan for Media 現(xiàn)已向所有希望在完全可重復使用的集群上構(gòu)建下一代直播媒體應用的開發(fā)者開放。
    的頭像 發(fā)表于 04-16 14:04 ?719次閱讀

    英偉達攜手臺積電、新思科技,力推下一代半導體芯片制造技術(shù)

    英偉達與臺積電、 Synopsys 已做出決策,將在其軟件環(huán)境、制造工藝以及系統(tǒng)上整合英偉達的 cuLitho 計算光刻平臺。此舉旨在大幅提升芯片制造速率,并為英偉達即將推出的 Bla
    的頭像 發(fā)表于 03-19 11:41 ?719次閱讀

    英偉達的下一代AI芯片

    根據(jù)英偉達(Nvidia)的路線圖,它將推出其下一代black well架構(gòu)很快。該公司總是先推出個新的架構(gòu)與數(shù)據(jù)中心產(chǎn)品,然后在幾個月后
    的頭像 發(fā)表于 03-08 10:28 ?962次閱讀
    <b class='flag-5'>英偉</b>達的<b class='flag-5'>下一代</b>AI<b class='flag-5'>芯片</b>

    英偉達:預計下一代AI芯片B100短缺,計劃擴產(chǎn)并采用新架構(gòu)

    近期熱門的 H100 芯片運期短縮數(shù)天后,英偉達新型 AI 旗艦芯片 B100搭載全新的 Blackwell,有望使 AI 計算性能提升至 2~3 倍。鑒于 AI 芯片市場需求旺盛,外
    的頭像 發(fā)表于 02-25 09:29 ?978次閱讀