2023年8月23日,英偉達宣布下一代汽車芯片Thor量產(chǎn)時間略有推遲,正式量產(chǎn)在2026財年,英偉達的財政年度與自然年相差11個月,也就是說正式量產(chǎn)最遲可能是2026年1月。
FY2019-FY2024H1英偉達自動駕駛及AI座艙業(yè)績情況
圖片來源:英偉達
英偉達通常兩年升級一次芯片架構(gòu)。在2022年英偉達透露即將在2024年推出Blackwell架構(gòu),而Thor也會采用Blackwell架構(gòu)。
Blackwell是致敬美國統(tǒng)計學家,加利福尼亞大學伯克利分校統(tǒng)計學名譽教授,拉奧-布萊克韋爾定理的提出者之一David Harold Blackwell。
英偉達Blackwell架構(gòu)
Blackwell架構(gòu)將采用COPA-GPU設計。很多人認為COPA-GPU就是Chiplet,不過COPA-GPU不是嚴格意義上的Chiplet,眾所周知,英偉達一直對Chiplet缺乏興趣。在2017年英偉達曾提出非常近似Chiplet的MCM設計,但在2021年12月,英偉達發(fā)表了一篇名為《GPU Domain Specialization via Composable On-Package Architecture》的論文,應該就是Blackwell架構(gòu)的論文,這篇論文則否定了Chiplet設計。
2017年6月英偉達發(fā)表論文《MCM-GPU: Multi-Chip-Module GPUs for Continued Performance Scalability》提出了MCM設計。
MCM-GPU設計
圖片來源:英偉達
MCM-GPU設計基本就是現(xiàn)在比較火爆的Chiplet設計,但英偉達一直未將MCM付諸實際設計中。英偉達一直堅持Monolithic單一光刻設計,這是因為die與die之間通訊帶寬永遠無法和monolithic內(nèi)部的通訊帶寬相比,換句話說Chiplet不適合高AI算力場合,在純CPU領域是Chiplet的最佳應用領域。
MCM-GPU架構(gòu)
圖片來源:英偉達
英偉達2017年論文提及的MCM-GPU架構(gòu)如上圖。英偉達在MCM-GPU架構(gòu)里主要引入了L1.5緩存,它介于L1緩存和L2緩存之間,XBAR是Crossbar,英偉達的解釋是The Crossbar (XBAR) is responsible for carrying packets from a given source unit to a specific destination unit,有點像交換或路由。GPM就是GPU模塊。
不同容量L1.5緩存下各種應用的速度對比
圖片來源:英偉達
上圖是英偉達2017年論文仿真不同容量L1.5緩存下各種應用的速度對比,不過彼時各種應用還是各種浮點數(shù)學運算和存儲密集型算子,而非深度學習。
Transformer時代相對CNN時代,存儲密集型算子所占比例大幅增加。
以上是Transformer的計算過程,在此計算過程中,矩陣乘法是典型的計算密集型算子,也叫GEMM(通用矩陣乘法)。存儲密集型算子分兩種,一種是矢量或張量的神經(jīng)激活,多非線性運算,也叫GEMV (通用矩陣矢量乘法)。另一種是逐點元素型element-wise,典型的如矩陣反轉(zhuǎn),實際沒有任何運算,只是存儲行列對調(diào)。
圖片來源:三星
上圖中,在運算操作數(shù)量上,GEMV所占比例高達86.53%,在大模型運算延遲分析上,82.27%的延遲都來自GEMV;GEMM占比只有2.12%;非線性運算也就是神經(jīng)元激活部分占的比例也遠高于GEMM。
三星對GPU利用率的分析
圖片來源:三星
上圖可以看出在GEMV算子時,GPU的利用率很低,一般不超過20%,換句話說80%的時間GPU都是在等待存儲數(shù)據(jù)的搬運。GPU的靈活性還是比較高的,如果換做靈活性比較差的AI專用加速器,如谷歌的TPU,那么GEMV的利用率會更低,不到10%甚至5%。
三星的GPT瓶頸分析
圖片來源:三星
Roof-line訪存與算力模型
圖片來源:互聯(lián)網(wǎng)
上圖是鼎鼎大名的roof-line訪存與算力模型。
COPA-GPU架構(gòu)
圖片來源:英偉達
上圖是2021年12月英偉達論文提出的COPA-GPU架構(gòu),實際就是把一個特別大容量的L2緩存die分離出來。因為如果還是monolithic設計,那么整個die的面積會超過1000平方毫米,不過***決定了芯片的最大die size不超過880平方毫米,所以必須將L2分離。
注:GPU-N就是英偉達的COPA-GPU。
圖片來源:英偉達
不同容量L2緩存對應的延遲
圖片來源:英偉達
上圖是不同容量L2緩存對應的延遲情況,顯然L2緩存越高,延遲越低,不過在small-batch時不明顯。
幾種COPA-GPU的封裝分析
圖片來源:英偉達
從英偉達的論文里我們看不到架構(gòu)方面的絲毫改進,只有封裝領域的改變。這篇論文實際應該由臺積電來寫,因為英偉達完全無法掌控芯片的封測工藝,CoWoS就是為英偉達這種設計而設計的,而CoWoS誕生在10年以前。
大模型不斷消耗更多的算力和存儲,這顯然違背了自然界效率至上的原則,或許人類正在錯誤的道路上狂奔。
免責說明:本文觀點和數(shù)據(jù)僅供參考,和實際情況可能存在偏差。本文不構(gòu)成投資建議,文中所有觀點、數(shù)據(jù)僅代表筆者立場,不具有任何指導、投資和決策意見。
-
gpu
+關注
關注
28文章
4766瀏覽量
129194 -
芯片架構(gòu)
+關注
關注
1文章
31瀏覽量
14578 -
英偉達
+關注
關注
22文章
3833瀏覽量
91649
原文標題:英偉達江郎才盡,下一代芯片架構(gòu)變化只是封裝
文章出處:【微信號:zuosiqiche,微信公眾號:佐思汽車研究】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論