精品人妻无码专区视频,国产精品无码AV在线一区

2023年8月23日，英偉達宣布下一代汽車芯片Thor量產時間略有推遲，正式量產在2026財年，英偉達的財政年度與自然年相差11個月，也就是說正式量產最遲可能是2026年1月。

FY2019-FY2024H1英偉達自動駕駛及AI座艙業(yè)績情況

圖片來源：英偉達

英偉達通常兩年升級一次芯片架構。在2022年英偉達透露即將在2024年推出Blackwell架構，而Thor也會采用Blackwell架構。

Blackwell是致敬美國統(tǒng)計學家，加利福尼亞大學伯克利分校統(tǒng)計學名譽教授，拉奧-布萊克韋爾定理的提出者之一David Harold Blackwell。

英偉達Blackwell架構

Blackwell架構將采用COPA-GPU設計。很多人認為COPA-GPU就是Chiplet，不過COPA-GPU不是嚴格意義上的Chiplet，眾所周知，英偉達一直對Chiplet缺乏興趣。在2017年英偉達曾提出非常近似Chiplet的MCM設計，但在2021年12月，英偉達發(fā)表了一篇名為《GPU Domain Specialization via Composable On-Package Architecture》的論文，應該就是Blackwell架構的論文，這篇論文則否定了Chiplet設計。

2017年6月英偉達發(fā)表論文《MCM-GPU: Multi-Chip-Module GPUs for Continued Performance Scalability》提出了MCM設計。

MCM-GPU設計

圖片來源：英偉達

MCM-GPU設計基本就是現(xiàn)在比較火爆的Chiplet設計，但英偉達一直未將MCM付諸實際設計中。英偉達一直堅持Monolithic單一光刻設計，這是因為die與die之間通訊帶寬永遠無法和monolithic內部的通訊帶寬相比，換句話說Chiplet不適合高AI算力場合，在純CPU領域是Chiplet的最佳應用領域。

MCM-GPU架構

圖片來源：英偉達

英偉達2017年論文提及的MCM-GPU架構如上圖。英偉達在MCM-GPU架構里主要引入了L1.5緩存，它介于L1緩存和L2緩存之間，XBAR是Crossbar，英偉達的解釋是The Crossbar (XBAR) is responsible for carrying packets from a given source unit to a specific destination unit，有點像交換或路由。GPM就是GPU模塊。

不同容量L1.5緩存下各種應用的速度對比

圖片來源：英偉達

上圖是英偉達2017年論文仿真不同容量L1.5緩存下各種應用的速度對比，不過彼時各種應用還是各種浮點數(shù)學運算和存儲密集型算子，而非深度學習。

Transformer時代相對CNN時代，存儲密集型算子所占比例大幅增加。

以上是Transformer的計算過程，在此計算過程中，矩陣乘法是典型的計算密集型算子，也叫GEMM（通用矩陣乘法）。存儲密集型算子分兩種，一種是矢量或張量的神經激活，多非線性運算，也叫GEMV （通用矩陣矢量乘法）。另一種是逐點元素型element-wise，典型的如矩陣反轉，實際沒有任何運算，只是存儲行列對調。

三星對GPT大模型workload分析