大模型時代AI芯片必備HBM內(nèi)存已是業(yè)內(nèi)共識,存儲帶寬也成為AI芯片僅次于算力的第二關(guān)健指標(biāo),甚至某些場合超越算力,是最關(guān)鍵的性能指標(biāo),而汽車行業(yè)也開始出現(xiàn)HBM內(nèi)存。
圖片來源:SK Hynix
SK Hynix是全球最大的HBM內(nèi)存廠家,也是全球唯一量產(chǎn)三代HBM內(nèi)存廠家,同時也是全球唯一量產(chǎn)車載HBM內(nèi)存廠家。
2023年11月13日,英偉達(dá)推出H100的升級版H200,實(shí)際只是升級了HBM內(nèi)存,其余GPU部分絲毫未變。
H100和H200的參數(shù)對比
圖片來源:NVIDIA
H100和H200算力完全一致,只是內(nèi)存由原來的80GB HBM3升級為141GB HBM3E內(nèi)存。存儲帶寬由3.35TB/s提高到4.8TB/s。
圖片來源:NVIDIA
增加存儲帶寬后,推理性能大幅提升,最高提升近兩倍。一般來說集群的推理算力不是瓶頸,而是被顯存帶寬和單個GPU顯存大小給卡著。比如一旦出現(xiàn)跨GPU的互聯(lián),雖說有NVLink,但跨卡通信速度900GB/s和單個GPU內(nèi)部的4.8TB/s也差了一個數(shù)量級。單個GPU的顯存容量提升至141GB后,跨卡訪問的次數(shù)也就減少了。性能自然顯著提升。
全球主要AI芯片使用HBM情況
(完整內(nèi)容請參見《佐思汽車新四化每周觀察》12月第1期)
可以說判斷是否為AI芯片的關(guān)鍵就是是否具備HBM內(nèi)存。
Transformer的計算過程
以上是Transformer的計算過程,在這個計算過程中,矩陣乘法是典型的計算密集型算子,也叫GEMM,即通用矩陣乘法。存儲密集型算子分為兩種,一種是矢量或張量的神經(jīng)激活,多非線性運(yùn)算,也叫GEMV,也就是通用矩陣矢量乘法。另一種是上面說的逐點(diǎn)元素型element-wise。
圖片來源:三星
在運(yùn)算操作數(shù)量上,GEMV所占的比例高達(dá)86.53%,在大模型運(yùn)算延遲分析上,82.27%的延遲都來自GEMV,而GEMM只占2.12%,非線性運(yùn)算也就是神經(jīng)元激活部分占的比例也遠(yuǎn)高于GEMM。
三星對GPU利用率的分析
圖片來源:三星
上圖可以看出在GEMV算子時,GPU的利用率很低,一般不超過20%,換句話說80%的時間GPU都是在等待存儲數(shù)據(jù)的搬運(yùn)。還有如矩陣反轉(zhuǎn),嚴(yán)格地說沒有任何運(yùn)算,只是存儲行列對調(diào),完全是存儲器和CPU在忙活。解決辦法很簡單且只有一個,就是用HBM高寬帶內(nèi)存。
常見汽車內(nèi)存性能與價格對比
(完整內(nèi)容請參見《佐思汽車新四化每周觀察》12月第1期)
上表為常見汽車內(nèi)存性能與價格對比,顯然,一分價錢一分貨。英偉達(dá)H100是HBM3的最大采購者,每GB的采購價格大約14美元。還有一點(diǎn)需要指出,目前沒有車規(guī)級GDDR6存儲芯片。
特斯拉HW4.0
圖片來源:網(wǎng)絡(luò)
特斯拉最新的自動駕駛大腦即HW4.0不惜血本用上了GDDR6,就是上圖中的D9ZPR,正反兩面各用了8顆,總計16顆,每顆容量2GB,在2021年初每片價格大約15美元。挖礦潮退潮,GDDR6價格持續(xù)暴跌,目前每片2GB價格大約7-8美元。實(shí)際HW4.0的座艙控制器里還有4顆GDDR6,每顆容量也是2GB,合計40GB即160美元以上。
大部分廠家都選擇LPDDR4或LPDDR5,如英偉達(dá)的中配Orin開發(fā)盒子是4顆8GB即32GB的LPDDR5,只需要大約50美元,價格相差110美元。HW3.0使用的是8片2GB的LPDDR4,每片大約3.5美元,8片只有28美元。當(dāng)然,最大贏家是美光,車載領(lǐng)域80%的DRAM市場由美光占據(jù),以上提到的都由美光供應(yīng),這也是美國唯一存儲器公司,是除英特爾外美國幾乎唯一的硬科技公司(AMD的制造都是臺積電完成的)
HBM結(jié)構(gòu)圖
圖片來源:網(wǎng)絡(luò)
HBM如上圖,簡單地說HBM就是將SDRAM用TSV工藝堆疊起來,就像蓋樓一樣,層和層之間會有金屬層等間隔,同時通過TSV聯(lián)通各個存儲單元。TSV(硅通孔)是內(nèi)存能夠堆疊的關(guān)鍵,它能夠在各個存儲層之間以及層內(nèi)構(gòu)建出硅通孔的通路,存儲單元的訪問就通過這些通孔完成。在堆疊上,HBM2是8層,HBM3是12層,每多堆疊一層意味著良率就會下降一部分,因此成本越來越高。HBM4可能需要16層。
為最大限度發(fā)揮HBM的性能優(yōu)勢,HBM必須采用2.5D或3D封裝,與邏輯部分的物理距離盡量地短,目前主流的2.5D封裝只有臺積電的CoWoS工藝,其次是英特爾的EMIB,亞馬遜就全部使用英特爾的EMIB工藝,EMIB工藝性能略低于臺積電的CoWoS工藝,但價格遠(yuǎn)低于臺積電。
HBM增加的成本不僅僅是內(nèi)存本身,還有臺積電CoWoS工藝的成本。目前HBM3的采購價大約每GB為14美元,但由于CoWoS目前產(chǎn)能緊張,價格很高,實(shí)際每GB的HBM3增加成本大約20美元,業(yè)內(nèi)推測英偉達(dá)H100的成本大約3300美元,售價在3萬美元以上,毛利率90%,其中近一半的成本都來自HBM3。汽車行業(yè)所需內(nèi)存容量不大,32GB足夠,如果使用HBM2E的話,大概增加400-500美元成本。
系統(tǒng)的存儲帶寬不僅取決于存儲器本身,更重要的是CPU的存儲帶寬與通道數(shù),它決定了系統(tǒng)的最高存儲帶寬。每一種類型的存儲器都需要與之對應(yīng)的存儲控制器和物理層,在設(shè)計芯片時就確定了只能用某一類型的存儲芯片,目前除了特斯拉,所有的車載芯片最高只對應(yīng)LPDDR5。汽車領(lǐng)域中CPU和AI運(yùn)算是共享DRAM內(nèi)存,因此需要兼顧C(jī)PU和AI的需求,CPU需要的是高速度,AI需要的是高吞吐量,二者是矛盾的,大部分都遷就CPU,更注重速度。
HBM3控制器框架圖
圖片來源:網(wǎng)絡(luò)
同樣是用HBM3,存儲帶寬依然可能差距很大,比如AMD的MI300X,采用了Chiplet設(shè)計,存儲器通道最高可達(dá)8個,而英偉達(dá)是單光刻設(shè)計,最高通道僅有4個,雖然MI300X考慮成本,采用了SK Hynix的第一代HBM3存儲器,這是SK Hynix的獨(dú)特規(guī)格,每通道最高只有665GB/s,遠(yuǎn)低于英偉達(dá)H100的819GB/s,但MI300X是8通道,內(nèi)存帶寬就是665*8=5.32TB/s。
常見芯片存儲帶寬統(tǒng)計
(完整內(nèi)容請參見《佐思汽車新四化每周觀察》12月第1期)
目前車載芯片特斯拉二代FSD最高,最低估計有448GB/s,最高估計有1008GB/s。目前SK Hynix提供的HBM2E型號為H5WG6HMN6QX038R,最低帶寬為460GBs,容量為16GB,雙通道設(shè)計即可達(dá)920GB/s,最高估計可達(dá)1840GB/s,不過性價比與GDDR6還是差距較大。預(yù)計車載存儲的下一波會是GDDR6,再下一波才有可能是HBM,特斯拉的HW 5.0或者說第三代FSD芯片可能會采用HBM存儲。
審核編輯:黃飛
評論
查看更多