最近AMD的喜事不斷,關(guān)注CPU架構(gòu)和超算的朋友的應(yīng)該知道在中國缺席的情況下,在ISC2022 上,美國的超算Frontier成為榜首,而且由AMD+HPE+Cray打造更多的E級的集群會陸續(xù)建成。蘇媽宣稱的High Performance Computing的確是大勢所趨。
在上周的AMD 的FAD2022 中,繼續(xù)放出了很多大招。其中讓我比較關(guān)注的就是IF的演進(jìn)和迭代。IF是AMD chip let的核心。從最初的CPU 的MCM之間的互聯(lián)和chip2chip 的互聯(lián),終于跨出了和CPU/GPU的互聯(lián),以及GPU之間的互聯(lián)。
特別是第三代,妥妥的是NV-Link的初級版本,NV-Link都有了,NV-Switch還遠(yuǎn)嗎,果然4代出現(xiàn)了。
4代的確不同凡響,AMD的GPU計算和游戲核心,Xilinx的AIE以及FPGA都可以連接。而且支持CXL2.0 的memory pool和系統(tǒng)級別的cache coherency。這個和最初的IF的差別已經(jīng)很大了,在最初的IF中實現(xiàn)了兩個不同的數(shù)據(jù)路徑,SDF由MCM Die之間和Chip2Chip之間的。
其中比較有意思的是使用CAKE(Coherent AMD socKet Extender ) 對于本地的SDF的情況進(jìn)行編碼,使用128-bit的serdes接口。作為MCM之間互聯(lián)的接口,CAKE一直和memory 控制器跑在相同的時鐘域。但是在加入更多的計算單元,特別是FPGA之后,這個時鐘區(qū)域不會像之前那么簡單了。但是沒關(guān)系,一切于3D-VCache為中心,對于數(shù)據(jù)分析界的尼古拉斯。趙四同學(xué)來講,如果一片64M的3D-VCach不能解決問題,來一個128M的就好。
AMD已有的HBM和3D Cache的封裝技術(shù),相對于Micro Bump省省省。等一下,這個Micro Bump不是當(dāng)年Xilinx的多Die器件的成本的大頭嗎?
這個,有點意思,事情可能有一些變化了。AMD目前對于集成AIE (其實就是Xilinx做的AI 加速的ASIC)和GPU都公開宣布了,如何集成一個SLR, 這個有意思了。
到這里,按俺的風(fēng)格,就需要開始考古了。IF的公開資料不多,主要的信息都在Papermaster的2017年的公開信息中。一個是控制路徑,一個數(shù)據(jù)路徑。使用這個分離的主要目的其實和它的祖先HT的目的有點不同了,控制和數(shù)據(jù)分開的好處對于軟件是明顯的,但是硬件里面這么搞,很好奇它能走到NV-Switch的路上去。
另一個千年的老問題,就是NUMA的影響。對于IF來講,memory 和interconnection的協(xié)議相同,但是速率不同。NUMA有影響,但是有了龐大的3D cache,大家都雖然慢,但是我的cache大。
對于SDF的CC,的確有一些有意思的用法。
AMD推薦了兩種refill的策略。
這個收益的確不錯,畢竟AMD的cache latency 不會隨著size增加而縮小。
從AMD的DataFlow 來看,更能說明問題。隨著Core 的密度和memclk的提升。這個到了考驗Data Farbic的時候。
今天傳出的一個消息,NV終于在自己的DGX中選用了Intel的藍(lán)寶石,替代了之前2代的AMD 的CPU。NV的理由是在乎單線程的性能,雖然Intel的core不多,但是對稱的4 Die方案對于latency的優(yōu)勢應(yīng)該是明顯的。當(dāng)然,有人會理解成為NV怕AMD的GPU的競爭了,說實在的,在A100出來的2年之后,到現(xiàn)在都沒有一個可以一打的對手,H100是在AI領(lǐng)域孤獨求敗呀。只能說,“同學(xué),你想多了?!?/p>
-
FPGA
+關(guān)注
關(guān)注
1630文章
21768瀏覽量
604623 -
amd
+關(guān)注
關(guān)注
25文章
5484瀏覽量
134348 -
cpu
+關(guān)注
關(guān)注
68文章
10889瀏覽量
212373
發(fā)布評論請先 登錄
相關(guān)推薦
評論