0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AMD帶領(lǐng)GPU進(jìn)入Chiplet時(shí)代 RDNA3架構(gòu)深入解讀

Hack電子 ? 來源:半導(dǎo)體行業(yè)觀察 ? 2023-06-12 10:14 ? 次閱讀

11月3日,AMD 透露了其 RDNA 3 GPU 架構(gòu)和 Radeon RX 7900 系列顯卡的關(guān)鍵細(xì)節(jié)。這是一個(gè)公開宣布,全世界都被邀請(qǐng)觀看。宣布后不久,AMD 邀請(qǐng)媒體和分析師進(jìn)行了閉門采訪,以更深入地研究是什么讓 RDNA 3 起作用——或者它是否起作用?

對(duì)架構(gòu)的深入研究主要集中在 RX 7900 XTX/XT (Navi 31) GPU 上,但在接下來的幾個(gè)月中,我們了解了更多細(xì)節(jié)。這些 GPU 旨在與Nvidia Ada Lovelace 和 RTX 40 系列 GPU競爭,以打造最佳顯卡. 我們從 AMD 提供的其他簡報(bào)中獲得了額外的 RDNA 3 詳細(xì)信息,我們將立即對(duì)其進(jìn)行分類。自從我們最初發(fā)布此 RDNA 3 架構(gòu)深入研究以來,我們已經(jīng)審查了Radeon RX 7900 XTX 和 7900 XT,以及Radeon RX 7600。

由于使用了Chiplet設(shè)計(jì),AMD 的 RDNA 3 架構(gòu)從根本上改變了 GPU 的幾個(gè)關(guān)鍵設(shè)計(jì)元素。這是一個(gè)很好的起點(diǎn)。

AMD 已經(jīng)正式推出了 RX 7900 XTX/XT 和 RX 7600。介于 RX 7800 系列和 RX 7700 系列之間的部分仍然是 MIA,但有傳言稱它們可能會(huì)在 2023 年 7 月到達(dá)。所有規(guī)格和細(xì)節(jié)都在7800/7700 是目前最好的猜測。

在頂部,AMD 為 Navi 31 提供了多達(dá) 96 個(gè)計(jì)算單元 (CU),但這并不能說明全部情況。相對(duì)于之前的 RDNA 2 架構(gòu),每個(gè) GPU“核心”的吞吐量都翻了一番。因此,RX 7900 XTX 上的 6144 個(gè)內(nèi)核提供理論上 61.4 teraflops 的 FP32 性能,是 FP16 的兩倍。相比之下,RX 6950 XT 有 5120 個(gè)內(nèi)核,但計(jì)算能力僅為 23.7 teraflops。

L0/L1/L2 緩存的緩存大小更大,但 Infinity Cache(即 L3)在 7900 XTX 上已減少到最大 96MB。其他 GPU 包括每個(gè) 64 位接口 16MB 的緩存。

與 RDNA 2 代相比,時(shí)鐘速度有所提高,具體取決于您正在查看的 GPU。Navi 21 部件的官方加速時(shí)鐘高達(dá) 2.31 GHz,而 Navi 31 將其增加到 2.5 GHz。然而,其他 Navi 2x GPU 的時(shí)鐘頻率往往已經(jīng)在 2.5 GHz 范圍內(nèi)。

到目前為止,定價(jià)至少在理論上與上一代產(chǎn)品相當(dāng)或更好。實(shí)際上,一旦以太坊挖礦結(jié)束,之前的部分價(jià)格暴跌,目前 RX 6950 XT 的售價(jià)為 600 ~ 700 美元。同樣,RX 7600 的廠商建議零售價(jià)為 269 美元,而之前的 RX 6650 XT 的廠商建議零售價(jià)為 399 美元,但至少從 10 月開始,6650 XT 的售價(jià)一直在 250 美元至 275 美元之間。

讓我們繼續(xù)討論 RDNA 3 架構(gòu)的其他細(xì)節(jié)。

AMD RDNA 3 和 GPU 小芯片

Navi 31 由兩個(gè)核心部分組成,即圖形計(jì)算芯片 (GCD) 和內(nèi)存緩存芯片 (MCD)。這與 AMD 對(duì)其 Zen 2/3/4 CPU 所做的事情有相似之處,但一切都經(jīng)過調(diào)整以適應(yīng)圖形世界的需求。

629d4318-08c5-11ee-962d-dac502259ad0.png

對(duì)于 Zen 2 及更高版本的 CPU,AMD 使用連接到系統(tǒng)內(nèi)存的輸入/輸出芯片 (IOD),并為 PCIe Express 接口、USB 端口以及最近的 (Zen 4) 圖形和視頻等提供所有必要的功能功能。IOD 然后通過 AMD 的 Infinity Fabric 連接到一個(gè)或多個(gè)核心計(jì)算芯片(CCD — 或者“核心復(fù)雜芯片”),CCD 包含 CPU 核心、緩存和其他元素。

62fcbfdc-08c5-11ee-962d-dac502259ad0.png

設(shè)計(jì)中的一個(gè)關(guān)鍵點(diǎn)是典型的通用計(jì)算算法——在 CPU 內(nèi)核上運(yùn)行的東西——將主要適合各種 L1/L2/L3 緩存。直到 Zen 4 的現(xiàn)代 CPU 只有兩個(gè)用于系統(tǒng) RAM 的 64 位內(nèi)存通道(盡管EPYC Genoa 服務(wù)器處理器最多可以有十二個(gè) DDR5 通道)。

6325122a-08c5-11ee-962d-dac502259ad0.png

CCD 很小,IOD 范圍從大約 125mm2(Ryzen 3000)到 416mm2(EPYC xxx2 代)。最近,Zen 4 Ryzen 7000 系列 CPU 的 IOD 使用 TSMC N6 制造,尺寸僅為 122mm2,帶有一個(gè)或兩個(gè)在 TSMC N5 上制造的 70mm2 CCD,而 EPYC xxx4 代使用相同的 CCD,但具有相對(duì)巨大的 IOD 尺寸為 396mm2(仍由 TSMC N6 制造)。

6336b7dc-08c5-11ee-962d-dac502259ad0.png

GPU 有非常不同的要求。大型緩存可以提供幫助,但 GPU 也非常喜歡擁有大量內(nèi)存帶寬來滿足所有 GPU 核心的需求。例如,即使是配備 12 通道 DDR5 配置的 EPYC 9654 也“僅”提供高達(dá) 460.8 GB/s 的帶寬。RTX 4090 等最快的顯卡可以輕松將其翻倍。

換句話說,AMD 需要做一些不同的事情來讓 GPU 小芯片有效地工作。該解決方案最終幾乎與 CPU 小芯片相反,內(nèi)存控制器和緩存被放置在多個(gè)較小的芯片上,而主要計(jì)算功能位于中央 GCD 小芯片中。

GCD 包含所有計(jì)算單元 (CU) 以及其他核心功能,如視頻編解碼器硬件、顯示接口和 PCIe 連接。Navi 31 GCD 有多達(dá) 96 個(gè) CU,這是典型的圖形處理發(fā)生的地方。但它的頂部和底部邊緣也有一個(gè) Infinity Fabric(通過某種總線連接到芯片的其余部分),然后連接到 MCD。

MCD,顧名思義(Memory Cache Dies)主要包含大型 L3 緩存塊(Infinity Cache),以及物理 GDDR6 內(nèi)存接口。它們還需要包含 Infinity Fabric 鏈接以連接到 GCD,您可以在沿著 MCD 面向中心的邊緣拍攝的芯片中看到這一點(diǎn)。

GCD 使用臺(tái)積電的 N5 節(jié)點(diǎn),將 457 億個(gè)晶體管封裝到一個(gè) 300mm2 的芯片中。與此同時(shí),MCD 建立在臺(tái)積電的 N6 節(jié)點(diǎn)上,每個(gè)芯片在尺寸僅為 37mm2 的芯片上封裝了 20.5 億個(gè)晶體管。高速緩存和外部接口是現(xiàn)代處理器中擴(kuò)展性最差的一些元素,我們可以看到總體上 GCD 平均每 mm2 有 1.523 億個(gè)晶體管,而 MCD 平均只有 5540 萬個(gè)晶體管/mm2。

這里值得一提的是,雖然 Navi 31(可能還有 Navi 32)使用 GPU 小芯片,但最小的 Navi 33 裸片(用于Radeon RX 7600和其他移動(dòng) GPU)由構(gòu)建在臺(tái)積電 N6 節(jié)點(diǎn)上的單片裸片組成。成本節(jié)約措施顯然是各種 RDNA 3 設(shè)計(jì)的主要因素。

AMD 的高性能扇出互連

GPU 上的小芯片方法的一個(gè)潛在問題是所有 Infinity Fabric 鏈路需要多少功率——外部芯片幾乎總是使用更多功率。例如,Zen CPU 有一個(gè)制造成本相對(duì)較低的有機(jī)基板中介層,但它消耗 1.5 pJ/b(每比特皮焦耳)。將其擴(kuò)展到 384 位接口會(huì)消耗相當(dāng)大的功率,因此 AMD 努力改進(jìn)與 Navi 31 的接口。

63585cfc-08c5-11ee-962d-dac502259ad0.png

結(jié)果就是 AMD 所謂的高性能扇出互連。上圖并沒有把事情說清楚,但左邊較大的接口是 Zen CPU 上使用的有機(jī)基板互連。右邊是 Navi 31 上使用的高性能扇出橋,“大致按比例”。

636d7330-08c5-11ee-962d-dac502259ad0.png

您可以清楚地看到用于 CPU 的 25 根電線,而用于 GPU 的 50 根電線被擠在一個(gè)小得多的區(qū)域中,因此您甚至看不到單獨(dú)的電線。對(duì)于相同的目的,它大約是高度和寬度的 1/8,這意味著大約是總面積的 1/64。這反過來又大大降低了功耗要求,AMD 表示,所有 Infinity Fanout 鏈接組合起來可提供 3.5 TB/s 的有效帶寬,而僅占 GPU 總功耗的不到 5%。

6380c7be-08c5-11ee-962d-dac502259ad0.png63aeb7be-08c5-11ee-962d-dac502259ad0.png646e8b34-08c5-11ee-962d-dac502259ad0.png

這里有一個(gè)有趣的地方:GCD 和 MCD 上的所有 Infinity Fabric 邏輯都占用了相當(dāng)大的裸片空間。從裸片照片來看,GCD 上的六個(gè) Infinity Fabric 接口使用了大約 9% 的裸片面積,而這些接口大約占 MCD 上總裸片尺寸的 15%。

64a29406-08c5-11ee-962d-dac502259ad0.png

去掉 Infinity Fabric 接口并將整個(gè)芯片構(gòu)建為臺(tái)積電 N5 節(jié)點(diǎn)上的單片部件,它的尺寸可能只有 ~400mm2。顯然,臺(tái)積電 N5 的成本遠(yuǎn)高于 N6,因此值得采用小芯片路線,這說明了較小制造節(jié)點(diǎn)的成本不斷增加。要么是這樣,要么是 AMD 正在為未來設(shè)計(jì)架構(gòu),現(xiàn)在接受打擊并希望以后獲得更大的收益。

64c72f5a-08c5-11ee-962d-dac502259ad0.png

與此相關(guān),我們知道芯片設(shè)計(jì)的某些方面可以隨著工藝的縮小而更好地?cái)U(kuò)展。外部接口——比如 GDDR6 物理接口——幾乎停止了擴(kuò)展。緩存的擴(kuò)展性也很差。有趣的是,AMD 的下一代 GPU(Navi 4x / RDNA 4)是否會(huì)利用與 RDNA 3 相同的 MCD,同時(shí)將 GCD 轉(zhuǎn)移到 N3 等未來的臺(tái)積電節(jié)點(diǎn)。

AMD RDNA 3 架構(gòu)升級(jí)

這涉及到設(shè)計(jì)的小芯片方面,所以現(xiàn)在讓我們來看看 GPU 各個(gè)部分的架構(gòu)變化。這些可以大致分為四個(gè)方面:芯片設(shè)計(jì)的一般變化、GPU 著色器(流處理器)的增強(qiáng)、改進(jìn)光線追蹤性能的更新以及矩陣運(yùn)算硬件的改進(jìn)。

65028f82-08c5-11ee-962d-dac502259ad0.png

查看原始規(guī)格,AMD 似乎并沒有將時(shí)鐘速度提高那么多,但之前我們只有游戲時(shí)鐘數(shù)據(jù)?,F(xiàn)在我們可以說加速時(shí)鐘更高了,在一般情況下,AMD 的 RDNA 3 GPU 甚至?xí)^官方的加速時(shí)鐘——換句話說,它們是保守的加速。

AMD 表示 RDNA 3 的設(shè)計(jì)可以達(dá)到 3 GHz 的速度。參考 7900 XTX / XT 上的官方升壓時(shí)鐘遠(yuǎn)低于該標(biāo)記,但我們也認(rèn)為 AMD 的參考設(shè)計(jì)更側(cè)重于最大限度地提高效率。第三方 AIB 卡可以大大提高功率限制、電壓和時(shí)鐘速度。我們會(huì)看到 3 GHz 出廠超頻嗎?7900 系列沒有發(fā)生這種情況,但也許其他 GPU 中的一個(gè)會(huì)走那么遠(yuǎn)。

根據(jù) AMD 的說法,RDNA 3 GPU 可以在使用一半功率的情況下達(dá)到與 RDNA 2 GPU 相同的頻率,或者在使用相同功率的情況下達(dá)到 1.3 倍的頻率。最終,AMD 希望平衡頻率和功率以提供最佳的整體體驗(yàn)。實(shí)際上,頂級(jí) GPU 上的時(shí)鐘比上一代高幾百 MHz。

AMD 提出的另一點(diǎn)是,它已將硅利用率提高了約 20%。換句話說,RDNA 2 GPU 上有一些功能單元,其中部分芯片經(jīng)常處于閑置狀態(tài),即使在卡處于滿載狀態(tài)下也是如此。不幸的是,我們沒有直接衡量這一點(diǎn)的好方法,所以我們會(huì)接受 AMD 的話,但最終這應(yīng)該會(huì)帶來更高的性能。

AMD RDNA 3 計(jì)算單元增強(qiáng)功能

在小芯片之外,許多最大的變化發(fā)生在計(jì)算單元 (CU) 和工作組處理器 (WGP) 中。其中包括對(duì) L0/L1/L2 緩存大小的更新、用于 FP32 和矩陣工作負(fù)載的更多 SIMD32 寄存器,以及某些元素之間更廣泛和更快的接口。

6528f6cc-08c5-11ee-962d-dac502259ad0.png

AMD 的 Mike Mantor 展示了上面和下面的幻燈片,它們很密集!他基本上在一個(gè)小時(shí)的大部分時(shí)間里不停地講話,試圖涵蓋 RDNA 3 架構(gòu)所做的一切,但時(shí)間遠(yuǎn)遠(yuǎn)不夠。上面的幻燈片涵蓋了全局概覽,但讓我們逐步了解一些細(xì)節(jié)。

65b67934-08c5-11ee-962d-dac502259ad0.png

RDNA 3 帶有增強(qiáng)的計(jì)算單元對(duì)——成為 RDNA 芯片主要構(gòu)建塊的雙 CU。這與 RDNA 2 不同,但請(qǐng)注意調(diào)度程序和矢量 GPR(通用寄存器)的第一個(gè)塊表示“Float / INT / Matrix SIMD32”,然后是第二個(gè)塊表示“Float / Matrix SIMD32”。第二個(gè)塊是 RDNA 3 的新塊,它基本上意味著浮點(diǎn)吞吐量翻倍。

65e2d240-08c5-11ee-962d-dac502259ad0.png

您可以選擇以兩種方式之一查看事物:每個(gè) CU 現(xiàn)在有 128 個(gè)流處理器(SP 或 GPU 著色器),并且您總共獲得 12,288 個(gè)著色器 ALU(算術(shù)邏輯單元),或者您可以將其視為 64”與上一代 RDNA 2 CU 相比,F(xiàn)P32 吞吐量恰好翻了一番。

6602a8c2-08c5-11ee-962d-dac502259ad0.png

這有點(diǎn)好笑,因?yàn)橛行┑胤秸f Navi 31 有 6,144 個(gè)著色器,而其他地方說有 12,288 個(gè)著色器,所以我特地問了 AMD 的首席 GPU 架構(gòu)師和 RDNA 3 設(shè)計(jì)背后的主要負(fù)責(zé)人 Mike Mantor,它是否是 6,144或 12,288。他拿出計(jì)算器,敲了幾個(gè)數(shù)字,說:“嗯,應(yīng)該是12288?!?然而,在某些方面,事實(shí)并非如此。

AMD 自己的規(guī)格說 7900 XTX 有 6,144 個(gè) SP 和 96 個(gè) CU,而 7900 XT 有 84 個(gè) CU 和 5,376 個(gè) SP,因此 AMD 正在采取使用較低數(shù)量的方法。但是,原始 FP32 計(jì)算(和矩陣計(jì)算)增加了一倍。就我個(gè)人而言,將其稱為每個(gè) CU 128 個(gè) SP 比 64 個(gè)更有意義,整體設(shè)計(jì)看起來類似于 Nvidia 的 Ampere 和 Ada Lovelace 架構(gòu)。現(xiàn)在每個(gè)流式多處理器 (SM) 有 128 個(gè) FP32 CUDA 內(nèi)核,還有 64 個(gè) INT32 單元。但無論如何,AMD 并沒有使用更大的數(shù)字。

除了額外的 32 位浮點(diǎn)計(jì)算,AMD 還將矩陣 (AI) 吞吐量提高了一倍,并且 AI 矩陣加速器共享許多著色器執(zhí)行資源。AI 單元的新功能是 BF16(大腦浮動(dòng) 16 位)支持,以及 INT4 WMMA Dot4 指令(波形矩陣乘積),并且與 FP32 吞吐量一樣,矩陣運(yùn)算速度整體提高了 2.7 倍。

這 2.7 倍似乎來自時(shí)鐘對(duì)時(shí)鐘性能的總體增長 17.4%,加上 CU 增加 20% 以及每個(gè) CU 的 SIM32 單元增加一倍。

AMD RDNA 3:更大更快的緩存和互連

緩存以及緩存與系統(tǒng)其余部分之間的接口都已升級(jí)。例如,L0 緩存現(xiàn)在是 32KB(雙倍 于RDNA 2),L1 緩存是 256KB(又是雙倍于 RDNA 2),而 L2 緩存增加到 6MB(比 RDNA 2 大 1.5 倍)。

6644e5d4-08c5-11ee-962d-dac502259ad0.png

主處理單元和 L1 緩存之間的鏈接現(xiàn)在寬 1.5 倍,每個(gè)時(shí)鐘吞吐量為 6144 字節(jié)。同樣,L1 和 L2 緩存之間的鏈接也寬 1.5 倍(每個(gè)時(shí)鐘 3072 字節(jié))。

L3 緩存,也稱為 Infinity Cache,相對(duì)于 Navi 21 確實(shí)縮小了。現(xiàn)在是 96MB 對(duì) 128MB。然而,L3 到 L2 鏈路現(xiàn)在寬了 2.25 倍(每個(gè)時(shí)鐘 2304 字節(jié)),因此總吞吐量要大得多更高。事實(shí)上,AMD 給出了 5.3 TB/s 的數(shù)字——在 2.3 GHz 的速度下為 2304 B/clk。RX 6950 XT 只有 1024 B/clk 鏈接到其 Infinity Cache(最大值),RDNA 3 提供高達(dá) 2.7 倍的峰值接口帶寬。

請(qǐng)注意,這些數(shù)字僅適用于 7900 XTX 中完全配置的 Navi 31 解決方案。7900 XT 有五個(gè) MCD,下降到 320 位 GDDR6 接口和 1920 B/clk 鏈接到組合的 80MB Infinity Cache。我們將自然而然地看到較低層級(jí)的 RDNA 3 部件,它們會(huì)進(jìn)一步縮減接口寬度和性能。

最后,現(xiàn)在有多達(dá)六個(gè) 64 位 GDDR6 接口,用于連接到 GDDR6 內(nèi)存的組合 384 位鏈接。VRAM 的時(shí)鐘頻率也為 20 Gbps(后來的 6x50 卡為 18 Gbps,原始 RDNA 2 芯片為 16 Gbps),總帶寬為 960 GB/s。

有趣的是,這一代 GDDR6 和 GDDR6X 之間的差距縮小了多少,至少在出貨配置方面是這樣。AMD 在 RX 7900 XTX 上的 960 GB/s 僅比現(xiàn)在 RTX 4090 的 1008 GB/s 低 5%,而 RX 6900 XT 和 RTX 3090 僅比 Nvidia 的 936 GB/s 高 512 GB/s。回到 2020 年。Nvidia 當(dāng)然也采用了更大的緩存大小及其Ada Lovelace 架構(gòu)。

AMD RDNA 3:第二代光線追蹤

RDNA 2 架構(gòu)上的光線追蹤總是感覺像是事后才想到的——為了滿足 DirectX 12 Ultimate 所需的功能清單而附加的東西。AMD 的 RDNA 2 GPU 缺乏專用的 BVH 遍歷硬件,選擇通過其他共享單元來完成這項(xiàng)工作,這至少部分歸咎于它們較弱的 RT 性能。

6673c2dc-08c5-11ee-962d-dac502259ad0.png

RDNA 2 射線加速器每個(gè)時(shí)鐘最多可以進(jìn)行四次射線/盒子相交,或一次射線/三角形相交。相比之下,英特爾的 Arc Alchemist 每個(gè)時(shí)鐘每個(gè) RTU 最多可以進(jìn)行 12 次射線/盒子交叉,而 Nvidia 沒有提供具體數(shù)字,但在 Ampere 上每個(gè) RT 內(nèi)核最多可以進(jìn)行 2 次射線/三角形交叉,最多可以進(jìn)行 4 次射線/Ada Lovelace 上每個(gè)時(shí)鐘的三角形交叉點(diǎn)。

66aea820-08c5-11ee-962d-dac502259ad0.png

目前尚不清楚 RDNA 3 是否真的直接改進(jìn)了這些數(shù)字,或者 AMD 是否專注于其他增強(qiáng)功能以減少執(zhí)行的光線/盒子相交的數(shù)量。也許兩者都有。我們所知道的是,RDNA 3 將改進(jìn) BVH(邊界體積層次)遍歷,這將提高光線追蹤性能。

6721a186-08c5-11ee-962d-dac502259ad0.png

RDNA 3 還具有大 1.5 倍的 VGPR(矢量通用寄存器),這意味著飛行中的射線數(shù)量增加了 1.5 倍。還有其他堆棧優(yōu)化可以減少 BVH 遍歷所需的指令數(shù)量,并且可以使用專門的框排序算法(最接近優(yōu)先、最大優(yōu)先、最接近中點(diǎn))來提取提高的效率。

總的來說,由于新功能、更高的頻率和更多的射線加速器數(shù)量,AMD 表示與 RDNA 2 相比,RDNA 3 的射線追蹤性能應(yīng)該提高 1.8 倍。這應(yīng)該會(huì)縮小 AMD 和 Nvidia Ampere 之間的差距。盡管如此,Nvidia 似乎還在 Ada Lovelace 的光線追蹤硬件上加倍投入,因此我們不會(huì)指望 AMD 能夠提供與 RTX 40 系列 GPU 相當(dāng)?shù)男阅堋?/p>

AMD RDNA 3:其他架構(gòu)改進(jìn)

最后,RDNA 3 調(diào)整了與命令處理器、幾何形狀和像素管道相關(guān)的架構(gòu)的其他元素。還有一個(gè)新的雙媒體引擎,支持 AV1 編碼/解碼、AI 增強(qiáng)視頻解碼和新的 Radiance 顯示引擎。

678a1ee6-08c5-11ee-962d-dac502259ad0.png

命令處理器 (CP) 更新應(yīng)提高某些工作負(fù)載的性能,同時(shí)減少驅(qū)動(dòng)程序和 API 端的 CPU 瓶頸?;谟布奶蕹阅茉谑挛锏膸缀畏矫嬉部炝?50%,并且每個(gè)時(shí)鐘的峰值光柵化像素增加了 50%。

最后一個(gè)似乎是將 Navi 21 上的 ROP(渲染輸出)數(shù)量從 128 個(gè)增加到 Navi 31 上的 192 個(gè)的結(jié)果。這是有道理的,因?yàn)閮?nèi)存通道也增加了 50%,AMD 希望擴(kuò)展其他元素與此同步。

雙媒體引擎應(yīng)該使 AMD 在視頻方面與 Nvidia 和 Intel 持平,盡管我們最近的視頻編解碼器質(zhì)量和性能測試表明它仍然落后于 Intel 和 Nvidia。另請(qǐng)注意,AV1 更多的是關(guān)于擺脫 HEVC 的版稅,而不是提高質(zhì)量,盡管性能可能有點(diǎn)不確定。

AMD 還因?yàn)榘瑢?duì) DisplayPort 2.1 的支持而獲得了至少幾點(diǎn)。英特爾的 Arc GPU 也支持 DP2,但最高可達(dá) 40 Gbps (UHBR 10),而 AMD 可以達(dá)到 54 Gbps (UHBR 13.5)。AMD 的顯示輸出可以在 229 Hz 下驅(qū)動(dòng)高達(dá) 4K,無需壓縮 8 位色深,或 187 Hz 10 位色。Display Stream Compression 可以將其提高一倍以上,允許 4K 和 480 Hz 或 8K 和 165 Hz——并不是說我們離擁有實(shí)際支持這種速度的顯示器還差得很遠(yuǎn)。

實(shí)際上,我們不得不懷疑 DP2.1 UHBR 13.5 對(duì) RDNA 3 顯卡的重要性。首先,您需要一臺(tái)支持 DP2.1 的新顯示器,其次,問題是 4K 180 Hz 之類的東西在使用和不使用 DSC 時(shí)看起來有多好——因?yàn)?DP1.4a 仍然可以使用 DSC 處理該分辨率,而 UHBR 13.5 可以在沒有 DSC 的情況下完成。我們一直在使用三星 Odyssey Neo G8 32 英寸顯示器,通過 DSC 支持 4K 240 Hz,并且沒有發(fā)現(xiàn)任何質(zhì)量下降。

AMD RDNA 3:結(jié)語

總的來說,這聽起來像是一項(xiàng)令人印象深刻的工程壯舉。

AMD 可以很好地與 Nvidia 的 RTX 4080 卡競爭,至少在非光線追蹤和非 AI 工作負(fù)載方面是這樣。另一方面,如果您想要最快的 GPU,AMD 甚至不會(huì)嘗試與更大的RTX 4090正面交鋒。

簡單的數(shù)學(xué)提供了大量的思考。FP32 6,144 個(gè)著色器以 2.5 GHz 運(yùn)行,ALU 吞吐量翻倍,而 Nvidia 的 16,384 個(gè)著色器以 2.52 GHz 運(yùn)行,Nvidia 顯然具有原始計(jì)算優(yōu)勢——61 teraflops 對(duì)比 83 teraflops。如前所述,添加更多 FP32 單元使 AMD 的 RDNA 3 看起來更像 Ampere 和 Ada Lovelace。

除了原始計(jì)算,我們還有晶體管數(shù)量和芯片尺寸。Nvidia 堅(jiān)持為 Ada Lovelace 使用單片芯片,包括 AD102、AD103、AD104、AD106 和 AD107 芯片。最大的一個(gè)在 608mm2芯片中有 763 億個(gè)晶體管。即使 AMD 正在開發(fā)具有 580 億個(gè)晶體管的單片 522mm2芯片,我們也希望 Nvidia 具有一些優(yōu)勢。然而,GPU 小芯片方法意味著一些區(qū)域和晶體管被用于與性能不直接相關(guān)的事情。

與此同時(shí),Nvidia 的倒數(shù)第二個(gè) Ada 芯片,即RTX 4080 中使用的 AD103 ,落在了柵欄的另一邊。憑借 256 位接口、459 億個(gè)晶體管和 368.6mm2裸片尺寸,Navi 31 應(yīng)該具有一些明顯的優(yōu)勢——無論是 RX 7900 XTX 還是稍低一些的 7900 XT。然后是具有 358 億個(gè)晶體管和 294.5mm2裸片的 AD104,即“未發(fā)布”的 RTX 4080 12GB,最終演變?yōu)?RTX 4070 Ti。

但性能比紙面規(guī)格更重要。Nvidia 將晶體管投入到 DLSS(張量核心)、DLSS 3(光流加速器)和光線追蹤硬件等功能中。AMD 似乎更愿意放棄一些光線追蹤性能,同時(shí)提升更常見的用例。實(shí)際上,在我們的GPU 基準(zhǔn)測試層次結(jié)構(gòu)中,RX 7900 XTX 在光柵化性能方面幾乎領(lǐng)先于 RTX 4080 ,而在光線追蹤性能方面,它更接近于上一代RTX 3090。

對(duì)于那些對(duì)價(jià)格在 900 美元或以上的顯卡不感興趣的人,還有RTX 4070 Ti、RTX 4070、RTX 4060 Ti和RX 7600等顯卡. 我們?nèi)栽诘却?AMD 的 RX 7800 和 7700 產(chǎn)品,這可能會(huì)在 AMD 等待清理剩余的 Navi 2x 庫存時(shí)推遲。據(jù)傳,Navi 32 使用相同的 MCD,但具有更小的 GCD,而 Navi 33 已經(jīng)作為仍然構(gòu)建在 N6 節(jié)點(diǎn)上的單片芯片推出。




審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • CCD
    CCD
    +關(guān)注

    關(guān)注

    32

    文章

    881

    瀏覽量

    142248
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4739

    瀏覽量

    128941
  • GCDM
    +關(guān)注

    關(guān)注

    0

    文章

    4

    瀏覽量

    2147
  • RDNA
    +關(guān)注

    關(guān)注

    0

    文章

    20

    瀏覽量

    1908

原文標(biāo)題:AMD帶領(lǐng)GPU進(jìn)入Chiplet時(shí)代,RDNA 3架構(gòu)深入解讀

文章出處:【微信號(hào):Hack電子,微信公眾號(hào):Hack電子】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    AMD確認(rèn)2025年推出RDNA 4顯卡,光追與AI性能大幅提升

    10月30日,AMD在2024年第三季度財(cái)報(bào)電話會(huì)議上宣布了一個(gè)關(guān)于GPU的重要信息:其下一代RDNA 4顯卡計(jì)劃于2025年初發(fā)布。AMD首席執(zhí)行官蘇姿豐明確表示:“我們計(jì)劃在202
    的頭像 發(fā)表于 10-30 16:50 ?633次閱讀

    X86架構(gòu)處理器有哪些優(yōu)點(diǎn)和缺點(diǎn)

    X86架構(gòu)處理器作為計(jì)算機(jī)領(lǐng)域的重要組成部分,具有多個(gè)顯著的優(yōu)點(diǎn)和一定的缺點(diǎn)。以下是對(duì)X86架構(gòu)處理器優(yōu)缺點(diǎn)的詳細(xì)分析。
    的頭像 發(fā)表于 08-22 11:25 ?2067次閱讀

    X86架構(gòu)和ARM架構(gòu)有什么區(qū)別

    X86架構(gòu)和ARM架構(gòu)是兩種主流的CPU架構(gòu),它們?cè)诙鄠€(gè)方面存在顯著的差異。以下是對(duì)這兩種架構(gòu)的詳細(xì)比較,涵蓋了追求目標(biāo)、應(yīng)用領(lǐng)域、技術(shù)特點(diǎn)、性能功耗比、軟件生態(tài)以及未來趨勢等方面。
    的頭像 發(fā)表于 08-22 11:21 ?9276次閱讀

    ElfBoard技術(shù)貼|如何將libwebsockets庫編譯為x86架構(gòu)

    在之前的文章中,我們已經(jīng)詳細(xì)介紹了如何交叉編譯libwebsockets并將其部署到ELF1開發(fā)板上。然而在調(diào)試階段,發(fā)現(xiàn)將libwebsockets在Ubuntu環(huán)境下編譯為x86架構(gòu)可能更為方便
    的頭像 發(fā)表于 07-10 09:38 ?1217次閱讀
    ElfBoard技術(shù)貼|如何將libwebsockets庫編譯為x86<b class='flag-5'>架構(gòu)</b>

    移動(dòng)端芯片性能提升,Armv9架構(gòu)新升級(jí)引發(fā)關(guān)注

    “數(shù)碼博主”5月17日的最新爆料指出,聯(lián)發(fā)科積極推進(jìn)Armv9新一代IP BLACKHAWK“黑鷹”的架構(gòu)設(shè)計(jì),預(yù)計(jì)天璣9400芯片將采用這一架構(gòu),有望以“全大核”設(shè)計(jì)再度領(lǐng)跑移動(dòng)SoC CPU性能榜單。
    的頭像 發(fā)表于 05-17 16:51 ?1020次閱讀

    AMD RDNA4顯卡全部搭載18Gbps顯存,帶寬略遜于部分RDNA3產(chǎn)品

    現(xiàn)行的零售版RadeonRX7900XT、7900XT搭載的是20Gbps的GDDR6顯存,而RX7800XT則采用了19.5Gbps的顯存。因此,RDNA4顯卡的顯存速度可能不及部分RDNA3產(chǎn)品,與RX7900GRE、RX7700XT及以下型號(hào)保持一致。
    的頭像 發(fā)表于 04-23 16:37 ?798次閱讀

    AMD Radeon RX 7000M系列顯卡特性分析

    AMD RDNA 3架構(gòu) – 新的計(jì)算單元在渲染、AI和光線追蹤之間共享資源,以更有效地利用每個(gè)晶體管,實(shí)現(xiàn)快速又高效的性能。
    發(fā)表于 04-15 11:31 ?548次閱讀
    <b class='flag-5'>AMD</b> Radeon RX 7000M系列顯卡特性分析

    AMD推出銳龍8000嵌入式處理器,AI算力高達(dá)39 T

    此款CPU選用4納米制程、AMD基于“Zen 4”架構(gòu)的CPU核心以及使用RDNA 3架構(gòu)GPU
    的頭像 發(fā)表于 04-03 10:39 ?885次閱讀

    AMD Zen6架構(gòu)繼續(xù)飛躍!核顯跨越下下代RDNA5

    AMD的下一代Zen5 CPU架構(gòu)還沒來,Zen6的消息就已經(jīng)多次傳出,現(xiàn)在又提到了所集成的GPU核顯,居然將會(huì)搭配同樣下下一代的RDNA5。
    的頭像 發(fā)表于 02-22 09:53 ?864次閱讀
    <b class='flag-5'>AMD</b> Zen6<b class='flag-5'>架構(gòu)</b>繼續(xù)飛躍!核顯跨越下下代<b class='flag-5'>RDNA</b>5

    arm架構(gòu)和x86架構(gòu)區(qū)別 linux是x86還是arm

    ARM架構(gòu)和x86架構(gòu)是兩種不同的計(jì)算機(jī)處理器架構(gòu),它們?cè)隗w系結(jié)構(gòu)、指令集、應(yīng)用領(lǐng)域等方面有著明顯的區(qū)別。Linux操作系統(tǒng)則具有廣泛的適配性,可以運(yùn)行在各種架構(gòu)上,包括x86和ARM
    的頭像 發(fā)表于 01-30 13:46 ?1.8w次閱讀

    AMD全新的銳龍8000G系列臺(tái)式機(jī)處理器介紹

    在PC芯片方面,AMD則帶來了全新的銳龍8000G系列臺(tái)式機(jī)處理器,它是AMD首款同時(shí)集成RDNA 3高性能圖形核心、Ryzen AI NPU,基于Zen 4
    發(fā)表于 01-12 10:12 ?1190次閱讀
    <b class='flag-5'>AMD</b>全新的銳龍8000G系列臺(tái)式機(jī)處理器介紹

    基于Zen 4的銳龍8000G系列桌面處理器

    銳龍8000G系列桌面處理器的最高AI性能算力可達(dá)39TFLOPS,同時(shí)它還集成了基于RDNA3 GPU架構(gòu)的顯示核心。
    發(fā)表于 01-09 12:09 ?725次閱讀
    基于Zen 4的銳龍8000G系列桌面處理器

    深入解讀AMD最新GPU架構(gòu)

    GCN 取代了 Terascale,并強(qiáng)調(diào) GPGPU 和圖形應(yīng)用程序的一致性能。然后,AMD 將其 GPU 架構(gòu)開發(fā)分為單獨(dú)的 CDNA 和 RDNA 線路,分別專門用于計(jì)算和圖形。
    發(fā)表于 01-08 10:12 ?1226次閱讀
    <b class='flag-5'>深入</b><b class='flag-5'>解讀</b><b class='flag-5'>AMD</b>最新<b class='flag-5'>GPU</b><b class='flag-5'>架構(gòu)</b>

    AMDGPU架構(gòu)GCN現(xiàn)代化解讀

    隨著HD 5000和6000系列的發(fā)展,AMD的Terascale(萬億級(jí))架構(gòu)變得非常具有競爭力。
    的頭像 發(fā)表于 01-08 09:58 ?1227次閱讀
    <b class='flag-5'>AMD</b>的<b class='flag-5'>GPU</b><b class='flag-5'>架構(gòu)</b>GCN現(xiàn)代化<b class='flag-5'>解讀</b>

    值得入手的AMD Radeon 顯卡推薦—— AMD Radeon RX 7900 XT

    結(jié)合5nm和6nm工藝節(jié)點(diǎn),采用先進(jìn)的小芯片(Chiplets)設(shè)計(jì),全新的計(jì)算單元和第二代AMD高速緩存技術(shù),相比AMD RDNA 2架構(gòu)的每瓦性能提高54%;
    的頭像 發(fā)表于 01-04 16:27 ?1354次閱讀
    值得入手的<b class='flag-5'>AMD</b> Radeon 顯卡推薦—— <b class='flag-5'>AMD</b> Radeon RX 7900 XT