亚洲综合久久久中文字幕 ,市来美保自拍亚洲

11月3日，AMD 透露了其 RDNA 3 GPU 架構(gòu)和 Radeon RX 7900 系列顯卡的關(guān)鍵細(xì)節(jié)。這是一個(gè)公開宣布，全世界都被邀請(qǐng)觀看。宣布后不久，AMD 邀請(qǐng)媒體和分析師進(jìn)行了閉門采訪，以更深入地研究是什么讓 RDNA 3 起作用——或者它是否起作用？

對(duì)架構(gòu)的深入研究主要集中在 RX 7900 XTX/XT (Navi 31) GPU 上，但在接下來的幾個(gè)月中，我們了解了更多細(xì)節(jié)。這些 GPU 旨在與Nvidia Ada Lovelace 和 RTX 40 系列 GPU競爭，以打造最佳顯卡. 我們從 AMD 提供的其他簡報(bào)中獲得了額外的 RDNA 3 詳細(xì)信息，我們將立即對(duì)其進(jìn)行分類。自從我們最初發(fā)布此 RDNA 3 架構(gòu)深入研究以來，我們已經(jīng)審查了Radeon RX 7900 XTX 和 7900 XT，以及Radeon RX 7600。

由于使用了Chiplet設(shè)計(jì)，AMD 的 RDNA 3 架構(gòu)從根本上改變了 GPU 的幾個(gè)關(guān)鍵設(shè)計(jì)元素。這是一個(gè)很好的起點(diǎn)。

AMD 已經(jīng)正式推出了 RX 7900 XTX/XT 和 RX 7600。介于 RX 7800 系列和 RX 7700 系列之間的部分仍然是 MIA，但有傳言稱它們可能會(huì)在 2023 年 7 月到達(dá)。所有規(guī)格和細(xì)節(jié)都在7800/7700 是目前最好的猜測。

在頂部，AMD 為 Navi 31 提供了多達(dá) 96 個(gè)計(jì)算單元 (CU)，但這并不能說明全部情況。相對(duì)于之前的 RDNA 2 架構(gòu)，每個(gè) GPU“核心”的吞吐量都翻了一番。因此，RX 7900 XTX 上的 6144 個(gè)內(nèi)核提供理論上 61.4 teraflops 的 FP32 性能，是 FP16 的兩倍。相比之下，RX 6950 XT 有 5120 個(gè)內(nèi)核，但計(jì)算能力僅為 23.7 teraflops。

L0/L1/L2 緩存的緩存大小更大，但 Infinity Cache（即 L3）在 7900 XTX 上已減少到最大 96MB。其他 GPU 包括每個(gè) 64 位接口 16MB 的緩存。

與 RDNA 2 代相比，時(shí)鐘速度有所提高，具體取決于您正在查看的 GPU。Navi 21 部件的官方加速時(shí)鐘高達(dá) 2.31 GHz，而 Navi 31 將其增加到 2.5 GHz。然而，其他 Navi 2x GPU 的時(shí)鐘頻率往往已經(jīng)在 2.5 GHz 范圍內(nèi)。

到目前為止，定價(jià)至少在理論上與上一代產(chǎn)品相當(dāng)或更好。實(shí)際上，一旦以太坊挖礦結(jié)束，之前的部分價(jià)格暴跌，目前 RX 6950 XT 的售價(jià)為 600 ~ 700 美元。同樣，RX 7600 的廠商建議零售價(jià)為 269 美元，而之前的 RX 6650 XT 的廠商建議零售價(jià)為 399 美元，但至少從 10 月開始，6650 XT 的售價(jià)一直在 250 美元至 275 美元之間。

讓我們繼續(xù)討論 RDNA 3 架構(gòu)的其他細(xì)節(jié)。

AMD RDNA 3 和 GPU 小芯片

Navi 31 由兩個(gè)核心部分組成，即圖形計(jì)算芯片 (GCD) 和內(nèi)存緩存芯片 (MCD)。這與 AMD 對(duì)其 Zen 2/3/4 CPU 所做的事情有相似之處，但一切都經(jīng)過調(diào)整以適應(yīng)圖形世界的需求。

對(duì)于 Zen 2 及更高版本的 CPU，AMD 使用連接到系統(tǒng)內(nèi)存的輸入/輸出芯片 (IOD)，并為 PCIe Express 接口、USB 端口以及最近的 (Zen 4) 圖形和視頻等提供所有必要的功能功能。IOD 然后通過 AMD 的 Infinity Fabric 連接到一個(gè)或多個(gè)核心計(jì)算芯片（CCD — 或者“核心復(fù)雜芯片”），CCD 包含 CPU 核心、緩存和其他元素。

設(shè)計(jì)中的一個(gè)關(guān)鍵點(diǎn)是典型的通用計(jì)算算法——在 CPU 內(nèi)核上運(yùn)行的東西——將主要適合各種 L1/L2/L3 緩存。直到 Zen 4 的現(xiàn)代 CPU 只有兩個(gè)用于系統(tǒng) RAM 的 64 位內(nèi)存通道（盡管EPYC Genoa 服務(wù)器處理器最多可以有十二個(gè) DDR5 通道）。

CCD 很小，IOD 范圍從大約 125mm2（Ryzen 3000）到 416mm2（EPYC xxx2 代）。最近，Zen 4 Ryzen 7000 系列 CPU 的 IOD 使用 TSMC N6 制造，尺寸僅為 122mm2，帶有一個(gè)或兩個(gè)在 TSMC N5 上制造的 70mm2 CCD，而 EPYC xxx4 代使用相同的 CCD，但具有相對(duì)巨大的 IOD 尺寸為 396mm2（仍由 TSMC N6 制造）。

GPU 有非常不同的要求。大型緩存可以提供幫助，但 GPU 也非常喜歡擁有大量內(nèi)存帶寬來滿足所有 GPU 核心的需求。例如，即使是配備 12 通道 DDR5 配置的 EPYC 9654 也“僅”提供高達(dá) 460.8 GB/s 的帶寬。RTX 4090 等最快的顯卡可以輕松將其翻倍。

換句話說，AMD 需要做一些不同的事情來讓 GPU 小芯片有效地工作。該解決方案最終幾乎與 CPU 小芯片相反，內(nèi)存控制器和緩存被放置在多個(gè)較小的芯片上，而主要計(jì)算功能位于中央 GCD 小芯片中。

GCD 包含所有計(jì)算單元 (CU) 以及其他核心功能，如視頻編解碼器硬件、顯示接口和 PCIe 連接。Navi 31 GCD 有多達(dá) 96 個(gè) CU，這是典型的圖形處理發(fā)生的地方。但它的頂部和底部邊緣也有一個(gè) Infinity Fabric（通過某種總線連接到芯片的其余部分），然后連接到 MCD。

MCD，顧名思義（Memory Cache Dies）主要包含大型 L3 緩存塊（Infinity Cache），以及物理 GDDR6 內(nèi)存接口。它們還需要包含 Infinity Fabric 鏈接以連接到 GCD，您可以在沿著 MCD 面向中心的邊緣拍攝的芯片中看到這一點(diǎn)。

GCD 使用臺(tái)積電的 N5 節(jié)點(diǎn)，將 457 億個(gè)晶體管封裝到一個(gè) 300mm2 的芯片中。與此同時(shí)，MCD 建立在臺(tái)積電的 N6 節(jié)點(diǎn)上，每個(gè)芯片在尺寸僅為 37mm2 的芯片上封裝了 20.5 億個(gè)晶體管。高速緩存和外部接口是現(xiàn)代處理器中擴(kuò)展性最差的一些元素，我們可以看到總體上 GCD 平均每 mm2 有 1.523 億個(gè)晶體管，而 MCD 平均只有 5540 萬個(gè)晶體管/mm2。

這里值得一提的是，雖然 Navi 31（可能還有 Navi 32）使用 GPU 小芯片，但最小的 Navi 33 裸片（用于Radeon RX 7600和其他移動(dòng) GPU）由構(gòu)建在臺(tái)積電 N6 節(jié)點(diǎn)上的單片裸片組成。成本節(jié)約措施顯然是各種 RDNA 3 設(shè)計(jì)的主要因素。

AMD 的高性能扇出互連

GPU 上的小芯片方法的一個(gè)潛在問題是所有 Infinity Fabric 鏈路需要多少功率——外部芯片幾乎總是使用更多功率。例如，Zen CPU 有一個(gè)制造成本相對(duì)較低的有機(jī)基板中介層，但它消耗 1.5 pJ/b（每比特皮焦耳）。將其擴(kuò)展到 384 位接口會(huì)消耗相當(dāng)大的功率，因此 AMD 努力改進(jìn)與 Navi 31 的接口。

結(jié)果就是 AMD 所謂的高性能扇出互連。上圖并沒有把事情說清楚，但左邊較大的接口是 Zen CPU 上使用的有機(jī)基板互連。右邊是 Navi 31 上使用的高性能扇出橋，“大致按比例”。

您可以清楚地看到用于 CPU 的 25 根電線，而用于 GPU 的 50 根電線被擠在一個(gè)小得多的區(qū)域中，因此您甚至看不到單獨(dú)的電線。對(duì)于相同的目的，它大約是高度和寬度的 1/8，這意味著大約是總面積的 1/64。這反過來又大大降低了功耗要求，AMD 表示，所有 Infinity Fanout 鏈接組合起來可提供 3.5 TB/s 的有效帶寬，而僅占 GPU 總功耗的不到 5%。

這里有一個(gè)有趣的地方：GCD 和 MCD 上的所有 Infinity Fabric 邏輯都占用了相當(dāng)大的裸片空間。從裸片照片來看，GCD 上的六個(gè) Infinity Fabric 接口使用了大約 9% 的裸片面積，而這些接口大約占 MCD 上總裸片尺寸的 15%。

去掉 Infinity Fabric 接口并將整個(gè)芯片構(gòu)建為臺(tái)積電 N5 節(jié)點(diǎn)上的單片部件，它的尺寸可能只有 ~400mm2。顯然，臺(tái)積電 N5 的成本遠(yuǎn)高于 N6，因此值得采用小芯片路線，這說明了較小制造節(jié)點(diǎn)的成本不斷增加。要么是這樣，要么是 AMD 正在為未來設(shè)計(jì)架構(gòu)，現(xiàn)在接受打擊并希望以后獲得更大的收益。

與此相關(guān)，我們知道芯片設(shè)計(jì)的某些方面可以隨著工藝的縮小而更好地?cái)U(kuò)展。外部接口——比如 GDDR6 物理接口——幾乎停止了擴(kuò)展。緩存的擴(kuò)展性也很差。有趣的是，AMD 的下一代 GPU（Navi 4x / RDNA 4）是否會(huì)利用與 RDNA 3 相同的 MCD，同時(shí)將 GCD 轉(zhuǎn)移到 N3 等未來的臺(tái)積電節(jié)點(diǎn)。

AMD RDNA 3 架構(gòu)升級(jí)

這涉及到設(shè)計(jì)的小芯片方面，所以現(xiàn)在讓我們來看看 GPU 各個(gè)部分的架構(gòu)變化。這些可以大致分為四個(gè)方面：芯片設(shè)計(jì)的一般變化、GPU 著色器（流處理器）的增強(qiáng)、改進(jìn)光線追蹤性能的更新以及矩陣運(yùn)算硬件的改進(jìn)。

查看原始規(guī)格，AMD 似乎并沒有將時(shí)鐘速度提高那么多，但之前我們只有游戲時(shí)鐘數(shù)據(jù)?，F(xiàn)在我們可以說加速時(shí)鐘更高了，在一般情況下，AMD 的 RDNA 3 GPU 甚至?xí)^官方的加速時(shí)鐘——換句話說，它們是保守的加速。

AMD 表示 RDNA 3 的設(shè)計(jì)可以達(dá)到 3 GHz 的速度。參考 7900 XTX / XT 上的官方升壓時(shí)鐘遠(yuǎn)低于該標(biāo)記，但我們也認(rèn)為 AMD 的參考設(shè)計(jì)更側(cè)重于最大限度地提高效率。第三方 AIB 卡可以大大提高功率限制、電壓和時(shí)鐘速度。我們會(huì)看到 3 GHz 出廠超頻嗎？7900 系列沒有發(fā)生這種情況，但也許其他 GPU 中的一個(gè)會(huì)走那么遠(yuǎn)。

根據(jù) AMD 的說法，RDNA 3 GPU 可以在使用一半功率的情況下達(dá)到與 RDNA 2 GPU 相同的頻率，或者在使用相同功率的情況下達(dá)到 1.3 倍的頻率。最終，AMD 希望平衡頻率和功率以提供最佳的整體體驗(yàn)。實(shí)際上，頂級(jí) GPU 上的時(shí)鐘比上一代高幾百 MHz。

AMD 提出的另一點(diǎn)是，它已將硅利用率提高了約 20%。換句話說，RDNA 2 GPU 上有一些功能單元，其中部分芯片經(jīng)常處于閑置狀態(tài)，即使在卡處于滿載狀態(tài)下也是如此。不幸的是，我們沒有直接衡量這一點(diǎn)的好方法，所以我們會(huì)接受 AMD 的話，但最終這應(yīng)該會(huì)帶來更高的性能。

AMD RDNA 3 計(jì)算單元增強(qiáng)功能

在小芯片之外，許多最大的變化發(fā)生在計(jì)算單元 (CU) 和工作組處理器 (WGP) 中。其中包括對(duì) L0/L1/L2 緩存大小的更新、用于 FP32 和矩陣工作負(fù)載的更多 SIMD32 寄存器，以及某些元素之間更廣泛和更快的接口。

AMD 的 Mike Mantor 展示了上面和下面的幻燈片，它們很密集！他基本上在一個(gè)小時(shí)的大部分時(shí)間里不停地講話，試圖涵蓋 RDNA 3 架構(gòu)所做的一切，但時(shí)間遠(yuǎn)遠(yuǎn)不夠。上面的幻燈片涵蓋了全局概覽，但讓我們逐步了解一些細(xì)節(jié)。

RDNA 3 帶有增強(qiáng)的計(jì)算單元對(duì)——成為 RDNA 芯片主要構(gòu)建塊的雙 CU。這與 RDNA 2 不同，但請(qǐng)注意調(diào)度程序和矢量 GPR（通用寄存器）的第一個(gè)塊表示“Float / INT / Matrix SIMD32”，然后是第二個(gè)塊表示“Float / Matrix SIMD32”。第二個(gè)塊是 RDNA 3 的新塊，它基本上意味著浮點(diǎn)吞吐量翻倍。

您可以選擇以兩種方式之一查看事物：每個(gè) CU 現(xiàn)在有 128 個(gè)流處理器（SP 或 GPU 著色器），并且您總共獲得 12,288 個(gè)著色器 ALU（算術(shù)邏輯單元），或者您可以將其視為 64”與上一代 RDNA 2 CU 相比，F(xiàn)P32 吞吐量恰好翻了一番。

這有點(diǎn)好笑，因?yàn)橛行┑胤秸f Navi 31 有 6,144 個(gè)著色器，而其他地方說有 12,288 個(gè)著色器，所以我特地問了 AMD 的首席 GPU 架構(gòu)師和 RDNA 3 設(shè)計(jì)背后的主要負(fù)責(zé)人 Mike Mantor，它是否是 6,144或 12,288。他拿出計(jì)算器，敲了幾個(gè)數(shù)字，說：“嗯，應(yīng)該是12288?！?然而，在某些方面，事實(shí)并非如此。

AMD 自己的規(guī)格說 7900 XTX 有 6,144 個(gè) SP 和 96 個(gè) CU，而 7900 XT 有 84 個(gè) CU 和 5,376 個(gè) SP，因此 AMD 正在采取使用較低數(shù)量的方法。但是，原始 FP32 計(jì)算（和矩陣計(jì)算）增加了一倍。就我個(gè)人而言，將其稱為每個(gè) CU 128 個(gè) SP 比 64 個(gè)更有意義，整體設(shè)計(jì)看起來類似于 Nvidia 的 Ampere 和 Ada Lovelace 架構(gòu)。現(xiàn)在每個(gè)流式多處理器 (SM) 有 128 個(gè) FP32 CUDA 內(nèi)核，還有 64 個(gè) INT32 單元。但無論如何，AMD 并沒有使用更大的數(shù)字。

除了額外的 32 位浮點(diǎn)計(jì)算，AMD 還將矩陣 (AI) 吞吐量提高了一倍，并且 AI 矩陣加速器共享許多著色器執(zhí)行資源。AI 單元的新功能是 BF16（大腦浮動(dòng) 16 位）支持，以及 INT4 WMMA Dot4 指令（波形矩陣乘積），并且與 FP32 吞吐量一樣，矩陣運(yùn)算速度整體提高了 2.7 倍。

這 2.7 倍似乎來自時(shí)鐘對(duì)時(shí)鐘性能的總體增長 17.4%，加上 CU 增加 20% 以及每個(gè) CU 的 SIM32 單元增加一倍。

AMD RDNA 3：更大更快的緩存和互連

緩存以及緩存與系統(tǒng)其余部分之間的接口都已升級(jí)。例如，L0 緩存現(xiàn)在是 32KB（雙倍于RDNA 2），L1 緩存是 256KB（又是雙倍于 RDNA 2），而 L2 緩存增加到 6MB（比 RDNA 2 大 1.5 倍）。

主處理單元和 L1 緩存之間的鏈接現(xiàn)在寬 1.5 倍，每個(gè)時(shí)鐘吞吐量為 6144 字節(jié)。同樣，L1 和 L2 緩存之間的鏈接也寬 1.5 倍（每個(gè)時(shí)鐘 3072 字節(jié)）。

L3 緩存，也稱為 Infinity Cache，相對(duì)于 Navi 21 確實(shí)縮小了。現(xiàn)在是 96MB 對(duì) 128MB。然而，L3 到 L2 鏈路現(xiàn)在寬了 2.25 倍（每個(gè)時(shí)鐘 2304 字節(jié)），因此總吞吐量要大得多更高。事實(shí)上，AMD 給出了 5.3 TB/s 的數(shù)字——在 2.3 GHz 的速度下為 2304 B/clk。RX 6950 XT 只有 1024 B/clk 鏈接到其 Infinity Cache（最大值），RDNA 3 提供高達(dá) 2.7 倍的峰值接口帶寬。

請(qǐng)注意，這些數(shù)字僅適用于 7900 XTX 中完全配置的 Navi 31 解決方案。7900 XT 有五個(gè) MCD，下降到 320 位 GDDR6 接口和 1920 B/clk 鏈接到組合的 80MB Infinity Cache。我們將自然而然地看到較低層級(jí)的 RDNA 3 部件，它們會(huì)進(jìn)一步縮減接口寬度和性能。

最后，現(xiàn)在有多達(dá)六個(gè) 64 位 GDDR6 接口，用于連接到 GDDR6 內(nèi)存的組合 384 位鏈接。VRAM 的時(shí)鐘頻率也為 20 Gbps（后來的 6x50 卡為 18 Gbps，原始 RDNA 2 芯片為 16 Gbps），總帶寬為 960 GB/s。

有趣的是，這一代 GDDR6 和 GDDR6X 之間的差距縮小了多少，至少在出貨配置方面是這樣。AMD 在 RX 7900 XTX 上的 960 GB/s 僅比現(xiàn)在 RTX 4090 的 1008 GB/s 低 5%，而 RX 6900 XT 和 RTX 3090 僅比 Nvidia 的 936 GB/s 高 512 GB/s。回到 2020 年。Nvidia 當(dāng)然也采用了更大的緩存大小及其Ada Lovelace 架構(gòu)。

AMD RDNA 3：第二代光線追蹤

RDNA 2 架構(gòu)上的光線追蹤總是感覺像是事后才想到的——為了滿足 DirectX 12 Ultimate 所需的功能清單而附加的東西。AMD 的 RDNA 2 GPU 缺乏專用的 BVH 遍歷硬件，選擇通過其他共享單元來完成這項(xiàng)工作，這至少部分歸咎于它們較弱的 RT 性能。

RDNA 2 射線加速器每個(gè)時(shí)鐘最多可以進(jìn)行四次射線/盒子相交，或一次射線/三角形相交。相比之下，英特爾的 Arc Alchemist 每個(gè)時(shí)鐘每個(gè) RTU 最多可以進(jìn)行 12 次射線/盒子交叉，而 Nvidia 沒有提供具體數(shù)字，但在 Ampere 上每個(gè) RT 內(nèi)核最多可以進(jìn)行 2 次射線/三角形交叉，最多可以進(jìn)行 4 次射線/Ada Lovelace 上每個(gè)時(shí)鐘的三角形交叉點(diǎn)。

目前尚不清楚 RDNA 3 是否真的直接改進(jìn)了這些數(shù)字，或者 AMD 是否專注于其他增強(qiáng)功能以減少執(zhí)行的光線/盒子相交的數(shù)量。也許兩者都有。我們所知道的是，RDNA 3 將改進(jìn) BVH（邊界體積層次）遍歷，這將提高光線追蹤性能。

RDNA 3 還具有大 1.5 倍的 VGPR（矢量通用寄存器），這意味著飛行中的射線數(shù)量增加了 1.5 倍。還有其他堆棧優(yōu)化可以減少 BVH 遍歷所需的指令數(shù)量，并且可以使用專門的框排序算法（最接近優(yōu)先、最大優(yōu)先、最接近中點(diǎn)）來提取提高的效率。

總的來說，由于新功能、更高的頻率和更多的射線加速器數(shù)量，AMD 表示與 RDNA 2 相比，RDNA 3 的射線追蹤性能應(yīng)該提高 1.8 倍。這應(yīng)該會(huì)縮小 AMD 和 Nvidia Ampere 之間的差距。盡管如此，Nvidia 似乎還在 Ada Lovelace 的光線追蹤硬件上加倍投入，因此我們不會(huì)指望 AMD 能夠提供與 RTX 40 系列 GPU 相當(dāng)?shù)男阅堋?/p>

AMD RDNA 3：其他架構(gòu)改進(jìn)

最后，RDNA 3 調(diào)整了與命令處理器、幾何形狀和像素管道相關(guān)的架構(gòu)的其他元素。還有一個(gè)新的雙媒體引擎，支持 AV1 編碼/解碼、AI 增強(qiáng)視頻解碼和新的 Radiance 顯示引擎。

命令處理器 (CP) 更新應(yīng)提高某些工作負(fù)載的性能，同時(shí)減少驅(qū)動(dòng)程序和 API 端的 CPU 瓶頸?；谟布奶蕹阅茉谑挛锏膸缀畏矫嬉部炝?50%，并且每個(gè)時(shí)鐘的峰值光柵化像素增加了 50%。

最后一個(gè)似乎是將 Navi 21 上的 ROP（渲染輸出）數(shù)量從 128 個(gè)增加到 Navi 31 上的 192 個(gè)的結(jié)果。這是有道理的，因?yàn)閮?nèi)存通道也增加了 50%，AMD 希望擴(kuò)展其他元素與此同步。

雙媒體引擎應(yīng)該使 AMD 在視頻方面與 Nvidia 和 Intel 持平，盡管我們最近的視頻編解碼器質(zhì)量和性能測試表明它仍然落后于 Intel 和 Nvidia。另請(qǐng)注意，AV1 更多的是關(guān)于擺脫 HEVC 的版稅，而不是提高質(zhì)量，盡管性能可能有點(diǎn)不確定。

AMD 還因?yàn)榘瑢?duì) DisplayPort 2.1 的支持而獲得了至少幾點(diǎn)。英特爾的 Arc GPU 也支持 DP2，但最高可達(dá) 40 Gbps (UHBR 10)，而 AMD 可以達(dá)到 54 Gbps (UHBR 13.5)。AMD 的顯示輸出可以在 229 Hz 下驅(qū)動(dòng)高達(dá) 4K，無需壓縮 8 位色深，或 187 Hz 10 位色。Display Stream Compression 可以將其提高一倍以上，允許 4K 和 480 Hz 或 8K 和 165 Hz——并不是說我們離擁有實(shí)際支持這種速度的顯示器還差得很遠(yuǎn)。

實(shí)際上，我們不得不懷疑 DP2.1 UHBR 13.5 對(duì) RDNA 3 顯卡的重要性。首先，您需要一臺(tái)支持 DP2.1 的新顯示器，其次，問題是 4K 180 Hz 之類的東西在使用和不使用 DSC 時(shí)看起來有多好——因?yàn)?DP1.4a 仍然可以使用 DSC 處理該分辨率，而 UHBR 13.5 可以在沒有 DSC 的情況下完成。我們一直在使用三星 Odyssey Neo G8 32 英寸顯示器，通過 DSC 支持 4K 240 Hz，并且沒有發(fā)現(xiàn)任何質(zhì)量下降。

AMD RDNA 3：結(jié)語

總的來說，這聽起來像是一項(xiàng)令人印象深刻的工程壯舉。

AMD 可以很好地與 Nvidia 的 RTX 4080 卡競爭，至少在非光線追蹤和非 AI 工作負(fù)載方面是這樣。另一方面，如果您想要最快的 GPU，AMD 甚至不會(huì)嘗試與更大的RTX 4090正面交鋒。

簡單的數(shù)學(xué)提供了大量的思考。FP32 6,144 個(gè)著色器以 2.5 GHz 運(yùn)行，ALU 吞吐量翻倍，而 Nvidia 的 16,384 個(gè)著色器以 2.52 GHz 運(yùn)行，Nvidia 顯然具有原始計(jì)算優(yōu)勢——61 teraflops 對(duì)比 83 teraflops。如前所述，添加更多 FP32 單元使 AMD 的 RDNA 3 看起來更像 Ampere 和 Ada Lovelace。

除了原始計(jì)算，我們還有晶體管數(shù)量和芯片尺寸。Nvidia 堅(jiān)持為 Ada Lovelace 使用單片芯片，包括 AD102、AD103、AD104、AD106 和 AD107 芯片。最大的一個(gè)在 608mm2芯片中有 763 億個(gè)晶體管。即使 AMD 正在開發(fā)具有 580 億個(gè)晶體管的單片 522mm2芯片，我們也希望 Nvidia 具有一些優(yōu)勢。然而，GPU 小芯片方法意味著一些區(qū)域和晶體管被用于與性能不直接相關(guān)的事情。

與此同時(shí)，Nvidia 的倒數(shù)第二個(gè) Ada 芯片，即RTX 4080 中使用的 AD103 ，落在了柵欄的另一邊。憑借 256 位接口、459 億個(gè)晶體管和 368.6mm2裸片尺寸，Navi 31 應(yīng)該具有一些明顯的優(yōu)勢——無論是 RX 7900 XTX 還是稍低一些的 7900 XT。然后是具有 358 億個(gè)晶體管和 294.5mm2裸片的 AD104，即“未發(fā)布”的 RTX 4080 12GB，最終演變?yōu)?RTX 4070 Ti。

但性能比紙面規(guī)格更重要。Nvidia 將晶體管投入到 DLSS（張量核心）、DLSS 3（光流加速器）和光線追蹤硬件等功能中。AMD 似乎更愿意放棄一些光線追蹤性能，同時(shí)提升更常見的用例。實(shí)際上，在我們的GPU 基準(zhǔn)測試層次結(jié)構(gòu)中，RX 7900 XTX 在光柵化性能方面幾乎領(lǐng)先于 RTX 4080 ，而在光線追蹤性能方面，它更接近于上一代RTX 3090。

對(duì)于那些對(duì)價(jià)格在 900 美元或以上的顯卡不感興趣的人，還有RTX 4070 Ti、RTX 4070、RTX 4060 Ti和RX 7600等顯卡. 我們?nèi)栽诘却?AMD 的 RX 7800 和 7700 產(chǎn)品，這可能會(huì)在 AMD 等待清理剩余的 Navi 2x 庫存時(shí)推遲。據(jù)傳，Navi 32 使用相同的 MCD，但具有更小的 GCD，而 Navi 33 已經(jīng)作為仍然構(gòu)建在 N6 節(jié)點(diǎn)上的單片芯片推出。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴