持續(xù)了一個(gè)月的“顯卡發(fā)布季”已經(jīng)告一段落,截止目前NVIDIA發(fā)布了GeForce RTX 3060 Ti/3070/3080/3090共4個(gè)型號(hào)的顯卡,相比上一代顯卡,RTX 30系顯卡再次做到了性能翻倍的神話。
除了性能上的提升,新的NVIDIA Ampere架構(gòu)還帶來(lái)了第二代RT Core和第三代Tensor,雖然RTX 30系顯卡擁有諸多提升,但價(jià)格卻與上一代顯卡相同。
在9月2日發(fā)布會(huì)當(dāng)天,雖然過(guò)程僅有短短的40分鐘,卻震驚了全世界的用戶(hù)。
算力提升
下面我們就來(lái)看看,“有史以來(lái)最偉大性能提升”相比上一代的NVIDIA Turing架構(gòu),做了哪些提升。
第一代RTX架構(gòu)Turing
第二代RTX架構(gòu) Ampere
首先來(lái)簡(jiǎn)單回顧一下在9月2日發(fā)布會(huì)的PPT上我們都看到了什么,相較于初代的Turing RTX架構(gòu),NVIDIA Ampere架構(gòu)在算力上有著成倍的增長(zhǎng),每個(gè)時(shí)鐘執(zhí)行2次著色器運(yùn)算。
而Turing為1次,著色器性能達(dá)到30 TFLOPS單精度性能,而Turing為11 TFLOPS。
NVIDIA Ampere架構(gòu)翻倍了光線與三角形的相交吞吐量,RT Core達(dá)到58 RT TFLOPS,而Turing為34 RT TFLOPS。
另外在全新的Tensor Core中,可自動(dòng)識(shí)別并消除不太重要的DNN權(quán)重,處理稀疏網(wǎng)絡(luò)的速率是Turing的兩倍,算力高達(dá)238 Tensor TFLOPS,而Turing為89 Tensor TFLOPS。
全新的NVIDIA Ampere GPU核心擁有280億個(gè)晶體管,628平方毫米的面積,基于三星的8nm NVIDIA定制工藝,來(lái)自美光的GDDR6X顯存,以及我們上面說(shuō)的,三大處理核心均為初代Turing的兩倍速率,構(gòu)成了有史以來(lái)性能最強(qiáng)大的Ampere。
SM單元的改變
而NVIDIA Ampere架構(gòu)的強(qiáng)大性能并不是NVIDIA一蹴而就,可以說(shuō)在20系顯卡中所采用的Turing架構(gòu)功不可沒(méi),下面我們先來(lái)看看完整的GA102核心。
完整的GA102 GPU包含7個(gè)GPC(圖形處理集群)42個(gè)TPC(紋理處理集群)以及84個(gè)SM(流處理器)組成。
GPC是占據(jù)主導(dǎo)地位的高級(jí)模塊,擁有所有的關(guān)鍵圖形處理單元,每個(gè)GPC包含一個(gè)專(zhuān)用光柵引擎。
在新的NVIDIA Ampere架構(gòu)中,每個(gè)GPC還包含了兩個(gè)ROP分區(qū),每個(gè)分區(qū)包含8個(gè)ROP單元。下面我們來(lái)看看每個(gè)SM單元的變化。
在每個(gè)SM中,包含四個(gè)大的處理分區(qū)共128個(gè)CUDA核心,4個(gè)第三代Tensor Core,1個(gè)第二代RT Core,1個(gè)256 KB的緩存文件,1個(gè)128 KB的L1緩存,這個(gè)L1緩存可以根據(jù)不同的工作需求來(lái)調(diào)配緩存,工作效率發(fā)揮至最大。
另外大家都知道本次RTX 3080的CUDA數(shù)量暴增至8704個(gè),而RTX 3090的CUDA數(shù)量更是達(dá)到了驚人的10496個(gè)。
但是大家要知道專(zhuān)業(yè)計(jì)算卡Tesla A100的GA100核心,擁有更大的核心面積,更多的晶體管數(shù)量,理論上只有8192個(gè)CUDA,那RTX 3080又是如何達(dá)到這種效果的呢?
其實(shí)是因?yàn)楸敬蜰VIDIA Ampere的SM在Turing基礎(chǔ)上增加了一倍的FP32運(yùn)算單元,這就使得每個(gè)SM的FP32運(yùn)算單元數(shù)量提高了一倍。
我們?cè)诎l(fā)布會(huì)中經(jīng)常聽(tīng)到性能翻倍的說(shuō)法,其實(shí)是因?yàn)楸敬蜰VIDIA Ampere的SM在Turing基礎(chǔ)上增加了一倍的FP32運(yùn)算單元,這就使得每個(gè)SM的FP32運(yùn)算單元數(shù)量提高了一倍,同時(shí)吞吐量也就變?yōu)榱艘槐丁?/p>
而通常我們計(jì)算顯卡的CUDA數(shù)量,并不是把SM中的所有單元加起來(lái)計(jì)數(shù),而是只統(tǒng)計(jì)FP32單元的數(shù)量,所以這樣一來(lái),SM中的【FP32 : INT32】 從 1:1 變?yōu)?2:1。
如RTX 3080的8704個(gè)CUDA,其實(shí)它只有4352個(gè)INT32單元,但由于內(nèi)部的FP32數(shù)量翻了一倍,所以最終實(shí)現(xiàn)了8704這個(gè)驚人的數(shù)字。
而這樣粗暴的提升CUDA數(shù)量對(duì)于游戲有幫助嗎?
答案是有,不僅有提升還很大。其實(shí)通常在游戲中浮點(diǎn)運(yùn)算相比整數(shù)計(jì)算要常用的多,圖形、算法以及各種計(jì)算操作中著色器工作負(fù)載通常需要混合使用FP32算數(shù)指令,而FP32的加速也有助于光線追蹤降噪著色器。
第二代RT Core
在此次的NVIDIA Ampere架構(gòu)中,NVIDIA官方宣布為第二代RT Core,它和第一代有什么不同呢。
首先要知道RT Core的工作原理是,著色器發(fā)出光線追蹤的請(qǐng)求,交給RT Core來(lái)處理,它將進(jìn)行兩種測(cè)試,分別為邊界交叉測(cè)試(Box Intersection testing)和三角形交叉測(cè)試(Triangle Intersection testing)。
基于BVH算法來(lái)判斷,如果是方形,那么就返回縮小范圍繼續(xù)測(cè)試,如果是三角形,則反饋結(jié)果進(jìn)行渲染。
而光線追蹤最耗時(shí)的正是求交計(jì)算,因此,要提升光線追蹤性能,主要是對(duì)兩種求交(BVH/三角形求交)進(jìn)行加速。
在Turing的RT Core中,可以每個(gè)周期完成5次BVH遍歷、4次BVH求交以及一次三角形求交,在第二代RT Core 里,NVIDIA增加了一個(gè)新的三角形位置插值模塊以及一個(gè)的額外的三角形求交模塊,這樣做的目的是為了提升諸如運(yùn)動(dòng)模糊特效時(shí)候的光線追蹤性能。
第二代RT Core可以讓光線追蹤與著色同時(shí)進(jìn)行,進(jìn)行的光線追蹤越多,加速就越快,它將光線相交的處理性能提升了一倍,在渲染有動(dòng)態(tài)模糊的影像時(shí),按照NVIDIA自己的實(shí)測(cè),比Turing快8倍。
第三代Tensor Core
除了光線追蹤的強(qiáng)化,Ampere架構(gòu)的Tensor Core也得到了極大地加強(qiáng),在第三代Tensor Core中,NVIDIA引入了稀疏化加速,可自動(dòng)識(shí)別并消除不太重要的DNN(深度神經(jīng)網(wǎng)絡(luò))權(quán)重,同時(shí)依然能保持不錯(cuò)的精度。
首先原始的密集矩陣會(huì)經(jīng)過(guò)訓(xùn)練,刪除掉稀疏矩陣,再經(jīng)過(guò)訓(xùn)練稀疏矩陣,從而實(shí)現(xiàn)稀疏優(yōu)化,進(jìn)而提高Tensor Core的性能。
所以最終的結(jié)果就是Tensor Core在處理稀疏網(wǎng)絡(luò)的速率是Turing的兩倍,算力高達(dá)238 Tensor TFLOPS,而Turing為89 Tensor TFLOPS。
RTX IO
與此次RTX 30系顯卡一同發(fā)布的還有一項(xiàng)新技術(shù)——RTX IO。目前很多游戲動(dòng)輒幾十G甚至百G的安裝空間,對(duì)于存儲(chǔ)空間的負(fù)擔(dān)暫且不提,但存放在硬盤(pán)中的數(shù)據(jù),如果顯卡想要讀取到,需要先由CPU從硬盤(pán)中讀取壓縮過(guò)的數(shù)據(jù),經(jīng)過(guò)解壓縮再發(fā)送到顯存中。
雖然隨著NVMe SSD的推出,讀取速度相較機(jī)械硬盤(pán)能夠快20倍,但受制于傳統(tǒng)I/O限制,NVMe高達(dá)7GB/秒的高速讀寫(xiě)對(duì)于CPU是極大的負(fù)擔(dān)。
在這個(gè)過(guò)程中,會(huì)占用多個(gè)CPU核心,壓力急劇增大,占用較多的內(nèi)存,而此時(shí)其實(shí)GPU是處于閑置狀態(tài)的。
RTX IO的作用就是越過(guò)CPU解壓再傳輸數(shù)據(jù)這一步,直接從PCIE總線讀取硬盤(pán)上經(jīng)過(guò)壓縮的數(shù)據(jù),并且完成解壓,降低CPU占用,變向提升了性能。
當(dāng)然這項(xiàng)技術(shù)作為系統(tǒng)底層的運(yùn)行方式改變,還需要借助微軟發(fā)布的DirectStorage來(lái)實(shí)現(xiàn),對(duì)于目前容量的游戲來(lái)說(shuō),RTX IO的改善效果有限,但假以時(shí)日等游戲容量上百G成為常態(tài)的時(shí)候,這項(xiàng)技術(shù)將會(huì)發(fā)揮巨大的功效。
最快的顯存
在RTX 3080中,采用了GDDR6X顯存,GDDR6X擁有320bit的位寬以及19Gbps的帶寬速度,與采用GDDR6的Turing相比可提升40%的速度,在相同時(shí)間內(nèi)GDDR6X可以比GDDR6傳輸多2倍的數(shù)據(jù)。
這對(duì)于需要大量數(shù)據(jù)負(fù)載的工作尤為重要,如光線追蹤的游戲、AI學(xué)習(xí)和8K視頻渲染。
同時(shí)搭配新增的HDMI2.1接口,可以支持單線8K的視頻輸出,而上一代HDMI2.0僅支持4K 98Hz的視頻輸出,如果想要連接8K電視,則需要更多的線纜支持。
相信了解RTX 30系顯卡的性能后,會(huì)有玩家會(huì)問(wèn),RTX 20系顯卡如此“短壽”算不算失敗的一代,我認(rèn)為不算。
Turing為我們開(kāi)創(chuàng)了光線追蹤和AI學(xué)習(xí)的新世界,奠定了GPU未來(lái)的發(fā)展方向,真正意義上實(shí)現(xiàn)從性能的堆砌到質(zhì)的改變。
而Ampere則是站在巨人的肩膀,將上一代的路走的更寬更扎實(shí)。
責(zé)任編輯:PSY
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5109瀏覽量
104519 -
顯卡
+關(guān)注
關(guān)注
16文章
2487瀏覽量
68578 -
架構(gòu)
+關(guān)注
關(guān)注
1文章
523瀏覽量
25648 -
Ampere
+關(guān)注
關(guān)注
1文章
74瀏覽量
4598
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
寶馬發(fā)布全新一代智能電子電氣架構(gòu)
軟銀接近達(dá)成收購(gòu)Ampere協(xié)議
NVIDIA 推出高性?xún)r(jià)比的生成式 AI 超級(jí)計(jì)算機(jī)

相比上一代低功耗藍(lán)牙芯片,CC2745P到底升級(jí)了什么?
英偉達(dá)Blackwell架構(gòu),行業(yè)首選
capsense第四代和第五代在感應(yīng)模式上的具體區(qū)別是什么?
MediaTek與美團(tuán)攜手合作打造新一代餐飲系統(tǒng)硬件S4 Pro系列收銀機(jī)
進(jìn)一步解讀英偉達(dá) Blackwell 架構(gòu)、NVlink及GB200 超級(jí)芯片
NVIDIA推出兩款基于NVIDIA Ampere架構(gòu)的全新臺(tái)式機(jī)GPU
利用NVIDIA組件提升GPU推理的吞吐
NVIDIA發(fā)布兩款新的專(zhuān)業(yè)顯卡RTX A1000、RTX A400

全新NVIDIA RTX A400和A1000 GPU全面加強(qiáng)AI設(shè)計(jì)與生產(chǎn)力工作流
使用NVIDIA Holoscan for Media構(gòu)建下一代直播媒體應(yīng)用
英偉達(dá)發(fā)布性能大幅提升的新款B200 AI GPU
全面提升!英飛凌推出新一代碳化硅技術(shù)CoolSiC MOSFET G2

評(píng)論