本文來源:電子工程專輯
作者:黃燁鋒
近代圖形計算市場上,作為IP供應商Imagination重返高性能桌面市場,應該是2020年IMG B-series GPU IP的發(fā)布。關注Imagination的讀者應該知道,在Imagination還自己造GPU的時代里,上世紀90年代,這家公司也是PC顯卡市場的角逐者之一。
當代Imagination的GPU IP,在桌面市場的一個重要客戶,比較眾所周知的就是芯動科技(Innosilicon)——目前已經(jīng)出貨的風華系列顯卡用到了IMG B-series的GPU IP,具體應該是BXT。我們在近期Imagination舉辦的IMG DXD系列新品發(fā)布會現(xiàn)場,也見到了風華系列GPU的身影——現(xiàn)場的工作人員在演示用它跑《王者榮耀》。而Imagination這次新發(fā)布的IMG DXD系列新品也是主要面向桌面和云游戲市場的。
發(fā)布會現(xiàn)場展示,芯動科技的風華2號顯卡,基于IMGB-series
自2019年,Imagination發(fā)布IMG A-series系列GPU IP后,Imagination保持著按照字母序列做產(chǎn)品更新的傳統(tǒng)。IMG DXD自然屬于D-series中的一員。DXD中的后兩個字母某種程度說明了其桌面市場定位——實際上,當前Imagination的GPU IP產(chǎn)品覆蓋領域已經(jīng)從此前廣為人知的移動市場,擴張到了汽車、消費、桌面和云游戲領域。今年1月,我們也詳談過DXT架構——DXT更多是面向移動設備的。這次我們來談談著力于面向桌面端的IMG DXD。
IMGDXD更新概覽
有關IMG DXD更新,Imagination方面的著重宣傳點大致上包括:單核性能提升——包括架構演進和規(guī)模擴大帶來的性能提升、DirectX 11.0支持,以及虛擬技術對于云游戲的原生支持。
性能方面,Imagination Technologies前瞻技術副總裁Kristof Beets將IMG DXD與BXT做了單核性能比較,提及DXD性能相比BXT提升了2.25倍。
ImaginationTechnologies前瞻技術副總裁KristofBeetsIMG DXD核心標定規(guī)格是DXD-72-2304,前文已經(jīng)談到D是最新的D-series新品,XD表明了市場定位。后面的數(shù)字部分,72是指紋理填充率(72 GTexel/s,每秒72G的紋素);2304則是指FP32算力,約為2.3TFLOPS(@1GHz頻率)。實際上,關注過DXT的讀者應該不難發(fā)現(xiàn),DXD的這一核心規(guī)格和DXT-72-2304基本一致——只不過DXT作為主要面向移動設備的產(chǎn)品線,還有DXT-8-256和DXT-48-1536可選。宣傳中2.25倍性能提升是相較于BXT而言的,從BXT-32-1024標定大致就能看得出來??赡懿糠肿x者更關心DXD相比于CXT的性能提升有多大。Imagination之所以選擇BXT來比性能,而非CXT,大約是因為已經(jīng)上市的桌面GPU產(chǎn)品選擇了BXT,如芯動科技的風華2號。而且CXT這代產(chǎn)品的宣傳重點是PowerVR Photon光追架構的應用。從CXT標定“CXT-48-1536 RT3”的典型規(guī)格,大致也能看出兩者規(guī)模與性能上的差別。DXT-72-2304發(fā)布時也曾言明,相較于CXT性能提升50%,包括算力和紋理性能——可供參考。其次,IMG DXD的關鍵特性在于DirectX 11支持——強調對DirectX支持,實際也是在強調DXD的桌面定位屬性,以及對于Windows游戲的支持。雖說DirectX 11并非最新的DirectX API版本,但Kristof給出了下面這張餅圖,用以說明當前DirectX 11仍然是PC游戲選擇圖形API中最為廣泛的平臺。包括《原神》《CS2》《博德之門3》《Dota2》等在內現(xiàn)在比較流行的游戲也仍在使用DirectX 11。“實現(xiàn)了完全的硬件支持,包括所有的新特性,都通過硬件實現(xiàn),并非模擬或軟件方式?!盞ristof說。有關圖形API,IMG DXD也支持包括OpenGL 4.6, OpenGL ES 3.2, Vulkan 1.3和OpenCL 3.0在內的開發(fā)生態(tài)。另外,在有關DirectX的支持問題上,Kristof也提到將來在更新的版本方面也會持續(xù)跟進:“我們在實現(xiàn)Windows的支持方面經(jīng)驗也比較多,其一致性測試、品質要求方面都相當嚴格。所以我們需要時間,確保產(chǎn)品上市時滿足生態(tài)系統(tǒng)和所需的品質要求。我們不會急于求成?!?/p>
Imagination官網(wǎng)則提到,從DirectX 11_0的特性支持開始,IMG DXD因此也就為云游戲、桌面圖形體驗做好了準備。這也就相關云游戲支持的另一個屬性了:多核、去中心化的規(guī)??s放,以及相當重要的HyperLane虛擬化技術,在云上確保安全性和性能管理的情況下,支持多玩家。
有關DXD核心變化與性能提升
先來看看DXD-72-2304的單核構成:熟悉DXT的讀者,對此應該也不會陌生。
這樣一個DXD核心內部有3個SPU單元(Scalable Processing Unit);每個SPU單元內包含有3組TPU(Texture Processing Unit)、USC(Unified Shading Cluster),以及配套的共享邏輯單元(幾何與光柵化單元)。從Rogue架構時期就關注Imagination的同學應該也都知道,USC里面主要就是ALU核心了。新發(fā)布的DXD,和DXT這種移動平臺相比,差異應該主要在于一個SPU單元內部的USC和SPU數(shù)量。XT系列此前是每個SPU只有一組或者兩組USC/TPU的。從DXT開始,單個SPU內部可擴展到3組USC/TPU。所以如果和更早的BXT比較的話,那么實際上BXT單個SPU單元內就只有兩組USC/TPU。換句話說,D-series的提升是進一步在基礎的SPU可縮放處理單元上堆料——以及后文會提到更多核心、更多計算單元。Kristof評價為brute force scaling,大力出奇跡。不過實際上,從B-series到D-series,算力單元架構層面應該也是有變化的,“許多精細化的架構調整(fune architectural tuning)”。從上面這張圖來看,ALU是128-wide的warps——好像從A-series開始這就是傳統(tǒng)了;浮點性能翻番,包括每周期FP16是512次操作,F(xiàn)P32則為256;local memory本地存儲也提升到了32KB。對于DirectX的支持,也體現(xiàn)在TPU方面的變化,包括BCn格式支持——BCn是一種Direct3D 11 SDK支持的紋理壓縮格式。Kristof也提到所有固定功能單元也在設計上做到了對于DirectX需求的完全支持。尤為值得一提的是右下角的RISC-V固件處理器——從IMG A-series時代開始,這顆小型處理器也是個傳統(tǒng)——完全可編程,主要用于GPU整體任務執(zhí)行的靈活性:相關數(shù)據(jù)流、執(zhí)行、優(yōu)先級等各種GPU內部的活動,任何事件、決策都通過這顆處理器控制與決定,也就減輕了host CPU的工作。Kristof在答記者問時說,以前Imagination的GPU IP這部分會采用某種內部指令集的CPU架構,在編譯器、工具流等各方面都比較受限制。固件處理器采用RISC-V之后,也就有了廣闊的生態(tài)可應用各種最新的工具和標準流程,“的確是幫助我們進入到了新的時代?!盞ristof說,不僅“管理負載調度、處理各種GPU生成的事件是基于固件處理器”,而且可“與系統(tǒng)中的其他IP模塊進行彈性交互,比如到其他模塊的基于硬件的事件,像是其他類型的處理器或者顯示控制器,達成更低的延遲和對功耗管理的直接控制?!薄氨热缯f,GPU在低利用率的情況下,就可以降低頻率電壓。對于固件處理器而言,在SoC層面可以有相當多的彈性化交互。”與此同時,“固件處理器還用于性能分析和各種debug:包括軟件開發(fā)者做步進式的debug,基于硬件的debug?!盜magination在新聞稿中提到,現(xiàn)在的這種設計相比過去“將GPU管理性能提高40%”。除了固件處理器,最高層級DXD還有L3 cache,AXI Bus總線界面等組成部分。據(jù)說cache架構也有提升,“以滿足高性能GPU的需求”。架構部分,這次Imagination沒怎么在發(fā)布會上提光線追蹤這個原屬于Imagination的傳統(tǒng)藝能。從DXT此前強調的光追實現(xiàn)來看,DXD應該也能加入RAC從硬件層面實現(xiàn)光追(基于SPU做RAC光追加速集群的搭配)。猜測Imagination之所以沒有在DXD架構上強調光追,是因為DirectX 11實際上還沒有對光追做出正式支持。從核心數(shù)目角度,這次發(fā)布會主要談論的是MC1, MC2的配置方案,也就是上述DXD-72-2304的單核與雙核配置。Kristof說設計上最多可以達到4個核心——組成一個大的系統(tǒng)。其實在去年7月的Khronos &Imagination Seminar技術研討會上,Imagination分享過CXT時代多GPU顯卡的進一步性能擴展;或者也可以基于chiplet來構成更大的GPU,因為Imagination的GPU IP這幾代都在采用松散、去中心化的邏輯,達成更好的設計伸縮性和靈活性。“其實我們在多核設計上,核心之間也采用標準、少量的連接,也就能夠與chiplet設計兼容。在不同的市場上,我們也參與了不少標準化組織?!盞ristof在采訪中說,“比如汽車市場就在看標準化,我們在這個領域也很活躍,當前正和一家我們還沒有宣布的客戶做討論,采用chiplet技術來構建解決方案。”最后做個雙核DXD-72-2304的性能總結,如上圖所示:性能數(shù)字基本就是MC1的性能翻番,包括1GHz下紋理填充率144 GTexel/s,F(xiàn)P32算力4.6 TFLOPS,F(xiàn)P16算力9.2 TFLOPS FP17,基于Int8的AI算力18 TOPS。另外,到具體的負載上,Imagination將DXD-72-2304MC1與BXT-32-1024MC2做了對比。Kristof說之所以用BXT的雙核來比DXD的單核,是考慮到讓雙方達成盡可能相似的性能配置。即便如此,DXD這邊依然多出了12%的ALU和紋理資源,對比結果如下圖:這4個負載中,最高提升幅度有60%,最低也有20%。所以綜合系統(tǒng)性能,單核DXD相比于雙核BXT提升幅度在40%左右——這個數(shù)據(jù)應該是最有參考價值的了。
注意DXD相比于BXT高出的性能部分,其中灰色代表的是多出的ALU算力資源,而白色部分則表現(xiàn)出了架構調整帶來的效率提升。可見DXD也不光是靠堆料達成的性能提升。只不過Imagination方面并未具體去談這對比的4個負載究竟是什么負載。Kristof解釋說:“提升最大的是其中最復雜的兩個負載,負載1和負載2,代表的是高端游戲場景——在桌面市場是具有代表性的?!?/p>
其他相關特性,與云游戲支持
除此之外,再來談一談其他的一些關鍵特性——雖然其中的絕大部分在此前的幾代產(chǎn)品中也已經(jīng)實現(xiàn)了。比如說我們過去提過多次的FSR(Fragment Shading Rate),這是個有些類似于VRS可變速率著色的技術:可以理解為對畫面中不怎么重要、不需要高精度渲染的區(qū)域,降低處理量,與此同時對觀感和體驗影響又幾乎可以忽略不計,起到降低負載、功耗,提升效率的效果。
更具體地說,是基于區(qū)域(zone)來做shader著色執(zhí)行,而不是針對每個像素做著色。比如說針對2x2, 2x4或者4x4區(qū)域做一次shader執(zhí)行,大幅降低著色開銷,降低功耗、帶寬需求,也就變相帶來了性能的顯著提升。
在性能和效率所做的優(yōu)化里,一些關鍵特性還包括2D雙速率紋理、流水線數(shù)據(jù)主控、通過ASTC HDR支持增強視覺細節(jié)等。有關2D雙速率紋理(2D Dual-Rate Texturing),此前Imagination就解釋過,他們觀察到包括淺景深、bloom、模糊之類的效果和負載,不少瓶頸出在TPU吞吐上,但一味擴充TPU規(guī)模也不合理。所以開發(fā)團隊搞了這項技術,達成后處理效果的更加高效,對應的核心配置可因此實現(xiàn)每時鐘周期處理雙倍數(shù)量的雙線性過濾紋理采樣,也就是雙倍的執(zhí)行率。Kristof這次解釋說傳統(tǒng)的GPU紋理,是拿到一個圖像,然后映射到3D對象上,比如一個球面——這就產(chǎn)生了計算復雜性,包括邏輯透視修正等?!暗鋵嵨覀儼l(fā)現(xiàn)可以用常用的2D操作來完成?!盞ristof表示,“數(shù)據(jù)訪問和處理變得更加直接,因為只需要讀取輸入像素、處理,然后再輸出就可以?!薄霸谟螒蚝筇幚怼D像處理、計算攝影等領域,以這種模式來工作可以將吞吐量提高一倍。”而“流水線數(shù)據(jù)主控”即pipeline data master是將渲染和固件改換工作(包括寄存器編程等),這兩個步驟做到了流水線化:也就是說在GPU的上一個工作還在處理執(zhí)行時,固件就設定下一個工作,減少負載之間不必要的等待,提升性能。還有一項特性是ASTC HDR支持,基于ASTC(Adaptive Scalable Texture Compression)算法支持HDR輸入壓縮紋理。這個格式的支持部分應該也是為了達成DirectX的要求。這部分的最后來談談云游戲的支持——就GPU IP層面體現(xiàn)的,主要是對于虛擬化的原生支持。也就是GPU用于云基礎設施以后,必然面臨算力資源的虛擬化,來達成對多游戲玩家的資源分配與支持。下面這張圖是以4核DXD為例所舉的例子——這些核心可以單獨工作,也可以組合起來工作?;蛘咭?+3或2+2等不同組合方式單獨工作,或者協(xié)同工作。基于IMG A-series時期就帶來的HyperLane虛擬化技術,每個GPU核心都可以切分成8個獨立的硬件管理域,用于跑不同的負載。所以如果是4個DXD核心的話,總共最多也就有硬件級支持的32個虛擬域,用于完全隔離不同的云游戲用戶。“這是完全基于硬件實現(xiàn)的,性能損失和開銷都做到了最小?!薄疤摂M化系統(tǒng)注重的是靈活性。”Imagination Technologies中國區(qū)技術支持總監(jiān)艾克在采訪中說,“這項技術可以把用戶的數(shù)據(jù)也進行分離,對每個用戶之間的數(shù)據(jù)做到隔離和保護;同時分擔不同負載,提供硬件調度的靈活性——比如有用戶在玩大型游戲,而有些則在閑置狀態(tài),那么最終我們就能提供節(jié)約功耗、靈活度又高的云游戲方案?!?/p>
就物理實現(xiàn)問題,據(jù)我們所知很大程度是依靠Data Master數(shù)據(jù)主控在整個GPU硬件資源之間進行動態(tài)的工作分配執(zhí)行,每個時鐘周期不同的模塊可以執(zhí)行不同的任務,多路工作同時進行,硬件級別實現(xiàn)高級調度機制。此前Imagination將8路切分稱作8條hyperlane,每條lane的內容都做到了隔離。
圖形生態(tài)與落地情況
游戲圖形生態(tài)主要相關圖形API支持,游戲引擎支持,以及游戲開發(fā)者方面的合作。圖形API的部分前文已經(jīng)提到,尤其DirectX 11的支持為IMG DXD應用于桌面市場做好了準備;和Khronos相關的合作就更不必多說了。
而在游戲引擎方面,包括虛幻(Unreal)、O3DE、Godot、Roblox等;游戲開發(fā)者部分的合作,Kristof在發(fā)布會上提到了米哈游、光子工作室群、完美世界、網(wǎng)易游戲。Kristof在產(chǎn)品發(fā)布最后提到,DXD架構已經(jīng)授權給了多家客戶。相信在不久的將來,我們有機會在桌面平臺通過基于IMG DXD的顯卡玩桌面游戲。只不過桌面圖形生態(tài)一直是各類垂直市場上最難啃的一塊骨頭,畢竟這一領域基本已經(jīng)發(fā)展到了高度成熟狀態(tài)——當然我們依然樂于見到挑戰(zhàn)者的出現(xiàn)。
發(fā)布會現(xiàn)場,象帝先天鈞系列GPU產(chǎn)品展示從Imagination當前的策略來看,未來Imagination還準備將旗下的不同IP產(chǎn)品擴展到更多的領域。Imagination公司副總裁、中國區(qū)總經(jīng)理劉國軍說目前公司的市場布局主要有兩個方向,其一是隨著包括GPU、CPU、NPU IP的產(chǎn)品線擴張,“我們需要尋求更多生態(tài)合作伙伴的合作,有更多的合作面”;
其二是“在應用方面,我們擴展到桌面、數(shù)據(jù)中心,還有這兩年汽車方向的應用”,“無論是這次新發(fā)布的DXD,還是汽車、IoT、edge AI、消費等各個領域”,都會鋪開布局。從Imagination官網(wǎng)列出產(chǎn)品與解決方案中,僅GPU就同時有DXD, DXT, CXT, CXM, B-series, A-series等不同門類就看得出Imagination在覆蓋更廣闊市場方面的預期。
-
gpu
+關注
關注
28文章
4743瀏覽量
128996 -
WINDOWS
+關注
關注
4文章
3552瀏覽量
88813 -
imagination
+關注
關注
1文章
573瀏覽量
61355
發(fā)布評論請先 登錄
相關推薦
評論