根據(jù)谷歌統(tǒng)計(jì)的數(shù)據(jù),由于去年疫情帶來(lái)的增長(zhǎng)加速,再加上視頻會(huì)議、AR/VR與云游戲等應(yīng)用的興起,視頻服務(wù)已經(jīng)占據(jù)整個(gè)互聯(lián)網(wǎng)60%以上的流量。而這也使得服務(wù)器端視頻處理能力的要求在不斷拔高,處理的對(duì)象已經(jīng)不再是1080p 30幀的短視頻了,而是對(duì)4K以上的HDR視頻進(jìn)行實(shí)時(shí)轉(zhuǎn)碼。
除了開(kāi)發(fā)更高效的視頻編碼(VP9、AV1等)和媒體框架之外,硬件平臺(tái)也是不可或缺的一環(huán),市面上也涌現(xiàn)了不少大相徑庭的硬件方案。傳統(tǒng)的CPU在新編碼上早已顯得吃力,而GPU雖然性能優(yōu)越,但計(jì)算流量過(guò)大,服務(wù)器的成本要高出一截,因此不少云服務(wù)廠(chǎng)商也開(kāi)始推出專(zhuān)用硬件來(lái)進(jìn)行視頻處理。
傳統(tǒng)GPU
GPU作為最常用的視頻處理硬件,也理所當(dāng)然地成為了數(shù)據(jù)中心視頻轉(zhuǎn)碼的選擇之一。目前常用于視頻轉(zhuǎn)碼的最新英偉達(dá)GPU為T(mén)4。該卡包含320個(gè)圖靈Tensor核心和2560個(gè)CUDA核心,單精度算力達(dá)到8.1 TFLOPS。英偉達(dá)稱(chēng)在獨(dú)立的硬件轉(zhuǎn)碼引擎下,與前代GPU Tesla M60相比,其轉(zhuǎn)碼性能提升至2倍,同時(shí)支持38個(gè)1080p的視頻流。
英偉達(dá)T4 / Nvidia
除了英偉達(dá)之外,AMD也有可用于視頻編碼的Radeon Pro V520 GPU,根據(jù)全球最大的云服務(wù)廠(chǎng)商亞馬遜AWS公布的數(shù)據(jù),其通用圖形渲染性能要高出英偉達(dá)T4 40%,單卡最多支持6個(gè)1080p60的視頻流同時(shí)編碼。
賽靈思媒體加速卡
除了傳統(tǒng)的通用GPU方案外,另一個(gè)常見(jiàn)的方案就是采用專(zhuān)門(mén)的視頻處理加速卡,比如賽靈思于去年發(fā)布的數(shù)據(jù)中心媒體加速卡Alveo U30,專(zhuān)用于高密度的視頻轉(zhuǎn)碼應(yīng)用。該卡的APU采用了4核Arm Cortex-A53,RPU采用了雙核Arm Cortex-R5F,而GPU采用了Arm Mali-400 MP2。U30支持到8路1080p60視頻流的編碼,而且在功耗和靈活性上優(yōu)于CPU+GPU的傳統(tǒng)方案。
Alveo U30加速卡 / Xilinx
今年9月,亞馬遜AWS開(kāi)放了新的EC2 VT1實(shí)例,該實(shí)例至多可以擴(kuò)展至8張賽靈思Alveo U30加速卡。根據(jù)亞馬遜AWS公布的數(shù)據(jù),基于GPU(英偉達(dá)T4 GPU+英特爾Cascade Lake CPU)的G4dn實(shí)例相比,在H.264/AVC和H.265/HEVC的實(shí)時(shí)視頻編碼上,VT1所需的成本比后者低上60%,與基于CPU(AMD EPYC 7002)的C5實(shí)例相比,成本更是低上60%。
除此之外,賽靈思還會(huì)提供其視頻轉(zhuǎn)碼SDK,不僅整合了FFMpeg,更有媒體加速API與U30上的編解碼器直連,今年年末還會(huì)推出對(duì)于另一框架GStreamer的支持。
亞馬遜不僅推出了基于這類(lèi)加速卡的云服務(wù),旗下的直播平臺(tái)Twitch也在使用這類(lèi)實(shí)例。Twitch稱(chēng)計(jì)劃將VT1實(shí)例用于數(shù)百萬(wàn)計(jì)的直播轉(zhuǎn)碼,以此實(shí)現(xiàn)在更密集的串流和低延遲下,不犧牲視頻的壓縮或畫(huà)質(zhì)。
谷歌定制VPU
作為僅次于亞馬遜AWS和微軟Azure的云服務(wù)廠(chǎng)商,谷歌在其公共云服務(wù)上依然在使用傳統(tǒng)的GPU方案。但坐擁全球最大的視頻平臺(tái)Youtube和成立不久的云游戲平臺(tái)Stadia,谷歌決定在這些服務(wù)上采用自己的硬件來(lái)加速視頻處理。
搭載了兩個(gè)VCU芯片的PCBA / Google
作為視頻編碼標(biāo)準(zhǔn)VP9的開(kāi)發(fā)者,谷歌想要同時(shí)實(shí)現(xiàn)H.264和VP9支持,以及多輸出的轉(zhuǎn)碼,并在直播與離線(xiàn)轉(zhuǎn)碼中達(dá)到理想的速度與質(zhì)量,還能全面控制軟件算法進(jìn)行調(diào)整,因此谷歌決定開(kāi)發(fā)自己的硬件VCU芯片。
谷歌基于該硬件打造的系統(tǒng)具有兩張VCU加速器,每個(gè)加速器內(nèi)置了10個(gè)VCU編碼器核心,每個(gè)核心都能夠?qū)崟r(shí)編碼2160p的視頻流,使用三個(gè)參考幀時(shí)可達(dá)60FPS。經(jīng)過(guò)在H.264二次編碼上的輸出對(duì)比,8塊VCU芯片的性能是4塊英偉達(dá)T4性能的兩倍以上,是英特爾Skylake CPU的8倍以上,在VP9編碼上的性能差距更是可以拉到20倍。
結(jié)語(yǔ)
在視頻處理方面,尤其是視頻編碼轉(zhuǎn)碼上,CPU+GPU的通用傳統(tǒng)方案已經(jīng)在失去其優(yōu)勢(shì),專(zhuān)用的加速器方案明顯在成本和性能突破上走的更快一些。這種趨勢(shì)在數(shù)據(jù)中心的其他應(yīng)用領(lǐng)域上也在慢慢顯現(xiàn),比如深度學(xué)習(xí)、AI等,專(zhuān)用加速器的方案更適合針對(duì)性更強(qiáng)的場(chǎng)景。隨著云服務(wù)廠(chǎng)商不斷推出更多的專(zhuān)用實(shí)例,GPU在視頻處理上的地位很可能會(huì)被專(zhuān)用加速器給替代。
除了開(kāi)發(fā)更高效的視頻編碼(VP9、AV1等)和媒體框架之外,硬件平臺(tái)也是不可或缺的一環(huán),市面上也涌現(xiàn)了不少大相徑庭的硬件方案。傳統(tǒng)的CPU在新編碼上早已顯得吃力,而GPU雖然性能優(yōu)越,但計(jì)算流量過(guò)大,服務(wù)器的成本要高出一截,因此不少云服務(wù)廠(chǎng)商也開(kāi)始推出專(zhuān)用硬件來(lái)進(jìn)行視頻處理。
傳統(tǒng)GPU
GPU作為最常用的視頻處理硬件,也理所當(dāng)然地成為了數(shù)據(jù)中心視頻轉(zhuǎn)碼的選擇之一。目前常用于視頻轉(zhuǎn)碼的最新英偉達(dá)GPU為T(mén)4。該卡包含320個(gè)圖靈Tensor核心和2560個(gè)CUDA核心,單精度算力達(dá)到8.1 TFLOPS。英偉達(dá)稱(chēng)在獨(dú)立的硬件轉(zhuǎn)碼引擎下,與前代GPU Tesla M60相比,其轉(zhuǎn)碼性能提升至2倍,同時(shí)支持38個(gè)1080p的視頻流。
英偉達(dá)T4 / Nvidia
除了英偉達(dá)之外,AMD也有可用于視頻編碼的Radeon Pro V520 GPU,根據(jù)全球最大的云服務(wù)廠(chǎng)商亞馬遜AWS公布的數(shù)據(jù),其通用圖形渲染性能要高出英偉達(dá)T4 40%,單卡最多支持6個(gè)1080p60的視頻流同時(shí)編碼。
賽靈思媒體加速卡
除了傳統(tǒng)的通用GPU方案外,另一個(gè)常見(jiàn)的方案就是采用專(zhuān)門(mén)的視頻處理加速卡,比如賽靈思于去年發(fā)布的數(shù)據(jù)中心媒體加速卡Alveo U30,專(zhuān)用于高密度的視頻轉(zhuǎn)碼應(yīng)用。該卡的APU采用了4核Arm Cortex-A53,RPU采用了雙核Arm Cortex-R5F,而GPU采用了Arm Mali-400 MP2。U30支持到8路1080p60視頻流的編碼,而且在功耗和靈活性上優(yōu)于CPU+GPU的傳統(tǒng)方案。
Alveo U30加速卡 / Xilinx
今年9月,亞馬遜AWS開(kāi)放了新的EC2 VT1實(shí)例,該實(shí)例至多可以擴(kuò)展至8張賽靈思Alveo U30加速卡。根據(jù)亞馬遜AWS公布的數(shù)據(jù),基于GPU(英偉達(dá)T4 GPU+英特爾Cascade Lake CPU)的G4dn實(shí)例相比,在H.264/AVC和H.265/HEVC的實(shí)時(shí)視頻編碼上,VT1所需的成本比后者低上60%,與基于CPU(AMD EPYC 7002)的C5實(shí)例相比,成本更是低上60%。
除此之外,賽靈思還會(huì)提供其視頻轉(zhuǎn)碼SDK,不僅整合了FFMpeg,更有媒體加速API與U30上的編解碼器直連,今年年末還會(huì)推出對(duì)于另一框架GStreamer的支持。
亞馬遜不僅推出了基于這類(lèi)加速卡的云服務(wù),旗下的直播平臺(tái)Twitch也在使用這類(lèi)實(shí)例。Twitch稱(chēng)計(jì)劃將VT1實(shí)例用于數(shù)百萬(wàn)計(jì)的直播轉(zhuǎn)碼,以此實(shí)現(xiàn)在更密集的串流和低延遲下,不犧牲視頻的壓縮或畫(huà)質(zhì)。
谷歌定制VPU
作為僅次于亞馬遜AWS和微軟Azure的云服務(wù)廠(chǎng)商,谷歌在其公共云服務(wù)上依然在使用傳統(tǒng)的GPU方案。但坐擁全球最大的視頻平臺(tái)Youtube和成立不久的云游戲平臺(tái)Stadia,谷歌決定在這些服務(wù)上采用自己的硬件來(lái)加速視頻處理。
搭載了兩個(gè)VCU芯片的PCBA / Google
作為視頻編碼標(biāo)準(zhǔn)VP9的開(kāi)發(fā)者,谷歌想要同時(shí)實(shí)現(xiàn)H.264和VP9支持,以及多輸出的轉(zhuǎn)碼,并在直播與離線(xiàn)轉(zhuǎn)碼中達(dá)到理想的速度與質(zhì)量,還能全面控制軟件算法進(jìn)行調(diào)整,因此谷歌決定開(kāi)發(fā)自己的硬件VCU芯片。
谷歌基于該硬件打造的系統(tǒng)具有兩張VCU加速器,每個(gè)加速器內(nèi)置了10個(gè)VCU編碼器核心,每個(gè)核心都能夠?qū)崟r(shí)編碼2160p的視頻流,使用三個(gè)參考幀時(shí)可達(dá)60FPS。經(jīng)過(guò)在H.264二次編碼上的輸出對(duì)比,8塊VCU芯片的性能是4塊英偉達(dá)T4性能的兩倍以上,是英特爾Skylake CPU的8倍以上,在VP9編碼上的性能差距更是可以拉到20倍。
結(jié)語(yǔ)
在視頻處理方面,尤其是視頻編碼轉(zhuǎn)碼上,CPU+GPU的通用傳統(tǒng)方案已經(jīng)在失去其優(yōu)勢(shì),專(zhuān)用的加速器方案明顯在成本和性能突破上走的更快一些。這種趨勢(shì)在數(shù)據(jù)中心的其他應(yīng)用領(lǐng)域上也在慢慢顯現(xiàn),比如深度學(xué)習(xí)、AI等,專(zhuān)用加速器的方案更適合針對(duì)性更強(qiáng)的場(chǎng)景。隨著云服務(wù)廠(chǎng)商不斷推出更多的專(zhuān)用實(shí)例,GPU在視頻處理上的地位很可能會(huì)被專(zhuān)用加速器給替代。
聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。
舉報(bào)投訴
-
gpu
+關(guān)注
關(guān)注
28文章
4760瀏覽量
129131 -
數(shù)據(jù)中心
+關(guān)注
關(guān)注
16文章
4830瀏覽量
72248
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
《CST Studio Suite 2024 GPU加速計(jì)算指南》
的各個(gè)方面,包括硬件支持、操作系統(tǒng)支持、許可證、GPU計(jì)算的啟用、NVIDIA和AMD GPU的詳細(xì)信息以及相關(guān)的使用指南和故障排除等內(nèi)容。
1.
發(fā)表于 12-16 14:25
【「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗(yàn)】--了解算力芯片GPU
本篇閱讀學(xué)習(xí)第七、八章,了解GPU架構(gòu)演進(jìn)及CPGPU存儲(chǔ)體系與線(xiàn)程管理
█從圖形到計(jì)算的GPU架構(gòu)演進(jìn)
GPU圖像計(jì)算發(fā)展
●從三角形開(kāi)始
發(fā)表于 11-03 12:55
常見(jiàn)GPU問(wèn)題及解決方法
GPU(圖形處理單元)是計(jì)算機(jī)硬件的重要組成部分,負(fù)責(zé)處理圖形和視頻渲染任務(wù)。隨著技術(shù)的發(fā)展,GPU在深度學(xué)習(xí)、游戲、視頻編輯等領(lǐng)域扮演著越
如何提高GPU性能
在當(dāng)今這個(gè)視覺(jué)至上的時(shí)代,GPU(圖形處理單元)的性能對(duì)于游戲玩家、圖形設(shè)計(jì)師、視頻編輯者以及任何需要進(jìn)行高強(qiáng)度圖形處理的用戶(hù)來(lái)說(shuō)至關(guān)重要。GPU不僅是游戲和多媒體應(yīng)用的心臟,它還在科學(xué)計(jì)算
如何選擇適合的GPU
在現(xiàn)代計(jì)算領(lǐng)域,GPU(圖形處理單元)的作用已經(jīng)遠(yuǎn)遠(yuǎn)超出了傳統(tǒng)的圖形渲染。從深度學(xué)習(xí)到科學(xué)計(jì)算,再到視頻編輯,GPU都在發(fā)揮著越來(lái)越重要的作
GPU加速計(jì)算平臺(tái)是什么
GPU加速計(jì)算平臺(tái),簡(jiǎn)而言之,是利用圖形處理器(GPU)的強(qiáng)大并行計(jì)算能力來(lái)加速科學(xué)計(jì)算、數(shù)據(jù)分析、機(jī)器學(xué)習(xí)等復(fù)雜
GPU計(jì)算主板學(xué)習(xí)資料第735篇:基于3U VPX的AGX Xavier GPU計(jì)算主板 信號(hào)計(jì)算主板 視頻處理 相機(jī)信號(hào)
GPU計(jì)算主板學(xué)習(xí)資料第735篇:基于3U VPX的AGX Xavier GPU計(jì)算主板 信號(hào)計(jì)算主板
動(dòng)畫(huà)渲染用GPU還是CPU的選擇思路
對(duì)話(huà)Imagination中國(guó)區(qū)董事長(zhǎng):以GPU為支點(diǎn)加強(qiáng)軟硬件協(xié)同,助力數(shù)【白皮書(shū)下載】分布式功能安全的創(chuàng)新與突破本文來(lái)源:渲染101動(dòng)畫(huà)渲染動(dòng)畫(huà)渲染是一個(gè)計(jì)算密集型的過(guò)程,需要強(qiáng)大的硬件
InConnect維護(hù)設(shè)備的流量是多少
:需要根據(jù)實(shí)際視頻流量計(jì)算
4、工業(yè)路由器產(chǎn)品每月的云平臺(tái)連接流量+維護(hù)隧道建立流量約30MB-40MB,一年約360MB-480MB,單臺(tái)設(shè)備每月InConnct鏈接心跳
發(fā)表于 07-25 07:23
信號(hào)計(jì)算主板設(shè)計(jì)方案:735-基于3U VPX的AGX Xavier GPU計(jì)算主板
3U VPX導(dǎo)冷結(jié)構(gòu) , FPGA信號(hào)預(yù)處理 , GPU顯卡 , PCIE視頻處理 , GPU計(jì)算主板
恒訊科技的GPU云解決方案有什么特點(diǎn)和優(yōu)勢(shì)?
是GPU云解決方案的主要特點(diǎn)和優(yōu)勢(shì): 1、彈性計(jì)算能力:用戶(hù)可以根據(jù)自己的需求快速擴(kuò)展或縮減計(jì)算資源,而無(wú)需投資昂貴的硬件設(shè)備。 2、高性能并行處理:
為什么GPU對(duì)AI如此重要?
來(lái)渲染圖形和圖像的計(jì)算機(jī)芯片專(zhuān)業(yè)和個(gè)人計(jì)算。最初,GPU負(fù)責(zé)渲染2D和3D圖像、動(dòng)畫(huà)和視頻,但現(xiàn)在它們的應(yīng)用范圍更廣,尤其在人工智能領(lǐng)域。GPU
FPGA在深度學(xué)習(xí)應(yīng)用中或?qū)⑷〈?b class='flag-5'>GPU
、運(yùn)動(dòng)和電力限制等環(huán)境因素。
Larzul 說(shuō):“在一些關(guān)鍵的應(yīng)用場(chǎng)景中,比如智慧城市的視頻監(jiān)控,要求硬件暴露在對(duì) GPU 有不利影響的環(huán)境因素 (比如太陽(yáng)) 下?!?GPU 受晶體管
發(fā)表于 03-21 15:19
gpu是什么和cpu的區(qū)別
) GPU(Graphics Processing Unit)是一種專(zhuān)門(mén)設(shè)計(jì)用于處理圖形和視頻的處理器。最初,GPU的主要功能是處理計(jì)算機(jī)游戲和圖形設(shè)計(jì)中的復(fù)雜圖形操作,但隨著技術(shù)的發(fā)
電線(xiàn)安全載流量的計(jì)算方法
電線(xiàn)的安全載流量是指電線(xiàn)能夠安全地承受的最大電流。計(jì)算電線(xiàn)的安全載流量需要考慮電線(xiàn)的材質(zhì)、截面積、長(zhǎng)度、散熱條件等因素。下面將詳細(xì)介紹電線(xiàn)安全載流量的
評(píng)論