0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

圖靈設(shè)計NVENC單元的性能和質(zhì)量

星星科技指導(dǎo)員 ? 來源:NVIDIA ? 作者:Roman Arzumanyan ? 2022-04-28 15:43 ? 次閱讀

從開普勒開始的所有 NVIDIA GPUs 都支持完全加速的硬件視頻編碼; GPUs 從費米開始支持完全加速的硬件視頻解碼。最近發(fā)布的圖靈硬件提供了張量核心和更好的機器學(xué)習(xí)性能,但新的 GPU 還加入了新的多媒體功能,如改進的 NVENC 單元,以在視頻編解碼器中提供更好的壓縮和圖像質(zhì)量。

讓我們更仔細地看一看圖靈設(shè)計的新的 NVENC 單元的性能和質(zhì)量。

NVENC 性能測試設(shè)置

H.264 出現(xiàn)于 15 年前,已經(jīng)成為一種無處不在的視頻編碼標準。它已經(jīng)成為業(yè)界最重要和最廣泛的編解碼器。這些測試展示了 Tesla T4 與著名的開源編碼器 libx264 在兩種情況下的性能:

高質(zhì)量模式,代表最常見的編碼方案與 VBR 控制和 B 幀啟用。

低延遲快速模式,適用于對延遲敏感的應(yīng)用程序,如遠程游戲或視頻會議。

為此,測試計算機的配置如表 1 所示:

poYBAGJqRkWAMOQBAABkGfjAF4w897.png

我們使用了各種輸入視頻進行 RD 估計,如 basketball _ drive 、 bq _ terrace 、仙人掌、 crowd _ run 、 ducks _ take _ off 、 jokey 、和服,以及更多分辨率為 1280 × 720 、 1920 × 1080 和 3840 × 2160 的視頻。

績效和質(zhì)量結(jié)果

平衡序列

圖 1 到圖 4 顯示, Tesla T4 在高質(zhì)量模式下為 libx264 提供相同或稍好的視覺質(zhì)量,如 Kimono、 BQ Terrace 和 Park Scene 。

poYBAGJqReqAeGu1AADRnbCAPGs298.png

pYYBAGJqRfOAJWLxAADBfsd4PzE341.png

與 libx264 相比, T4 顯示了更好的預(yù)測和過濾。

紅皮艇和仙人掌序列分別包含顯著的混沌運動和圓周運動。與 libx264 相比, NVENC 在這些包含復(fù)雜內(nèi)部預(yù)測的場景中顯示出明顯的優(yōu)勢。

Tesla T4 NVENC 在低延遲模式下的性能很容易超過 libx264 。請注意 Tesla T4 如何在高分辨率下更有效,在相同的比特率下提供 1db 更好的視覺質(zhì)量。

poYBAGJqRieAaoeBAADFobyJrNk315.png

圖靈 GPUs 配備了功能強大的 NVENC 視頻編碼單元,與 libx264 等復(fù)雜的軟件編碼器相比,它提供了更高的視頻壓縮效率,因為它結(jié)合了更高的性能和更低的能耗。理想的代碼轉(zhuǎn)換解決方案需要具有成本效益(美元/流)和節(jié)能(瓦/流)。讓我們看看在多個測試序列中平均的性能和功耗結(jié)果,如圖 13 和 14 所示。

poYBAGJqRbWAWNgLAAAr-zX6VSQ870.png

圖 13 。在高質(zhì)量模式下以每秒 30 幀同時編碼的流數(shù)

poYBAGJqRbeAFAGrAAAsdAzr5H8030.png

圖 14 。在低延遲模式下以每秒 30 幀同時編碼的流數(shù)。

T4 以高質(zhì)量模式同時編碼 22 個 720p 流。 GPU 還可以平均處理 10 個 1080p 的流和 2 到 3 個超高清( 2160p )分辨率的流。這相當于在相同的視覺質(zhì)量級別上幾乎是 libx264 的兩倍。

在低延遲模式下運行顯示出 T4 更大的優(yōu)勢。它可以編碼 37 個 720p 分辨率的流, 17-18 個 1080p , 4-5 個超高清,性能比 libx264 高 2-2.7 倍,具有更高的視覺質(zhì)量。您可以在圖 15 和圖 16 中看到每個流的瓦特數(shù)。

pYYBAGJqRb6AMc3bAAAvq-wAxCA408.png

圖 15 。高質(zhì)量模式下平均每流功耗瓦特

poYBAGJqRcGAZk8xAAAvASLNIxE444.png

圖 16 。低延遲模式下平均每流功耗瓦特

Tesla 還顯示出很高的功率效率,在高質(zhì)量模式下優(yōu)于 libx264 2-4x ,在低延遲模式下高達 5 倍,同時保持低負載。

結(jié)論

與前幾代相比, NVIDIA 的 Tesla T4 的編碼能力有了很大的提高。與 libx264 這樣的軟件編碼器相比,它在高質(zhì)量模式下顯示出相同或更好的視覺質(zhì)量,而在低延遲模式下則優(yōu)于它們。這相當于在功耗降低 2-5 倍時性能提高了一倍。

關(guān)于作者

Roman Arzumanyan擁有俄羅斯南部羅曼大學(xué)( Rostov-on-Don , 2012 )和羅曼大學(xué)應(yīng)用數(shù)學(xué)碩士學(xué)位。之后,他在俄羅斯三星研發(fā)院( 2012-2015 )、英特爾公司( 2015-2017 )工作。目前,他在莫斯科擔任開發(fā)技術(shù)工程師。他的研究興趣包括視頻編碼、高性能和 GPGPU 。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5063

    瀏覽量

    103416
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4762

    瀏覽量

    129153
收藏 人收藏

    評論

    相關(guān)推薦

    如何提高嵌入式代碼質(zhì)量?

    嵌入式系統(tǒng)的發(fā)展已經(jīng)深刻地影響了我們?nèi)粘I畹姆椒矫婷?,從智能家居到汽車控制系統(tǒng),再到醫(yī)療設(shè)備和工業(yè)自動化等領(lǐng)域,嵌入式系統(tǒng)無處不在。嵌入式軟件的質(zhì)量直接關(guān)系到系統(tǒng)的安全性、穩(wěn)定性和性能。因此,提高
    發(fā)表于 01-15 10:48

    圓柱電池測試設(shè)備:確保電池性能質(zhì)量的關(guān)鍵

    在新能源產(chǎn)業(yè)的快速發(fā)展背景下,圓柱電池作為重要的能量儲存裝置,其性能質(zhì)量直接關(guān)系到電動汽車、儲能系統(tǒng)以及各種便攜式電子設(shè)備的性能表現(xiàn)和使用壽命。為了確保圓柱電池能夠在實際應(yīng)用中發(fā)揮最佳效能,圓柱
    的頭像 發(fā)表于 01-06 17:22 ?99次閱讀

    小鵬汽車:未來AI汽車將搭載至少3顆圖靈芯片

    近日,在2024小鵬AI科技日上,小鵬汽車宣布了其自主研發(fā)的圖靈AI芯片取得了重要進展。這款芯片擁有40核處理器,能夠本地運行高達30B參數(shù)的大模型,并集成了2個NPU以及面向神經(jīng)網(wǎng)絡(luò)的特定領(lǐng)域架構(gòu),性能卓越。
    的頭像 發(fā)表于 11-12 18:05 ?554次閱讀

    小鵬汽車圖靈芯片及L4自動駕駛新進展

    小鵬汽車CEO何小鵬近日介紹了公司自主研發(fā)的圖靈芯片。這款專為AI而生的芯片,配備了強大的40核處理器,能夠本地運行高達30B參數(shù)的大模型。此外,圖靈芯片還集成了2個NPU,并采用了面向神經(jīng)網(wǎng)絡(luò)
    的頭像 發(fā)表于 11-08 11:01 ?1025次閱讀

    小鵬汽車2024 AI科技日:圖靈AI芯片進展公布,預(yù)計AI汽車市場將迎來巨變

    在11月6日下午的2024小鵬AI科技日上,小鵬汽車揭曉了其圖靈AI芯片的最新研發(fā)成果。小鵬汽車強調(diào),這款圖靈芯片是專為AI應(yīng)用而生,配備了40核處理器,能夠本地運行參數(shù)高達30B的大模型,同時集成了2個NPU以及針對神經(jīng)網(wǎng)絡(luò)優(yōu)化的特定領(lǐng)域架構(gòu)。
    的頭像 發(fā)表于 11-07 14:56 ?971次閱讀

    小鵬汽車發(fā)布自主研發(fā)的“圖靈”AI智能駕駛輔助系統(tǒng)

    模型構(gòu)建、AI算法優(yōu)化到AI芯片設(shè)計的全過程。這一全面自主的研發(fā)模式,確保了“圖靈”系統(tǒng)能夠在各個層面實現(xiàn)最佳的協(xié)同與性能發(fā)揮。 小鵬汽車首席執(zhí)行官何小鵬透露,預(yù)計到2025年,小鵬汽車的云端計算能力將達到驚人的10Eflops,
    的頭像 發(fā)表于 11-07 10:55 ?696次閱讀

    圖靈測試的內(nèi)容是什么_圖靈測試的作用

    圖靈測試(Turing Test)是由英國數(shù)學(xué)家和計算機科學(xué)家艾倫·麥席森·圖靈(Alan Turing)在1950年提出的一種測試方法,用以判斷機器是否具有人類智能。圖靈測試的核心內(nèi)容可以歸納為以下幾點:
    的頭像 發(fā)表于 09-16 16:11 ?2193次閱讀

    圖靈測試什么意思_圖靈測試是干嘛的

    圖靈測試是由英國數(shù)學(xué)家、密碼專家和數(shù)字計算機的奠基人艾倫·麥席森·圖靈提出的一種檢驗?zāi)硞€對象(通常是機器或人工智能系統(tǒng))是否具有智能的測試方法。其核心思想在于,如果一臺機器在與人類的對話過程中,能夠使得測試者無法區(qū)分其是人還是機器,那么就可以認為這臺機器具備了智能。
    的頭像 發(fā)表于 09-16 16:09 ?1754次閱讀

    小鵬自研圖靈芯片震撼登場:流片成功性能超越行業(yè)旗艦

    8月27日最新資訊,小鵬汽車在昨日舉辦的“小鵬10年熱愛之夜暨小鵬MONA M03上市發(fā)布會”上,由董事長何小鵬宣布了一項重要里程碑:小鵬自研的圖靈芯片已于8月23日成功完成流片測試。這款專為L4級
    的頭像 發(fā)表于 08-28 16:49 ?1582次閱讀

    IBM助力圖靈新智算構(gòu)建全能AI平臺

    近日,圖靈新智算(廣州)科技有限公司(以下簡稱為“圖靈新智算”)宣布采用 IBM 新一代 AI 與數(shù)據(jù)平臺 watsonx 的三大功能組件 watsonx.data、watsonx.ai
    的頭像 發(fā)表于 08-02 14:53 ?612次閱讀

    國芯科技與圖靈量子簽署戰(zhàn)略合作協(xié)議

    近日,蘇州國芯科技股份有限公司(以下簡稱“ 國芯科技 ”,股票代碼 688262.SH )與上海圖靈智算量子科技有限公司(以下簡稱“ 圖靈量子 ”)簽署戰(zhàn)略合作協(xié)議,雙方達成業(yè)務(wù)合作共識,共同研究基于 量子技術(shù)的信創(chuàng)和信息安全產(chǎn)品迭代方案 。
    的頭像 發(fā)表于 06-15 17:22 ?1513次閱讀

    國芯科技與圖靈量子達成戰(zhàn)略合作,共研量子技術(shù)新篇章

    近日,蘇州國芯科技股份有限公司(簡稱“國芯科技”)與上海圖靈智算量子科技有限公司(簡稱“圖靈量子”)宣布達成戰(zhàn)略合作,并簽署了具有里程碑意義的合作協(xié)議。這一合作標志著兩家公司在量子技術(shù)領(lǐng)域邁出了堅實的合作步伐,共同致力于信創(chuàng)和信息安全產(chǎn)品的迭代創(chuàng)新。
    的頭像 發(fā)表于 06-14 15:42 ?857次閱讀

    柔性制造單元包括哪幾個要素

    具有高度的靈活性和適應(yīng)性,能夠?qū)崿F(xiàn)多品種、小批量、快速換型的生產(chǎn)模式。本文將詳細介紹柔性制造單元的組成要素,包括硬件設(shè)備、軟件系統(tǒng)、工藝流程、生產(chǎn)管理、質(zhì)量控制、設(shè)備維護等方面。 一、硬件設(shè)備 機床:柔性制造單元的核心設(shè)備是機床
    的頭像 發(fā)表于 06-11 09:56 ?946次閱讀

    柔性制造單元及柔性的定義

    具有高度的靈活性和適應(yīng)性,能夠滿足現(xiàn)代制造業(yè)對生產(chǎn)效率、產(chǎn)品質(zhì)量和生產(chǎn)成本的嚴格要求。 一、柔性制造單元的定義 柔性制造單元是一種集成了計算機技術(shù)、自動化技術(shù)、信息技術(shù)等多種技術(shù)的先進生產(chǎn)系統(tǒng)。它由多個自動化設(shè)備、機器人、輸送系
    的頭像 發(fā)表于 06-11 09:42 ?1632次閱讀

    STM32F4用來作為計算單元的時候,如何評估算法或應(yīng)用的時間性能?

    STM32F4用來作為計算單元的時候,如何評估算法或應(yīng)用的時間性能?能不能通過配置使之具備計時功能?精度達到us級別就足夠了。 關(guān)于計時,在debug狀態(tài)下,通過states的計數(shù)值可以計算時間性能,但必須是debug設(shè)置斷點
    發(fā)表于 05-16 06:37