資料介紹
盡管H.264/AVC承諾將此已有視頻編碼標準具有更高的編碼效率,它仍為系統(tǒng)架構(gòu)師、DSP 工程師和硬件設(shè)計人員帶來了巨大的工程設(shè)計挑戰(zhàn)。H.264/AVC 標準引入了自 1990 年推出 H.261 之后視頻編碼標準演進過程中出現(xiàn)的大部分重大改變和算法間斷 (algorithmic discontinuities)。
實現(xiàn) H.264/AVC 編碼標準所需的算法計算復雜度、數(shù)據(jù)局部性,以及算法和數(shù)據(jù)并行性,常常會直接影響系統(tǒng)級別的整體架構(gòu)決策。這種影響又會決定在廣播、視頻編輯、電話會議以及消費電子領(lǐng)域開發(fā)H.264/AVC解決方案所需的最終開發(fā)成本。
復雜度分析
為了實現(xiàn)實時 H.264/AVC 標準清晰度 (SD) 或高清晰度 (HD) 分辯率編碼解決方案,系統(tǒng)架構(gòu)師常常需要使用多個 FPGA 和可編程 DSP。為了說明所需計算的巨大復雜度,先探討一下 H.264/AVC 編碼器的典型運行時的周期要求。H.264/AVC 編碼器基于由聯(lián)合視頻工作組(JVT)提供的軟件模型,該工作組由來自 ITU-T 的視頻編碼專家組 (VCEG) 和 ISO/IEC 的運動圖像專家組 (MPEG) 的專家組成。
采用Intel的VTune軟件,在 Intel Pentium III 1.0 GHz 通用 CPU、512 MB 內(nèi)存的平臺上運行,按照主要配置編碼解決方案實現(xiàn) H.264/AVC SD,需要約 1,600 BOPS(每秒十億次運算)。
表 1 顯示了基于 Pentium III 通用處理器架構(gòu)的 H.264/AVC 編碼器的復雜度的典型情況。請注意,在表 1 中,運動估計、宏塊/塊處理(包括模式?jīng)Q策),以及運動補償模塊是基本候選硬件加速單元。
然而,單憑計算復雜度并不能決定一個功能模塊是否應(yīng)映射為硬件或是使其保持為軟件。為了評估在由 FPGA、可編程 DSP或通用主處理器混合組成的平臺上實現(xiàn) H.264/AVC 編碼標準時,軟件和硬件分割的可行性,需要分析將會影響整體設(shè)計決策的大量架構(gòu)問題。
數(shù)據(jù)局部性
在同步設(shè)計中,按照特定的順序和粒度訪問內(nèi)存,同時根據(jù)延遲、總線競爭、對準、DMA 傳輸率以及所用內(nèi)存的類型(如 ZBT 內(nèi)存、SDRAM和 SRAM 等)使時鐘周期數(shù)降至最小的能力至關(guān)重要。數(shù)據(jù)局部性問題主要是由數(shù)據(jù)單元和算術(shù)單元(或處理引擎)之間的物理接口體現(xiàn)的。
數(shù)據(jù)并行性。
大多數(shù)信號處理算法都是對高度并行的數(shù)據(jù)進行操作(如 FIR 濾波)。單指令多數(shù)據(jù) (SIMD) 和向量處理器對可被并行化或做成向量格式(或長數(shù)據(jù)寬度)的數(shù)據(jù)具有較高的處理效率。
FPGA可通過提供大量塊 RAM 支持大量極高總計帶寬要求來實現(xiàn)這一點。在新的 Xilinx Virtex-4 SX器件中,塊 RAM 的數(shù)量與 Xtreme DSP的邏輯片數(shù)緊密匹配(例如,SX25具有128個塊RAM,128個DSP邏輯片;SX35具有192個塊 RAM,192個DSP 邏輯片;SX55具有320個塊 RAM,512個DSP邏輯片)。
信號處理算法并行機制。
在典型的可編程 DSP 或通用處理器中,信號處理算法并行機制通常是指指令級并行 (ILP)。超長指令字 (VLIW) 處理器是此類采用ILP的機器中的一個例子,它將多條指令(ADD、MULT 及 BRA)組合起來,在一個周期內(nèi)執(zhí)行。處理器中高度流水線化的執(zhí)行單元也是實現(xiàn)并行機制的典型硬件示例?,F(xiàn)在已經(jīng)有可編程DSP采用這種架構(gòu)(如TI的TMS320C64x)。
但是,并非所有算法都能使用這種并行機制。遞歸算法,如 IIR 濾波、MPEG 1/2/4 中的變長編碼 (VLC)、上下文自適應(yīng)變長編碼 (CAVLC),以及 H.264/AVC 中的上下文自適應(yīng)二進制算術(shù)編碼 (CABAC),當映射到這些可編程 DSP 時,均無法達到最優(yōu)且效率不高。這是因為數(shù)據(jù)遞歸阻礙了 ILP 的有效利用。作為取代方案,可在FPGA 結(jié)構(gòu)中有效地構(gòu)建專用硬件引擎。
計算復雜度。
可編程 DSP 受計算復雜度的限制,可通過處理器的時鐘速率來度量。在FPGA中實現(xiàn)的信號處理算法通常為計算密集型算法。其中的例子有運動估計中的絕對差值和 (SAD) 引擎以及視頻縮放。
通過將這些模塊映射到 FPGA 中,主處理器或可編程DSP就可有額外的周期來處理其他算法。此外,F(xiàn)PGA 結(jié)構(gòu)還可以具有多時鐘域,從而允許選擇性硬件模塊根據(jù)各自的計算要求使用獨立的時鐘速度。
實現(xiàn) H.264/AVC 編碼標準所需的算法計算復雜度、數(shù)據(jù)局部性,以及算法和數(shù)據(jù)并行性,常常會直接影響系統(tǒng)級別的整體架構(gòu)決策。這種影響又會決定在廣播、視頻編輯、電話會議以及消費電子領(lǐng)域開發(fā)H.264/AVC解決方案所需的最終開發(fā)成本。
復雜度分析
為了實現(xiàn)實時 H.264/AVC 標準清晰度 (SD) 或高清晰度 (HD) 分辯率編碼解決方案,系統(tǒng)架構(gòu)師常常需要使用多個 FPGA 和可編程 DSP。為了說明所需計算的巨大復雜度,先探討一下 H.264/AVC 編碼器的典型運行時的周期要求。H.264/AVC 編碼器基于由聯(lián)合視頻工作組(JVT)提供的軟件模型,該工作組由來自 ITU-T 的視頻編碼專家組 (VCEG) 和 ISO/IEC 的運動圖像專家組 (MPEG) 的專家組成。
采用Intel的VTune軟件,在 Intel Pentium III 1.0 GHz 通用 CPU、512 MB 內(nèi)存的平臺上運行,按照主要配置編碼解決方案實現(xiàn) H.264/AVC SD,需要約 1,600 BOPS(每秒十億次運算)。
表 1 顯示了基于 Pentium III 通用處理器架構(gòu)的 H.264/AVC 編碼器的復雜度的典型情況。請注意,在表 1 中,運動估計、宏塊/塊處理(包括模式?jīng)Q策),以及運動補償模塊是基本候選硬件加速單元。
然而,單憑計算復雜度并不能決定一個功能模塊是否應(yīng)映射為硬件或是使其保持為軟件。為了評估在由 FPGA、可編程 DSP或通用主處理器混合組成的平臺上實現(xiàn) H.264/AVC 編碼標準時,軟件和硬件分割的可行性,需要分析將會影響整體設(shè)計決策的大量架構(gòu)問題。
數(shù)據(jù)局部性
在同步設(shè)計中,按照特定的順序和粒度訪問內(nèi)存,同時根據(jù)延遲、總線競爭、對準、DMA 傳輸率以及所用內(nèi)存的類型(如 ZBT 內(nèi)存、SDRAM和 SRAM 等)使時鐘周期數(shù)降至最小的能力至關(guān)重要。數(shù)據(jù)局部性問題主要是由數(shù)據(jù)單元和算術(shù)單元(或處理引擎)之間的物理接口體現(xiàn)的。
數(shù)據(jù)并行性。
大多數(shù)信號處理算法都是對高度并行的數(shù)據(jù)進行操作(如 FIR 濾波)。單指令多數(shù)據(jù) (SIMD) 和向量處理器對可被并行化或做成向量格式(或長數(shù)據(jù)寬度)的數(shù)據(jù)具有較高的處理效率。
FPGA可通過提供大量塊 RAM 支持大量極高總計帶寬要求來實現(xiàn)這一點。在新的 Xilinx Virtex-4 SX器件中,塊 RAM 的數(shù)量與 Xtreme DSP的邏輯片數(shù)緊密匹配(例如,SX25具有128個塊RAM,128個DSP邏輯片;SX35具有192個塊 RAM,192個DSP 邏輯片;SX55具有320個塊 RAM,512個DSP邏輯片)。
信號處理算法并行機制。
在典型的可編程 DSP 或通用處理器中,信號處理算法并行機制通常是指指令級并行 (ILP)。超長指令字 (VLIW) 處理器是此類采用ILP的機器中的一個例子,它將多條指令(ADD、MULT 及 BRA)組合起來,在一個周期內(nèi)執(zhí)行。處理器中高度流水線化的執(zhí)行單元也是實現(xiàn)并行機制的典型硬件示例?,F(xiàn)在已經(jīng)有可編程DSP采用這種架構(gòu)(如TI的TMS320C64x)。
但是,并非所有算法都能使用這種并行機制。遞歸算法,如 IIR 濾波、MPEG 1/2/4 中的變長編碼 (VLC)、上下文自適應(yīng)變長編碼 (CAVLC),以及 H.264/AVC 中的上下文自適應(yīng)二進制算術(shù)編碼 (CABAC),當映射到這些可編程 DSP 時,均無法達到最優(yōu)且效率不高。這是因為數(shù)據(jù)遞歸阻礙了 ILP 的有效利用。作為取代方案,可在FPGA 結(jié)構(gòu)中有效地構(gòu)建專用硬件引擎。
計算復雜度。
可編程 DSP 受計算復雜度的限制,可通過處理器的時鐘速率來度量。在FPGA中實現(xiàn)的信號處理算法通常為計算密集型算法。其中的例子有運動估計中的絕對差值和 (SAD) 引擎以及視頻縮放。
通過將這些模塊映射到 FPGA 中,主處理器或可編程DSP就可有額外的周期來處理其他算法。此外,F(xiàn)PGA 結(jié)構(gòu)還可以具有多時鐘域,從而允許選擇性硬件模塊根據(jù)各自的計算要求使用獨立的時鐘速度。
下載該資料的人也在下載
下載該資料的人還在閱讀
更多 >
- H.264編碼原理 2次下載
- H.264視頻編碼標準英文資源匯總下載 21次下載
- 基于H.264編碼視頻的網(wǎng)絡(luò)傳輸跟蹤評價方法 0次下載
- 在嵌入式平臺PXA255上實現(xiàn)新一代視頻壓縮標準h.264編碼算法 1次下載
- 基于DM642的H.264編碼算法優(yōu)化與實現(xiàn) 1次下載
- 新一代視頻壓縮編碼標準H.264-AVC(第2版)1 0次下載
- 基于嵌入式平臺的H264視頻編碼器的實現(xiàn) 87次下載
- 基于H.264與AVC標準的幀內(nèi)預(yù)測算法 28次下載
- 基于H.264的立體視頻編碼方法 43次下載
- 基于H.264的無再損幀內(nèi)編碼
- 基于DSP TMS320DM642的H.264視頻編碼的實現(xiàn)
- H.264視頻編碼在DM642上的實現(xiàn)與優(yōu)化
- 如何在FPGA上實現(xiàn)H.264/AVC視頻編碼標準
- 新一代視頻編碼標準H.264在高速DSP平臺上的實現(xiàn)與優(yōu)化(
- H.264是什么?H.264標準詳解
- 基于H.264實現(xiàn)最優(yōu)重疊塊匹配加權(quán)窗的系數(shù)設(shè)計 3312次閱讀
- 基于VPM642板卡和DSP實現(xiàn)AVS解碼軟件的優(yōu)化應(yīng)用 3707次閱讀
- 帶有環(huán)路濾波的HEVC視頻解碼器的結(jié)構(gòu)和應(yīng)用實例分析 3929次閱讀
- 基于H.264解碼芯片的FPGA原型驗證平臺實現(xiàn)視頻控制模塊的設(shè)計 2408次閱讀
- 基于DE2開發(fā)板和NiosII處理器實現(xiàn)H.264編碼器的設(shè)計 2312次閱讀
- 矽海達科技SUE1 H.264編碼模塊介紹 1783次閱讀
- 矽海達科技SUE2 H.264編碼模塊介紹 1846次閱讀
- 矽海達科技SUE3 SDI H.264編碼模塊介紹 2032次閱讀
- 銳爾威視科技H.264百萬USB攝像頭模組規(guī)格 2882次閱讀
- fireflyH.264硬編碼&硬解碼簡介 2936次閱讀
- 基于塊匹配的高斯背景建模-ROI映射方法的FPGA和HEVC視頻編碼算法設(shè)計 2594次閱讀
- FFMPEG視頻編解碼流程 H.264硬件編解碼實現(xiàn) 1.8w次閱讀
- 新一代視頻壓縮標準“HEVC”:移動時代的核心技術(shù) 2364次閱讀
- H.264和AVS核心技術(shù)分析 1500次閱讀
- AVS視頻標準和H.264核心技術(shù)的區(qū)別 1857次閱讀
下載排行
本周
- 1電子電路原理第七版PDF電子教材免費下載
- 0.00 MB | 1491次下載 | 免費
- 2單片機典型實例介紹
- 18.19 MB | 95次下載 | 1 積分
- 3S7-200PLC編程實例詳細資料
- 1.17 MB | 27次下載 | 1 積分
- 4筆記本電腦主板的元件識別和講解說明
- 4.28 MB | 18次下載 | 4 積分
- 5開關(guān)電源原理及各功能電路詳解
- 0.38 MB | 11次下載 | 免費
- 6100W短波放大電路圖
- 0.05 MB | 4次下載 | 3 積分
- 7基于單片機和 SG3525的程控開關(guān)電源設(shè)計
- 0.23 MB | 4次下載 | 免費
- 8基于AT89C2051/4051單片機編程器的實驗
- 0.11 MB | 4次下載 | 免費
本月
- 1OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234313次下載 | 免費
- 2PADS 9.0 2009最新版 -下載
- 0.00 MB | 66304次下載 | 免費
- 3protel99下載protel99軟件下載(中文版)
- 0.00 MB | 51209次下載 | 免費
- 4LabView 8.0 專業(yè)版下載 (3CD完整版)
- 0.00 MB | 51043次下載 | 免費
- 5555集成電路應(yīng)用800例(新編版)
- 0.00 MB | 33562次下載 | 免費
- 6接口電路圖大全
- 未知 | 30320次下載 | 免費
- 7Multisim 10下載Multisim 10 中文版
- 0.00 MB | 28588次下載 | 免費
- 8開關(guān)電源設(shè)計實例指南
- 未知 | 21539次下載 | 免費
總榜
- 1matlab軟件下載入口
- 未知 | 935053次下載 | 免費
- 2protel99se軟件下載(可英文版轉(zhuǎn)中文版)
- 78.1 MB | 537793次下載 | 免費
- 3MATLAB 7.1 下載 (含軟件介紹)
- 未知 | 420026次下載 | 免費
- 4OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234313次下載 | 免費
- 5Altium DXP2002下載入口
- 未知 | 233046次下載 | 免費
- 6電路仿真軟件multisim 10.0免費下載
- 340992 | 191183次下載 | 免費
- 7十天學會AVR單片機與C語言視頻教程 下載
- 158M | 183277次下載 | 免費
- 8proe5.0野火版下載(中文版免費下載)
- 未知 | 138039次下載 | 免費
評論
查看更多