0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

傳統(tǒng)圖像與視頻壓縮技術(shù)

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-06-30 08:27 ? 次閱讀

2018年6月14日,圖鴨與論智聯(lián)合舉辦了一場線上公開課深度學(xué)習(xí)視頻圖像壓縮。講師為周雷博士,圖鴨科技深度學(xué)習(xí)算法研究員。以下為論智整理的聽課筆記。因水平有限,難免有錯漏不當(dāng)之處,僅供參考。

傳統(tǒng)圖像與視頻壓縮技術(shù)

首先,我們簡單回顧下傳統(tǒng)圖像與視頻壓縮技術(shù)。

JPEG

以下為JPEG編解碼流程示意圖。

從上圖我們可以看到,圖像數(shù)據(jù)編碼過程如下:

離散余弦變換。簡單來說,離散余弦變換是一種矩陣運(yùn)算。

經(jīng)過離散余弦變換后,高頻數(shù)據(jù)和低頻數(shù)據(jù)分流了,矩陣左上方是高頻數(shù)據(jù)(較大的數(shù)值),右下方是低頻數(shù)據(jù)(較小的數(shù)值)。這樣我們就可以對其進(jìn)行量化了,在JPEG中是除以量化步長再取整。

量化之后對其進(jìn)行熵編碼,得到壓縮表示。

解碼的過程與編碼過程相逆,經(jīng)過反熵編碼、反量化、反離散余弦變換重建圖像。

JPEG2000

JPEG2000和JPEG的最大差別是使用了離散小波變換。此外還加上了一些預(yù)處理步驟。

JPEG2000編碼流程示意圖

WebP

WebP是來源于VP8的圖片壓縮格式。主要特色是基于塊預(yù)測。

BPG

和WebP類似,BPG同樣源于視頻編碼技術(shù)(HEVC)。BGP的主要特點(diǎn)如下:

HEVC

HEVC的編碼示意圖如下:

上圖中,Ref.表示參考樣本。T & Q表示轉(zhuǎn)換、量化過程,Q-1& T-1為其逆過程。Deblk.為Deblocking(去區(qū)塊)的縮寫。HEVC會將影像分為區(qū)塊再進(jìn)行編碼,因此重建時會在區(qū)塊邊緣出現(xiàn)不連續(xù)的現(xiàn)象,稱為區(qū)塊效應(yīng)。去區(qū)塊過程可以減輕區(qū)塊效應(yīng)。SAO為Sample Adaptive Offset(樣本自適應(yīng)偏移量)的縮寫,通過分析去區(qū)塊后的數(shù)據(jù)與原始數(shù)據(jù)的差異,補(bǔ)償量化過程造成的損失,使其盡可能接近原始數(shù)據(jù)。

CABAC為自適應(yīng)二進(jìn)制算術(shù)編碼。算術(shù)編碼利用符號出現(xiàn)的概率將符號序列編碼為一個數(shù)字。

相應(yīng)的解碼過程:

從以上的編解碼過程中,我們可以看到,先驗(yàn)概率估計(jì)的精確程度對編碼的效率影響很大。HEVC使用動態(tài)更新的概率模型實(shí)現(xiàn)自適應(yīng)二進(jìn)制算術(shù)編碼。

除了幀內(nèi)估計(jì)、預(yù)測(參見前面提到的BPG)之外,HEVC視頻編碼還需考慮運(yùn)動估計(jì)等幀間的關(guān)系。

深度學(xué)習(xí)圖像視頻壓縮框架

深度學(xué)習(xí)圖像壓縮框架

下為深度學(xué)習(xí)圖片壓縮的典型框架示意圖:

上圖中每個模塊的具體作用,可以參考如何設(shè)計(jì)基于深度學(xué)習(xí)的圖像壓縮算法中的解釋。

圖像壓縮數(shù)據(jù)集

設(shè)計(jì)好網(wǎng)絡(luò)模型后,需要使用圖像進(jìn)行訓(xùn)練。由于圖像壓縮屬于無監(jiān)督學(xué)習(xí),無需人工標(biāo)注,因此數(shù)據(jù)集是比較容易搜集的。無論是從網(wǎng)上爬取,還是自行使用相機(jī)拍攝,都不難得到大量高清圖片。

常用的測試集有:

Kodak PhotoCD數(shù)據(jù)集,圖像分辨率768x512,約40萬像素;

Tecnick數(shù)據(jù)集,約一百四十萬像素。

CVPR 2818 CLIC數(shù)據(jù)集,圖像類別廣泛,分辨率不等(512至2048),文件尺寸不等(幾百K到幾M)。

深度學(xué)習(xí)視頻壓縮框架

深度學(xué)習(xí)視頻壓縮與圖像壓縮的主要差別在于增加了幀間預(yù)測/差值。

基于卷積網(wǎng)絡(luò)進(jìn)行幀間預(yù)測

幀間預(yù)測能極大得減少幀間冗余。以1個參考幀,預(yù)測N-1幀為例,幀間預(yù)測的約束為參考幀和預(yù)測碼字遠(yuǎn)小于每幀單獨(dú)壓縮的碼字:

深度學(xué)習(xí)圖像視頻壓縮進(jìn)展介紹

深度學(xué)習(xí)圖像壓縮的主要發(fā)展方向:

RNN

CNN

GAN

這部分內(nèi)容可以參考公開課ppt以及概覽CVPR 2018神經(jīng)網(wǎng)絡(luò)圖像壓縮領(lǐng)域進(jìn)展一文。

視頻壓縮方面,近年來的研究熱點(diǎn)是將CNN與現(xiàn)有的視頻編碼器相結(jié)合。

編碼單元選擇

Liu Z、Yu X、Chen S等在2016年發(fā)表了CNN oriented fast HEVC intra CU mode decision,使用CNN學(xué)習(xí)預(yù)測編碼單元模式的分類(2N x 2N或N x N)。

O2N、ON輸出為碼率失真代價

下采樣編碼

Jiahao Li等在2018年發(fā)表的Fully Connected Network-Based Intra Prediction for Image Coding對視頻幀進(jìn)行了分塊處理,對適合進(jìn)行下采樣的塊執(zhí)行下采樣操作,而對不適合進(jìn)行下采樣的塊不執(zhí)行下采樣操作。之后,對下采樣的塊根據(jù)情況分別使用CNN或DCTIF進(jìn)行上采樣,以重建圖像。為了達(dá)到更好的效果,亮度通道和色度通道使用了不同的網(wǎng)絡(luò)架構(gòu)。

視頻幀環(huán)路濾波和后處理

Park W S和Kim M在2016年發(fā)表的CNN-based in-loop filtering for coding efficiency improvement中,使用CNN提升了HEVC的環(huán)路濾波(包括去區(qū)塊濾波和SAO濾波)的效果。

類似地,Yuanying Dai等在2016年發(fā)表的A Convolutional Neural Network Approach for Post-Processing in HEVC Intra Coding,使用CNN網(wǎng)絡(luò)改進(jìn)了HEVC的后處理過程。

深度學(xué)習(xí)視頻壓縮的優(yōu)勢和劣勢

使用深度學(xué)習(xí)進(jìn)行單純的圖像壓縮,應(yīng)用場景有一定局限性。深度學(xué)習(xí)在視頻壓縮領(lǐng)域潛力更大。深度學(xué)習(xí)在視頻壓縮領(lǐng)域的主要優(yōu)勢在于:

能夠?qū)崿F(xiàn)更好的變換學(xué)習(xí),從而取得更好的效果。

端到端的深度學(xué)習(xí)模型能夠自行學(xué)習(xí),而傳統(tǒng)的視頻壓縮工作需要手工設(shè)計(jì)很多東西。

傳統(tǒng)的視頻壓縮方法通常通過一些啟發(fā)式的方法進(jìn)行幀間預(yù)測,從而減少幀間冗余。而深度學(xué)習(xí)能夠基于光流等進(jìn)行預(yù)測。

另一方面,基于深度學(xué)習(xí)進(jìn)行視頻壓縮也會遇到很多挑戰(zhàn)。比如控制實(shí)現(xiàn)幀間預(yù)測占用的比特。

圖鴨科技技術(shù)介紹

CVPR 2018 CLIC

在CVPR 2018學(xué)習(xí)圖像壓縮挑戰(zhàn)上,圖鴨團(tuán)隊(duì)為三個贏家之一,MOS、MS-SSIM兩項(xiàng)指標(biāo)均為第一。

TucodecTNGcnn4p基于端到端的深度學(xué)習(xí)算法,其中使用了層次特征融合的網(wǎng)絡(luò)結(jié)構(gòu),以及新的量化方式、碼字估計(jì)技術(shù)。網(wǎng)絡(luò)使用了卷積模塊和殘差模塊,損失函數(shù)納入了MS-SSIM。

基于深度學(xué)習(xí)超分辨率重建圖像

在這一領(lǐng)域,圖鴨科技重點(diǎn)關(guān)注低碼率下的超分辨率重建。因?yàn)榈痛a率下圖像難免有比較多的失真,應(yīng)用超分辨率重建技術(shù)能緩解這些圖像上的瑕疵,取得更好的顯示效果。而高碼率圖像保留了原圖更多的細(xì)節(jié),相對而言不是非常適合應(yīng)用超分辨率技術(shù)。

基于深度學(xué)習(xí)的視頻壓縮

如前所述,圖鴨科技認(rèn)為相對圖像壓縮,深度學(xué)習(xí)在視頻壓縮領(lǐng)域潛力更大。目前圖鴨科技在基于深度學(xué)習(xí)的視頻壓縮方面,已經(jīng)能夠取得與x265媲美的效果。

基于深度學(xué)習(xí)的結(jié)構(gòu)化存儲

相比傳統(tǒng)方法,深度學(xué)習(xí)編碼圖像的算力負(fù)擔(dān)較重。然而,另一方面,圖像的壓縮特征不僅可以用于重建圖像,還可以為語義分割、圖像分類提供幫助。

問答環(huán)節(jié)

基于GAN進(jìn)行圖像壓縮

GAN主要用于圖像生成領(lǐng)域。但在進(jìn)行圖像壓縮時,GAN會遇到一個問題,就是它會改變一些細(xì)節(jié)(生成一些新的細(xì)節(jié))。因此,GAN這一的技術(shù)方向的選擇常常取決于項(xiàng)目需求。例如,對于人臉圖像來說,如果感興趣區(qū)域是人臉,那么對感興趣區(qū)域以外的區(qū)域可以使用非常低的碼率壓縮,重建圖像時利用GAN生成細(xì)節(jié)。

量化方法的選擇

建議大家參考相關(guān)論文自行選擇。因?yàn)榱炕椒ǖ倪x擇往往還和網(wǎng)絡(luò)中的其他模塊相關(guān)。例如,如果編碼器部分選用的激活輸出的是二值(0、1),那么量化其實(shí)就不是那么重要了。

壓縮時間

一般而言,基于深度學(xué)習(xí)的壓縮算法,和傳統(tǒng)算法相比,在CPU上壓縮時間處于劣勢。不過也有例外。比如,在圖鴨科技的測試中,在CPU上,基于CNN的算法實(shí)際上比H266要快。H266雖然屬于傳統(tǒng)算法,但是復(fù)雜度其實(shí)很高。

未來隨著GPU、專用深度學(xué)習(xí)芯片的算力提升,壓縮時間不會成為應(yīng)用深度學(xué)習(xí)壓縮算法的最大障礙。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 圖像壓縮
    +關(guān)注

    關(guān)注

    1

    文章

    60

    瀏覽量

    22420
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1208

    瀏覽量

    24753
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5510

    瀏覽量

    121345

原文標(biāo)題:深度學(xué)習(xí)之視頻圖像壓縮

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    視頻壓縮的基本原理

    視頻壓縮的基本原理    6.1.1 視頻信號壓縮的可能性          &nb
    發(fā)表于 09-30 23:31 ?5221次閱讀
    <b class='flag-5'>視頻壓縮</b>的基本原理

    數(shù)字圖像視頻壓縮編碼技術(shù)發(fā)展趨勢

    數(shù)字圖像視頻壓縮編碼技術(shù)發(fā)展趨勢 隨著網(wǎng)絡(luò)和終端的發(fā)展,億萬的圖像視頻聚集在一起,這將是研究云壓縮
    發(fā)表于 09-25 16:11

    基于SOC架構(gòu)的高清視頻壓縮技術(shù)

    基于AI算法的視頻壓縮技術(shù),在高清化視頻監(jiān)控日益增長的現(xiàn)在,運(yùn)用壓縮技術(shù)減小存儲空間,10倍高比例壓縮
    發(fā)表于 02-20 10:39

    怎么在FPGA設(shè)計(jì)中使用先進(jìn)的視頻壓縮技術(shù)

    您是否曾想在您的FPGA設(shè)計(jì)中使用先進(jìn)的視頻壓縮技術(shù),卻發(fā)現(xiàn)實(shí)現(xiàn)起來太過復(fù)雜?那么如何滿足視頻壓縮的需求?
    發(fā)表于 04-08 06:43

    視頻壓縮算法的特點(diǎn)和處理流程是怎樣的?

    在本文中,我們將著重探討視頻壓縮算法的特點(diǎn)和處理流程,我們將對基本的視頻壓縮算法進(jìn)行解釋,包括靜態(tài)圖像壓縮、運(yùn)動估計(jì)、圖像去噪, 以及色彩空
    發(fā)表于 06-08 06:49

    什么是視頻壓縮?

    什么是視頻壓縮?
    發(fā)表于 06-08 07:14

    視頻壓縮IPcore設(shè)計(jì)

    現(xiàn)行的視頻壓縮標(biāo)準(zhǔn)有多種,但基本屬于以下兩大類:視頻會議標(biāo)準(zhǔn)和多媒體標(biāo)準(zhǔn)
    發(fā)表于 11-30 14:23 ?15次下載

    主要視頻壓縮技術(shù)在中國內(nèi)地市場發(fā)展分析

    主要視頻壓縮技術(shù)在中國內(nèi)地市場發(fā)展分析--孟冰晶門科技一,視頻壓縮技術(shù)背景及主要壓縮技術(shù)發(fā)展視頻
    發(fā)表于 12-17 14:45 ?17次下載

    視頻壓縮技術(shù)

    6.1 視頻壓縮的基本原理   6.1.1 視頻信號壓縮的可能性          
    發(fā)表于 09-30 22:18 ?0次下載

    嵌入式視頻圖像系統(tǒng)的壓縮算法

    嵌入式視頻圖像系統(tǒng)的壓縮算法 隨著網(wǎng)絡(luò)技術(shù)和多媒體技術(shù)的發(fā)展.視頻通信的需求逐漸增加.同時最新
    發(fā)表于 03-30 12:03 ?1160次閱讀
    嵌入式<b class='flag-5'>視頻</b><b class='flag-5'>圖像</b>系統(tǒng)的<b class='flag-5'>壓縮</b>算法

    基于Android系統(tǒng)的H.264視頻壓縮技術(shù)實(shí)現(xiàn)

    基于Android系統(tǒng)的H.264視頻壓縮技術(shù)實(shí)現(xiàn)
    發(fā)表于 11-18 16:41 ?0次下載

    視頻監(jiān)控領(lǐng)域的視頻壓縮與數(shù)據(jù)流

    關(guān)鍵詞:視頻監(jiān)控 , 視頻壓縮 , 數(shù)據(jù)流 隨著人們安全意識的提高,視頻監(jiān)視系統(tǒng)日益普及,現(xiàn)已廣泛應(yīng)用于機(jī)場、銀行、公共交通中心乃至私人住宅中。但傳統(tǒng)模擬系統(tǒng)存在諸多問題,這促使人們希
    發(fā)表于 01-03 16:33 ?1080次閱讀

    視頻監(jiān)視領(lǐng)域的視頻壓縮與數(shù)據(jù)流

    關(guān)鍵詞:視頻監(jiān)視 , 視頻壓縮 , 數(shù)據(jù)流 隨著人們安全意識的提高,視頻監(jiān)視系統(tǒng)日益普及,現(xiàn)已廣泛應(yīng)用于機(jī)場、銀行、公共交通中心乃至私人住宅中。但傳統(tǒng)模擬系統(tǒng)存在諸多問題,這促使人們希
    發(fā)表于 01-09 16:38 ?585次閱讀

    視頻壓縮簡介(一)

    關(guān)鍵詞:視頻 , 壓縮 前言 視頻壓縮算法通過對視頻信號的壓縮處理可以極大地降低視頻信號的存儲和
    發(fā)表于 03-02 09:18 ?657次閱讀

    視頻壓縮是什么?視頻壓縮有什么好處?

    視頻壓縮是什么?視頻壓縮有什么好處? 視頻壓縮其實(shí)就是指通過特定的壓縮技術(shù)比如調(diào)節(jié)視頻的參數(shù)等,
    的頭像 發(fā)表于 08-07 17:08 ?3.3w次閱讀