我們在追求怎樣的編碼未來?
Cloud?
Imagine
無處不在的視頻滲透、井噴式的流量增長、多元的場景技術(shù)需求、用戶對視頻體驗的“不將就”……音視頻行業(yè)的快速發(fā)展卻伴隨著“編碼標準升級速度緩慢”、“硬件紅利見底”、“編碼復雜度帶來的成本問題”等眾多挑戰(zhàn)。 ? 視頻編碼還“卷”得動嗎? ? 究竟怎樣的視頻編碼技術(shù),才能滿足既要又要的體驗與成本平衡? ? 面向機器視覺的視頻編碼、虛擬現(xiàn)實視頻、智能化應用視頻......前浪翻滾而來,視頻編碼的“未來式”如何展開? ? 本文由IMMENSE、「阿里云視頻云」視頻編碼服務端負責人陳高星和LiveVideoStack策劃、采訪而成。
需求很多,矛盾更多
技術(shù)迭代速度凝固了嗎?摩爾定律走到盡頭了嗎?
視頻編解碼技術(shù)約10年提升50%壓縮率,但這“十年磨一劍”的升級速度,早就跟不上視頻信息量膨脹的速度。 ? 新編碼標準帶來的編碼復雜度增加,遠高于CPU處理能力的增強,隨之面臨編碼技術(shù)難以“普惠”的難題。 ? 隨著視頻在更多應用場景的擴展探索,單一編碼標準已難覆蓋多種視頻應用需求…… ? 顯然,一邊是AR、VR時代的到來,以及4K、8K的高分辨率,60-120fps高幀率,10-12bit寬色域,讓視頻本身的信息量數(shù)倍膨脹;一邊,是資源堆疊置換壓縮效率,和“摩爾定律”的進步已經(jīng)走到了“盡頭”。加之,視頻的“超低延時”對編碼速度的要求,這一切,讓視頻體驗、帶寬、計算成本、編碼速度之間的“矛盾”越發(fā)明顯。 ? 于是,我們始終面臨更高清、更實時、更高效的編碼需求,也面臨技術(shù)與需求之間的諸多“矛盾”。 ? 在這些似乎難以平衡的“矛盾”背景下,也衍生出許多值得進一步探討的問題:
??現(xiàn)有的編碼標準在哪些方面關注不夠?
??如何先用好現(xiàn)有的編碼標準?
??現(xiàn)有的視頻編碼技術(shù)覆蓋不到的維度有哪些?
??除了碼率和質(zhì)量,視頻編碼是否需要關注更多的目標?
? 如何打破資源堆疊置換視頻壓縮效率提升的技術(shù)思維慣性?
……
從需求、矛盾、問題中,可引出深一層的認知:編碼優(yōu)化的目標不再僅僅考慮傳統(tǒng)的主客觀質(zhì)量、復雜度、時延等維度,還有與AI處理能力的友好性、多平臺下性能的適配性等。 ? 問題的提出總是伴隨著解題思路和技術(shù)方向的選擇。 ? 于是,推動著編解碼架構(gòu)從傳統(tǒng)向更智能、更兼容的方向演進。
終極目標,有些偏倚
在優(yōu)化編解碼時,我們究竟需要追求什么?
當2015年阿里云視頻云向業(yè)界提出了“窄帶高清”的概念,并在2016年正式推出窄帶高清技術(shù)品牌并產(chǎn)品化,這種既“降低碼率”又“提高清晰度”的兼顧之方,幾乎成為了業(yè)界的通用解法。 ? 但是,不斷演化之下到當前,業(yè)內(nèi)開始流行一種“內(nèi)卷”,即,過度追求"某客觀指標數(shù)據(jù)"的優(yōu)化。 ? 然而,以“人”為中心的視頻化視角,在最終的用戶體驗上,視頻都應是更關注主觀體驗的。相反的是,在實際研發(fā)過程中,特別是編碼器的優(yōu)化上,通常都是依賴如:PSNR、SSIM、VMAF-NEG這樣的“有源客觀指標”。 ? 誠然,在大部分情況下,客觀質(zhì)量的提升都能一定程度反映到主觀質(zhì)量的提升上,特別是當樣本數(shù)足夠大,且客觀質(zhì)量提升較大時,客觀指標和主觀感受能呈現(xiàn)一致性。 ? 不過在窄帶高清的優(yōu)化實踐中,也存在一些主客觀優(yōu)化“不一致”的情況。 ? 比如:H.265標準中的SAO工具,用于改善振鈴效應,但隨之會降低VMAF和VMAF-NEG分數(shù); ? X265編碼器里的PSY工具,在主觀質(zhì)量上能增加高頻細節(jié),但是對于客觀指標都是不友好的; ? 又比如:JND和ROI技術(shù),在挖掘視覺失真冗余的過程中,也不可避免地會造成有源客觀指標的下降; ? 阿里云自研的碼控算法,會對容易出現(xiàn)“塊效應”等主觀問題的區(qū)域分配更多碼率以保護主觀質(zhì)量,但這也會導致客觀質(zhì)量下降; ? 還有,前處理增強中的各種修復生成技術(shù),會直接對源進行修改,這類技術(shù)對于旨在評價“與源差異大小”的有源客觀指標,都是不太友好的。 ? 此外,針對單一客觀指標的“過度優(yōu)化”,也有可能造成單一客觀指標與主觀體驗相悖的情況...... ? 因此,單項客觀指標的數(shù)值或高或低,都不應是視頻編碼優(yōu)化追求的“終極目標”。
細微之處,方見視界
我們的編解碼視界里,可以有哪些精妙解法?
在上述技術(shù)理念和智能編碼架構(gòu)的支撐下,“窄帶高清2.0”從人眼視覺模型出發(fā),將編碼器的優(yōu)化目標從“保真度更高”調(diào)整為“主觀體驗更好”。 ? 這可以從視覺編碼和細節(jié)修復兩個視角來看。 ? 在視覺編碼維度,“窄帶高清2.0”采用基于場景和內(nèi)容的幀類型決策和塊級碼率分配,模式?jīng)Q策采用面向主觀友好的算法。 ? 在內(nèi)容自適應編碼部分,考慮到人眼感知的視頻空間域的亮度、對比度以及時域失真是不連續(xù)的,通過基于恰可察覺失真(JND)自適應編碼技術(shù),丟棄視覺冗余信息,在主觀質(zhì)量不發(fā)生明顯降低的情況下,可以大幅節(jié)省帶寬;同時,通過ROI碼控技術(shù)調(diào)整碼率分配策略,進一步提升人眼感興趣區(qū)域的清晰度。 ? 在細節(jié)修復維度,“窄帶高清2.0”采用基于生成對抗網(wǎng)絡(GAN)的細節(jié)修復生成技術(shù),在修復因編碼壓縮引起的馬賽克效應和邊緣毛刺的同時,“腦補”生成一些自然的紋理細節(jié),使得畫面紋理細節(jié)更豐富、更自然、更有質(zhì)感。 ? 更關鍵的是,應對垂直細分場景,我們的模型會對場景特征會實現(xiàn)更為智能的紋理生成。 ? 比如:對于演唱會場景,曾為百視TV專屬打造了Idol人像定制模版,針對優(yōu)化人像區(qū)域的細節(jié)修復生成效果,將Idol的“懟臉直拍”,通過直播清晰還原送到觀眾屏幕前。 ? 再比如:在NBA籃球比賽場景,AI修復模型加強了籃球場地板紋理、球員近景特寫、球場邊界線、地面廣告字母、球衣上數(shù)字、籃球網(wǎng)等籃球體育賽事特有元素的修復生成,大大提升畫面清晰度和整體視覺生動力表現(xiàn)。 ? 也正是,唯有細微之處,方能見技術(shù)之極。
繞不開的“成本、成本、成本”
成本和體驗的“非零和博弈”, ?編解碼怎么擺平?
正如“清晰度”和“帶寬”是“窄帶高清”需要平衡的天平兩端,在當前“降本增效”的大環(huán)境之下,“體驗”和“成本”的“非零和博弈”,一定是繞不開的話題。 ? 成本(計算復雜度),體驗(質(zhì)量),這兩者雖然是“trade-off”的權(quán)衡關系,但在某種程度上,也可以單方面優(yōu)化提升。 ? 比如,通過算法優(yōu)化,在復雜度不變的情況下,將編碼器的R-D曲線朝著更有性價比的方向優(yōu)化;同時,通過高性價比的自適應快速算法的設計,也可以將質(zhì)量的提升轉(zhuǎn)化為成本的收益;又或者,通過底層優(yōu)化并與計算平臺的充分結(jié)合,挖掘異構(gòu)編碼的潛力,可以進一步在質(zhì)量不變的情況下降低計算成本。
? 當然,在“讓高壓縮率算法和AI真正普惠”的路上,阿里云視頻云所做的不僅于此。 ? 與視頻編碼類似,在視頻處理領域,深度學習從效果上已經(jīng)遠超傳統(tǒng)方法,同時還在不斷地快速進化,但深度學習對計算資源的高消耗,成為阻礙其在實際應用中廣泛使用的主要原因。 ? 阿里云視頻云深度自研編碼內(nèi)核,包括s264、s265,落地100+算法,支持直播、點播、RTC場景,相對于開源,全場景20%+壓縮率領先。 ? 同時,我們引入AI輔助的編碼決策,在碼率分配和模式?jīng)Q策上提升內(nèi)容自適應能力,極致挖掘視覺冗余,同等主觀下,碼率節(jié)省50%。
軟硬結(jié)合,是破解編碼天花板之技嗎?
在算法層面和軟件層面塑造的有限差異之上,要想塑造成本優(yōu)勢,必須將軟件、算法與操作系統(tǒng)、硬件、乃至芯片,全線聯(lián)動。 ? 此基礎上,基于自研倚天710芯片,視頻云與倚天團隊聯(lián)合投入ARM視頻編碼優(yōu)化,深度重構(gòu)了視頻編碼數(shù)據(jù)結(jié)構(gòu)、并行框架,重新調(diào)優(yōu)了快速算法策略,從軟件、匯編、硬件層面跨層深度優(yōu)化,塑造極致性能。 ? 同時,我們與平頭哥深度合作,共建“軟硬結(jié)合”自研芯片競爭力,通過算法、加速庫、驅(qū)動、固件一體化設計,不斷探索創(chuàng)新音視頻技術(shù),加強在更多視頻應用、更多終端設備上的普適性,從而帶來更節(jié)省、更低耗、更高清、更實時的硬核編碼力,賦能千行百業(yè)的視頻化需求。
沒有想象,就沒有進化
蘋果的VisonPro,透射出編碼的未來嗎?
回顧文章開頭的“矛盾”與問題,面對激增的海量視頻數(shù)據(jù)、多元的視頻內(nèi)容形式,以及加速擴大的行業(yè)應用范圍,視頻編碼如何“進化”的答案,也隱藏在行業(yè)的急速迭代之中。 ? 如何實現(xiàn)更高壓縮效率并匹配多樣的細分場景?AI codec能實現(xiàn)比傳統(tǒng)壓縮標準更高的壓縮效率,并能夠在一些垂直場景有落地的機會,例如:業(yè)界已有基于深度學習的圖像壓縮,落地于衛(wèi)星圖像的壓縮傳輸; ? 面對未來視頻數(shù)據(jù)的消費場景不再單純局限于人眼視覺,服務于機器視覺的視頻編碼也將迎來巨大應用市場。阿里云視頻云團隊已與高校深度合作,布局“面向人-機視覺的全新編碼范例:高層語義與低層信號相結(jié)合的圖像編碼方案”; ? 而對于近期大熱的蘋果VisionPro的推出,作為視頻行業(yè)工作者,十分樂見VR生態(tài)能在蘋果的帶領下,真正打出一片市場。因此,一些相關的沉浸式編碼標準如MIV,點云編碼,動態(tài)網(wǎng)格編碼等技術(shù),也將逐步投入研究……
編輯:黃飛
?
評論
查看更多