基于Q-learning的碼率控制算法
近年來,各界對多媒體內(nèi)容傳輸特別是視頻流服務越來越重視。在盡力交付的互聯(lián)網(wǎng)上支持可靠視頻流傳輸,基于HTTP的自適應流(HAS,HTTP adaptive streaming)已經(jīng)成為視頻業(yè)務技術的發(fā)展趨勢。
HAS采用碼流切換技術動態(tài)調(diào)整碼率,整個過程由自適應算法負責??捎脦捁浪愫痛a率選擇是客戶端碼率自適應算法的2個核心功能。根據(jù)媒體片段的TCP平均下載吞吐量估算網(wǎng)絡帶寬。碼率決策從視頻碼率集中選擇低于估算網(wǎng)絡可用帶寬的最大碼率等級。這種碼率選擇方法易造成視頻碼率的頻繁切換,給觀看者帶來不舒適的體驗,且設定硬編碼的碼率選擇策略靈活性偏低,無法應對變化多樣的網(wǎng)絡配置和網(wǎng)絡帶寬。
將自適應視頻流的傳輸建模成優(yōu)化控制問題可以提升碼率決策的靈活性。增強學習通過早期離線訓練,學習最優(yōu)的控制策略,然后將策略應用在實時自適應控制中,能夠提升客戶端碼率決策機制的靈活性和自適應性。
本文設計基于Q一1eaming的碼率決策,設計合適數(shù)量的環(huán)境狀態(tài)組成元素,根據(jù)可用帶寬和實時緩存數(shù)據(jù)填充量進行環(huán)境狀態(tài)建模;從HTTP視頻流服務質(zhì)量的角度考慮,選擇與用戶體驗質(zhì)量(OoE)相關的3個方面:視頻質(zhì)量等級高低、視頻播放期間切換帶來的損失及緩存區(qū)數(shù)據(jù)溢出危險性來構建新的回報函數(shù)。實驗結果表明,在HAS自適應算法的碼率決策部分引入本文提出的Q—le鋤ing算法,增強了碼率決策的靈活性,視頻碼率切換的穩(wěn)定性優(yōu)于未結合機器學習方法的算法。
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%