本文來(lái)自影譜科技創(chuàng)新研發(fā)中心負(fù)責(zé)人吉長(zhǎng)江在8月舉行的LiveVideoStack Meet武漢站的分享,并由LiveVideoStack整理而成。吉長(zhǎng)江詳細(xì)介紹了視頻植入的流程、典型方法、難點(diǎn)及技術(shù)趨勢(shì),他認(rèn)為,基于學(xué)習(xí)的視頻植入將是未來(lái)的發(fā)展趨勢(shì)。
大家好,我是來(lái)自北京影譜科技的吉長(zhǎng)江,今天與大家分享的是影譜科技的視頻植入技術(shù)。
1. 背景介紹
或許此前大家對(duì)影譜科技還不是特別了解,但是隨著近期備受矚目的商湯對(duì)影譜科技的投資以及一同開(kāi)拓大文娛市場(chǎng)等一系列活動(dòng),影譜科技逐漸走入大眾的視野。影譜科技在互聯(lián)網(wǎng)行業(yè)已耕耘數(shù)年,從開(kāi)始參與的移動(dòng)互聯(lián)網(wǎng)到現(xiàn)在專(zhuān)注于To B方向的視頻植入,我們致力于優(yōu)化原生廣告的用戶(hù)體驗(yàn),努力將其打造為一個(gè)良好的互聯(lián)網(wǎng)變現(xiàn)方式,這也堅(jiān)定了我們沿著To B方向走下去的決心,接下來(lái)將與大家分享其中的相關(guān)技術(shù)重點(diǎn)。
2. 原生視頻廣告
我們認(rèn)為網(wǎng)絡(luò)視頻生態(tài)環(huán)境可以簡(jiǎn)單描述為一個(gè)三體系統(tǒng),不僅僅是一個(gè)視頻與觀眾之間形成的簡(jiǎn)單關(guān)系,還應(yīng)考慮在其中扮演重要角色的廣告。我們?cè)谠O(shè)計(jì)廣告這一網(wǎng)絡(luò)視頻中最重要的變現(xiàn)手段時(shí),必須要照顧到內(nèi)容制片方與視頻平臺(tái)方的變現(xiàn)訴求,還應(yīng)照顧到用戶(hù)的觀看體驗(yàn)。過(guò)于生硬的貼片廣告勢(shì)必會(huì)讓用戶(hù)的觀看視頻體驗(yàn)大打折扣,因而如何實(shí)現(xiàn)良好的原生視頻廣告效果就變得非常重要。當(dāng)然這里還有最重要的一點(diǎn):我們通過(guò)視頻植入技術(shù)實(shí)現(xiàn)原生視頻廣告,可以有效降低廣告主的盲投風(fēng)險(xiǎn),原生視頻廣告允許廣告主看到此視頻廣告的拍攝小樣或在此視頻上線后再?zèng)Q定是否投資,相對(duì)于傳統(tǒng)貼片廣告而言有效降低了招商階段的風(fēng)險(xiǎn)。
2.1 視頻植入技術(shù)
上圖是我們與芒果臺(tái)合作,借助視頻植入技術(shù)實(shí)現(xiàn)的原生廣告效果,大家可以看到通過(guò)此項(xiàng)技術(shù)我們可以將廣告比較完美地植入到視頻畫(huà)面中。也許有人會(huì)將其簡(jiǎn)單地理解為P圖,但是在視頻當(dāng)中實(shí)現(xiàn)此效果的復(fù)雜程度遠(yuǎn)高于簡(jiǎn)單的圖像處理,我們需要處理攝像機(jī)的運(yùn)動(dòng)軌跡、景深、遮擋關(guān)系等等,并非簡(jiǎn)單的后期效果疊加。
2.1.1 視頻植入的定義
如果對(duì)視頻植入技術(shù)做出一個(gè)準(zhǔn)確的定義,我認(rèn)為視頻植入就是在視頻中自動(dòng)化完成各類(lèi)視覺(jué)元素融合的過(guò)程。首先“視覺(jué)元素”包括圖片、3D模型,甚至包括視頻中的視頻等等;此外,必須要做到的是精準(zhǔn)而自然地“融合”,也就是必須要體現(xiàn)真實(shí)感。因此我們需要通過(guò)精準(zhǔn)掌握攝像機(jī)的運(yùn)動(dòng)軌跡,妥善處理多個(gè)物體的遮擋關(guān)系,準(zhǔn)確估算光照等操作,讓植入的視頻元素自然地出現(xiàn)在視頻畫(huà)面中而不顯得突兀生硬。為了實(shí)現(xiàn)以上效果,我們不僅要解決一系列技術(shù)細(xì)節(jié)問(wèn)題,還需要將整個(gè)視頻植入過(guò)程完全自動(dòng)化、標(biāo)準(zhǔn)化、流程化、規(guī)?;?。
通過(guò)以上描述大家可以看出,視頻植入是一個(gè)全新的視覺(jué)任務(wù)。與傳統(tǒng)的幾種視覺(jué)任務(wù)相比,視頻植入也許在技術(shù)與困難上有諸多相似之處,但總體上來(lái)說(shuō)還是有很大差異。例如大家非常熟悉的強(qiáng)調(diào)實(shí)時(shí)性的AR,其植入對(duì)象是比較虛擬化的,用戶(hù)很容易分辨出植入對(duì)象并非真實(shí)的視頻元素;但對(duì)視頻植入廣告來(lái)說(shuō)需要完成的是影視級(jí)別的植入,也就是需要實(shí)現(xiàn)讓植入廣告成為原生拍攝的真實(shí)元素,使觀眾無(wú)法準(zhǔn)確分辨廣告的后期植入效果。達(dá)成這種以假亂真的效果需要的基礎(chǔ)技術(shù)與SFM、視覺(jué)SLAM技術(shù)有相通之處。
2.1.2 視頻植入過(guò)程
那么實(shí)現(xiàn)影視級(jí)別的視頻植入需要經(jīng)過(guò)哪些步驟呢?首先需要的是視頻鏡頭定位,而后進(jìn)行包括平面檢測(cè)與攝像機(jī)運(yùn)動(dòng)深度恢復(fù)在內(nèi)的3D恢復(fù);隨后經(jīng)過(guò)一系列的質(zhì)量評(píng)估后就可確定比較適合的植入廣告位置,接下來(lái)進(jìn)行光照估計(jì),完成最終的渲染。大家不難看出這是一個(gè)從解構(gòu)到重構(gòu)的過(guò)程,解構(gòu)主要是運(yùn)用計(jì)算機(jī)視覺(jué)技術(shù)從語(yǔ)義和幾何兩個(gè)角度進(jìn)行處理;重構(gòu)則運(yùn)用CG技術(shù)實(shí)現(xiàn)光照估計(jì)與渲染視覺(jué)元素的處理。
1)語(yǔ)義解構(gòu)
首先讓我們來(lái)看一下語(yǔ)義解構(gòu)。所謂語(yǔ)義解構(gòu),換句話(huà)說(shuō)就是視頻內(nèi)容的結(jié)構(gòu)化。我們認(rèn)為視頻本質(zhì)上是一個(gè)多模態(tài)信息,在此多模態(tài)信息中最重要的是圖像,也是觀眾最關(guān)心的,其次是字幕與聲音;如果從維度上考慮,視頻可分為人物、場(chǎng)景、行為三個(gè)維度。其中我們會(huì)特別關(guān)注的是人物,因?yàn)闊o(wú)論是視頻方還是廣告方都會(huì)格外重視人物的明星效應(yīng)與其背后的商業(yè)價(jià)值,這也是我們確定的一個(gè)能夠良好實(shí)現(xiàn)人臉識(shí)別商業(yè)化落地的關(guān)鍵點(diǎn)。上圖是我們的AI處理系統(tǒng)識(shí)別視頻中明星的效果圖,通過(guò)基于人物的檢測(cè)追蹤和識(shí)別技術(shù),我們可以檢測(cè)識(shí)別出影視劇、綜藝節(jié)目等視頻畫(huà)面中出現(xiàn)的大大小小的明星,準(zhǔn)確標(biāo)注他們出現(xiàn)的時(shí)間點(diǎn)與位置并將這些數(shù)據(jù)整理入庫(kù)。這得益于與自動(dòng)化所和商湯的合作,現(xiàn)在這套系統(tǒng)已支持超過(guò)一千位明星的識(shí)別并可實(shí)現(xiàn)從正臉到側(cè)臉的檢測(cè),同時(shí)我們自己也進(jìn)行了包括場(chǎng)景優(yōu)化在內(nèi)的各項(xiàng)技術(shù)提升。
2)幾何解構(gòu)
上圖的Demo是為了更好地說(shuō)明如何進(jìn)行幾何解構(gòu)。所謂的幾何解構(gòu)需要處理的是從2D畫(huà)面到3D場(chǎng)景的重建過(guò)程,大致過(guò)程是估算攝像機(jī)的運(yùn)動(dòng)并通過(guò)算法從2D點(diǎn)中生成3D點(diǎn),從而實(shí)現(xiàn)3D的重建與人物的遮罩,為后續(xù)妥善處理視頻中元素的遮擋問(wèn)題進(jìn)行技術(shù)鋪墊。
3)3D重建的典型過(guò)程
對(duì)SLAM有所了解的同學(xué)可能比較熟悉接下來(lái)的內(nèi)容——3D重建的典型過(guò)程。之所以將其稱(chēng)為一個(gè)典型的過(guò)程,是因?yàn)槌酥膺€有其它的解決方法,但目前來(lái)說(shuō)這套方法是最成熟的,可被稱(chēng)為“典型”,主要由以下步驟組成:首先進(jìn)行的是特征點(diǎn)的計(jì)算和匹配;接下來(lái),基于特征點(diǎn)匹配的結(jié)果系統(tǒng)會(huì)估算攝像機(jī)的位姿并跟蹤其運(yùn)動(dòng)得出其運(yùn)動(dòng)軌跡,之后經(jīng)過(guò)一系列優(yōu)化處理,生成稀疏點(diǎn)云或稠密深度圖。
4)面臨的問(wèn)題
此典型過(guò)程與傳統(tǒng)方法一樣面臨著很多問(wèn)題,使之無(wú)法處理所有鏡頭與畫(huà)面。比較典型的問(wèn)題包括復(fù)雜的場(chǎng)景和遮擋,例如難以在一個(gè)人頭攢動(dòng)的場(chǎng)景中實(shí)現(xiàn)準(zhǔn)確的3D重建。而最重要的問(wèn)題則是紋理缺乏,一旦目標(biāo)缺乏紋理就無(wú)法從中準(zhǔn)確提取特征點(diǎn)。特征點(diǎn)偵測(cè)在整條Pipeline中處于基礎(chǔ)位置,無(wú)法準(zhǔn)確提取特征點(diǎn)意味著后面的所有處理都無(wú)法進(jìn)行。之后會(huì)講到如何用深度學(xué)習(xí)技術(shù)解決此項(xiàng)問(wèn)題,這也是現(xiàn)在的一個(gè)技術(shù)發(fā)展前沿。除了以上描述的問(wèn)題,我們還面臨諸如攝像機(jī)運(yùn)動(dòng)軌跡退化(攝像機(jī)靜止或純旋轉(zhuǎn))、非剛性(攝像機(jī)與目標(biāo)同時(shí)運(yùn)動(dòng))等不利于我們進(jìn)行三維結(jié)構(gòu)還原的情景與Pipeline過(guò)長(zhǎng)造成魯棒性降低等問(wèn)題,這就要求我們尋求更穩(wěn)定而有效的解決方案。
2.2 基于學(xué)習(xí)的方法
針對(duì)以上問(wèn)題,我們提出的方案是基于學(xué)習(xí)的方法。大家可以思考這個(gè)問(wèn)題:人類(lèi)是如何通過(guò)視覺(jué)感知周?chē)h(huán)境的?有人會(huì)說(shuō)是不是因?yàn)槿祟?lèi)有兩只眼睛,可利用雙目進(jìn)行三維場(chǎng)景的視覺(jué)重構(gòu)?其實(shí)單目視覺(jué)也可實(shí)現(xiàn)類(lèi)似效果,通過(guò)大量學(xué)習(xí)收獲的海量信息,即使一只眼睛的小黃人也可以理解三維世界,例如杯子與桌面的位置可通過(guò)杯子一般放在桌面上方的常識(shí)確定,人與車(chē)的相對(duì)位置可通過(guò)兩者的大小來(lái)確定等。這些經(jīng)驗(yàn)知識(shí)指導(dǎo)人們還原與認(rèn)知自己所處的環(huán)境,而我們?nèi)粘S^看的視頻都是基于單目攝像機(jī)拍攝形成的一個(gè)圖像幀序列,那么單目+學(xué)習(xí)能否還原3D結(jié)構(gòu)?事實(shí)證明這個(gè)思路是正確的。
2.2.1 卷積神經(jīng)網(wǎng)絡(luò)——替代深度估計(jì)模塊
接下來(lái)先看一個(gè)比較典型的例子,上圖是用深度卷積網(wǎng)絡(luò)替代深度估計(jì)模塊進(jìn)行深度偵測(cè)的示意圖。我們可以看到,整個(gè)網(wǎng)絡(luò)的結(jié)構(gòu)類(lèi)似于一個(gè)包括編碼器與解碼器在內(nèi)的自編碼器;首先我們輸入一個(gè)立體視覺(jué)的兩張圖片,通過(guò)深度網(wǎng)絡(luò)估算出相應(yīng)深度圖。當(dāng)然這里的兩張圖片并不隨機(jī),圖片的采集有一定要求,我們可以在KITTI開(kāi)源數(shù)據(jù)庫(kù)中得到采集照片需要的數(shù)據(jù)集;拍攝時(shí)用相對(duì)距離已知且固定,焦距相同的兩臺(tái)照相機(jī)同時(shí)對(duì)同一個(gè)場(chǎng)景進(jìn)行拍攝,采集符合要求的照片并得到深度圖;成功輸出深度圖后,我們可根據(jù)此雙目系統(tǒng)的基礎(chǔ)數(shù)學(xué)公式:
D(x)=f*B/d(x)
利用深度圖估算并預(yù)測(cè)出原圖所展示的空間深度信息,產(chǎn)生的預(yù)測(cè)值與實(shí)際的真實(shí)值之間存在差異值;我們將這個(gè)所有像素的光度差異值作為損失函數(shù)進(jìn)行基于WARP的反向傳播并借此訓(xùn)練神經(jīng)網(wǎng)絡(luò),經(jīng)過(guò)大量訓(xùn)練就可得到這樣一個(gè)可對(duì)于單視圖進(jìn)行深度估計(jì)的卷積神經(jīng)網(wǎng)絡(luò)。輸入一張圖片,此卷積神經(jīng)網(wǎng)絡(luò)就可生成一張我們所需要的深度圖,這樣采用深度學(xué)習(xí)技術(shù)完全替代傳統(tǒng)的深度估計(jì)的過(guò)程是比較典型的。
2.2.2 卷積神經(jīng)網(wǎng)絡(luò)——替代多個(gè)模塊
不僅如此,我們還可實(shí)現(xiàn)同時(shí)進(jìn)行深度和攝像機(jī)運(yùn)動(dòng)的估計(jì)。此方法與之前提到的利用幾何原理與雙目相機(jī)模型的方法類(lèi)似,但這里用來(lái)訓(xùn)練CNN的素材是一段視頻,其原理是利用相鄰幀之間的微小差異進(jìn)行反算,使用針孔相機(jī)模型公式:
可同時(shí)訓(xùn)練兩個(gè)獨(dú)立的神經(jīng)網(wǎng)絡(luò),分別用來(lái)輸出深度圖與估算攝像機(jī)的旋轉(zhuǎn)平移等運(yùn)動(dòng)。這與前一個(gè)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練類(lèi)似,都是致力于實(shí)現(xiàn)無(wú)監(jiān)督的全自動(dòng)化學(xué)習(xí)過(guò)程。對(duì)于視頻而言由于其幀間存在很多關(guān)聯(lián)信息,這些關(guān)聯(lián)信息可作為神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)數(shù)據(jù),因此我們可在這里實(shí)現(xiàn)無(wú)監(jiān)督學(xué)習(xí)。無(wú)監(jiān)督學(xué)習(xí)的好處在于節(jié)省了大量的高成本的人工標(biāo)記工作。因此在視頻分析領(lǐng)域,無(wú)監(jiān)督學(xué)習(xí)會(huì)扮演著越來(lái)越重要的角色,值得大家去關(guān)注。當(dāng)然這里并不是說(shuō)傳統(tǒng)的有監(jiān)督學(xué)習(xí)一無(wú)是處,在諸多專(zhuān)業(yè)細(xì)分領(lǐng)域例如視頻觀眾識(shí)別等還需要依賴(lài)人工標(biāo)注的有監(jiān)督學(xué)習(xí)。鑒于視頻幀間存在可以被利用的豐富信息,雖然與傳統(tǒng)圖像處理相比難度更大,但我們可以利用無(wú)監(jiān)督學(xué)習(xí)實(shí)現(xiàn)更高效的視頻處理效果。
2.2.3 2D語(yǔ)義分割結(jié)合點(diǎn)云
深度學(xué)習(xí)還能幫助我們做更多的事情。除了估算深度與攝像機(jī)運(yùn)動(dòng),我們還可以利用語(yǔ)義分割的結(jié)果進(jìn)行平面檢測(cè)。由于在植入廣告時(shí)我們會(huì)對(duì)墻面桌面等平面元素給予更多的關(guān)注,而如果只是從點(diǎn)云中簡(jiǎn)單粗暴地進(jìn)行擬合,其過(guò)程的處理復(fù)雜程度很高,效率十分低下。因此,可以結(jié)合語(yǔ)義信息用深度學(xué)習(xí)進(jìn)行2D語(yǔ)義分割,將分割結(jié)果與3D重建的結(jié)果結(jié)合即可得到了一個(gè)含有語(yǔ)義信息的深度圖或點(diǎn)云,在此基礎(chǔ)上進(jìn)行的平面檢測(cè),其算法復(fù)雜程度會(huì)大大降低,準(zhǔn)確度會(huì)顯著提高,這些就是深度學(xué)習(xí)帶給我們的便利。
2.2.4 深度學(xué)習(xí)助力幾何解構(gòu)
深度學(xué)習(xí)在幾何解構(gòu)方面的應(yīng)用還有很多,其不僅能替換現(xiàn)有方法中的一個(gè)或多個(gè)模塊,也能在傳統(tǒng)幾何方法的基礎(chǔ)上加入語(yǔ)義信息。這里需要注意的是,單獨(dú)依靠深度學(xué)習(xí)的方法完成視頻植入的效果與傳統(tǒng)方法還是存在一定差距,不過(guò)這不妨礙我們將其作為未來(lái)的發(fā)展方向不斷探索。從之前的例子我們可以看出,盡管傳統(tǒng)方法依舊不可被替代,但深度學(xué)習(xí)的確有助于克服傳統(tǒng)方法的諸多不足,例如應(yīng)對(duì)缺乏紋理的對(duì)象時(shí)傳統(tǒng)方法會(huì)明顯力不從心,而利用經(jīng)過(guò)訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)進(jìn)行深度估算與攝像機(jī)軌跡追蹤會(huì)明顯改善處理效果。
3. 展望未來(lái)
3.1 基于學(xué)習(xí)的視頻植入
從長(zhǎng)遠(yuǎn)來(lái)看,我認(rèn)為基于無(wú)監(jiān)督訓(xùn)練的深度學(xué)習(xí)處理視頻植入是一個(gè)不可否認(rèn)的趨勢(shì)。隨著海量的學(xué)習(xí)與其背后數(shù)據(jù)的不斷積累,系統(tǒng)可在不更新訓(xùn)練模型的條件下持續(xù)提高模型的識(shí)別能力,也就是我們常說(shuō)的“學(xué)無(wú)止境”?!皩W(xué)無(wú)止境”意味著持續(xù)不斷地獲得新數(shù)據(jù)與提升能力,我想無(wú)論是對(duì)技術(shù)人員還是計(jì)算機(jī)網(wǎng)絡(luò)而言,這一點(diǎn)都是十分關(guān)鍵的。
3.2 智能影像生產(chǎn)
也許大家從我的分享中感受到了視頻植入的神奇,但視頻植入是一個(gè)針對(duì)特定領(lǐng)域的問(wèn)題。我們往往關(guān)注的是如何將一個(gè)海報(bào)貼在墻上或把一個(gè)3D模型放在桌面上。如果我們將視頻植入技術(shù)發(fā)展到批量的智能影像生產(chǎn)則需要面臨更大的挑戰(zhàn),也就是借助技術(shù)實(shí)現(xiàn)更通用、精確、真實(shí)的視頻植入效果,才能收獲符合智能影像生產(chǎn)要求的產(chǎn)品。相信隨著深度學(xué)習(xí)的發(fā)展,我們期待的智能影像生產(chǎn)將獲得矚目的進(jìn)步,這也是我們與用戶(hù)共同的目標(biāo)。
隨著近年短視頻行業(yè)的蓬勃發(fā)展,除了關(guān)注長(zhǎng)視頻領(lǐng)域,我們也越來(lái)越關(guān)注包括短視頻平臺(tái)、直播平臺(tái)在內(nèi)的短視頻領(lǐng)域。我們期待利用基于視頻植入技術(shù)的原生視頻廣告將廣告主的一些想法自然添加在直播畫(huà)面里的桌面或墻上并隨著攝像機(jī)的運(yùn)動(dòng)實(shí)現(xiàn)自然變化,這種后期植入式海報(bào)是我們的優(yōu)勢(shì)產(chǎn)品之一。我相信,借助科技的力量,利用場(chǎng)景的關(guān)聯(lián)性?xún)?yōu)化廣告投放效果能讓廣告成為互聯(lián)網(wǎng)視頻的錦上之花。
-
視頻
+關(guān)注
關(guān)注
6文章
1953瀏覽量
73019 -
互聯(lián)網(wǎng)
+關(guān)注
關(guān)注
54文章
11177瀏覽量
103561
原文標(biāo)題:吉長(zhǎng)江:基于學(xué)習(xí)的視頻植入技術(shù)是未來(lái)趨勢(shì)
文章出處:【微信號(hào):livevideostack,微信公眾號(hào):LiveVideoStack】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論