0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種用深度學(xué)習(xí)框架對(duì)普通視頻進(jìn)行流暢穩(wěn)定的慢動(dòng)作回放的技術(shù)

zhKF_jqr_AI ? 來(lái)源:未知 ? 作者:李倩 ? 2018-06-21 10:14 ? 次閱讀

編者按:生活中總有許多特殊時(shí)刻值得被記錄,而慢動(dòng)作回放能讓你看得更清晰,比如寶寶第一次蹣跚學(xué)步、第一次完成了酷炫的滑板技巧等。但是這些時(shí)刻無(wú)法預(yù)料,大多都是用手機(jī)或普通相機(jī)拍攝的視頻,其中的幀率對(duì)慢回放并不友好。在這篇論文中,英偉達(dá)AI團(tuán)隊(duì)提出了一種用深度學(xué)習(xí)框架對(duì)普通視頻進(jìn)行流暢穩(wěn)定的慢動(dòng)作回放的技術(shù)。以下是論智的編譯。

大多數(shù)高端單反相機(jī)和智能手機(jī)都能拍攝慢動(dòng)作,但是這項(xiàng)技術(shù)并未普及,因?yàn)檫@一過(guò)程需要大量數(shù)據(jù)。例如,索尼Xperia XZ2手機(jī)的Super Slow Motion模式可以每秒拍攝960幀的視頻,是默認(rèn)的30fps捕捉數(shù)據(jù)的32倍。這不僅需要大量?jī)?nèi)存,還要有高性能處理器對(duì)每一幀畫面進(jìn)行處理。

最近,英偉達(dá)推出了一種新算法,可以將原視頻進(jìn)行慢放處理。該論文將在本周的CVPR 2018上進(jìn)行展示。與傳統(tǒng)的使用時(shí)間拉伸幀來(lái)填補(bǔ)鏡頭間隙的慢動(dòng)作技術(shù)不同,英偉達(dá)團(tuán)隊(duì)用的是機(jī)器學(xué)習(xí)來(lái)進(jìn)行慢動(dòng)作處理,看起來(lái)像是出現(xiàn)了新的幀。

來(lái)自英偉達(dá)、馬薩諸塞大學(xué)阿默斯特分校和加利福尼亞大學(xué)默塞德分校的科學(xué)家們提出了一種無(wú)監(jiān)督的端到端神經(jīng)網(wǎng)絡(luò),它可以生成任意數(shù)量的中間幀,從而輸出非常流暢的慢動(dòng)作鏡頭。這項(xiàng)技術(shù)被稱為“可變長(zhǎng)度多幀插值(variable-length multi-frame interpolation)”。論智將論文大致編譯如下。

視頻插值問(wèn)題向來(lái)富有挑戰(zhàn)性,因?yàn)樗枰啥鄠€(gè)視頻中間幀,保證在空間和時(shí)間上的連貫性。例如,從標(biāo)準(zhǔn)的序列(30fps)中生成240fps的視頻,就需要在每?jī)蓚€(gè)幀之間插入七個(gè)中間幀。為了生成高質(zhì)量的插入結(jié)果,不僅僅需要正確理解兩張輸入圖像之間的動(dòng)作,還要掌握?qǐng)D像之間的遮擋,否則就會(huì)造成失真效果。

目前技術(shù)的主要關(guān)注點(diǎn)都在單幀視頻插值上,但是這些方法不能直接用于生成任意高幀率的視頻。在這篇論文中,科學(xué)家們提出了一種高質(zhì)量的“可變長(zhǎng)度多幀插值”方法,它可以在任意時(shí)間在兩幀之間插入中間幀。這種方法的主要原理是將兩個(gè)輸入圖片扭曲到同一時(shí)間點(diǎn),然后進(jìn)行適應(yīng)調(diào)整后將兩張圖像結(jié)合生成一個(gè)中間圖像,其中的運(yùn)動(dòng)軌跡和遮擋推理都在單一的端到端網(wǎng)絡(luò)中進(jìn)行建模。

Super SloMo

首先用其中一個(gè)光流計(jì)算卷積神經(jīng)網(wǎng)絡(luò)估算兩張輸入圖片之間的光流(場(chǎng)景中目標(biāo)物體、表面和邊緣運(yùn)動(dòng)的軌跡),在兩個(gè)輸入幀之間的時(shí)間線上同時(shí)計(jì)算向前和向后的光流。

中間光流估算的過(guò)程。橙色的像素參考的是第一和第二張圖片的相同位置的像素光流

之后,CNN會(huì)預(yù)測(cè)像素的移動(dòng)軌跡,為每一幀生成一個(gè)2D的預(yù)測(cè)軌跡作為光流場(chǎng)(flow field),之后它會(huì)融合在一起,為中間幀計(jì)算大概的光流場(chǎng)。這一估計(jì)過(guò)程在平滑的區(qū)域表現(xiàn)得很好,但是遇到邊界線時(shí)性能有所下降。

于是,研究人員們用另一個(gè)光流插值CNN調(diào)整之前計(jì)算出的光流場(chǎng),并將預(yù)測(cè)路線進(jìn)行可視化。通過(guò)將可視化線路應(yīng)用到兩圖像上,研究人員可以刪除被視頻中物體遮擋住的像素,并且還可以減少軌跡上以及周圍的“人工痕跡”。

可視化線路的預(yù)測(cè)

最后,中間光流場(chǎng)對(duì)兩圖片進(jìn)行扭曲,以讓幀的過(guò)度更加平滑流暢。由于這兩個(gè)CNN的參數(shù)在每個(gè)被插入的時(shí)間點(diǎn)是不同的,這一方法可以同時(shí)生成任意多的中間幀。整個(gè)網(wǎng)絡(luò)過(guò)程如下圖所示:

對(duì)于光流計(jì)算和光流插值CNN,研究人員使用的是U-Net結(jié)構(gòu)。U-Net是完全卷積神經(jīng)網(wǎng)絡(luò),它包含一個(gè)編碼器和一個(gè)解碼器。

訓(xùn)練

接著,研究人員從YouTube和攝像機(jī)中選取了一些240fps的視頻,其中包括The Slow Mo Guys(一個(gè)總共有11000個(gè)視頻的資料庫(kù))的剪輯片段,最終得到了1132段視頻片段和37.6萬(wàn)個(gè)獨(dú)立的視頻幀數(shù)。在設(shè)備方面,他們用的是英偉達(dá)Tesla V100 GPU和經(jīng)過(guò)cuDNN加速的PyTorch深度學(xué)習(xí)框架進(jìn)行訓(xùn)練。

最后的結(jié)果對(duì)比非常明顯,在下面這個(gè)從UCF101中截取的視頻片段中可以看到本文提出的方法和當(dāng)前其他方法的對(duì)比:

可以看到,英偉達(dá)的方法在眉毛和眉刷周圍都沒(méi)有什么失真的畫面,非常清晰。

結(jié)語(yǔ)

研究人員認(rèn)為,他們的方法在所有數(shù)據(jù)集上都達(dá)到了頂尖效果,生成了單一或多個(gè)中間幀。并且這一模型不用更改設(shè)置就能直接應(yīng)用到不同場(chǎng)景上,這一點(diǎn)是很了不起的。

但是據(jù)英偉達(dá)方面的消息,這一技術(shù)目前仍需要優(yōu)化改進(jìn),投入到現(xiàn)實(shí)中仍需要解決很多問(wèn)題。研究人員表示,他們希望未來(lái)如果在消費(fèi)者設(shè)備和軟件商使用時(shí),大部分處理過(guò)程能在云端完成。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4798

    瀏覽量

    102472
  • 視頻
    +關(guān)注

    關(guān)注

    6

    文章

    1967

    瀏覽量

    73614
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5549

    瀏覽量

    122360

原文標(biāo)題:CVPR 2018:英偉達(dá)用深度學(xué)習(xí)實(shí)現(xiàn)任意視頻的完美慢鏡頭回放

文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    Nanopi深度學(xué)習(xí)之路(1)深度學(xué)習(xí)框架分析

    的初學(xué)者。日記目標(biāo)是構(gòu)建深度學(xué)習(xí)環(huán)境,使用的是TensorFlow后端的Keras,Keras 是個(gè) Python 編寫的高級(jí)神經(jīng)網(wǎng)絡(luò) API,它能夠以 TensorFlow, C
    發(fā)表于 06-04 22:32

    【NanoPi K1 Plus試用體驗(yàn)】搭建深度學(xué)習(xí)框架

    Keras。 Keras是一種高度模塊化,使用簡(jiǎn)單上手快,合適深度學(xué)習(xí)初學(xué)者使用的深度學(xué)習(xí)框架。
    發(fā)表于 07-17 11:40

    一種基于圖像平移的目標(biāo)檢測(cè)框架

    1、摘要近年來(lái),在深度卷積神經(jīng)網(wǎng)絡(luò)(CNNs)的幫助下,圖像和視頻監(jiān)控在智能交通系統(tǒng)(ITS)中取得了長(zhǎng)足的進(jìn)展。作為一種先進(jìn)的感知方法,智能交通系統(tǒng)對(duì)視頻監(jiān)控中每
    發(fā)表于 08-31 07:43

    在RK3399開(kāi)發(fā)板上如何去實(shí)現(xiàn)一種人工智能深度學(xué)習(xí)框架

    在RK3399開(kāi)發(fā)板上如何去實(shí)現(xiàn)一種人工智能深度學(xué)習(xí)框架呢?
    發(fā)表于 03-07 07:00

    什么是深度學(xué)習(xí)?使用FPGA進(jìn)行深度學(xué)習(xí)的好處?

    什么是深度學(xué)習(xí)為了解釋深度學(xué)習(xí),有必要了解神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)是一種模擬人腦的神經(jīng)元和神經(jīng)網(wǎng)絡(luò)的計(jì)算模型。作為具體示例,讓我們考慮
    發(fā)表于 02-17 16:56

    基于視頻深度學(xué)習(xí)的時(shí)空雙流人物動(dòng)作識(shí)別模型

    深度學(xué)習(xí)被運(yùn)用于圖片分類、人物臉部識(shí)別和人物位置預(yù)測(cè)等識(shí)別領(lǐng)域。視頻人物動(dòng)作識(shí)別可看作隨時(shí)間變化圖片的分類問(wèn)題,所以圖片識(shí)別的深度
    發(fā)表于 04-17 10:46 ?0次下載
    基于<b class='flag-5'>視頻</b><b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>的時(shí)空雙流人物<b class='flag-5'>動(dòng)作</b>識(shí)別模型

    一種用于交通流預(yù)測(cè)的深度學(xué)習(xí)框架

    學(xué)習(xí)框架。方面,針對(duì)道路網(wǎng)絡(luò)非歐氏的空間關(guān)聯(lián)以及交通流時(shí)序數(shù)據(jù)的時(shí)間關(guān)聯(lián),設(shè)計(jì)了一種融合圖卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的特征抽取子網(wǎng)絡(luò);另
    發(fā)表于 04-14 15:54 ?3次下載
    <b class='flag-5'>一種</b>用于交通流預(yù)測(cè)的<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>框架</b>

    深度學(xué)習(xí)框架pytorch入門與實(shí)踐

    深度學(xué)習(xí)框架pytorch入門與實(shí)踐 深度學(xué)習(xí)是機(jī)器學(xué)習(xí)中的
    的頭像 發(fā)表于 08-17 16:03 ?1803次閱讀

    深度學(xué)習(xí)框架是什么?深度學(xué)習(xí)框架有哪些?

    深度學(xué)習(xí)框架是什么?深度學(xué)習(xí)框架有哪些?? 深度
    的頭像 發(fā)表于 08-17 16:03 ?3233次閱讀

    深度學(xué)習(xí)框架區(qū)分訓(xùn)練還是推理嗎

    深度學(xué)習(xí)框架區(qū)分訓(xùn)練還是推理嗎 深度學(xué)習(xí)框架個(gè)非
    的頭像 發(fā)表于 08-17 16:03 ?1630次閱讀

    深度學(xué)習(xí)框架的作用是什么

    深度學(xué)習(xí)框架的作用是什么 深度學(xué)習(xí)一種計(jì)算機(jī)技術(shù)
    的頭像 發(fā)表于 08-17 16:10 ?1851次閱讀

    深度學(xué)習(xí)算法庫(kù)框架學(xué)習(xí)

    深度學(xué)習(xí)算法庫(kù)框架學(xué)習(xí) 深度學(xué)習(xí)一種非常強(qiáng)大的機(jī)器
    的頭像 發(fā)表于 08-17 16:11 ?902次閱讀

    深度學(xué)習(xí)框架對(duì)照表

    深度學(xué)習(xí)框架對(duì)照表? 隨著人工智能技術(shù)的發(fā)展,深度學(xué)習(xí)正在成為當(dāng)今最熱門的研究領(lǐng)域之
    的頭像 發(fā)表于 08-17 16:11 ?979次閱讀

    深度學(xué)習(xí)框架連接技術(shù)

    深度學(xué)習(xí)框架連接技術(shù) 深度學(xué)習(xí)框架
    的頭像 發(fā)表于 08-17 16:11 ?961次閱讀

    深度學(xué)習(xí)框架深度學(xué)習(xí)算法教程

    深度學(xué)習(xí)框架深度學(xué)習(xí)算法教程 深度學(xué)習(xí)是機(jī)器
    的頭像 發(fā)表于 08-17 16:11 ?1309次閱讀