0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

采用無(wú)監(jiān)督學(xué)習(xí)的方法,用深度摘要網(wǎng)絡(luò)總結(jié)視頻

zhKF_jqr_AI ? 2018-01-15 10:49 ? 次閱讀

隨著在線視頻數(shù)量的爆炸式增長(zhǎng),想從茫茫網(wǎng)絡(luò)世界中找到自己想要的視頻可是要費(fèi)一番功夫。于是有人就想到,何不也給視頻創(chuàng)作一份摘要呢?就像書的簡(jiǎn)介一樣,觀眾只需要看看摘要,就了解視頻的大概內(nèi)容了。

這的確是個(gè)好方法,不過(guò)面對(duì)如此龐大的視頻庫(kù),如何大批量處理它們呢?在此之前,許多研究者提出了不同的方法為視頻大規(guī)模創(chuàng)建摘要,例如循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、長(zhǎng)短期記憶(LSTM)、雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(bidirectional LSTM)和行列式點(diǎn)處理(DPP)模塊結(jié)合的方式等等。但都是需要監(jiān)督的總結(jié)方式,其中并沒(méi)有一個(gè)針對(duì)所有視頻的標(biāo)準(zhǔn)答案(ground truth)。所以仍然需要無(wú)監(jiān)督的摘要生成方式。

中科院和英國(guó)倫敦大學(xué)瑪麗女王學(xué)院的研究人員就生成視頻摘要提出了一種新方法,采用無(wú)監(jiān)督學(xué)習(xí)的方法,用深度摘要網(wǎng)絡(luò)(Deep Summarization Network,DSN)總結(jié)視頻。整個(gè)過(guò)程為連續(xù)決策過(guò)程(sequential decision-making process),DSN為編碼-解碼結(jié)構(gòu),其中編碼器是一個(gè)能夠提取視頻幀特征的卷積神經(jīng)網(wǎng)絡(luò),解碼器是一個(gè)雙向LSTM網(wǎng)絡(luò),能夠基于被選中的動(dòng)作生成概率。在訓(xùn)練過(guò)程中,研究人員設(shè)計(jì)了新穎的多樣性-代表性獎(jiǎng)勵(lì)(diversity-representativeness reward)函數(shù),可以直接判斷生成視頻摘要的多樣化和代表化。下圖是該模型學(xué)習(xí)過(guò)程的圖示:

采用無(wú)監(jiān)督學(xué)習(xí)的方法,用深度摘要網(wǎng)絡(luò)總結(jié)視頻

深度摘要網(wǎng)絡(luò)(DSN)

DSN的編碼器是一個(gè)卷積神經(jīng)網(wǎng)絡(luò),它從輸入的長(zhǎng)度為T的視頻框架{vt}t=1T中提取視覺(jué)特征{xt}t=1T。解碼器是一個(gè)雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(BiRNN),最上面是完全連接層。將提取的{xt}t=1T輸入到解碼器后,生成相應(yīng)的隱藏狀態(tài){ht}t=1T。每個(gè)ht都是前隱藏狀態(tài)htf和后隱藏狀態(tài)htb的連接。在實(shí)踐中,研究人員采用GoogLeNet當(dāng)做CNN模型,并且用LSTM訓(xùn)練提升RNN的性能。

多樣性-代表性獎(jiǎng)勵(lì)函數(shù)

在訓(xùn)練時(shí),DSN會(huì)接收到一個(gè)獎(jiǎng)勵(lì)R(S),來(lái)評(píng)估生成的摘要。而DSN的目標(biāo)是不斷生成高質(zhì)量的視頻摘要,讓獎(jiǎng)勵(lì)最大化。通常,高質(zhì)量的視頻摘要必須既有代表性,又豐富多彩。為了達(dá)到這一目的,研究人員提出了一種新穎的獎(jiǎng)勵(lì)方式,它由多樣性獎(jiǎng)勵(lì)Rdiv和代表性獎(jiǎng)勵(lì)Rrep組成。

在多樣性獎(jiǎng)勵(lì)中,Rdiv可以用以下公式表示:

y表示已選中的幀,d(xt,xt')是多樣化公式,如下表示:

選出的視頻幀越多樣(越不相像),agent收到的多樣性獎(jiǎng)勵(lì)越高。

而代表性獎(jiǎng)勵(lì)函數(shù)主要是測(cè)量生成的摘要是否能總結(jié)原始視頻,研究人員將其看成k中心點(diǎn)問(wèn)題,將Rrep定義為:

在這個(gè)獎(jiǎng)勵(lì)之下,agent能夠選出最接近特征空間聚類中心的幀。

最后,Rdiv和Rrep共同工作,指導(dǎo)DSN學(xué)習(xí):

R(S)=Rdiv+Rrep

實(shí)驗(yàn)測(cè)試

該模型在SumMe和TVSum兩個(gè)數(shù)據(jù)集上進(jìn)行測(cè)試。SumMe有25個(gè)用戶視頻,涵蓋了假期和運(yùn)動(dòng)等多種話題。其中的視頻長(zhǎng)度約為1至6分鐘,都經(jīng)過(guò)了15至18人進(jìn)行標(biāo)注,所以每段視頻都有多個(gè)標(biāo)準(zhǔn)摘要(ground truth)。TVSum中有50段視頻,包括新聞、紀(jì)錄片等,長(zhǎng)度2到10分鐘不等,每段都有20人標(biāo)注。除此之外還有另外兩個(gè)數(shù)據(jù)集,OVP和YouTube,用來(lái)測(cè)試強(qiáng)化后的模型。

在進(jìn)行比較時(shí),研究人員分了好幾種情況進(jìn)行對(duì)比:只用多樣性獎(jiǎng)勵(lì)函數(shù)進(jìn)行訓(xùn)練(用D-DSN表示)、只用代表性獎(jiǎng)勵(lì)函數(shù)進(jìn)行訓(xùn)練(用R-DSN表示)、兩種函數(shù)都有的(用DR-DSN表示)。另外,還將模型擴(kuò)展到監(jiān)督學(xué)習(xí)的實(shí)驗(yàn)中,用DR-DSNsup表示。在SumMe和TVSum上不同版本的結(jié)果如下表所示:

可以看到,DR-DSN的結(jié)果明顯優(yōu)于D-DSN和R-DSN,同時(shí)與DSNsup相比,DR-DSN的結(jié)果也非常出色。

接著,研究人員將DR-DSN與其他無(wú)監(jiān)督方法進(jìn)行比較,可以看到,DR-DSN在兩個(gè)數(shù)據(jù)集上比其它方法表現(xiàn)得都好,并且差距非常明顯。如下圖所示:

另外,在與其他監(jiān)督式方法的比較中,DR-DSNsup也是完勝:

這些結(jié)果有力地證明了DSN框架的有效性。

質(zhì)量評(píng)估

研究人員挑選了一段一個(gè)男人自制辣香腸三明治的視頻作為質(zhì)量評(píng)估的素材。

采用無(wú)監(jiān)督學(xué)習(xí)的方法,用深度摘要網(wǎng)絡(luò)總結(jié)視頻

上圖中可以看到,四種方法都生成了高質(zhì)量的視頻摘要,它們都均勻選取了視頻的每一過(guò)程。不過(guò)最接近完整故事線的是DR-DSNsup,因?yàn)樗故玖藦臏?zhǔn)備食材到制作的全過(guò)程。

接著研究人員對(duì)原始預(yù)測(cè)(raw prediction)進(jìn)行可視化,通過(guò)比較預(yù)測(cè)和原視頻,我們可以更深入地了解DSN學(xué)習(xí)的情況。

采用無(wú)監(jiān)督學(xué)習(xí)的方法,用深度摘要網(wǎng)絡(luò)總結(jié)視頻

可以看到,無(wú)監(jiān)督模型預(yù)測(cè)的重要性曲線與監(jiān)督模型預(yù)測(cè)的有幾處相似,并且這些地方與之前人們標(biāo)注認(rèn)為重要的地方相吻合。這充分表明,通過(guò)多樣性-代表性獎(jiǎng)勵(lì)函數(shù)訓(xùn)練過(guò)的強(qiáng)化學(xué)習(xí)能很好地模仿人類學(xué)習(xí)過(guò)程,并有效地教DSN認(rèn)出視頻中重要的幀。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 視頻
    +關(guān)注

    關(guān)注

    6

    文章

    1968

    瀏覽量

    73660
  • DSN
    DSN
    +關(guān)注

    關(guān)注

    0

    文章

    8

    瀏覽量

    4795
  • 無(wú)監(jiān)督學(xué)習(xí)

    關(guān)注

    1

    文章

    17

    瀏覽量

    2810

原文標(biāo)題:DSN:基于深度強(qiáng)化學(xué)習(xí),無(wú)監(jiān)督生成視頻摘要

文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 0人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    使用MATLAB進(jìn)行無(wú)監(jiān)督學(xué)習(xí)

    無(wú)監(jiān)督學(xué)習(xí)是一種根據(jù)未標(biāo)注數(shù)據(jù)進(jìn)行推斷的機(jī)器學(xué)習(xí)方法。無(wú)監(jiān)督學(xué)習(xí)旨在識(shí)別數(shù)據(jù)中隱藏的模式和關(guān)系,無(wú)需任何
    的頭像 發(fā)表于 05-16 14:48 ?537次閱讀
    使用MATLAB進(jìn)行<b class='flag-5'>無(wú)</b><b class='flag-5'>監(jiān)督學(xué)習(xí)</b>

    如何用卷積神經(jīng)網(wǎng)絡(luò)方法去解決機(jī)器監(jiān)督學(xué)習(xí)下面的分類問(wèn)題?

    人工智能下面有哪些機(jī)器學(xué)習(xí)分支?如何用卷積神經(jīng)網(wǎng)絡(luò)(CNN)方法去解決機(jī)器學(xué)習(xí)監(jiān)督學(xué)習(xí)下面的分類問(wèn)題?
    發(fā)表于 06-16 08:09

    利用機(jī)器學(xué)習(xí)來(lái)捕捉內(nèi)部漏洞的工具運(yùn)用無(wú)監(jiān)督學(xué)習(xí)方法可發(fā)現(xiàn)入侵者

    Darktrace新網(wǎng)絡(luò)安全公司與劍橋大學(xué)的數(shù)學(xué)家合作,開發(fā)了一種利用機(jī)器學(xué)習(xí)來(lái)捕捉內(nèi)部漏洞的工具。它運(yùn)用無(wú)監(jiān)督學(xué)習(xí)方法,查看大量未標(biāo)記的數(shù)據(jù),并找到不遵循典型模式的碎片。這些原始數(shù)據(jù)
    發(fā)表于 11-22 16:01 ?1319次閱讀

    你想要的機(jī)器學(xué)習(xí)課程筆記在這:主要討論監(jiān)督學(xué)習(xí)無(wú)監(jiān)督學(xué)習(xí)

    with experience E(一個(gè)程序從經(jīng)驗(yàn)E中學(xué)習(xí)解決任務(wù)T進(jìn)行某一任務(wù)量度P,通過(guò)P測(cè)量在T的表現(xiàn)而提高經(jīng)驗(yàn)E(另一種定義:機(jī)器學(xué)習(xí)數(shù)據(jù)或以往的經(jīng)驗(yàn),以此優(yōu)化計(jì)算機(jī)程序的性能標(biāo)準(zhǔn)。) 不同類型的機(jī)器
    發(fā)表于 12-03 17:12 ?677次閱讀

    如何用Python進(jìn)行無(wú)監(jiān)督學(xué)習(xí)

    無(wú)監(jiān)督學(xué)習(xí)是一種用于在數(shù)據(jù)中查找模式的機(jī)器學(xué)習(xí)技術(shù)。無(wú)監(jiān)督算法給出的數(shù)據(jù)不帶標(biāo)記,只給出輸入變量(X),沒(méi)有相應(yīng)的輸出變量。在
    的頭像 發(fā)表于 01-21 17:23 ?4552次閱讀

    機(jī)器學(xué)習(xí)算法中有監(jiān)督無(wú)監(jiān)督學(xué)習(xí)的區(qū)別

    無(wú)監(jiān)督學(xué)習(xí)的好處之一是,它不需要監(jiān)督學(xué)習(xí)必須經(jīng)歷的費(fèi)力的數(shù)據(jù)標(biāo)記過(guò)程。但是,要權(quán)衡的是,評(píng)估其性能的有效性也非常困難。相反,通過(guò)將監(jiān)督學(xué)習(xí)算法的輸出與測(cè)試數(shù)據(jù)的實(shí)際標(biāo)簽進(jìn)行比較,可以很
    的頭像 發(fā)表于 07-07 10:18 ?6013次閱讀

    最基礎(chǔ)的半監(jiān)督學(xué)習(xí)

    標(biāo)記數(shù)據(jù)訓(xùn)練的監(jiān)督學(xué)習(xí)技術(shù)得到更好的結(jié)果。這是半監(jiān)督學(xué)習(xí)系列文章的第1部分,對(duì)這個(gè)機(jī)器學(xué)習(xí)的重要子領(lǐng)域進(jìn)行了簡(jiǎn)要的介紹。 區(qū)分半監(jiān)督學(xué)習(xí)監(jiān)督學(xué)習(xí)
    的頭像 發(fā)表于 11-02 16:08 ?2862次閱讀

    監(jiān)督學(xué)習(xí)最基礎(chǔ)的3個(gè)概念

    導(dǎo)讀 今天給大家介紹半監(jiān)督學(xué)習(xí)中的3個(gè)最基礎(chǔ)的概念:一致性正則化,熵最小化和偽標(biāo)簽,并介紹了兩個(gè)經(jīng)典的半監(jiān)督學(xué)習(xí)方法。 沒(méi)看一的點(diǎn)這里哈:半監(jiān)督學(xué)習(xí)入門基礎(chǔ)(一) 半監(jiān)督學(xué)習(xí) (SSL
    的頭像 發(fā)表于 11-02 16:14 ?3207次閱讀
    半<b class='flag-5'>監(jiān)督學(xué)習(xí)</b>最基礎(chǔ)的3個(gè)概念

    為什么半監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)的未來(lái)?

    為什么半監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)的未來(lái)。 監(jiān)督學(xué)習(xí)是人工智能領(lǐng)域的第一種學(xué)習(xí)類型。從它的概念開始,無(wú)數(shù)的算法,從簡(jiǎn)單的邏輯回歸到大規(guī)模的神經(jīng)網(wǎng)絡(luò),
    的頭像 發(fā)表于 11-27 10:42 ?4092次閱讀

    監(jiān)督學(xué)習(xí):比監(jiān)督學(xué)習(xí)做的更好

    監(jiān)督學(xué)習(xí)是人工智能領(lǐng)域的第一種學(xué)習(xí)類型。從它的概念開始,無(wú)數(shù)的算法,從簡(jiǎn)單的邏輯回歸到大規(guī)模的神經(jīng)網(wǎng)絡(luò),都已經(jīng)被研究用來(lái)提高精...
    的頭像 發(fā)表于 12-08 23:32 ?1645次閱讀

    分析總結(jié)基于深度神經(jīng)網(wǎng)絡(luò)的圖像語(yǔ)義分割方法

    隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展及其在語(yǔ)義分割領(lǐng)域的廣泛應(yīng)用,語(yǔ)義分割效果得到顯著提升。對(duì)基于深度神經(jīng)網(wǎng)絡(luò)的圖像語(yǔ)義分割方法進(jìn)行分析與
    發(fā)表于 03-19 14:14 ?21次下載
    分析<b class='flag-5'>總結(jié)</b>基于<b class='flag-5'>深度</b>神經(jīng)<b class='flag-5'>網(wǎng)絡(luò)</b>的圖像語(yǔ)義分割<b class='flag-5'>方法</b>

    機(jī)器學(xué)習(xí)中的無(wú)監(jiān)督學(xué)習(xí)應(yīng)用在哪些領(lǐng)域

    監(jiān)督學(xué)習(xí)|機(jī)器學(xué)習(xí)| 集成學(xué)習(xí)|進(jìn)化計(jì)算| 非監(jiān)督學(xué)習(xí)| 半監(jiān)督學(xué)習(xí)| 自監(jiān)督學(xué)習(xí)|?
    發(fā)表于 01-20 10:52 ?5180次閱讀
    機(jī)器<b class='flag-5'>學(xué)習(xí)</b>中的<b class='flag-5'>無(wú)</b><b class='flag-5'>監(jiān)督學(xué)習(xí)</b>應(yīng)用在哪些領(lǐng)域

    深度學(xué)習(xí)框架和深度學(xué)習(xí)算法教程

    基于神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)方法。 深度學(xué)習(xí)算法可以分為兩大類:監(jiān)督學(xué)習(xí)無(wú)
    的頭像 發(fā)表于 08-17 16:11 ?1361次閱讀

    深度學(xué)習(xí)的由來(lái) 深度學(xué)習(xí)的經(jīng)典算法有哪些

    深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)的一個(gè)分支,其學(xué)習(xí)方法可以分為監(jiān)督學(xué)習(xí)無(wú)
    發(fā)表于 10-09 10:23 ?728次閱讀
    <b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>的由來(lái) <b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>的經(jīng)典算法有哪些

    深度學(xué)習(xí)中的無(wú)監(jiān)督學(xué)習(xí)方法綜述

    應(yīng)用中往往難以實(shí)現(xiàn)。因此,無(wú)監(jiān)督學(xué)習(xí)深度學(xué)習(xí)中扮演著越來(lái)越重要的角色。本文旨在綜述深度學(xué)習(xí)中的
    的頭像 發(fā)表于 07-09 10:50 ?1506次閱讀

    電子發(fā)燒友

    中國(guó)電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會(huì)員交流學(xué)習(xí)
    • 獲取您個(gè)性化的科技前沿技術(shù)信息
    • 參加活動(dòng)獲取豐厚的禮品