国产性色αv视频免费,多人电影无码在线观看

隨著在線視頻數(shù)量的爆炸式增長(zhǎng)，想從茫茫網(wǎng)絡(luò)世界中找到自己想要的視頻可是要費(fèi)一番功夫。于是有人就想到，何不也給視頻創(chuàng)作一份摘要呢？就像書的簡(jiǎn)介一樣，觀眾只需要看看摘要，就了解視頻的大概內(nèi)容了。

這的確是個(gè)好方法，不過(guò)面對(duì)如此龐大的視頻庫(kù)，如何大批量處理它們呢？在此之前，許多研究者提出了不同的方法為視頻大規(guī)模創(chuàng)建摘要，例如循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）、長(zhǎng)短期記憶（LSTM）、雙向長(zhǎng)短期記憶網(wǎng)絡(luò)（bidirectional LSTM）和行列式點(diǎn)處理（DPP）模塊結(jié)合的方式等等。但都是需要監(jiān)督的總結(jié)方式，其中并沒(méi)有一個(gè)針對(duì)所有視頻的標(biāo)準(zhǔn)答案（ground truth）。所以仍然需要無(wú)監(jiān)督的摘要生成方式。

中科院和英國(guó)倫敦大學(xué)瑪麗女王學(xué)院的研究人員就生成視頻摘要提出了一種新方法，采用無(wú)監(jiān)督學(xué)習(xí)的方法，用深度摘要網(wǎng)絡(luò)（Deep Summarization Network，DSN）總結(jié)視頻。整個(gè)過(guò)程為連續(xù)決策過(guò)程（sequential decision-making process），DSN為編碼-解碼結(jié)構(gòu)，其中編碼器是一個(gè)能夠提取視頻幀特征的卷積神經(jīng)網(wǎng)絡(luò)，解碼器是一個(gè)雙向LSTM網(wǎng)絡(luò)，能夠基于被選中的動(dòng)作生成概率。在訓(xùn)練過(guò)程中，研究人員設(shè)計(jì)了新穎的多樣性-代表性獎(jiǎng)勵(lì)（diversity-representativeness reward）函數(shù)，可以直接判斷生成視頻摘要的多樣化和代表化。下圖是該模型學(xué)習(xí)過(guò)程的圖示：

采用無(wú)監(jiān)督學(xué)習(xí)的方法，用深度摘要網(wǎng)絡(luò)總結(jié)視頻

深度摘要網(wǎng)絡(luò)（DSN）

DSN的編碼器是一個(gè)卷積神經(jīng)網(wǎng)絡(luò)，它從輸入的長(zhǎng)度為T的視頻框架{vt}t=1T中提取視覺(jué)特征{xt}t=1T。解碼器是一個(gè)雙向循環(huán)神經(jīng)網(wǎng)絡(luò)（BiRNN），最上面是完全連接層。將提取的{xt}t=1T輸入到解碼器后，生成相應(yīng)的隱藏狀態(tài){ht}t=1T。每個(gè)ht都是前隱藏狀態(tài)htf和后隱藏狀態(tài)htb的連接。在實(shí)踐中，研究人員采用GoogLeNet當(dāng)做CNN模型，并且用LSTM訓(xùn)練提升RNN的性能。

多樣性-代表性獎(jiǎng)勵(lì)函數(shù)

在訓(xùn)練時(shí)，DSN會(huì)接收到一個(gè)獎(jiǎng)勵(lì)R(S)，來(lái)評(píng)估生成的摘要。而DSN的目標(biāo)是不斷生成高質(zhì)量的視頻摘要，讓獎(jiǎng)勵(lì)最大化。通常，高質(zhì)量的視頻摘要必須既有代表性，又豐富多彩。為了達(dá)到這一目的，研究人員提出了一種新穎的獎(jiǎng)勵(lì)方式，它由多樣性獎(jiǎng)勵(lì)Rdiv和代表性獎(jiǎng)勵(lì)Rrep組成。

在多樣性獎(jiǎng)勵(lì)中，Rdiv可以用以下公式表示：

y表示已選中的幀，d(xt,xt')是多樣化公式，如下表示：

選出的視頻幀越多樣（越不相像），agent收到的多樣性獎(jiǎng)勵(lì)越高。

而代表性獎(jiǎng)勵(lì)函數(shù)主要是測(cè)量生成的摘要是否能總結(jié)原始視頻，研究人員將其看成k中心點(diǎn)問(wèn)題，將Rrep定義為：

在這個(gè)獎(jiǎng)勵(lì)之下，agent能夠選出最接近特征空間聚類中心的幀。

最后，Rdiv和Rrep共同工作，指導(dǎo)DSN學(xué)習(xí)：

R(S)=Rdiv+Rrep

實(shí)驗(yàn)測(cè)試

該模型在SumMe和TVSum兩個(gè)數(shù)據(jù)集上進(jìn)行測(cè)試。SumMe有25個(gè)用戶視頻，涵蓋了假期和運(yùn)動(dòng)等多種話題。其中的視頻長(zhǎng)度約為1至6分鐘，都經(jīng)過(guò)了15至18人進(jìn)行標(biāo)注，所以每段視頻都有多個(gè)標(biāo)準(zhǔn)摘要（ground truth）。TVSum中有50段視頻，包括新聞、紀(jì)錄片等，長(zhǎng)度2到10分鐘不等，每段都有20人標(biāo)注。除此之外還有另外兩個(gè)數(shù)據(jù)集，OVP和YouTube，用來(lái)測(cè)試強(qiáng)化后的模型。

在進(jìn)行比較時(shí)，研究人員分了好幾種情況進(jìn)行對(duì)比：只用多樣性獎(jiǎng)勵(lì)函數(shù)進(jìn)行訓(xùn)練（用D-DSN表示）、只用代表性獎(jiǎng)勵(lì)函數(shù)進(jìn)行訓(xùn)練（用R-DSN表示）、兩種函數(shù)都有的（用DR-DSN表示）。另外，還將模型擴(kuò)展到監(jiān)督學(xué)習(xí)的實(shí)驗(yàn)中，用DR-DSNsup表示。在SumMe和TVSum上不同版本的結(jié)果如下表所示：

可以看到，DR-DSN的結(jié)果明顯優(yōu)于D-DSN和R-DSN，同時(shí)與DSNsup相比，DR-DSN的結(jié)果也非常出色。

接著，研究人員將DR-DSN與其他無(wú)監(jiān)督方法進(jìn)行比較，可以看到，DR-DSN在兩個(gè)數(shù)據(jù)集上比其它方法表現(xiàn)得都好，并且差距非常明顯。如下圖所示：

另外，在與其他監(jiān)督式方法的比較中，DR-DSNsup也是完勝：

這些結(jié)果有力地證明了DSN框架的有效性。

質(zhì)量評(píng)估

研究人員挑選了一段一個(gè)男人自制辣香腸三明治的視頻作為質(zhì)量評(píng)估的素材。

采用無(wú)監(jiān)督學(xué)習(xí)的方法，用深度摘要網(wǎng)絡(luò)總結(jié)視頻

上圖中可以看到，四種方法都生成了高質(zhì)量的視頻摘要，它們都均勻選取了視頻的每一過(guò)程。不過(guò)最接近完整故事線的是DR-DSNsup，因?yàn)樗故玖藦臏?zhǔn)備食材到制作的全過(guò)程。

接著研究人員對(duì)原始預(yù)測(cè)（raw prediction）進(jìn)行可視化，通過(guò)比較預(yù)測(cè)和原視頻，我們可以更深入地了解DSN學(xué)習(xí)的情況。

采用無(wú)監(jiān)督學(xué)習(xí)的方法，用深度摘要網(wǎng)絡(luò)總結(jié)視頻

可以看到，無(wú)監(jiān)督模型預(yù)測(cè)的重要性曲線與監(jiān)督模型預(yù)測(cè)的有幾處相似，并且這些地方與之前人們標(biāo)注認(rèn)為重要的地方相吻合。這充分表明，通過(guò)多樣性-代表性獎(jiǎng)勵(lì)函數(shù)訓(xùn)練過(guò)的強(qiáng)化學(xué)習(xí)能很好地模仿人類學(xué)習(xí)過(guò)程，并有效地教DSN認(rèn)出視頻中重要的幀。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

視頻

視頻

+關(guān)注

關(guān)注
6

文章
1968

瀏覽量
73660
DSN

DSN

+關(guān)注

關(guān)注
0

文章
8

瀏覽量
4795
無(wú)監(jiān)督學(xué)習(xí)

無(wú)監(jiān)督學(xué)習(xí)

+關(guān)注

關(guān)注
1

文章
17

瀏覽量
2810