麻婆传媒剧国产剧情mv,污香蕉视频在线观看,亚洲av少妇熟女猛男

相比圖像，視頻多了一維時(shí)序信息。如何利用好視頻中的時(shí)序信息是研究這類方法的關(guān)鍵。視頻理解可以用于多個(gè)領(lǐng)域，例如在智能安防領(lǐng)域中可以取代人工來對監(jiān)控視頻進(jìn)行分析。本文簡要回顧視頻理解方面的近年進(jìn)展，并對未來可能的研究方向作一展望。

常用數(shù)據(jù)集

視頻分類主要有兩種數(shù)據(jù)集，剪輯過(trimmed)的視頻和未經(jīng)剪輯的視頻。剪輯的視頻中包含一段明確的動作，時(shí)間較短標(biāo)記唯一，而未剪輯的視頻還包含了很多無用信息。如果直接對未剪輯的視頻進(jìn)行處理是未來的一大研究方向。

HMDB-51：6,766視頻，51類。剪輯的視頻，每個(gè)視頻不超過10秒。內(nèi)容包括人面部、肢體、和物體交互的動作等。

UCF-101：13,320視頻，101類，共27小時(shí)。剪輯的視頻，每個(gè)視頻不超過10秒。內(nèi)容包含化妝刷牙、爬行、理發(fā)、彈奏樂器、體育運(yùn)動等。

Charades：9.848視頻(7,985訓(xùn)練，1,863測試)，157類。未剪輯的視頻，每個(gè)視頻大約30秒。每個(gè)視頻有多個(gè)標(biāo)記，以及每個(gè)動作的開始和結(jié)束時(shí)間。

Sports-1M：1,100,000視頻(70%訓(xùn)練、20%驗(yàn)證、10%測試)，487類，內(nèi)容包含各種體育運(yùn)動。

Ac tivityNet (v1.3)：19,994視頻(10,024訓(xùn)練，4,926驗(yàn)證，5,044測試)，200類，共700小時(shí)。內(nèi)容包括飲食、運(yùn)動、家庭活動等。

Kinetics：246k訓(xùn)練視頻，20k驗(yàn)證視頻，400類。

G. A. Sigurdsson, et al. What actions are needed for understanding human actions in videos? ICCV'17.

相比圖像分類，視頻的類別/動作數(shù)目要少很多，而且常常有一定歧義，例如take和put要和后面名詞結(jié)合才會有具體含義(如take medication, take shoes, take off shoes)。Sigurdsson等人發(fā)現(xiàn)人類對這些動詞也容易感到混淆。另外，視頻中動作開始和結(jié)束的時(shí)間也不夠明確。

經(jīng)典方法

H. Wang, et al. Dense trajectories and motion boundary descriptors for action recognition. IJCV'13.

H. Wang and C. Schmid. Action recognition with improved trajectories. ICCV'13.

Wang等人提出DT和iDT方法。DT利用光流得到視頻中的運(yùn)動軌跡，再沿著軌跡提取特征。iDT對相機(jī)運(yùn)動進(jìn)行了補(bǔ)償，同時(shí)由于人的運(yùn)動比較顯著，iDT用額外的檢測器檢測人，以去除人對相鄰幀之間投影矩陣估計(jì)的影響。這是深度學(xué)習(xí)方法成熟之前效果最好的經(jīng)典方法，該方法的弊端是特征維度高(特征比原始視頻還要大)、速度慢。實(shí)踐中，早期的深度學(xué)習(xí)方法在和iDT結(jié)合之后仍能取得一定的效果提升，現(xiàn)在深度學(xué)習(xí)方法的性能已較iDT有大幅提升，因此iDT漸漸淡出視線。

逐幀處理融合

這類方法把視頻看作一系列圖像的集合，每幀圖像單獨(dú)提取特征，再融合它們的深度特征。

A. Karpathy, et al. Large-scale video classification with convolutional neural networks. CVPR'14.

Karpathy等人把視頻劃分成很多固定長度的片段(clip)，并設(shè)計(jì)了多種融合方法。

Single frame. 逐幀單獨(dú)前饋網(wǎng)絡(luò)。

Late fusion. 兩幀相距15幀的圖像分別前饋網(wǎng)絡(luò)，并融合它們的深度卷積特征。

Early fusion. 連續(xù)10幀圖像前饋網(wǎng)絡(luò)，因此網(wǎng)絡(luò)第一層的卷積核由11×11×3變?yōu)?1×11×3×10。Early fusion的思路最早由Le等人提出。

Le, et al. Learning hierarchical invariant spatio-temporal features for action recognition with independent subspace analysis. CVPR'11.

Slow fusion. 即使用3D卷積。連續(xù)10幀圖像前饋網(wǎng)絡(luò)，第一層卷積核時(shí)間方向大小為4，第二、三層卷積核時(shí)間方向大小為2。

此外，為了加速訓(xùn)練，由于目標(biāo)通常位于圖像中心，Karpathy等人使用了一個(gè)兩分支網(wǎng)絡(luò)：一個(gè)分支輸入空間大小下采樣減半的圖像，另一個(gè)分支輸入原圖中心裁剪后的圖像。這樣，總體的輸入圖像維數(shù)只有原圖的一半。這兩個(gè)分支的深度卷積特征拼接(concatenate)起來給全連接層進(jìn)行分類。

實(shí)驗(yàn)發(fā)現(xiàn)，3D卷積的融合效果最好，而不考慮運(yùn)動信息的single frame策略已經(jīng)是十分強(qiáng)的baseline。Early fusion策略效果最差的原因可能是直接從輸入圖像上捕獲運(yùn)動信息難度太大。

J. Y.-H. Ng, et al. Beyond short snippets: Deep networks for video classification. CVPR'15.

Ng等人先提取每一幀的深度卷積特征，再設(shè)計(jì)特征融合方法得到最終輸出。其中，紫色代表沿時(shí)間方向進(jìn)行最大匯合(max-pooling)，黃色代表全連接層，綠色代表3*3*10，stride 5的3D卷積，紅色代表softmax輸出。相比Karpathy等人，Ng等人的輸入視頻片段的長度更長(每秒采樣1幀，一個(gè)片段由120幀構(gòu)成)，包含了更多的時(shí)序信息。實(shí)踐中發(fā)現(xiàn)(a)的效果最好。

B. Fernando and S. Gould. Learning end-to-end video classification with rank-pooling. ICML'16.

在得到每幀圖像的深度卷積特征vt之后，F(xiàn)ernando和Gould通過解如下的優(yōu)化問題來對特征進(jìn)行排序匯合(rank-pooling)。其動機(jī)是靠前的幀要小一些，而靠后的幀大一些。

X.-S. Wei, et al. Deep bimodal regression of apparent personality traits from short video sequences. TAC'17.

由于相鄰幀信息冗余度很高，Wei等人從視頻(450幀)中采樣100幀，每幀交由DAN分別進(jìn)行預(yù)測。在得到relu5-2/pool5深度特征之后，DAN將其全局最大/平均匯合以得到深度特征。

A. Kar, et al. AdaScan: Adaptive scan pooling in deep convolutional neural networks for human action recognition in videos. CVPR'17.

由于不同幀的重要性不同，Kar等人提出AdaScan匯合方法。其逐幀提取特征，之后判斷不同幀的重要程度，并據(jù)此進(jìn)行特征匯合。

M. Zolfaghari, et al. ECO: Efficient Convolutional network for Online video understanding. arXiv:1804.09066.

Zolfaghari等人提出ECO。由于相鄰幀有信息冗余，ECO從視頻中采樣若干幀，每幀單獨(dú)用2D卷積提取特征，之后沿時(shí)間方向拼接特征，再用3D卷積捕獲它們的時(shí)序關(guān)系。ECO和state-of-the-art方法性能相似，但速度上快了10-80倍。在測試時(shí)，為了捕獲長距離依賴，輸入視頻片段由已看過的和未看過的視頻中采樣得到。

ConvLSTM

這類方法是用CNN提取每幀圖像的特征，之后用LSTM挖掘它們之間的時(shí)序關(guān)系。

J. Y.-H. Ng, et al. Beyond short snippets: Deep networks for video classification. CVPR'15.

J. Donahue, et al. Long-term recurrent convolutional networks for visual recognition and description. CVPR'15.

Ng等人在深度特征上，用5層隱層結(jié)點(diǎn)數(shù)512的LSTM來提取深度特征，每個(gè)時(shí)刻都進(jìn)行輸出。訓(xùn)練時(shí)，一個(gè)片段從第1幀到最后一幀輸出層獲得的梯度分別乘以0.0-1.0的權(quán)重，用以強(qiáng)調(diào)后面幀的重要性。測試時(shí)，計(jì)算這些幀輸出的加權(quán)和。Donahue等人也提出了類似的工作。此外，Ng等人和Donahue等人還利用了光流輸入。把x、y兩個(gè)方向的光流縮放到[0, 255]作為光流圖像前兩個(gè)通道，把光流的大小作為第三個(gè)通道。

W. Du, et al. RPAN: An end-to-end recurrent pose-attention network for action recognition in videos. ICCV'17.

Du等人利用人體姿態(tài)估計(jì)輔助動作識別。

3D卷積

把視頻劃分成很多固定長度的片段(clip)，相比2D卷積，3D卷積可以提取連續(xù)幀之間的運(yùn)動信息。

在視頻動作識別中最早提出3D卷積的是

M. Baccouche, et al. Sequential deep learning for human action recognition. HBU Workshop'11.

S. Ji, et al. 3D convolutional neural networks for human action recognition. TPAMI'13.

Baccouche等人使用第一層卷積核時(shí)間方向大小為5。Ji等人使用第一、二層卷積核時(shí)間方向大小為3，第三層卷積時(shí)由于時(shí)間維度大小很小，所以采用2D卷積。

此外，為使網(wǎng)絡(luò)獲得更多先驗(yàn)信息，Ji等人使用了兩個(gè)技巧：(1). 同時(shí)使用原始圖像、圖像梯度、和相鄰幀光流作為輸入。(2). 讓網(wǎng)絡(luò)額外地學(xué)習(xí)運(yùn)動信息接近手工運(yùn)動特征。

D. Tran, et al. Learning spatio-temporal features with 3D convolutional networks. ICCV'15.

Tran等人提出C3D，其將3×3卷積擴(kuò)展到3×3×3卷積，2×2匯合擴(kuò)展到2×2×2匯合。輸入片段16幀。實(shí)驗(yàn)中發(fā)現(xiàn)，時(shí)域方向卷積核大小為3效果最好。相比2D CNN，3D CNN的參數(shù)量很大，訓(xùn)練變得更困難，且需要更多的訓(xùn)練數(shù)據(jù)。相比其他類型的方法，C3D一次處理多幀，所以計(jì)算效率很高。

L. Sun, et al. Human action recognition using factorized spatio-temporal convolutional networks. ICCV'15.

Sun等人把3D卷積分解為空間方向2D卷積和時(shí)間方向1D卷積。

J. Carreira and A. Zisserman. Quo vadis, action recognition? A new model and the Kinetics dataset. CVPR'17.

Carreira和Zisserman提出I3D，把two-stream結(jié)構(gòu)中的2D卷積擴(kuò)展為3D卷積。由于時(shí)間維度不能縮減過快，前兩個(gè)匯合層的卷積核大小是1×2×2，最后的匯合層的卷積核大小是2*7*7。和之前文章不同的是，two-tream的兩個(gè)分支是單獨(dú)訓(xùn)練的，測試時(shí)融合它們的預(yù)測結(jié)果。

Z. Qiu, et al. Learning spatio-temporal representation with pseudo-3D residual networks. ICCV'17.

Qiu等人提出P3D，用一個(gè)1×3×3的空間方向卷積和一個(gè)3×1×1的時(shí)間方向卷積近似原3×3×3卷積。通過組合三種不同的模塊結(jié)構(gòu)，進(jìn)而得到P3D ResNet。P3D ResNet在參數(shù)數(shù)量、運(yùn)行速度等方面對C3D作出了優(yōu)化。

D. Tran, et al. A closer look at spatio-temporal convolutions for action recognition. CVPR'18.

Tran等人提出ResNet (2+1)D，把一個(gè)3D卷積分解成為一個(gè)2D卷積空間卷積和一個(gè)1D時(shí)間卷積，注意這里的參數(shù)量和原3D卷積相同。相比P3D有三種形式，(2+1)D和P3D-A最接近。

C. Lea, et al. Temporal convolutional networks for action segmentation and detection. CVPR'17.

受WaveNet啟發(fā)，Lea等人提出一個(gè)編碼-解碼網(wǎng)絡(luò)，并使用空洞卷積和短路連接，以捕獲長距離依賴。實(shí)驗(yàn)中發(fā)現(xiàn)，這種結(jié)構(gòu)效果優(yōu)于RNN。

L. Wang, et al. Appearance-and-relation networks for video classfication. CVPR'18.

Wang等人希望利用3D卷積顯式地學(xué)習(xí)類似two-stream的結(jié)構(gòu)。Wang等人通過不同幀之間的乘性關(guān)系度量不同幀之間的關(guān)系。

K. Hara, et al. Can spatio-temporal 3D CNNs retrace the history of 2D CNNs and ImageNet? CVPR'18.

Hara等人嘗試了多種3D網(wǎng)絡(luò)結(jié)構(gòu)。

X. Wang, et al. Non-local neural networks. CVPR'18.

可以看作是3D卷積的一個(gè)擴(kuò)展。3D卷積的感受野是有限區(qū)域，而non-local旨在解決長距離依賴問題。Non-local的響應(yīng)是所有空間和時(shí)間位置特征的加權(quán)平均

其中，用于度量相似性，計(jì)算響應(yīng)，用于歸一化。當(dāng)時(shí)，non-local操作退化為全連接層；當(dāng)時(shí)，non-local操作退化為self-attention。實(shí)驗(yàn)中發(fā)現(xiàn)non-local block加在底層比加在高層效果要好，加多個(gè)non-local blocks會有效果提升但不是很明顯。

這類方法的弊端是只能考慮比較短的時(shí)間片段的運(yùn)動信息，參數(shù)量？

Two-stream

K. Simonyan and A. Zisserman. Two-stream convolutional networks for action recognition in videos. NIPS'14.

采用兩個(gè)分支。一個(gè)分支輸入單幀圖像，用于提取圖像信息，即在做圖像分類。另一個(gè)分支輸入連續(xù)10幀的光流(optical flow)運(yùn)動場，用于提取幀之間的運(yùn)動信息。由于一個(gè)視頻片段中的光流可能會沿某個(gè)特別方向位移的支配，所以在訓(xùn)練時(shí)光流減去所有光流向量的平均值。兩個(gè)分支網(wǎng)絡(luò)結(jié)構(gòu)相同，分別用softmax進(jìn)行預(yù)測，最后用直接平均或SVM兩種方式融合兩分支結(jié)果。

此外，為了加速訓(xùn)練，Simonyan和Zisserman預(yù)先計(jì)算出光流并保存到硬盤中。為了減小存儲大小，他們將光流縮放到[0, 255]后用JPEG壓縮，這會使UCF101的光流數(shù)據(jù)大小由1.5TB減小到27GB。

L. Wang, et al. Action recognition with trajectory-pooled deep-convolutional descriptors. CVPR'15.

Wang等人結(jié)合了經(jīng)典iDT手工特征和two-stream深度特征，提出TDD。經(jīng)典手工特征計(jì)算時(shí)通常分兩步：檢測圖像中顯著和有信息量的區(qū)域，并在運(yùn)動顯著的區(qū)域提取特征。TDD將預(yù)訓(xùn)練的two-stream網(wǎng)絡(luò)當(dāng)作固定的特征提取器。得到兩者特征之后，TDD使用時(shí)空規(guī)范化以保證每個(gè)通道的數(shù)值范圍近似一致，使用通道規(guī)范化以保證每個(gè)時(shí)空位置的描述向量的數(shù)值范圍近似一致，之后用trajectory pooling并用Fisher向量構(gòu)建TDD特征，最后用SVM分類。

C. Feichtenhofer, et al. Convolutional two-stream network fusion for video action recognition. CVPR'16.

Feichtenhofer等人研究如何融合兩分支的深度卷積特征。他們發(fā)現(xiàn)級聯(lián)兩個(gè)特征到2D維再用1×1卷積到D維的融合方法效果最好，之后再經(jīng)過3D卷積和3D匯合后輸出。

C. Feichtenhofer, et al. Spatio-temporal residual networks for video action recognition. NIPS'16.

Feichtenhofer將ResNet作為two-stream的基礎(chǔ)網(wǎng)絡(luò)架構(gòu)，用預(yù)訓(xùn)練網(wǎng)絡(luò)的權(quán)重初始化新的3D網(wǎng)絡(luò)：w(d, t, i, j)=w(d, i, j)/T。此外，有從光流分支到圖像分支的信息傳遞。此外，網(wǎng)絡(luò)輸入不是連續(xù)的，而是步長5到15幀。

L. Wang, et al. Temporal segment networks: Towards good practices for deep action recognition. ECCV'16.

由于相鄰的幀信息冗余度很高，對視頻密采樣是不必要的。Wang等人提出TSN結(jié)構(gòu)，其對視頻進(jìn)行稀疏采樣，在避免冗余信息的同時(shí)可以處理長距離依賴。TSN把輸入視頻分成K段，每段隨機(jī)選擇一個(gè)視頻片段(snippet)，之后用two-stream結(jié)構(gòu)提取特征再融合。TSN取得了ActivityNet 2016年競賽的冠軍。

此外，除RGB和光流圖像輸入外，TSN還嘗試了RGB difference和warped光流兩種輸入，最終發(fā)現(xiàn)RGB+光流+扭曲(warped)光流的效果最好。

Z. Lan, et al. Deep local video feature for action recognition. CVPR'17.

由于不是視頻中每幀都包含有用信息，Lan等人首先用TSN提取局部特征，之后再進(jìn)行聚合。

R. Girdhar, et al. ActionVLAD: Learning spatio-temporal aggregation for action recognition. CVPR'17.

類似于NetVLAD，Girdhar等人用two-stream提取特征，之后用VLAD得到視頻的表示。實(shí)驗(yàn)中發(fā)現(xiàn)，圖像和光流兩個(gè)分支單獨(dú)處理效果最好。

C. Feichtenhofer, et al. Spatio-temporal multiplier networks for video action recognition. CVPR'17.

Feichtenhofer等人發(fā)現(xiàn)，two-stream網(wǎng)絡(luò)在外觀分支容易過擬合。Feichtenhofer等人加入了兩個(gè)分支之間的信息交互，并發(fā)現(xiàn)乘性的信息交互效果最好。

G. A. Sigurdsson, et al. Asynchronous temporal fields for action recognition. CVPR'17.

Sigurdsson等人利用全連接時(shí)序CRF對視頻的時(shí)序關(guān)系進(jìn)行推斷。

W. Zhu, et al. A key volume mining deep framework for action recognition. CVPR'16.

一段視頻中并非所有的幀都對識別任務(wù)同等重要，如果把它們同等看待，有價(jià)值的幀信息會淹沒在其他無關(guān)的幀中。借助多示例學(xué)習(xí)思路，Zhu等人交替優(yōu)化關(guān)鍵幀挖掘和分類兩個(gè)目標(biāo)。網(wǎng)絡(luò)輸入N個(gè)視頻片段，輸出每個(gè)片段對應(yīng)每個(gè)類別的分?jǐn)?shù)。如果該類別對應(yīng)真實(shí)標(biāo)記，采用隨機(jī)匯合，否則是maxout匯合，其中響應(yīng)最強(qiáng)的視頻片段即為得到的關(guān)鍵幀。

Y. Wang, et al. Spatio-temporal pyramid network for video action recognition. CVPR'16.

Wang等人利用雙線性匯合融合兩個(gè)分支的特征。

A. Diba, et al. Deep temporal linear encoding networks. CVPR'17.

Diba等人對不同幀/片段的深度卷積特征逐元素相乘，再通過精簡雙線性匯合得到最終的特征表示。

R. Girdhar and D. Ramanan. Attentional pooling for action recognition. NIPS'17.

將雙線性匯合用于TSN的圖像分支。在得到深度卷積特征之后，經(jīng)典雙線性匯合會計(jì)算輸入屬于第k個(gè)類的分?jǐn)?shù)。Girdhar和Ramanan對參數(shù)矩陣做了一個(gè)秩-1近似

實(shí)驗(yàn)中， Girdhar和Ramanan將224大小的HMDB-51縮放到450大小，以確保最后的深度卷積特征大小不會太小(14×14)。當(dāng)特征大小太小時(shí)，效果不顯著。另一方面，Girdhar和Ramanan只用了圖像分支來處理視頻，總體性能和state-of-the-art還有很大差距。

I. C. Duta, et al. Spatio-temporal vector of locally max-pooled features for action recognition in videos. CVPR'17.

Duta等人研究如何聚合不同特征。

P. Weinzaepfel, et al. DeepFlow: Large displacement optical flow with deep matching. ICCV'13.

Dosovitskiy, et al. FlowNet: Learning optical flow with convolutional networks. ICCV'15.

E. Ilg, et al. FlowNet 2.0: Evolution of optical flow estimation with deep networks. CVPR'17.

由于經(jīng)典光流算法很慢，因此有工作致力于使用深度神經(jīng)網(wǎng)絡(luò)計(jì)算光流。DeepFlow在不同粒度上進(jìn)行聚合和匹配，F(xiàn)lowNet基于類似于視覺跟蹤的思路使用互相關(guān)濾波綜合兩張圖的深度特征最終生成光流。由于標(biāo)記數(shù)據(jù)不足，F(xiàn)lowNet使用人工合成Chairs數(shù)據(jù)集進(jìn)行訓(xùn)練。FlowNet 2.0的貢獻(xiàn)有三點(diǎn)。(1). 發(fā)現(xiàn)如何進(jìn)行訓(xùn)練對結(jié)果影響至關(guān)重要，先在簡單的Chairs數(shù)據(jù)集上訓(xùn)練、再在更真實(shí)的Things3D上訓(xùn)練會比混合兩個(gè)數(shù)據(jù)集一起訓(xùn)練效果更好。(2). 多個(gè)子網(wǎng)絡(luò)堆疊，并用中間光流結(jié)果對圖像進(jìn)行扭曲輸入中間子網(wǎng)絡(luò)。(3). 有一個(gè)子網(wǎng)絡(luò)專注于微小運(yùn)動。

其他視頻理解任務(wù)

時(shí)序動作定位(temporal action localization)在一段未剪輯的視頻中找到動作開始和結(jié)束的時(shí)間，并對動作進(jìn)行分類。

Z. Shou, et al. Temporal action localization in untrimmed videos via multi-stage CNNs. CVPR'16.

Shou等人提出SCNN，用不同大小的滑動窗產(chǎn)生視頻片段，之后用3D候選區(qū)域網(wǎng)絡(luò)判斷該視頻片段是前景/背景，用3D分類網(wǎng)絡(luò)判斷K+1個(gè)類別的分?jǐn)?shù)(包括背景)，最后用定位網(wǎng)絡(luò)判斷開始/結(jié)束時(shí)間。后處理使用非最大抑制(NMS)。

J. Gao, et al. TURN TAP: Temporal unit regression network for temporal action proposals. ICCV'17.

思路類似于Faster R-CNN。

H. Xu, et al. R-C3D: Region convolutional 3D network for temporal activity detection. ICCV'17.

以C3D網(wǎng)絡(luò)為基礎(chǔ)，借鑒Faster R-CNN，對輸入視頻片段先提取特征，再生成提取候選時(shí)序，最后RoI匯合后進(jìn)行檢測。

Z. Shou, et al. CDC: Convolutional-de-convolutional networks for precise temporal action localization in untrimmed videos. CVPR'17.

類似于語義分割問題的思路，為了得到對應(yīng)于每一幀的分類預(yù)測分?jǐn)?shù)，Shou等人在3D卷積層之后提出CDC卷積，在空間方向用卷積進(jìn)行下采樣，在時(shí)間方向上用轉(zhuǎn)置卷積進(jìn)行上采樣。

L. Wang, et al. UntrimmedNets for weakly supervised action recognition and detection. CVPR'17.

分類模塊用于對每個(gè)視頻片段進(jìn)行分類，而選擇模塊用于給出不同視頻片段的重要性。選擇模塊的實(shí)現(xiàn)包括hard selection和soft selection。訓(xùn)練時(shí)端到端聯(lián)合優(yōu)化。

Y. Zhao, et al. Temporal action detection with structured segment networks. ICCV'17.

Zhao等人提出SSN，講視頻分為三個(gè)部分，最終構(gòu)成全局特征。分類時(shí)有動作性分類器和完整性分類器。

異常檢測(anomaly detection)通常用于判斷監(jiān)控視頻中出現(xiàn)的異常事件。

W. Sultani, et al. Real-world anomaly detection in surveillance videos. CVPR'18.

由于訓(xùn)練時(shí)只知道一段視頻中有/沒有異常，而異常事件的種類和發(fā)生時(shí)刻未知，Sultani等人利用多示例學(xué)習(xí)，將異常檢測問題轉(zhuǎn)化為一個(gè)回歸排序問題，讓異常樣本的排序值高于普通樣本，訓(xùn)練時(shí)讓正負(fù)樣本之間的距離盡可能遠(yuǎn)。

視頻摘要與視頻濃縮(video summarization and video synopsis)視頻摘要是從原始視頻中提取有代表性的關(guān)鍵幀，而視頻濃縮將多幀視頻合并成一幀。

M. Gygli, et al. Creating summaries from user videos. ECCV'14.

X. Li, et al. Surveillance video synopsis via scaling down objects. TIP'16.

“看視頻說話”(video captioning)基本思路和看圖說話一致，用編碼網(wǎng)絡(luò)提取視頻信息，用解碼網(wǎng)絡(luò)生成文字描述。

S. Venugopalan, et al. Sequence to Sequence–Video to Text. ICCV'15.

第一視角視頻(first-person video)研究第一視角視頻可以用于自動駕駛、機(jī)器人導(dǎo)航等。

T. Yagi, et al. Future person localization in first-person videos. CVPR'18.

Yagi等人提出行人位置預(yù)測任務(wù)，即根據(jù)行人歷史信息，預(yù)測下一幀行人的位置。Yagi等人用1D時(shí)域卷積來融合不同幀的特征。

視頻生成(next frame generation)有工作利用生成式模型對視頻進(jìn)行生成。

M. Mathieu, et al. Deep multi-scale video prediction beyond mean square error. ICLR'16.

C. Vondrick, et al. Generating videos with scene dynamics. NIPS'16.

目標(biāo)跟蹤(object tracking)給定視頻第一幀中目標(biāo)的位置(以包圍盒的形式)，我們需要預(yù)測其他幀中該目標(biāo)的包圍盒。目標(biāo)跟蹤類似于目標(biāo)檢測，但目標(biāo)跟蹤的難點(diǎn)在于事先不知道要跟蹤的目標(biāo)具體是什么，因此無法事先收集足夠的訓(xùn)練數(shù)據(jù)以訓(xùn)練一個(gè)專門的檢測器。一種研究思路是利用孿生網(wǎng)絡(luò)，一支輸入第一幀包圍盒內(nèi)圖像，另一支輸入其他幀的候選圖像區(qū)域，通過互相關(guān)操作(卷積)，得到二維的響應(yīng)圖，其中最大響應(yīng)位置確定了需要預(yù)測的包圍盒位置。

L. Bertinetto, et al. Fully-convolutional siamese networks for object tracking. ECCV'16 Workshop.

M. Danelljan, et al. ECO: Efficient Convolution Operators for tracking. CVPR'17.

E. Valmadre, et al. End-to-end representation learning for correlation filter based tracking. CVPR'17.

可能的未來方向

利用多示例學(xué)習(xí)進(jìn)行視頻分析。未剪輯視頻中有很多無關(guān)內(nèi)容，并非視頻中所有的幀都對應(yīng)于該視頻標(biāo)記，這符號多示例學(xué)習(xí)的設(shè)定。雖然Zhu等人在CVPR'16和Kar等人在CVPR'17的工作中對這方面已有一些探索，但仍有后續(xù)精進(jìn)的空間。

精度與效率。Two-stream和3D卷積的方法相比，大致來說前者的效果更好，但前者需要逐幀圖像前饋網(wǎng)絡(luò)，而后者一次可以處理多幀，因此前者效率不如后者，尤其是預(yù)先計(jì)算并保存光流是一個(gè)很繁重的負(fù)擔(dān)。如何能同時(shí)利用兩者的優(yōu)點(diǎn)是未來一個(gè)可能的研究方向，F(xiàn)eichtenhofer等人在CVPR'16已有初步的工作。LSTM能捕獲的長距離依賴程度有限，并且更難訓(xùn)練，速度也更慢，因此ConvLSTM的方法在視頻分析中用的不多。

資源受限下的視頻分析。相比圖像數(shù)據(jù)，處理視頻數(shù)據(jù)需要更大的計(jì)算和存儲資源。現(xiàn)實(shí)應(yīng)用中很多是資源受限的，如何在這種場景下進(jìn)行視頻分析是一大挑戰(zhàn)。將視頻解壓為能輸入網(wǎng)絡(luò)的一幀幀圖像也需要不小的資源開銷，Wu等人在CVPR'18提出直接利用原始視頻輸入，并利用視頻壓縮編碼中的運(yùn)動信息。

更大、更通用數(shù)據(jù)集。哪種方法更好和用什么數(shù)據(jù)集(解決什么任務(wù))有很大關(guān)系。如果視頻本身就比較靜止，或者單幀圖像已經(jīng)包含了足夠的信息，那么用逐幀單獨(dú)處理的策略已經(jīng)可以取得很好的結(jié)果。

視頻=圖像+音頻。視頻是一種多模態(tài)的數(shù)據(jù)形式，能否利用音頻信息輔助視頻分析呢。Aytar等人在NIPS'16的工作中利用圖像輔助音頻分析。

Y. Aytar, et al. SoundNet: Learning sound representations from unlabeled video. NIPS'16.

最后列出一些相關(guān)的綜述文章。其中Tran等人實(shí)驗(yàn)研究了不同采樣步長、不同輸入大小、不同網(wǎng)絡(luò)配置等對性能的影響。

Z. Wu, et al. Deep learning for video classification and captioning. arXiv: 1609.06782.

D. Tran, et al. ConvNet architecture search for spatio-temporal feature learning. arXiv: 1708:05038.

M. Asadi-Aghbolaghi, et al. A survey on deep learning based approaches for action and gesture recognition in image sequences. FG'17.

S. Herath, et al. Going deeper into action recognition: A survey. IVC'17.

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴