0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

簡要回顧視頻理解方面的近年進(jìn)展,并對未來可能的研究方向作一展望

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-05-29 18:19 ? 次閱讀

相比圖像,視頻多了一維時(shí)序信息。如何利用好視頻中的時(shí)序信息是研究這類方法的關(guān)鍵。視頻理解可以用于多個(gè)領(lǐng)域,例如在智能安防領(lǐng)域中可以取代人工來對監(jiān)控視頻進(jìn)行分析。本文簡要回顧視頻理解方面的近年進(jìn)展,并對未來可能的研究方向作一展望。

常用數(shù)據(jù)集

視頻分類主要有兩種數(shù)據(jù)集,剪輯過(trimmed)的視頻和未經(jīng)剪輯的視頻。剪輯的視頻中包含一段明確的動作,時(shí)間較短標(biāo)記唯一,而未剪輯的視頻還包含了很多無用信息。如果直接對未剪輯的視頻進(jìn)行處理是未來的一大研究方向。

HMDB-51:6,766視頻,51類。剪輯的視頻,每個(gè)視頻不超過10秒。內(nèi)容包括人面部、肢體、和物體交互的動作等。

UCF-101:13,320視頻,101類,共27小時(shí)。剪輯的視頻,每個(gè)視頻不超過10秒。內(nèi)容包含化妝刷牙、爬行、理發(fā)、彈奏樂器、體育運(yùn)動等。

Charades:9.848視頻(7,985訓(xùn)練,1,863測試),157類。未剪輯的視頻,每個(gè)視頻大約30秒。每個(gè)視頻有多個(gè)標(biāo)記,以及每個(gè)動作的開始和結(jié)束時(shí)間。

Sports-1M:1,100,000視頻(70%訓(xùn)練、20%驗(yàn)證、10%測試),487類,內(nèi)容包含各種體育運(yùn)動。

ActivityNet (v1.3):19,994視頻(10,024訓(xùn)練,4,926驗(yàn)證,5,044測試),200類,共700小時(shí)。內(nèi)容包括飲食、運(yùn)動、家庭活動等。

Kinetics:246k訓(xùn)練視頻,20k驗(yàn)證視頻,400類。

G. A. Sigurdsson, et al. What actions are needed for understanding human actions in videos? ICCV'17.

相比圖像分類,視頻的類別/動作數(shù)目要少很多,而且常常有一定歧義,例如take和put要和后面名詞結(jié)合才會有具體含義(如take medication, take shoes, take off shoes)。Sigurdsson等人發(fā)現(xiàn)人類對這些動詞也容易感到混淆。另外,視頻中動作開始和結(jié)束的時(shí)間也不夠明確。

經(jīng)典方法

H. Wang, et al. Dense trajectories and motion boundary descriptors for action recognition. IJCV'13.

H. Wang and C. Schmid. Action recognition with improved trajectories. ICCV'13.

Wang等人提出DT和iDT方法。DT利用光流得到視頻中的運(yùn)動軌跡,再沿著軌跡提取特征。iDT對相機(jī)運(yùn)動進(jìn)行了補(bǔ)償,同時(shí)由于人的運(yùn)動比較顯著,iDT用額外的檢測器檢測人,以去除人對相鄰幀之間投影矩陣估計(jì)的影響。這是深度學(xué)習(xí)方法成熟之前效果最好的經(jīng)典方法,該方法的弊端是特征維度高(特征比原始視頻還要大)、速度慢。實(shí)踐中,早期的深度學(xué)習(xí)方法在和iDT結(jié)合之后仍能取得一定的效果提升,現(xiàn)在深度學(xué)習(xí)方法的性能已較iDT有大幅提升,因此iDT漸漸淡出視線。

o4YBAFsNKZaAQKH6AACITJy5nhg411.jpg

逐幀處理融合

這類方法把視頻看作一系列圖像的集合,每幀圖像單獨(dú)提取特征,再融合它們的深度特征。

A. Karpathy, et al. Large-scale video classification with convolutional neural networks. CVPR'14.

Karpathy等人把視頻劃分成很多固定長度的片段(clip),并設(shè)計(jì)了多種融合方法。

Single frame. 逐幀單獨(dú)前饋網(wǎng)絡(luò)。

Late fusion. 兩幀相距15幀的圖像分別前饋網(wǎng)絡(luò),并融合它們的深度卷積特征。

Early fusion. 連續(xù)10幀圖像前饋網(wǎng)絡(luò),因此網(wǎng)絡(luò)第一層的卷積核由11×11×3變?yōu)?1×11×3×10。Early fusion的思路最早由Le等人提出。

Le, et al. Learning hierarchical invariant spatio-temporal features for action recognition with independent subspace analysis. CVPR'11.

Slow fusion. 即使用3D卷積。連續(xù)10幀圖像前饋網(wǎng)絡(luò),第一層卷積核時(shí)間方向大小為4,第二、三層卷積核時(shí)間方向大小為2。

o4YBAFsNKZeANhjtAACS6cDlgI4403.jpg

此外,為了加速訓(xùn)練,由于目標(biāo)通常位于圖像中心,Karpathy等人使用了一個(gè)兩分支網(wǎng)絡(luò):一個(gè)分支輸入空間大小下采樣減半的圖像,另一個(gè)分支輸入原圖中心裁剪后的圖像。這樣,總體的輸入圖像維數(shù)只有原圖的一半。這兩個(gè)分支的深度卷積特征拼接(concatenate)起來給全連接層進(jìn)行分類。

實(shí)驗(yàn)發(fā)現(xiàn),3D卷積的融合效果最好,而不考慮運(yùn)動信息的single frame策略已經(jīng)是十分強(qiáng)的baseline。Early fusion策略效果最差的原因可能是直接從輸入圖像上捕獲運(yùn)動信息難度太大。

J. Y.-H. Ng, et al. Beyond short snippets: Deep networks for video classification. CVPR'15.

Ng等人先提取每一幀的深度卷積特征,再設(shè)計(jì)特征融合方法得到最終輸出。其中,紫色代表沿時(shí)間方向進(jìn)行最大匯合(max-pooling),黃色代表全連接層,綠色代表3*3*10,stride 5的3D卷積,紅色代表softmax輸出。相比Karpathy等人,Ng等人的輸入視頻片段的長度更長(每秒采樣1幀,一個(gè)片段由120幀構(gòu)成),包含了更多的時(shí)序信息。實(shí)踐中發(fā)現(xiàn)(a)的效果最好。

o4YBAFsNKZeAcGfQAAD4lvlP16w279.jpg

B. Fernando and S. Gould. Learning end-to-end video classification with rank-pooling. ICML'16.

在得到每幀圖像的深度卷積特征vt之后,F(xiàn)ernando和Gould通過解如下的優(yōu)化問題來對特征進(jìn)行排序匯合(rank-pooling)。其動機(jī)是靠前的幀o4YBAFsNKZeAUjGoAAACk-zgdw8455.png要小一些,而靠后的幀大一些。

o4YBAFsNKZeAdLdlAAArq66lQH4378.jpg

o4YBAFsNKZeACgaVAADEzAPu5eY980.jpg

X.-S. Wei, et al. Deep bimodal regression of apparent personality traits from short video sequences. TAC'17.

由于相鄰幀信息冗余度很高,Wei等人從視頻(450幀)中采樣100幀,每幀交由DAN分別進(jìn)行預(yù)測。在得到relu5-2/pool5深度特征之后,DAN將其全局最大/平均匯合以得到深度特征。

o4YBAFsNKZiAPMOwAABdyO0K-pg367.jpg

A. Kar, et al. AdaScan: Adaptive scan pooling in deep convolutional neural networks for human action recognition in videos. CVPR'17.

由于不同幀的重要性不同,Kar等人提出AdaScan匯合方法。其逐幀提取特征,之后判斷不同幀的重要程度,并據(jù)此進(jìn)行特征匯合。

o4YBAFsNKZiADylqAAFp7ZJvgo0303.jpg

M. Zolfaghari, et al. ECO: Efficient Convolutional network for Online video understanding. arXiv:1804.09066.

Zolfaghari等人提出ECO。由于相鄰幀有信息冗余,ECO從視頻中采樣若干幀,每幀單獨(dú)用2D卷積提取特征,之后沿時(shí)間方向拼接特征,再用3D卷積捕獲它們的時(shí)序關(guān)系。ECO和state-of-the-art方法性能相似,但速度上快了10-80倍。在測試時(shí),為了捕獲長距離依賴,輸入視頻片段由已看過的和未看過的視頻中采樣得到。

o4YBAFsNKZiAEBsnAACs1tYJQZM912.jpg

o4YBAFsNKZiAbErTAAB4U2FKNuQ351.jpg

ConvLSTM

這類方法是用CNN提取每幀圖像的特征,之后用LSTM挖掘它們之間的時(shí)序關(guān)系。

J. Y.-H. Ng, et al. Beyond short snippets: Deep networks for video classification. CVPR'15.

J. Donahue, et al. Long-term recurrent convolutional networks for visual recognition and description. CVPR'15.

Ng等人在深度特征上,用5層隱層結(jié)點(diǎn)數(shù)512的LSTM來提取深度特征,每個(gè)時(shí)刻都進(jìn)行輸出。訓(xùn)練時(shí),一個(gè)片段從第1幀到最后一幀輸出層獲得的梯度分別乘以0.0-1.0的權(quán)重,用以強(qiáng)調(diào)后面幀的重要性。測試時(shí),計(jì)算這些幀輸出的加權(quán)和。Donahue等人也提出了類似的工作。此外,Ng等人和Donahue等人還利用了光流輸入。把x、y兩個(gè)方向的光流縮放到[0, 255]作為光流圖像前兩個(gè)通道,把光流的大小作為第三個(gè)通道。

o4YBAFsNKZmAOYniAAEc7OOiZk4183.jpg

W. Du, et al. RPAN: An end-to-end recurrent pose-attention network for action recognition in videos. ICCV'17.

Du等人利用人體姿態(tài)估計(jì)輔助動作識別。

o4YBAFsNKZmAUbcbAADSyESLuJc732.jpg

3D卷積

把視頻劃分成很多固定長度的片段(clip),相比2D卷積,3D卷積可以提取連續(xù)幀之間的運(yùn)動信息。

o4YBAFsNKZmARgJJAADBNr9MFYE140.jpg

在視頻動作識別中最早提出3D卷積的是

M. Baccouche, et al. Sequential deep learning for human action recognition. HBU Workshop'11.

S. Ji, et al. 3D convolutional neural networks for human action recognition. TPAMI'13.

Baccouche等人使用第一層卷積核時(shí)間方向大小為5。Ji等人使用第一、二層卷積核時(shí)間方向大小為3,第三層卷積時(shí)由于時(shí)間維度大小很小,所以采用2D卷積。

此外,為使網(wǎng)絡(luò)獲得更多先驗(yàn)信息,Ji等人使用了兩個(gè)技巧:(1). 同時(shí)使用原始圖像、圖像梯度、和相鄰幀光流作為輸入。(2). 讓網(wǎng)絡(luò)額外地學(xué)習(xí)運(yùn)動信息接近手工運(yùn)動特征。

D. Tran, et al. Learning spatio-temporal features with 3D convolutional networks. ICCV'15.

Tran等人提出C3D,其將3×3卷積擴(kuò)展到3×3×3卷積,2×2匯合擴(kuò)展到2×2×2匯合。輸入片段16幀。實(shí)驗(yàn)中發(fā)現(xiàn),時(shí)域方向卷積核大小為3效果最好。相比2D CNN,3D CNN的參數(shù)量很大,訓(xùn)練變得更困難,且需要更多的訓(xùn)練數(shù)據(jù)。相比其他類型的方法,C3D一次處理多幀,所以計(jì)算效率很高。

o4YBAFsNKZmAK8cTAABQB6GXYN0179.jpg

L. Sun, et al. Human action recognition using factorized spatio-temporal convolutional networks. ICCV'15.

Sun等人把3D卷積分解為空間方向2D卷積和時(shí)間方向1D卷積。

o4YBAFsNKZqAF1E5AADKZSfavmY756.jpg

J. Carreira and A. Zisserman. Quo vadis, action recognition? A new model and the Kinetics dataset. CVPR'17.

Carreira和Zisserman提出I3D,把two-stream結(jié)構(gòu)中的2D卷積擴(kuò)展為3D卷積。由于時(shí)間維度不能縮減過快,前兩個(gè)匯合層的卷積核大小是1×2×2,最后的匯合層的卷積核大小是2*7*7。和之前文章不同的是,two-tream的兩個(gè)分支是單獨(dú)訓(xùn)練的,測試時(shí)融合它們的預(yù)測結(jié)果。

o4YBAFsNKZqAPA7SAAB7IdBt1fU383.jpg

Z. Qiu, et al. Learning spatio-temporal representation with pseudo-3D residual networks. ICCV'17.

Qiu等人提出P3D,用一個(gè)1×3×3的空間方向卷積和一個(gè)3×1×1的時(shí)間方向卷積近似原3×3×3卷積。通過組合三種不同的模塊結(jié)構(gòu),進(jìn)而得到P3D ResNet。P3D ResNet在參數(shù)數(shù)量、運(yùn)行速度等方面對C3D作出了優(yōu)化。

o4YBAFsNKZqATnqGAABRPKVZ-V8286.jpg

o4YBAFsNKZqAMS6TAAAuZZSnZss541.jpg

D. Tran, et al. A closer look at spatio-temporal convolutions for action recognition. CVPR'18.

Tran等人提出ResNet (2+1)D,把一個(gè)3D卷積分解成為一個(gè)2D卷積空間卷積和一個(gè)1D時(shí)間卷積,注意這里的參數(shù)量和原3D卷積相同。相比P3D有三種形式,(2+1)D和P3D-A最接近。

o4YBAFsNKZqAMcepAAEIV4QP1fE316.jpg

C. Lea, et al. Temporal convolutional networks for action segmentation and detection. CVPR'17.

受WaveNet啟發(fā),Lea等人提出一個(gè)編碼-解碼網(wǎng)絡(luò),并使用空洞卷積和短路連接,以捕獲長距離依賴。實(shí)驗(yàn)中發(fā)現(xiàn),這種結(jié)構(gòu)效果優(yōu)于RNN。

o4YBAFsNKZuAMlncAADVttg4HG4324.jpg

L. Wang, et al. Appearance-and-relation networks for video classfication. CVPR'18.

Wang等人希望利用3D卷積顯式地學(xué)習(xí)類似two-stream的結(jié)構(gòu)。Wang等人通過不同幀之間的乘性關(guān)系度量不同幀之間的關(guān)系。

o4YBAFsNKZuAJIPpAAB6-48S_Ek550.jpg

K. Hara, et al. Can spatio-temporal 3D CNNs retrace the history of 2D CNNs and ImageNet? CVPR'18.

Hara等人嘗試了多種3D網(wǎng)絡(luò)結(jié)構(gòu)。

X. Wang, et al. Non-local neural networks. CVPR'18.

可以看作是3D卷積的一個(gè)擴(kuò)展。3D卷積的感受野是有限區(qū)域,而non-local旨在解決長距離依賴問題。Non-local的響應(yīng)是所有空間和時(shí)間位置特征的加權(quán)平均

o4YBAFsNKZuAYB-RAAAaZo-ix4g248.png

其中,o4YBAFsNKZuAAwEjAAAEomkm9S0656.png用于度量相似性,o4YBAFsNKZuAOiDKAAAD-IVqZWY647.png計(jì)算響應(yīng),o4YBAFsNKZyAN7dkAAADdSlfH6Q215.png用于歸一化。當(dāng)o4YBAFsNKZyAZJpcAAALif0TOPE971.png時(shí),non-local操作退化為全連接層;當(dāng)o4YBAFsNKZyAO1sCAAAGrAECZLg998.jpg時(shí),non-local操作o4YBAFsNKZyAI2bVAAANtetdf2s043.png退化為self-attention。實(shí)驗(yàn)中發(fā)現(xiàn)non-local block加在底層比加在高層效果要好,加多個(gè)non-local blocks會有效果提升但不是很明顯。

o4YBAFsNKZyAe-90AADj_a2PphA299.jpg

這類方法的弊端是只能考慮比較短的時(shí)間片段的運(yùn)動信息,參數(shù)量?

Two-stream

K. Simonyan and A. Zisserman. Two-stream convolutional networks for action recognition in videos. NIPS'14.

o4YBAFsNKZ2AdheWAACVJWfMPS8258.jpg

采用兩個(gè)分支。一個(gè)分支輸入單幀圖像,用于提取圖像信息,即在做圖像分類。另一個(gè)分支輸入連續(xù)10幀的光流(optical flow)運(yùn)動場,用于提取幀之間的運(yùn)動信息。由于一個(gè)視頻片段中的光流可能會沿某個(gè)特別方向位移的支配,所以在訓(xùn)練時(shí)光流減去所有光流向量的平均值。兩個(gè)分支網(wǎng)絡(luò)結(jié)構(gòu)相同,分別用softmax進(jìn)行預(yù)測,最后用直接平均或SVM兩種方式融合兩分支結(jié)果。

此外,為了加速訓(xùn)練,Simonyan和Zisserman預(yù)先計(jì)算出光流并保存到硬盤中。為了減小存儲大小,他們將光流縮放到[0, 255]后用JPEG壓縮,這會使UCF101的光流數(shù)據(jù)大小由1.5TB減小到27GB。

L. Wang, et al. Action recognition with trajectory-pooled deep-convolutional descriptors. CVPR'15.

Wang等人結(jié)合了經(jīng)典iDT手工特征和two-stream深度特征,提出TDD。經(jīng)典手工特征計(jì)算時(shí)通常分兩步:檢測圖像中顯著和有信息量的區(qū)域,并在運(yùn)動顯著的區(qū)域提取特征。TDD將預(yù)訓(xùn)練的two-stream網(wǎng)絡(luò)當(dāng)作固定的特征提取器。得到兩者特征之后,TDD使用時(shí)空規(guī)范化以保證每個(gè)通道的數(shù)值范圍近似一致,使用通道規(guī)范化以保證每個(gè)時(shí)空位置的描述向量的數(shù)值范圍近似一致,之后用trajectory pooling并用Fisher向量構(gòu)建TDD特征,最后用SVM分類。

o4YBAFsNKZ2AHfvbAADGEAFzu-8518.jpg

C. Feichtenhofer, et al. Convolutional two-stream network fusion for video action recognition. CVPR'16.

Feichtenhofer等人研究如何融合兩分支的深度卷積特征。他們發(fā)現(xiàn)級聯(lián)兩個(gè)特征到2D維再用1×1卷積到D維的融合方法效果最好,之后再經(jīng)過3D卷積和3D匯合后輸出。

o4YBAFsNKZ2ASzmfAACXPkYTtwk114.jpg

C. Feichtenhofer, et al. Spatio-temporal residual networks for video action recognition. NIPS'16.

Feichtenhofer將ResNet作為two-stream的基礎(chǔ)網(wǎng)絡(luò)架構(gòu),用預(yù)訓(xùn)練網(wǎng)絡(luò)的權(quán)重初始化新的3D網(wǎng)絡(luò):w(d, t, i, j)=w(d, i, j)/T。此外,有從光流分支到圖像分支的信息傳遞。此外,網(wǎng)絡(luò)輸入不是連續(xù)的,而是步長5到15幀。

o4YBAFsNKZ2AAuaZAACe9yAxaEU807.jpg

L. Wang, et al. Temporal segment networks: Towards good practices for deep action recognition. ECCV'16.

由于相鄰的幀信息冗余度很高,對視頻密采樣是不必要的。Wang等人提出TSN結(jié)構(gòu),其對視頻進(jìn)行稀疏采樣,在避免冗余信息的同時(shí)可以處理長距離依賴。TSN把輸入視頻分成K段,每段隨機(jī)選擇一個(gè)視頻片段(snippet),之后用two-stream結(jié)構(gòu)提取特征再融合。TSN取得了ActivityNet 2016年競賽的冠軍。

此外,除RGB和光流圖像輸入外,TSN還嘗試了RGB difference和warped光流兩種輸入,最終發(fā)現(xiàn)RGB+光流+扭曲(warped)光流的效果最好。

o4YBAFsNKZ6AeXcWAADQ_vBEME0708.jpg

Z. Lan, et al. Deep local video feature for action recognition. CVPR'17.

由于不是視頻中每幀都包含有用信息,Lan等人首先用TSN提取局部特征,之后再進(jìn)行聚合

o4YBAFsNKZ6ADiffAAChyNkxZr0436.jpg

R. Girdhar, et al. ActionVLAD: Learning spatio-temporal aggregation for action recognition. CVPR'17.

類似于NetVLAD,Girdhar等人用two-stream提取特征,之后用VLAD得到視頻的表示。實(shí)驗(yàn)中發(fā)現(xiàn),圖像和光流兩個(gè)分支單獨(dú)處理效果最好。

o4YBAFsNKZ6AR1rVAACGeSIazE0360.jpg

C. Feichtenhofer, et al. Spatio-temporal multiplier networks for video action recognition. CVPR'17.

Feichtenhofer等人發(fā)現(xiàn),two-stream網(wǎng)絡(luò)在外觀分支容易過擬合。Feichtenhofer等人加入了兩個(gè)分支之間的信息交互,并發(fā)現(xiàn)乘性的信息交互效果最好。

o4YBAFsNKZ6AbuHBAAB7HX-ik5A642.jpg

G. A. Sigurdsson, et al. Asynchronous temporal fields for action recognition. CVPR'17.

Sigurdsson等人利用全連接時(shí)序CRF對視頻的時(shí)序關(guān)系進(jìn)行推斷。

o4YBAFsNKZ6AS0WNAACZbZ1keQw422.jpg

W. Zhu, et al. A key volume mining deep framework for action recognition. CVPR'16.

一段視頻中并非所有的幀都對識別任務(wù)同等重要,如果把它們同等看待,有價(jià)值的幀信息會淹沒在其他無關(guān)的幀中。借助多示例學(xué)習(xí)思路,Zhu等人交替優(yōu)化關(guān)鍵幀挖掘和分類兩個(gè)目標(biāo)。網(wǎng)絡(luò)輸入N個(gè)視頻片段,輸出每個(gè)片段對應(yīng)每個(gè)類別的分?jǐn)?shù)。如果該類別對應(yīng)真實(shí)標(biāo)記,采用隨機(jī)匯合,否則是maxout匯合,其中響應(yīng)最強(qiáng)的視頻片段即為得到的關(guān)鍵幀。

o4YBAFsNKZ-APfWdAACpPajH96A129.jpg

Y. Wang, et al. Spatio-temporal pyramid network for video action recognition. CVPR'16.

Wang等人利用雙線性匯合融合兩個(gè)分支的特征。

o4YBAFsNKZ-AOdQZAACBNvigGtY032.jpg

A. Diba, et al. Deep temporal linear encoding networks. CVPR'17.

Diba等人對不同幀/片段的深度卷積特征逐元素相乘,再通過精簡雙線性匯合得到最終的特征表示。

o4YBAFsNKZ-AbbnFAAEPTiFky5Q590.jpg

R. Girdhar and D. Ramanan. Attentional pooling for action recognition. NIPS'17.

將雙線性匯合用于TSN的圖像分支。在得到深度卷積特征o4YBAFsNKZ-AXj10AAAF266wcA8768.png之后,經(jīng)典雙線性匯合會計(jì)算輸入屬于第k個(gè)類的分?jǐn)?shù)o4YBAFsNKZ-ACm0EAAAOn0909N0215.png。Girdhar和Ramanan對參數(shù)矩陣o4YBAFsNKaCAA2nFAAACpMHlOiA442.png做了一個(gè)秩-1近似

o4YBAFsNKaCAI2UtAAAZumeJ3qk455.png

實(shí)驗(yàn)中, Girdhar和Ramanan將224大小的HMDB-51縮放到450大小,以確保最后的深度卷積特征大小不會太小(14×14)。當(dāng)特征大小太小時(shí),效果不顯著。另一方面,Girdhar和Ramanan只用了圖像分支來處理視頻,總體性能和state-of-the-art還有很大差距。

o4YBAFsNKaCAPhzjAACQGmmTcec180.jpg

I. C. Duta, et al. Spatio-temporal vector of locally max-pooled features for action recognition in videos. CVPR'17.

Duta等人研究如何聚合不同特征。

o4YBAFsNKaCAL7YNAAC4x4GmGzc528.jpg

P. Weinzaepfel, et al. DeepFlow: Large displacement optical flow with deep matching. ICCV'13.

Dosovitskiy, et al. FlowNet: Learning optical flow with convolutional networks. ICCV'15.

E. Ilg, et al. FlowNet 2.0: Evolution of optical flow estimation with deep networks. CVPR'17.

由于經(jīng)典光流算法很慢,因此有工作致力于使用深度神經(jīng)網(wǎng)絡(luò)計(jì)算光流。DeepFlow在不同粒度上進(jìn)行聚合和匹配,F(xiàn)lowNet基于類似于視覺跟蹤的思路使用互相關(guān)濾波綜合兩張圖的深度特征最終生成光流。由于標(biāo)記數(shù)據(jù)不足,F(xiàn)lowNet使用人工合成Chairs數(shù)據(jù)集進(jìn)行訓(xùn)練。FlowNet 2.0的貢獻(xiàn)有三點(diǎn)。(1). 發(fā)現(xiàn)如何進(jìn)行訓(xùn)練對結(jié)果影響至關(guān)重要,先在簡單的Chairs數(shù)據(jù)集上訓(xùn)練、再在更真實(shí)的Things3D上訓(xùn)練會比混合兩個(gè)數(shù)據(jù)集一起訓(xùn)練效果更好。(2). 多個(gè)子網(wǎng)絡(luò)堆疊,并用中間光流結(jié)果對圖像進(jìn)行扭曲輸入中間子網(wǎng)絡(luò)。(3). 有一個(gè)子網(wǎng)絡(luò)專注于微小運(yùn)動。

其他視頻理解任務(wù)

時(shí)序動作定位(temporal action localization)在一段未剪輯的視頻中找到動作開始和結(jié)束的時(shí)間,并對動作進(jìn)行分類。

Z. Shou, et al. Temporal action localization in untrimmed videos via multi-stage CNNs. CVPR'16.

Shou等人提出SCNN,用不同大小的滑動窗產(chǎn)生視頻片段,之后用3D候選區(qū)域網(wǎng)絡(luò)判斷該視頻片段是前景/背景,用3D分類網(wǎng)絡(luò)判斷K+1個(gè)類別的分?jǐn)?shù)(包括背景),最后用定位網(wǎng)絡(luò)判斷開始/結(jié)束時(shí)間。后處理使用非最大抑制(NMS)。

o4YBAFsNKaGARfylAADbAE0xgYc658.jpg

J. Gao, et al. TURN TAP: Temporal unit regression network for temporal action proposals. ICCV'17.

思路類似于Faster R-CNN。

o4YBAFsNKaGAWfoSAABxfkKC6YE256.jpg

H. Xu, et al. R-C3D: Region convolutional 3D network for temporal activity detection. ICCV'17.

以C3D網(wǎng)絡(luò)為基礎(chǔ),借鑒Faster R-CNN,對輸入視頻片段先提取特征,再生成提取候選時(shí)序,最后RoI匯合后進(jìn)行檢測。

o4YBAFsNKaGAfA23AABsO1L8dAk745.jpg

Z. Shou, et al. CDC: Convolutional-de-convolutional networks for precise temporal action localization in untrimmed videos. CVPR'17.

類似于語義分割問題的思路,為了得到對應(yīng)于每一幀的分類預(yù)測分?jǐn)?shù),Shou等人在3D卷積層之后提出CDC卷積,在空間方向用卷積進(jìn)行下采樣,在時(shí)間方向上用轉(zhuǎn)置卷積進(jìn)行上采樣。

o4YBAFsNKaGAJm7XAACGuQMo0ok325.jpg

L. Wang, et al. UntrimmedNets for weakly supervised action recognition and detection. CVPR'17.

分類模塊用于對每個(gè)視頻片段進(jìn)行分類,而選擇模塊用于給出不同視頻片段的重要性。選擇模塊的實(shí)現(xiàn)包括hard selection和soft selection。訓(xùn)練時(shí)端到端聯(lián)合優(yōu)化。

o4YBAFsNKaGARhIcAADIRwkB4Vg692.jpg

Y. Zhao, et al. Temporal action detection with structured segment networks. ICCV'17.

Zhao等人提出SSN,講視頻分為三個(gè)部分,最終構(gòu)成全局特征。分類時(shí)有動作性分類器和完整性分類器。

o4YBAFsNKaKAYxdHAADZViswssM001.jpg

異常檢測(anomaly detection)通常用于判斷監(jiān)控視頻中出現(xiàn)的異常事件。

W. Sultani, et al. Real-world anomaly detection in surveillance videos. CVPR'18.

由于訓(xùn)練時(shí)只知道一段視頻中有/沒有異常,而異常事件的種類和發(fā)生時(shí)刻未知,Sultani等人利用多示例學(xué)習(xí),將異常檢測問題轉(zhuǎn)化為一個(gè)回歸排序問題,讓異常樣本的排序值高于普通樣本,訓(xùn)練時(shí)讓正負(fù)樣本之間的距離盡可能遠(yuǎn)。

o4YBAFsNKaKAIeRPAACrNV5d2e0058.jpg

視頻摘要與視頻濃縮(video summarization and video synopsis)視頻摘要是從原始視頻中提取有代表性的關(guān)鍵幀,而視頻濃縮將多幀視頻合并成一幀。

M. Gygli, et al. Creating summaries from user videos. ECCV'14.

X. Li, et al. Surveillance video synopsis via scaling down objects. TIP'16.

“看視頻說話”(video captioning)基本思路和看圖說話一致,用編碼網(wǎng)絡(luò)提取視頻信息,用解碼網(wǎng)絡(luò)生成文字描述。

S. Venugopalan, et al. Sequence to Sequence–Video to Text. ICCV'15.

o4YBAFsNKaKARubHAAEcOan-Ylw773.jpg

第一視角視頻(first-person video)研究第一視角視頻可以用于自動駕駛、機(jī)器人導(dǎo)航等。

T. Yagi, et al. Future person localization in first-person videos. CVPR'18.

Yagi等人提出行人位置預(yù)測任務(wù),即根據(jù)行人歷史信息,預(yù)測下一幀行人的位置。Yagi等人用1D時(shí)域卷積來融合不同幀的特征。

o4YBAFsNKaKAYLnmAACbfQDeJTI037.jpg

視頻生成(next frame generation)有工作利用生成式模型對視頻進(jìn)行生成。

M. Mathieu, et al. Deep multi-scale video prediction beyond mean square error. ICLR'16.

C. Vondrick, et al. Generating videos with scene dynamics. NIPS'16.

目標(biāo)跟蹤(object tracking)給定視頻第一幀中目標(biāo)的位置(以包圍盒的形式),我們需要預(yù)測其他幀中該目標(biāo)的包圍盒。目標(biāo)跟蹤類似于目標(biāo)檢測,但目標(biāo)跟蹤的難點(diǎn)在于事先不知道要跟蹤的目標(biāo)具體是什么,因此無法事先收集足夠的訓(xùn)練數(shù)據(jù)以訓(xùn)練一個(gè)專門的檢測器。一種研究思路是利用孿生網(wǎng)絡(luò),一支輸入第一幀包圍盒內(nèi)圖像,另一支輸入其他幀的候選圖像區(qū)域,通過互相關(guān)操作(卷積),得到二維的響應(yīng)圖,其中最大響應(yīng)位置確定了需要預(yù)測的包圍盒位置。

L. Bertinetto, et al. Fully-convolutional siamese networks for object tracking. ECCV'16 Workshop.

M. Danelljan, et al. ECO: Efficient Convolution Operators for tracking. CVPR'17.

E. Valmadre, et al. End-to-end representation learning for correlation filter based tracking. CVPR'17.

o4YBAFsNKaOAWfrdAACUajQZ_kM640.jpg

可能的未來方向

利用多示例學(xué)習(xí)進(jìn)行視頻分析。未剪輯視頻中有很多無關(guān)內(nèi)容,并非視頻中所有的幀都對應(yīng)于該視頻標(biāo)記,這符號多示例學(xué)習(xí)的設(shè)定。雖然Zhu等人在CVPR'16和Kar等人在CVPR'17的工作中對這方面已有一些探索,但仍有后續(xù)精進(jìn)的空間。

精度與效率。Two-stream和3D卷積的方法相比,大致來說前者的效果更好,但前者需要逐幀圖像前饋網(wǎng)絡(luò),而后者一次可以處理多幀,因此前者效率不如后者,尤其是預(yù)先計(jì)算并保存光流是一個(gè)很繁重的負(fù)擔(dān)。如何能同時(shí)利用兩者的優(yōu)點(diǎn)是未來一個(gè)可能的研究方向,F(xiàn)eichtenhofer等人在CVPR'16已有初步的工作。LSTM能捕獲的長距離依賴程度有限,并且更難訓(xùn)練,速度也更慢,因此ConvLSTM的方法在視頻分析中用的不多。

資源受限下的視頻分析。相比圖像數(shù)據(jù),處理視頻數(shù)據(jù)需要更大的計(jì)算和存儲資源。現(xiàn)實(shí)應(yīng)用中很多是資源受限的,如何在這種場景下進(jìn)行視頻分析是一大挑戰(zhàn)。將視頻解壓為能輸入網(wǎng)絡(luò)的一幀幀圖像也需要不小的資源開銷,Wu等人在CVPR'18提出直接利用原始視頻輸入,并利用視頻壓縮編碼中的運(yùn)動信息。

更大、更通用數(shù)據(jù)集。哪種方法更好和用什么數(shù)據(jù)集(解決什么任務(wù))有很大關(guān)系。如果視頻本身就比較靜止,或者單幀圖像已經(jīng)包含了足夠的信息,那么用逐幀單獨(dú)處理的策略已經(jīng)可以取得很好的結(jié)果。

視頻=圖像+音頻。視頻是一種多模態(tài)的數(shù)據(jù)形式,能否利用音頻信息輔助視頻分析呢。Aytar等人在NIPS'16的工作中利用圖像輔助音頻分析。

Y. Aytar, et al. SoundNet: Learning sound representations from unlabeled video. NIPS'16.

最后列出一些相關(guān)的綜述文章。其中Tran等人實(shí)驗(yàn)研究了不同采樣步長、不同輸入大小、不同網(wǎng)絡(luò)配置等對性能的影響。

Z. Wu, et al. Deep learning for video classification and captioning. arXiv: 1609.06782.

D. Tran, et al. ConvNet architecture search for spatio-temporal feature learning. arXiv: 1708:05038.

M. Asadi-Aghbolaghi, et al. A survey on deep learning based approaches for action and gesture recognition in image sequences. FG'17.

S. Herath, et al. Going deeper into action recognition: A survey. IVC'17.

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 視頻
    +關(guān)注

    關(guān)注

    6

    文章

    1949

    瀏覽量

    72970
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1087

    瀏覽量

    40499
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5507

    瀏覽量

    121270

原文標(biāo)題:【干貨】計(jì)算機(jī)視覺視頻理解領(lǐng)域的經(jīng)典方法和最新成果

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    深度學(xué)習(xí)在自然語言處理方面的研究進(jìn)展

    要是關(guān)注深度學(xué)習(xí)在自然語言處理方面的研究進(jìn)展,我相信你定聽說過Attention Model(后文有時(shí)會簡
    的頭像 發(fā)表于 07-19 09:20 ?7535次閱讀
    深度學(xué)習(xí)在自然語言處理<b class='flag-5'>方面的</b><b class='flag-5'>研究進(jìn)展</b>

    新型銅互連方法—電化學(xué)機(jī)械拋光技術(shù)研究進(jìn)展

    。主要綜述了電化學(xué)機(jī)械拋光技術(shù)的產(chǎn)生、原理、研究進(jìn)展展望,對銅的ECMP 技術(shù)進(jìn)行了回顧和討論。關(guān)鍵詞:化學(xué)機(jī)械拋光;銅互連;低介電常數(shù);電化學(xué)機(jī)械拋光;平坦化技術(shù);多孔
    發(fā)表于 10-06 10:08

    風(fēng)光互補(bǔ)技術(shù)原理及最新進(jìn)展

    風(fēng)光互補(bǔ)技術(shù)原理及最新進(jìn)展摘要: 簡要回顧國內(nèi)外風(fēng)電、光伏技術(shù)與應(yīng)用發(fā)展態(tài)勢,結(jié)合風(fēng)光互補(bǔ)系統(tǒng)應(yīng)用, 分析、介紹了風(fēng)光互補(bǔ)LED路燈照明系統(tǒng)、智能控制器設(shè)計(jì)、分布式供電電源、風(fēng)光互補(bǔ)水泵系統(tǒng),著重
    發(fā)表于 10-26 13:45

    室內(nèi)顆粒物的來源、健康效應(yīng)及分布運(yùn)動研究進(jìn)展

    室內(nèi)顆粒物的來源、健康效應(yīng)及分布運(yùn)動研究進(jìn)展摘要:室內(nèi)的顆粒物質(zhì)與室內(nèi)空氣1~(indoor air quality,IAQ)有著密切關(guān)系。顆粒物質(zhì)可能給人體健康或者其他設(shè)備和物品帶來危害。該文回顧
    發(fā)表于 03-18 22:22

    薄膜鋰電池的研究進(jìn)展

    的最佳選擇。簡單介紹了薄膜鋰電池的構(gòu)造,舉例說明了薄膜鋰電池的工作原理。從陰極膜、固體電解質(zhì)膜、陽極膜三個(gè)方面概述了近年來薄膜鋰電池關(guān)鍵材料的研究進(jìn)展。陰極膜方面LICOO2依舊是
    發(fā)表于 03-11 15:44

    請大家?guī)兔ν扑]個(gè)研究生論文課題方向,fpga方面的?

    請大家?guī)兔ν扑]個(gè)研究生論文課題方向,fpga方面的?謝謝高手了!
    發(fā)表于 09-16 21:12

    光互連技術(shù)的研究進(jìn)展

    成為個(gè)光束,自動在兩個(gè)器件之間建立個(gè)藕合光路。該技術(shù)的優(yōu)點(diǎn)是可以在不同形狀的器件間進(jìn)行模式尺寸的轉(zhuǎn)換,降低制造費(fèi)用特別是對軸方向的光學(xué)互連,且用叩進(jìn)行模擬顯示,具有高的藕合效率和
    發(fā)表于 01-29 09:19

    未來語音接口的展望

    ,如情境對話和情感檢測。在我之前的專欄中,我回顧了當(dāng)前流行的語音接口的缺點(diǎn)和缺失功能。但是這些糾結(jié)情況正頻臨消除。在本文中,我將展望未來的語音接口和能夠推動它們的技術(shù)。能夠相互通信的Always-Listening始終傾聽機(jī)器
    發(fā)表于 07-16 06:10

    寬頻輕質(zhì)吸波涂料有哪些研究?未來有哪些應(yīng)用展望?

    、納米吸波材料和智能隱身材料等新型寬頻輕質(zhì)吸波涂料的最新研究狀況,對雷達(dá)隱身材料應(yīng)用技術(shù)的未來做了展望。關(guān)鍵詞:寬頻輕質(zhì)吸波涂料;空心微珠吸波涂料;碳納米管吸波涂料;導(dǎo)電高聚物吸波涂
    發(fā)表于 07-30 07:28

    人臉識別常用方法研究

    計(jì)算機(jī)自動人臉識別技術(shù)是生物識別的個(gè)重要分支。本文簡要回顧了人臉自動識別技術(shù)的研究背景及發(fā)展歷程,重點(diǎn)對近年來人臉自動識別方法的研究進(jìn)展進(jìn)
    發(fā)表于 09-14 14:17 ?13次下載

    人臉識別研究的新進(jìn)展及趨勢

    簡要回顧了人臉識別技術(shù)的研究背景及發(fā)展歷程袁總結(jié)了近三四年人臉識別方法的研究進(jìn)展袁根據(jù)三維人臉重構(gòu)方法的數(shù)據(jù)來源不同袁將其分為基于靜態(tài)圖像和視頻序列的三維重
    發(fā)表于 11-09 16:37 ?23次下載

    使用光流進(jìn)行運(yùn)動圖像分析的研究進(jìn)展說明

    基于光流的運(yùn)動圖像分析是解決目標(biāo)跟蹤、視頻壓縮等許多機(jī)器視覺問題的關(guān)鍵技術(shù)之。從光流場的含義和求解思路入手,對運(yùn)動圖像分析問題和現(xiàn)有研究工作進(jìn)行了較為全面的描述和分析,最后
    發(fā)表于 10-21 17:41 ?7次下載
    使用光流進(jìn)行運(yùn)動圖像分析的<b class='flag-5'>研究進(jìn)展</b>說明

    電線電纜在電磁兼容方面的研究方向

    從電磁兼容技術(shù)的根本任務(wù)和研究方向出發(fā),進(jìn)行歸納整理了電線電纜在電磁兼容方面的研究方向,包括不同屏蔽形式,傳輸模型,電線電纜接地及試驗(yàn)等。
    發(fā)表于 09-22 15:20 ?1915次閱讀
    電線電纜在電磁兼容<b class='flag-5'>方面的</b><b class='flag-5'>研究</b><b class='flag-5'>方向</b>

    導(dǎo)熱硅凝膠的研究與應(yīng)用進(jìn)展

    介紹了導(dǎo)熱硅凝膠的組成和特點(diǎn),分別闡述了導(dǎo)熱硅凝膠在導(dǎo)熱機(jī)制、滲油性、密著力性能等方面的研究進(jìn)展。綜述了導(dǎo)熱硅凝膠在航空電子設(shè)備、5G電子設(shè)備、動力電池等方面的應(yīng)用,最后對其發(fā)展方向進(jìn)
    的頭像 發(fā)表于 04-07 09:55 ?1390次閱讀
    導(dǎo)熱硅凝膠的<b class='flag-5'>研究</b>與應(yīng)用<b class='flag-5'>進(jìn)展</b>

    量子計(jì)算關(guān)鍵技術(shù)研究進(jìn)展

    量子計(jì)算具備可能超越經(jīng)典計(jì)算的潛在能力,近年來在技術(shù)研究、應(yīng)用探索及產(chǎn)業(yè)生態(tài)培育等方面取得諸多進(jìn)展,整體發(fā)展進(jìn)入快車道,已成為全球多國科研布
    的頭像 發(fā)表于 08-08 11:32 ?1684次閱讀
    量子計(jì)算關(guān)鍵技術(shù)<b class='flag-5'>研究進(jìn)展</b>