導(dǎo)讀近日,全球三大計(jì)算機(jī)視覺頂級(jí)會(huì)議之一CVPR如期舉行,深蘭科技DeepBlueAI團(tuán)隊(duì)斬獲TinyAction Challenge(低分辨率視頻行為識(shí)別挑戰(zhàn)賽)的冠軍。
TinyAction Challenge是第六屆動(dòng)作識(shí)別國(guó)際挑戰(zhàn)賽系列競(jìng)賽之一,該系列競(jìng)賽由CVPR2021 International Challenge on Activity Recognition (ActivityNet) workshop 主辦,旨在推動(dòng)視頻理解的進(jìn)一步發(fā)展。
冠軍方案解讀
賽題介紹
TinyAction Challenge使用TinyVirat-v2[1]數(shù)據(jù)集,旨在提高低分辨率高噪聲等真實(shí)監(jiān)控場(chǎng)景下的視頻行為識(shí)別能力。比賽提供大量真實(shí)場(chǎng)景視頻片段及標(biāo)注,每個(gè)視頻片段中可能含有多個(gè)動(dòng)作,本質(zhì)是一個(gè)多標(biāo)簽的行為識(shí)別任務(wù),比賽結(jié)果采用precision、recall、F1-score等多個(gè)指標(biāo)來評(píng)測(cè)。
賽題難點(diǎn)
視頻分辨率很低,最小只有10x10像素尺度;
視頻尺度多樣,從10x10到128x128不等;
視頻質(zhì)量較差,含有大量噪聲;
視頻場(chǎng)景多樣,行為多樣,每個(gè)視頻可能含有多個(gè)行為。
解決方案
在算法選擇上,團(tuán)隊(duì)廣泛嘗試了TSM[2]、TPN-Slowonly[3]等經(jīng)典算法,最終采用交互移除的CSN[4](ir-CSN)模型,在保證性能的前提下適當(dāng)減少計(jì)算量,同時(shí)減輕對(duì)數(shù)據(jù)的過擬合。
數(shù)據(jù)增強(qiáng)方面,訓(xùn)練時(shí)團(tuán)隊(duì)首先隨機(jī)調(diào)整尺度裁剪,再統(tǒng)一調(diào)整尺度到128x128,最后再隨機(jī)翻轉(zhuǎn)。而在測(cè)試時(shí),通過Tencrop,即對(duì)視頻幀及其水平翻轉(zhuǎn)在中心與四角區(qū)域分別裁剪求平均,有效提高了inference時(shí)單模型性能。
測(cè)試階段團(tuán)隊(duì)進(jìn)一步使用了五折交叉驗(yàn)證的模型融合方法。另外由于觀察到在比賽數(shù)據(jù)集的26類行為中有些類別是互斥的,因而對(duì)最終的結(jié)果添加了后處理規(guī)則,使得F1指標(biāo)進(jìn)一步提高0.6個(gè)點(diǎn)。通過一步步優(yōu)化,DeepBlueAI團(tuán)隊(duì)單模型的F1指標(biāo)即超過了第二名達(dá)到0.4447,并最終達(dá)到0.4782,實(shí)現(xiàn)大幅度領(lǐng)先。
總結(jié)
在本次比賽中,團(tuán)隊(duì)對(duì)任務(wù)及數(shù)據(jù)做了仔細(xì)的分析,合理地選擇了模型算法,進(jìn)行了精細(xì)的模型訓(xùn)練,同時(shí)在數(shù)據(jù)的后處理上做了大量的優(yōu)化,有效實(shí)現(xiàn)了低分辨率高噪聲視頻中行為識(shí)別,并最終獲得冠軍。相信隨著計(jì)算機(jī)視覺及多模態(tài)技術(shù)的深入發(fā)展,行為識(shí)別等視頻理解問題能夠得到更好的解決,并獲得越來越廣泛的實(shí)際應(yīng)用。
參考文獻(xiàn):
[1] Demir U, Rawat Y S, Shah M. TinyVIRAT: low-resolution video action recognition[C]//2020 25th International Conference on Pattern Recognition (ICPR)。 IEEE, 2021: 7387-7394
[2] Yang C, Xu Y, Shi J, et al. Temporal pyramid network for action recognition[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 591-600.
[3] Lin J, Gan C, Han S. TSM: Temporal Shift Module for Efficient Video Understanding[C]// 2019 IEEE/CVF International Conference on Computer Vision (ICCV)。 IEEE, 2019.
[4] Du T, Wang H, Feiszli M, et al. Video Classification With Channel-Separated Convolutional Networks[C]// International Conference on Computer Vision. 0.
編輯:jq
-
計(jì)算機(jī)視覺
+關(guān)注
關(guān)注
8文章
1698瀏覽量
46024 -
高噪聲率
+關(guān)注
關(guān)注
0文章
2瀏覽量
5998 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1208瀏覽量
24727 -
CSN
+關(guān)注
關(guān)注
0文章
2瀏覽量
8819 -
深蘭科技
+關(guān)注
關(guān)注
1文章
56瀏覽量
5996
原文標(biāo)題:賽道 | CVPR2021深蘭冠軍方案解讀- TinyAction Challenge低分辨率視頻行為識(shí)別挑戰(zhàn)賽
文章出處:【微信號(hào):kmdian,微信公眾號(hào):深蘭科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論