首發(fā):AI公園公眾號(hào)
作者:Deval Shah
編譯:ronghuaiyang
導(dǎo)讀
對(duì)監(jiān)控領(lǐng)域的目標(biāo)跟蹤方法以及面臨的挑戰(zhàn)進(jìn)行了一個(gè)介紹,是一個(gè)很好的了解目標(biāo)跟蹤領(lǐng)域的“是什么”和“為什么”問(wèn)題的文章。、
在我們深入到目標(biāo)跟蹤的世界之前,我們必須理解監(jiān)控世界的“為什么”和“是什么”。全球各國(guó)都安裝了數(shù)百萬(wàn)個(gè)攝像頭,但幾乎沒(méi)有人監(jiān)控它們。人與攝像機(jī)的比例很小。
由于深度學(xué)習(xí)技術(shù)在監(jiān)控領(lǐng)域的廣泛應(yīng)用,智能軟件在過(guò)去十年中接管了監(jiān)控領(lǐng)域。復(fù)雜的問(wèn)題,如人員跟蹤,交通密度估計(jì),盜竊保護(hù)等,已經(jīng)被世界各地的杰出研究人員解決了,并顯示了巨大的前景。
本文將向你介紹智能監(jiān)控中最重要的主題之一 —— 目標(biāo)跟蹤。
介紹
目標(biāo)跟蹤是指根據(jù)之前的信息估計(jì)場(chǎng)景中目標(biāo)物體的狀態(tài)。
在high level的抽象中,主要有兩個(gè)層次的物體跟蹤。
單目標(biāo)跟蹤(SOT)
多目標(biāo)跟蹤(MOT)
目標(biāo)跟蹤不局限于二維序列數(shù)據(jù),可以應(yīng)用于三維領(lǐng)域。
在本文中,我們將深入研究目標(biāo)跟蹤范式的一個(gè)子領(lǐng)域,即使用深度學(xué)習(xí)的二維視頻序列中的多目標(biāo)跟蹤(MOT)。
深度神經(jīng)網(wǎng)絡(luò)(DNN)的強(qiáng)大之處在于它們能夠?qū)W習(xí)豐富的表示,并從輸入中提取復(fù)雜和抽象的特征。
多目標(biāo)跟蹤(MOT),也稱為多目標(biāo)跟蹤(MTT),是一種計(jì)算機(jī)視覺(jué)任務(wù),旨在分析視頻,以識(shí)別和跟蹤屬于一個(gè)或多個(gè)類別的對(duì)象,如行人,汽車,動(dòng)物和無(wú)生命的物體,沒(méi)有任何先驗(yàn)的目標(biāo)外觀和目標(biāo)數(shù)量。
在單目標(biāo)跟蹤中,目標(biāo)的出現(xiàn)是預(yù)先知道的,而在多目標(biāo)跟蹤中,需要一個(gè)檢測(cè)步驟來(lái)識(shí)別出進(jìn)入或離開場(chǎng)景的目標(biāo)。同時(shí)跟蹤多個(gè)目標(biāo)的主要困難來(lái)自于各種各樣的遮擋以及物體之間的相互重疊,有時(shí)物體間也會(huì)有相似的外觀。因此,僅僅使用SOT模型直接解決MOT問(wèn)題,往往會(huì)導(dǎo)致較差的結(jié)果,往往會(huì)導(dǎo)致目標(biāo)漂移和大量的ID切換錯(cuò)誤,因?yàn)榇祟惸P屯y以區(qū)分外觀相似的類內(nèi)物體。
近年來(lái),由于深度學(xué)習(xí)方法的研究呈指數(shù)級(jí)增長(zhǎng),檢測(cè)和跟蹤方法在準(zhǔn)確性和性能方面取得了巨大的進(jìn)步。
大多數(shù)先進(jìn)的跟蹤方法遵循“檢測(cè)跟蹤”的方案,他們首先在場(chǎng)景中找到對(duì)象,然后找到對(duì)象對(duì)應(yīng)的tracklets(它在下一幀的位置)。
如今,這種探測(cè)器的性能異常出色,能夠適應(yīng)不同的場(chǎng)景。因此,它定義了跟蹤算法的標(biāo)準(zhǔn)輸入。
還有其他的方法,比如Lucas Kanade的光流,基于排序的跟蹤等,它們?cè)趥鹘y(tǒng)的計(jì)算機(jī)視覺(jué)方法的基礎(chǔ)上表現(xiàn)也都很出色。
挑戰(zhàn)
在解決目標(biāo)跟蹤問(wèn)題時(shí),會(huì)出現(xiàn)一些問(wèn)題,這些問(wèn)題會(huì)導(dǎo)致糟糕的結(jié)果。多年來(lái),算法試圖解決這些問(wèn)題,但到目前為止,我們還沒(méi)有找到一個(gè)被充分證明的解決辦法,這仍然是一個(gè)開放的研究領(lǐng)域。
由于幾何變化導(dǎo)致的多樣性,如:姿態(tài),關(guān)節(jié),物體的尺度
由于光學(xué)因素的差異。例如:照明、外觀
非線性運(yùn)動(dòng)
有限的分辨率,如從低端手機(jī)采集的視頻
場(chǎng)景中有相似的物體,例如:相同顏色的衣服,配飾等
高度擁擠的場(chǎng)景,如街道,音樂(lè)會(huì),體育館,市場(chǎng)。
跟蹤起始和終止。在開始任何跟蹤算法之前,你需要想要跟蹤的物體的先驗(yàn)信息。但是并不是一定可以使用目標(biāo)對(duì)象初始化算法。
跟蹤軌跡可能由于運(yùn)動(dòng)的突然變化導(dǎo)致合并和切換,比如相機(jī)成像質(zhì)量的急劇變化等。
由于相似的特征,如相似的衣服,面部結(jié)構(gòu),眼鏡,膚色,身高等,目標(biāo)物體的ID可能被切換。
目標(biāo)模型更新錯(cuò)誤導(dǎo)致漂移。一次錯(cuò)誤的更新可能會(huì)導(dǎo)致在錯(cuò)誤的方向上持續(xù)的更新,從而在整個(gè)視頻中遺忘掉正確的目標(biāo)。
綜述文章
現(xiàn)在你已經(jīng)了解了這個(gè)問(wèn)題的廣泛性,讓我們深入研究對(duì)象跟蹤領(lǐng)域中一些最令人興奮的研究工作。
在目標(biāo)跟蹤領(lǐng)域領(lǐng)先的研究方法的篩選標(biāo)準(zhǔn)是基于5關(guān)鍵指標(biāo):
主要會(huì)議(如:CVPR, NeurIPS, ICCV, ICML, ECCV等)
基準(zhǔn)測(cè)試結(jié)果(例如,MOT, Kitti, VOT, CVPR19挑戰(zhàn))
支持論文結(jié)果的公開代碼(由作者/第三方提供)。
引用
新的想法
有太多令人興奮的研究工作。但是,如果作者不能提供代碼(可能是由于一些原因)來(lái)重現(xiàn)論文中的結(jié)果,那么我們不得不對(duì)文檔中提到的結(jié)果持保留態(tài)度。
我們已經(jīng)提到了與2D MOT相關(guān)的論文,但有些想法也可以外推到3D版本。
—END—
審核編輯 黃昊宇
-
多目標(biāo)跟蹤
+關(guān)注
關(guān)注
0文章
5瀏覽量
7684 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5512瀏覽量
121452
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論