目標跟蹤作為機器學習的一個重要分支,加之其在日常生活、軍事行動中的廣泛應用,受到極大的關注。在AI潮流中,大家對于深度學習,目標跟蹤肯定都會有過接觸了解:在GPU上通過大量的數(shù)據(jù)集訓練出自己想使用的垂直場景后再在實際場景中使用。但麻煩的是,大數(shù)人擁有的是CPU,有沒有辦法能在自己的電腦上用CPU就能實現(xiàn)自己的目標跟蹤能力。OpenCV的跟蹤API給出了答案:我行。
在這篇文章中,我們會介紹在OpenCV上的8種目標檢測算法,優(yōu)勢和局限性, 然后會給出代碼示例,如何使用它。我們的目標不是對每一個跟蹤器都有深入的理論理解,而是從實際使用的角度來理解它們。
目標跟蹤基本原則
在視頻目標跟蹤中的期望是在當前幀中正確找到跟蹤的對象,因為我們已經在所有(或幾乎所有)以前的幀中成功跟蹤了該對象,所以我們知道對象是如何移動的。換句話說,我們知道運動模型的參數(shù)。運動模型只是一種奇特的表達方式,它會知道物體在前一幀中的位置和速度(速度+運動方向)。而如果對這個物體一無所知,則可以根據(jù)當前的運動模型來預測新的位置,從而非常接近物體的新位置。
我們還可以建立一個外觀模型來編碼對象的外觀。外觀模型可用于在運動模型預測的位置的鄰域內搜索,以便更準確地預測物體的位置。
目標跟蹤可以描述為:運動模型預測物體的大致位置。外觀模型微調此估計,以便根據(jù)外觀提供更準確的估計。
如果對象非常簡單,并且沒有改變它的外觀,我們可以使用一個簡單的模板作為外觀模型并查找該模板。然而,現(xiàn)實生活并不那么簡單。對象的外觀可能會發(fā)生顯著變化。為了解決這個問題,在許多現(xiàn)代追蹤器中,這個外觀模型是一個在線訓練的分類器。
分類器的任務是將圖像的矩形區(qū)域分類為對象或背景。分類器接受圖像區(qū)域作為輸入,并返回介于0和1之間的分數(shù),以指示圖像區(qū)域包含對象的概率。如果確定圖像區(qū)域是背景,則分數(shù)為0;如果確定區(qū)域是對象,則分數(shù)為1。
在機器學習中,我們使用“在線”這個詞來指的是在運行時動態(tài)訓練的算法。離線分類器可能需要數(shù)千個示例來訓練分類器,但是在線分類器通常在運行時使用很少的示例進行訓練。
分類器是通過向其提供正(對象)和負(背景)示例來訓練的。如果您想構建一個用于檢測貓的分類器,您可以使用包含貓的數(shù)千個圖像和不包含貓的數(shù)千個圖像對其進行訓練。通過這種方式,分類器學習區(qū)分什么是貓,什么不是貓。
OpenCV八種目標跟蹤算法
1、GOTURN Tracker
Goturn是一種基于深度學習的對象跟蹤算法。最初的實現(xiàn)是在Caffe,目前已經移植到OpenCV跟蹤API。
Goturn是一種基于深度學習的跟蹤算法,是回歸網(wǎng)絡的一般對象跟蹤的縮寫。大多數(shù)跟蹤算法都是在線訓練的。換句話說,跟蹤算法學習運行時跟蹤的對象的外觀。
因此,許多實時追蹤器依賴于在線學習算法,這通常比基于深度學習的解決方案快得多。
Goturn改變了我們將深度學習應用于跟蹤問題的方式,通過離線方式學習對象的運動。Goturn模型接受了數(shù)千個視頻序列的訓練,不需要在運行時執(zhí)行任何學習。
Goturn如何工作?
Goturn由David Holded、Sebastian Thrun和Silvio Savarese在題為“用深度回歸網(wǎng)絡學習100 fps跟蹤”的論文中介紹。
圖1 GoTurn示意圖
如圖1所示,Goturn使用一對來自數(shù)千個視頻的裁剪幀進行培訓。
在第一幀(也稱為前一幀)中,對象的位置是已知的,幀被裁剪為對象周圍邊界框大小的兩倍。第一個裁剪幀中的對象始終居中。
需要預測對象在第二幀(也稱為當前幀)中的位置。用于裁剪第一幀的邊界框也用于裁剪第二幀。因為對象可能已移動,所以對象可能未在第二幀中居中是大概率事件。
訓練卷積神經網(wǎng)絡(CNN)預測第二幀邊界框的位置。
Goturn架構
在Goturn如何工作,看到的是一個黑盒,Goturn架構則讓我們了解了盒子里面藏著什么。
圖2 Goturn架構
圖2顯示了Goturn的體系結構。如前所述,它將兩個裁剪的幀作為輸入。
注:在圖2中,上一幀顯示在底部,是居中的,我們的目標是找到當前幀的邊界框,顯示在頂部。
兩幀都通過一組卷積層。這些層只是caffenet架構的前五個卷積層。這些卷積層(即pool5特性)的輸出被連接成長度為4096的單個矢量。這個向量被輸入到3個完全連接的層中。最后一個完全連接的層最終連接到包含4個節(jié)點的輸出層,這些節(jié)點表示邊界框的頂部和底部點。
( 每當我們看到一組卷積層,并對其含義感到困惑時,可將它們視為改變原始圖像的過濾器,這樣可以保留重要信息,并丟棄圖像中不重要的信息。
通過簡單地展開張量,將卷積濾波器末端獲得的多維圖像(張量)轉換成一個長的數(shù)字矢量。這個向量作為輸入到幾個完全連接的層,最后是輸出層。全連通層可以看作是一種學習算法,它利用卷積層從圖像中提取的有用信息來解決現(xiàn)有的分類或回歸問題。)
與其他基于深度學習的追蹤器相比,Goturn速度更快。它在caffe的gpu上以100fps的速度運行,在opencv cpu上以20fps的速度運行。盡管跟蹤器是通用的,但理論上,通過將傳輸集與特定類型的對象進行偏移,可以在特定對象(例如行人)上獲得更好的結果。
局限性:神經網(wǎng)絡體現(xiàn)的優(yōu)勢,往往就是它的劣勢。神經網(wǎng)絡依賴于訓練集中樣本所能代表的場景種類,對于不存在的場景,就會存在問題。如在實際使用中,希望跟蹤手掌,把手掌移到臉上時,跟蹤器鎖定在臉上,并不會在手掌上。而跟蹤臉,并用手堵遮住臉,但追蹤器能夠跟蹤通過遮擋的臉,這說明訓練集存在大量的手掌遮臉的場景。
2、BOOSTING Tracker助推跟蹤器
該跟蹤器基于ADaboost的在線版本,ADaboost是基于HAAR級聯(lián)的人臉檢測器內部使用的算法。這個分類器需要在運行時用對象的正負示例進行培訓。以用戶(或其他對象檢測算法)提供的初始邊界框為對象的正例,邊界框外的許多圖像部位作為背景。給定一個新的幀,分類器在前一個位置附近的每個像素上運行,并記錄分類器的得分。對象的新位置是得分最大的位置。
缺點:速度較慢,并且表現(xiàn)不好,跟蹤失敗后,不能及時呈現(xiàn)錯誤報告。
3、MIL Tracker 密爾跟蹤器
這個跟蹤器的概念與上面描述的BOOSTING Tracker相似。最大的區(qū)別是,它不只是將對象的當前位置視為一個正示例,還會在當前位置周圍的一個小鄰域中查找,以生成幾個潛在的正示例。你可能認為這是一個壞主意,因為在這些“積極”的例子中,大多數(shù)的對象都不是中心。
這就是多實例學習(mil)來拯救的地方。在mil中,您不指定正負示例,而是指定正負“bags”。正面的圖像收集并非都是正面的例子。一個正面的bag包含了以對象當前位置為中心的區(qū)域,以及它周圍的一個小鄰域中的區(qū)域。即使被跟蹤對象的當前位置不準確,當來自當前位置附近的樣本放入正袋中時,很有可能該袋至少包含一個圖像,并且該對象很好地居中。
優(yōu)點:性能不錯。它不會像助推跟蹤器那樣漂移,并且在部分遮擋下也能正常工作。
缺點:失敗率較高。
4、KCF跟蹤器
KCF代表kernelized correlation filters。這個追蹤器建立在前兩個追蹤器中提出的想法之上。該跟蹤器利用了這樣一個事實:在MIL跟蹤器中使用的多個正樣本具有較大的重疊區(qū)域。這些重疊的數(shù)據(jù)導致了一些很好的數(shù)學特性,這些特性被跟蹤器利用,從而使跟蹤速度更快、更準確。
優(yōu)點:準確度和速度都比MIL跟蹤器好,它報告跟蹤故障比BOOSTING和MIL這兩個追蹤算法好。
缺點:無法從完全遮擋中恢復。
5、TLD跟蹤器
TLD代表跟蹤、學習和檢測。顧名思義,這個跟蹤器將長期跟蹤任務分解為三個組件(短期)跟蹤、學習和檢測。在作者的論文中,“跟蹤器跟蹤對象從一幀到另一幀。探測器定位到目前為止觀察到的所有外觀,并在必要時糾正跟蹤器。學習估計檢測器的錯誤并更新它以避免將來出現(xiàn)這些錯誤。”這個跟蹤器的輸出有點跳躍。例如,如果您正在跟蹤一個行人,并且場景中還有其他行人,則此跟蹤器有時可以臨時跟蹤一個與您要跟蹤的行人不同的行人。在積極的一面,這條軌跡似乎是在更大的比例、運動和遮擋上跟蹤一個對象。如果你有一個隱藏在另一個物體后面的視頻序列,這個跟蹤器可能是個不錯的選擇。
優(yōu)點:在多幀遮擋下效果最好。此外,跟蹤最佳的超比例變化。
缺點:很多誤報使它幾乎不可用。
6、MEDIANFLOW跟蹤器
在內部,這個跟蹤器可以實時地跟蹤物體的前后方向,并測量這兩個軌跡之間的差異。最大限度地減少這種向前向后的誤差,使他們能夠可靠地檢測跟蹤故障,并在視頻序列中選擇可靠的軌跡。
在測試中發(fā)現(xiàn)這個跟蹤器在運動可預測和對象小的情況下工作得最好。與其他跟蹤者不同的是,即使跟蹤明顯失敗,跟蹤者也知道跟蹤何時失敗。
優(yōu)點:出色的跟蹤故障報告。當運動是可預測的并且沒有遮擋時,效果非常好。
缺點:大幅度運動跟蹤,模型會失效。
7、MOSSE 莫斯跟蹤器
最小平方誤差輸出和(mosse)使用自適應相關進行對象跟蹤,當使用單幀進行初始化時,可產生穩(wěn)定的相關濾波器。Mosse跟蹤器對光照、比例、姿勢和非剛性變形的變化具有魯棒性。對于遮擋,跟蹤器能夠在對象重新出現(xiàn)時暫停并恢復到停止的位置。
優(yōu)點:速度快。
缺點:準確率不如CSRT和KCF高。
8、CSRT跟蹤器
在具有信道和空間可靠性的鑒別相關濾波器(DCF-CSR)中,我們使用空間可靠性圖從幀中調整濾波器支持到所選區(qū)域的一部分進行跟蹤。這樣可以確保選定區(qū)域的放大和定位,并改進對非矩形區(qū)域或對象的跟蹤。它只使用兩個標準功能(HoGs and Colornames)。它也在相對較低的fps(25 fps)下工作,但提供了更高的目標跟蹤精度。
優(yōu)點:比KCR精度高。
缺點:速度較慢。
OpenCV跟蹤算法使用代碼實現(xiàn)(C)
1、創(chuàng)建跟蹤算法
2、對跟蹤算法做初始化操作
3、跟蹤監(jiān)測刷新,獲取到下一幀跟蹤目標的坐標(x、y、寬、高)
4、利用坐標做跟蹤所需要的操作,如畫框等
實際檢測結果對比
圖片1起始跟蹤;圖片2運動后跟蹤
如上跟蹤算法顯示,以CBA比賽作為跟蹤對象。從跟蹤過程中兩幀數(shù)據(jù)可以感知不同跟蹤算法在對動態(tài)人物變動所體現(xiàn)的差異。
1、MEDIANFLOW、BOOSTING、MIL在針對人物大小有變化時跟蹤比較不理想,跟蹤不到目標。
2、CSRT、KCF能對運動畫面有較好跟蹤,但是在遮擋場景下,不能支持,效果較差。
審核編輯 :李倩
-
算法
+關注
關注
23文章
4615瀏覽量
92992 -
分類器
+關注
關注
0文章
152瀏覽量
13197 -
OpenCV
+關注
關注
31文章
635瀏覽量
41374
原文標題:OpenCV中八種不同的目標追蹤算法
文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論