隨著智能手機(jī)的迅速發(fā)展,移動(dòng)端的人臉識(shí)別和分析越來越重要,而人臉追蹤是很多視覺應(yīng)用的主要出發(fā)點(diǎn)。在移動(dòng)場(chǎng)景下的移動(dòng)追蹤面臨著光照、尺度、角度的劇烈變化和環(huán)境背景、遮擋以及目標(biāo)的消失等挑戰(zhàn)。人臉追蹤十分重要但由于合適數(shù)據(jù)集的缺乏使得這一領(lǐng)域收到的關(guān)注較少。
為了幫助移動(dòng)端人臉追蹤算法的開發(fā)和評(píng)測(cè),帝國(guó)理工智能行為理解研究組(iBUG)提出了一個(gè)名為iBUG MobiFace benchmark的數(shù)據(jù)庫(kù)。最為第一個(gè)移動(dòng)端的人臉追蹤基準(zhǔn),包含了50段智能手機(jī)在不受限環(huán)境下拍攝的影像、其中包括46個(gè)個(gè)體和50736幀。除了邊框標(biāo)記之外,還提供了9個(gè)序列屬性標(biāo)注。
研究人員還針對(duì)相關(guān)濾波和深度學(xué)習(xí)兩大方法、23種前沿算法進(jìn)行了評(píng)測(cè)。作者表示數(shù)據(jù)集將在近日公布在iBUG的網(wǎng)站上。
(編者注:iBUG網(wǎng)站上還有其他豐富的人類行為數(shù)據(jù)庫(kù),包括3D人臉追蹤、人體姿態(tài)標(biāo)注等等數(shù)據(jù)庫(kù)感興趣的小伙伴可以參看:https://ibug.doc.ic.ac.uk/resources)
1. 移動(dòng)端人臉追蹤
人臉追蹤是指在視頻中定位隨時(shí)間變化的目標(biāo)人臉。智能手機(jī)和移動(dòng)設(shè)備的高速發(fā)展使得人臉追蹤算法扮演著越來越重要作用,從人臉解鎖到相機(jī)應(yīng)用,從人臉識(shí)別到美顏工具,移動(dòng)端的追蹤成為了手機(jī)應(yīng)用的核心功能之一。人臉追蹤的目標(biāo)是在給定目標(biāo)初始位置的情況下,估計(jì)出接下來目標(biāo)的位置和尺度。雖然目前的人臉追蹤算法取得了一系列進(jìn)步,但在移動(dòng)端還面臨著嚴(yán)峻的挑戰(zhàn)。業(yè)界提出了移動(dòng)端數(shù)據(jù)集和物體追蹤數(shù)據(jù)集,但對(duì)于移動(dòng)端的人臉追蹤還沒有細(xì)分的適合的數(shù)據(jù)集供研究人員開發(fā)和測(cè)評(píng)算法。
雖然與目標(biāo)追蹤很相似,但移動(dòng)端的目標(biāo)追蹤算法卻在以下方面有著獨(dú)特的不同:
由于設(shè)備的旋轉(zhuǎn)和移動(dòng)使得目標(biāo)的尺度變化劇烈;
相機(jī)和目標(biāo)都在同時(shí)運(yùn)動(dòng),相機(jī)運(yùn)動(dòng)較為快速;
嚴(yán)重遮擋的人臉在人臉分析中沒有貢獻(xiàn),不應(yīng)該被追蹤;
移動(dòng)端相機(jī)的視場(chǎng)較小、人臉很容易離開視場(chǎng);
移動(dòng)端算力有限;
照片受到卷簾快門的影響,造成不必要的扭曲和模糊。
一個(gè)優(yōu)秀的移動(dòng)人臉追蹤算法不僅僅需要克服諸如光照變化等傳統(tǒng)的挑戰(zhàn)、更需要高效地解決移動(dòng)端如視角、運(yùn)動(dòng)等特殊的問題。
本文通過提出iBUG移動(dòng)人臉追蹤數(shù)據(jù)庫(kù)作為測(cè)評(píng)基準(zhǔn),詳細(xì)分析OTB和VOT數(shù)據(jù)集上的23種前沿追蹤算法,并指出了深度學(xué)習(xí)和人臉相關(guān)算法結(jié)合具有潛在的提高空間。
2.人臉追蹤問題
人臉追蹤問題可以歸結(jié)為在初始位置給定后給出t幀中人臉的最優(yōu)位置,表達(dá)式如下:
如果人臉無法觀測(cè)則為0,如果可以觀測(cè)則找到分?jǐn)?shù)最大的區(qū)域r;其損失函數(shù)則可以定義為最小化幀序列中人臉位置的誤差:
目前針對(duì)視覺追蹤問題主要分為兩種思路,一種是利用相關(guān)濾波的方法實(shí)現(xiàn);另一種則是利用深度學(xué)習(xí)的方法來解決。
相關(guān)濾波器近年來在VOT和OTB數(shù)據(jù)集上取得了驚人的表現(xiàn),它可以被視為一種模板匹配的過程。在初始化過程中,相關(guān)濾波通過第一幀中的目標(biāo)區(qū)域進(jìn)行訓(xùn)練,隨后在后續(xù)幀的候選窗中應(yīng)用濾波器。最后在生成的空間執(zhí)行度圖中選出最高的區(qū)域作為這一幀的預(yù)測(cè)輸出,同時(shí)對(duì)CF進(jìn)行更新。相關(guān)濾波主要需要處理以下四個(gè)方面的問題,分別是如何從原始數(shù)據(jù)中抽取有效特征、處理不同尺度的目標(biāo)、邊界效應(yīng)帶來的信息損失和長(zhǎng)時(shí)間追蹤。
而基于深度學(xué)習(xí)的追蹤方法主要分為單個(gè)CNN追蹤、雙CNN追蹤法和基于RNN的追蹤方法,同時(shí)還有強(qiáng)化學(xué)習(xí)的方法也同樣用于移動(dòng)端的人臉追蹤。
研究人員們對(duì)于算法進(jìn)行了速度和準(zhǔn)確率和評(píng)價(jià),需要指出的是作者的電腦配置為Intel(R) Core(TM) i7-7700 3.60GHz CPU 、 GeForce GTX 1060 GPU 3GB memory。
從精度對(duì)比圖上可以發(fā)現(xiàn)幾乎所有的追蹤器在移動(dòng)端人臉追蹤任務(wù)中都出現(xiàn)了一定程度的性能下降。在成功率圖中發(fā)現(xiàn)排名前五的算法都使用了深度特征,這意味著好的特征對(duì)于移動(dòng)端人臉追蹤任務(wù)具有重要的意義。
同時(shí)文中還對(duì)針對(duì)數(shù)據(jù)集的不同屬性評(píng)價(jià)了23種算法,具體請(qǐng)參看文末鏈接的論文。結(jié)果顯示目前移動(dòng)端的人臉追蹤算法相較于其他任務(wù)還有很大的差距。但可以看出基于深度網(wǎng)絡(luò)的特征可能在未來扮演重要的作用,高效的在線學(xué)習(xí)策略可以幫助基于深度學(xué)習(xí)的追蹤器平衡速度和精度的要求。
-
人臉識(shí)別
+關(guān)注
關(guān)注
76文章
4012瀏覽量
81998 -
移動(dòng)端
+關(guān)注
關(guān)注
0文章
41瀏覽量
4421
原文標(biāo)題:讓我看到你的臉:最新benchmark助力移動(dòng)端人臉檢測(cè)新突破
文章出處:【微信號(hào):thejiangmen,微信公眾號(hào):將門創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論