0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于尺度-時(shí)間網(wǎng)格的視頻中物體檢測(cè)算法,解決如何優(yōu)化和平衡視頻物體檢測(cè)中精度和速度的難題

商湯科技SenseTime ? 來源:未知 ? 作者:李倩 ? 2018-06-07 17:48 ? 次閱讀

在物體檢測(cè)與識(shí)別領(lǐng)域,香港中文大學(xué)-商湯科技聯(lián)合實(shí)驗(yàn)室在CVPR 2018發(fā)表論文,提出基于尺度-時(shí)間網(wǎng)格的視頻中物體檢測(cè)算法,解決如何優(yōu)化和平衡視頻物體檢測(cè)中精度和速度的難題。本文為商湯科技CVPR 2018論文解讀第6期。

簡(jiǎn)介

本文主要研究如何更好地優(yōu)化和平衡視頻中物體檢測(cè)的準(zhǔn)確率和檢測(cè)速度。物體檢測(cè)器為了達(dá)到高準(zhǔn)確率,往往需要使用高性能的卷積神經(jīng)網(wǎng)絡(luò)來提取圖像特征,導(dǎo)致檢測(cè)速度難以滿足實(shí)時(shí)性的需求。解決這個(gè)問題的關(guān)鍵在于尋求一種有效的方式,在準(zhǔn)確率和檢測(cè)速度之間作出平衡。為了尋找一個(gè)良好的平衡點(diǎn),之前的研究工作通常集中在如何優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)上。本文提出一種新的方法,基于尺度-時(shí)間網(wǎng)格(Scale-Time Lattice,簡(jiǎn)記為ST-Lattice)來重新分配計(jì)算資源。

提出的方法在ImageNet VID 數(shù)據(jù)集上達(dá)到了 79.6 mAP(20fps)和 79.0 mAP(62 fps)的準(zhǔn)確率和速度。本文的主要貢獻(xiàn)有:

提出了尺度-時(shí)間網(wǎng)格,其為算法提供了豐富的設(shè)計(jì)空間來對(duì)物體檢測(cè)性能進(jìn)行優(yōu)化;

基于尺度-時(shí)間網(wǎng)格,提出了新的視頻中物體檢測(cè)的框架,實(shí)現(xiàn)了優(yōu)異準(zhǔn)確率和快速檢測(cè)速度的平衡;

設(shè)計(jì)了一些新的技術(shù)模塊,包括高效的傳播模塊和動(dòng)態(tài)的關(guān)鍵幀選取模塊。

基本思想

視頻中相鄰幀之間有著很強(qiáng)的連續(xù)性和信息冗余性,為了提高效率,應(yīng)該充分利用這些性質(zhì)來設(shè)計(jì)新的檢測(cè)框架。之前的方法已經(jīng)對(duì)視頻中的物體檢測(cè)作了很多探索,通常包含若干個(gè)步驟,例如基于單幀的物體檢測(cè),進(jìn)行跨時(shí)間的傳播和空間上位置的修正等,如何用一種更高效的方式將這些獨(dú)立的步驟結(jié)合起來是一個(gè)值得研究的問題。

本文提出的基本思想是在一個(gè)計(jì)算網(wǎng)格中對(duì)計(jì)算資源進(jìn)行更好的分配,將精確但速度較慢的靜態(tài)圖像物體檢測(cè)器應(yīng)用于稀疏的關(guān)鍵幀上,然后利用一些簡(jiǎn)單高效的網(wǎng)絡(luò)在時(shí)間和空間兩個(gè)維度上不斷地傳播和修正這些檢測(cè)結(jié)果,以達(dá)到更好的平衡。

尺度-時(shí)間網(wǎng)格

本文將尺度-時(shí)間網(wǎng)格表示成一個(gè)有向無環(huán)圖(如圖1所示)。圖中的每一個(gè)節(jié)點(diǎn)都表示某個(gè)圖像尺度和時(shí)間點(diǎn)的中間結(jié)果,即一系列檢測(cè)框。這些節(jié)點(diǎn)以類似網(wǎng)格的方式關(guān)聯(lián)起來:從左到右遵循時(shí)間順序,從上到下圖像尺度(分辨率)逐漸提高。圖中的一條邊代表一個(gè)特定的操作,以一個(gè)節(jié)點(diǎn)的結(jié)果作為輸入,輸出另一個(gè)節(jié)點(diǎn)的檢測(cè)結(jié)果。我們?cè)趫D中定義兩種操作,時(shí)間傳播(temporal propagation)和空間修正(spatial refinement)。它們分別對(duì)應(yīng)圖中橫向邊和縱向邊。時(shí)間傳播是在同一圖像尺度下,在相鄰的幀之間進(jìn)行檢測(cè)框的傳播。而空間修正是在同一幀下,對(duì)檢測(cè)框的位置進(jìn)行修正,獲得更高圖像尺度下的檢測(cè)框結(jié)果。在尺度-時(shí)間網(wǎng)格中,檢測(cè)結(jié)果會(huì)通過上述操作從一個(gè)節(jié)點(diǎn)傳播到另一個(gè)節(jié)點(diǎn),最終到達(dá)最底端的所有節(jié)點(diǎn),也即在最大的圖像尺度上每幀的檢測(cè)結(jié)果。

圖1:

尺度-時(shí)間網(wǎng)格示意圖

基于尺度-時(shí)間網(wǎng)格,本文的視頻物體檢測(cè)算法被分為以下3 個(gè)步驟:

在稀疏的關(guān)鍵幀上(用基于靜態(tài)圖像的物體檢測(cè)器)進(jìn)行檢測(cè),得到稀疏節(jié)點(diǎn)上的結(jié)果;

規(guī)劃一條從上述稀疏的節(jié)點(diǎn)到稠密的節(jié)點(diǎn)的路徑;

基于上述路徑將關(guān)鍵幀上的檢測(cè)結(jié)果傳播到中間幀,并進(jìn)行位置修正。

尺度-時(shí)間網(wǎng)格的框架為算法提供了豐富的設(shè)計(jì)空間來平衡優(yōu)化視頻中物體檢測(cè)精度和速度。檢測(cè)所需要的總時(shí)間是路徑中所有邊的時(shí)間之和,包括單幀物體檢測(cè)器的時(shí)間以及傳播和修正所用的時(shí)間。可以通過對(duì)不同的邊上分配不同的計(jì)算時(shí)間,來達(dá)到性能與時(shí)間上的期望平衡點(diǎn)。

圖2:

尺度-時(shí)間網(wǎng)格中的時(shí)間傳播網(wǎng)絡(luò)(T)

和空間修正網(wǎng)絡(luò)(S)

不同模塊的實(shí)現(xiàn)

傳播和修正單元(Propagation and Refinement Unit,PRU)

傳播和修正單元(如圖2所示)以相鄰兩個(gè)關(guān)鍵幀的結(jié)果作為輸入,使用時(shí)間傳播網(wǎng)絡(luò)將結(jié)果傳播到中間幀上,然后使用空間修正網(wǎng)絡(luò)將結(jié)果進(jìn)行空間位置上的修正。時(shí)間傳播網(wǎng)絡(luò)主要用于考慮視頻中的運(yùn)動(dòng)信息,來預(yù)測(cè)兩幀之間較大的位移。而空間修正模塊則通過回歸檢測(cè)框位置的偏差,來修正檢測(cè)框本來的誤差和傳播帶來的誤差。這兩種操作不斷迭代進(jìn)行來獲得最終的檢測(cè)結(jié)果。

在時(shí)間傳播網(wǎng)絡(luò)中,算法使用兩幀之間的運(yùn)動(dòng)歷史圖像(Motion History Image,MHI)來表示運(yùn)動(dòng)信息,將其輸入到網(wǎng)絡(luò)中,回歸物體在這段時(shí)間內(nèi)的位移。相對(duì)于光流等常用的運(yùn)動(dòng)表示,MHI 的計(jì)算速度非??欤沟每臻g傳播網(wǎng)絡(luò)能夠保持較高的效率。

在空間修正網(wǎng)絡(luò)中,算法采用與Fast R-CNN 相同的結(jié)構(gòu),以當(dāng)前幀的 RGB 圖像作為輸入,來回歸檢測(cè)框的偏差。這兩個(gè)小網(wǎng)絡(luò)在訓(xùn)練時(shí)通過一個(gè)多任務(wù)的損失函數(shù)同時(shí)進(jìn)行優(yōu)化。

關(guān)鍵幀選取

關(guān)鍵幀的選取對(duì)最終的檢測(cè)速度和準(zhǔn)確率有著重要的影響。最簡(jiǎn)單直接的方法就是在時(shí)間軸上均勻地選取關(guān)鍵幀,之前的絕大多數(shù)方法也都采取了該策略。但本文考慮到幀與幀之間的信息冗余度不同,并不是每一幀都有同等重要的地位,所以需要一種非均勻的采樣策略,在物體運(yùn)動(dòng)較快、傳播難度大的時(shí)間段內(nèi)多選取關(guān)鍵幀,反之則少選取關(guān)鍵幀。

具體過程如下:首先在均勻選取的非常稀疏的幀(例如每隔24幀)上進(jìn)行單幀的物體檢測(cè),然后根據(jù)檢測(cè)結(jié)果來衡量相鄰兩個(gè)關(guān)鍵幀之間傳播的難易程度,如果難易程度低于某個(gè)閾值,則在這兩幀之間插入一個(gè)額外的關(guān)鍵幀。計(jì)算難易程度時(shí)本文考慮了兩個(gè)因素,即框的大小以及物體運(yùn)動(dòng)快慢,具體公式參見原文。

時(shí)間管道重打分(Tube Rescoring)

由于時(shí)間上的檢測(cè)框傳播,獲得的檢測(cè)結(jié)果并不是獨(dú)立的逐幀結(jié)果,而是自然串聯(lián)成一個(gè)個(gè)的物體時(shí)間管道(Object Tube)的,那么可以對(duì)這些物體時(shí)間管道來進(jìn)行重新分類。本文訓(xùn)練了一個(gè) R-CNN 作為分類器,對(duì)于每個(gè)物體時(shí)間管道,均勻選取其中 K 幀作為輸入,以它們的平均值作為新的分類結(jié)果,根據(jù)新的分類結(jié)果來調(diào)整物體時(shí)間管道中每個(gè)框的分?jǐn)?shù)。

實(shí)驗(yàn)結(jié)果

圖3展示了本文基于尺度-時(shí)間網(wǎng)格算法的檢測(cè)速度(fps)和準(zhǔn)確率(mAP)的曲線,并和之前的方法進(jìn)行比較??梢钥吹奖疚姆椒▋?yōu)于 baseline 和之前性能先進(jìn)的方法。

圖3:

不同視頻中物體檢測(cè)算法

檢測(cè)速度和精度的比較

結(jié)論

針對(duì)視頻中的物體檢測(cè),本文提出了尺度-時(shí)間網(wǎng)格這個(gè)靈活的框架,其提供了豐富的設(shè)計(jì)空間來解決如何平衡準(zhǔn)確率和檢測(cè)速度的挑戰(zhàn)。該方法將單幀檢測(cè)、時(shí)間傳播、多尺度空間處理結(jié)合起來解決這個(gè)問題。實(shí)驗(yàn)結(jié)果展示了基于該框架的多種設(shè)計(jì)和配置,能夠達(dá)到與當(dāng)前先進(jìn)性能方法近似的準(zhǔn)確率,但檢測(cè)速度則獲得了大幅提高。該框架不僅可以用于物體檢測(cè),也可以應(yīng)用在其他視頻相關(guān)的任務(wù),如物體分割、物體跟蹤等。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 檢測(cè)器
    +關(guān)注

    關(guān)注

    1

    文章

    869

    瀏覽量

    47746
  • 視頻
    +關(guān)注

    關(guān)注

    6

    文章

    1956

    瀏覽量

    73042
  • 網(wǎng)格
    +關(guān)注

    關(guān)注

    0

    文章

    139

    瀏覽量

    16033

原文標(biāo)題:CVPR 2018 | 商湯科技論文詳解:基于尺度-時(shí)間網(wǎng)格的視頻中物體檢測(cè)算法

文章出處:【微信號(hào):SenseTime2017,微信公眾號(hào):商湯科技SenseTime】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    華為云ModelArts入門開發(fā)(完成物體分類、物體檢測(cè))

    利用ModelArts框架可以完成圖像分類、物體檢測(cè)、預(yù)測(cè)分析、聲音分類、文本分類等功能。介紹如何使用ModelArts完成圖像分類、物體檢測(cè)、自我學(xué)習(xí)等功能運(yùn)用。
    的頭像 發(fā)表于 07-10 16:26 ?1742次閱讀
    華為云ModelArts入門開發(fā)(完成<b class='flag-5'>物體</b>分類、<b class='flag-5'>物體檢測(cè)</b>)

    ARM海思行人檢測(cè)/行人識(shí)別/人體檢測(cè)/人體識(shí)別解決方案

    我司提供行人檢測(cè)/人體檢測(cè)/人體抓拍海思解決方案,同時(shí)還有ARM行人檢測(cè)攝像機(jī)方案。人體檢測(cè)自動(dòng)識(shí)別攝像機(jī)基于視頻圖像智能分析技術(shù)原理研制,
    發(fā)表于 06-14 11:29

    如何開始在斯巴達(dá)3e板上進(jìn)行物體檢測(cè)和跟蹤

    我如何開始在斯巴達(dá)3e板上進(jìn)行物體檢測(cè)和跟蹤... plz幫助
    發(fā)表于 05-26 08:46

    基于ToF的3D活體檢測(cè)算法研究

    什么是活體檢測(cè)?什么又是3D活體檢測(cè)?以及怎么實(shí)現(xiàn)惡劣環(huán)境(如人臉遮擋、惡劣光照等)與人臉多姿態(tài)變化(如側(cè)臉、表情等)應(yīng)用場(chǎng)景下的活體檢測(cè)呢?本文將會(huì)圍繞這些問題,介紹數(shù)跡智能的最新成果——基于ToF的3D活
    發(fā)表于 01-06 07:30

    設(shè)計(jì)一個(gè)紅外物體檢測(cè)設(shè)備

    描述使用 PIR 傳感器的紅外物體檢測(cè)設(shè)備-PCB 設(shè)計(jì)項(xiàng)目背后的動(dòng)機(jī):這種物體檢測(cè)傳感器專門設(shè)計(jì)用于防止未經(jīng)授權(quán)的物體或身體進(jìn)入。在您不在的情況下,除非您允許,否則它不會(huì)讓任何人進(jìn)入您的位置
    發(fā)表于 06-27 06:18

    基于運(yùn)動(dòng)估計(jì)的運(yùn)動(dòng)物體檢測(cè)技術(shù)研究

    運(yùn)動(dòng)物體檢測(cè)是圖像處理和分析系統(tǒng)的關(guān)鍵技術(shù),為了能夠更準(zhǔn)確的檢測(cè)視頻的運(yùn)動(dòng)物體,本文提出了一種基于運(yùn)動(dòng)估計(jì)的運(yùn)動(dòng)
    發(fā)表于 12-14 13:37 ?16次下載

    基于動(dòng)體檢測(cè)算法的實(shí)時(shí)圖像監(jiān)控系統(tǒng)

    為了實(shí)現(xiàn)自動(dòng)圖像報(bào)警和圖像采集,本文設(shè)計(jì)了動(dòng)體檢測(cè)算法,這是因?yàn)榻^大多數(shù)情況下我們只對(duì)監(jiān)控區(qū)域中運(yùn)動(dòng)的物體感興趣,這樣可以過濾掉只包含靜態(tài)背景的圖像,從而降低了對(duì)
    發(fā)表于 07-19 16:26 ?1998次閱讀
    基于動(dòng)<b class='flag-5'>體檢測(cè)算法</b>的實(shí)時(shí)圖像監(jiān)控系統(tǒng)

    基于ARM11的視頻圖像運(yùn)動(dòng)物體檢測(cè)跟蹤系統(tǒng)

    通過深入研究國(guó)內(nèi)外視頻圖像運(yùn)動(dòng)目標(biāo)的跟蹤技術(shù)現(xiàn)狀,基于目前對(duì)視頻圖像運(yùn)動(dòng)物體進(jìn)行檢測(cè)與跟蹤設(shè)備的便攜性差、耗電量高等缺點(diǎn),本系統(tǒng)利用ARM
    發(fā)表于 01-22 14:37 ?215次下載
    基于ARM11的<b class='flag-5'>視頻</b>圖像<b class='flag-5'>中</b>運(yùn)動(dòng)<b class='flag-5'>物體檢測(cè)</b>跟蹤系統(tǒng)

    紅外開關(guān)物體檢測(cè)電路圖

    本例電路利用一個(gè)紅外發(fā)射二極管和紅外接收二極管組成的物體檢測(cè)電路。當(dāng)有物體反射紅外線時(shí),電路自動(dòng)控制開關(guān)閉合,經(jīng)過一段延時(shí)時(shí)間后,自動(dòng)斷開。
    的頭像 發(fā)表于 10-07 15:39 ?7170次閱讀
    紅外開關(guān)<b class='flag-5'>物體檢測(cè)</b>電路圖

    自動(dòng)化所在視覺物體檢測(cè)與識(shí)別領(lǐng)域取得系列進(jìn)展

    物體檢測(cè)是計(jì)算機(jī)視覺與模式識(shí)別領(lǐng)域的核心問題,一直以來受到學(xué)術(shù)界與工業(yè)界的廣泛關(guān)注。當(dāng)前物體檢測(cè)最大的難點(diǎn)是如何對(duì)場(chǎng)景多種尺度物體進(jìn)行有
    的頭像 發(fā)表于 11-29 15:42 ?2722次閱讀

    傳統(tǒng)檢測(cè)、深度神經(jīng)網(wǎng)絡(luò)框架、檢測(cè)技術(shù)的物體檢測(cè)算法全概述

    物體檢測(cè)一向是比較熱門的研究方向,它經(jīng)歷了傳統(tǒng)的人工設(shè)計(jì)特征+淺層分類器的框架,到基于大數(shù)據(jù)和深度神經(jīng)網(wǎng)絡(luò)的End-To-End的物體檢測(cè)框架的發(fā)展,然而許多人其實(shí)并未系統(tǒng)的了解過物體檢測(cè)算法的整個(gè)
    的頭像 發(fā)表于 10-22 15:07 ?2748次閱讀
    傳統(tǒng)<b class='flag-5'>檢測(cè)</b>、深度神經(jīng)網(wǎng)絡(luò)框架、<b class='flag-5'>檢測(cè)</b>技術(shù)的<b class='flag-5'>物體檢測(cè)算法</b>全概述

    華為物體檢測(cè)系統(tǒng)助力智慧安防

    華為發(fā)明的物體檢測(cè)方法,通過構(gòu)建跨域知識(shí)圖譜,可以捕捉到不同待檢測(cè)物體間的內(nèi)在關(guān)系,從而更加精確的進(jìn)行物體識(shí)別,在智能安防等復(fù)雜場(chǎng)景中有著極其重要的應(yīng)用。
    的頭像 發(fā)表于 11-22 09:19 ?2176次閱讀

    使用FOMO物體檢測(cè)算法實(shí)現(xiàn)無人機(jī)野生動(dòng)物計(jì)數(shù)系統(tǒng)的設(shè)計(jì)

    本項(xiàng)目使用 Edge Impulse 的 FOMO(Faster Objects, More Objects)物體檢測(cè)算法。野生動(dòng)物/牲畜/資產(chǎn)跟蹤環(huán)境可以通過選擇灰度圖像塊和具有 2 個(gè)輸出類
    的頭像 發(fā)表于 08-22 14:56 ?2941次閱讀
    使用FOMO<b class='flag-5'>物體檢測(cè)算法</b>實(shí)現(xiàn)無人機(jī)野生動(dòng)物計(jì)數(shù)系統(tǒng)的設(shè)計(jì)

    ESP32 CAM:遙控物體檢測(cè)攝像頭

    電子發(fā)燒友網(wǎng)站提供《ESP32 CAM:遙控物體檢測(cè)攝像頭.zip》資料免費(fèi)下載
    發(fā)表于 12-15 09:56 ?2次下載
    ESP32 CAM:遙控<b class='flag-5'>物體檢測(cè)</b>攝像頭

    物體檢測(cè)人工智能機(jī)器人

    電子發(fā)燒友網(wǎng)站提供《物體檢測(cè)人工智能機(jī)器人.zip》資料免費(fèi)下載
    發(fā)表于 06-19 14:38 ?1次下載
    <b class='flag-5'>物體檢測(cè)</b>人工智能機(jī)器人