0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

復旦開源LVOS:面向真實場景的長時視頻目標分割數(shù)據(jù)集

CVer ? 來源:CVer ? 2023-09-04 16:33 ? 次閱讀

本文介紹復旦大學提出的面向真實場景的長時視頻目標分割數(shù)據(jù)集LVOS,論文被ICCV2023收錄

653a1c14-4ae1-11ee-97a6-92fbcf53809c.png

現(xiàn)有的視頻目標分割(VOS)數(shù)據(jù)集主要關注于短時視頻,平均時長在3-5秒左右,并且視頻中的物體大部分時間都是可見的。然而在實際應用過程中,用戶所需要分割的視頻往往時長更長,并且目標物體常常會消失?,F(xiàn)有的VOS數(shù)據(jù)集和真實場景存在一定的差異,真實場景中的視頻更加困難。

雖然現(xiàn)在的SOTA的視頻目標分割方法在短時的VOS數(shù)據(jù)集上已經取得了90%的分割準確率,但是這些算法在真實場景中的表現(xiàn)如何卻由于缺少相關的數(shù)據(jù)集不得而知。

6541eec6-4ae1-11ee-97a6-92fbcf53809c.png

因此,為了探究VOS模型在真實場景下的表現(xiàn),彌補現(xiàn)有數(shù)據(jù)集的缺失,我們提出了第一個面向真實場景的長時視頻目標分割數(shù)據(jù)集Long-term Video Object Segmentation (LVOS)。

背景介紹:

視頻目標分割(VOS)旨在根據(jù)視頻中第一幀的物體的掩膜,在視頻之后每一幀中準確地跟蹤并分割目標物體。視頻目標分割有著十分廣泛的應用,比如:視頻編輯、現(xiàn)實增強等。在實際應用場景中,待分割的視頻長度常常大于一分鐘,且視頻中的目標物體會頻繁地消失和重新出現(xiàn)。對于VOS模型來說,在任意長的視頻中準確地重檢測和分割目標物體是一個十分重要的能力。

但是,現(xiàn)有的VOS模型主要是針對于短時視頻設計的,并不能很好的處理長時的物體消失和錯誤累計。并且部分VOS算法依賴于不斷增長的記憶模塊,當視頻長度較長時,存在著低效率甚至顯存不夠的問題。

目前的視頻目標分割數(shù)據(jù)集主要關注于短時視頻,平均視頻長度為六秒左右,和真實場景存在著較大差異。與現(xiàn)有的數(shù)據(jù)集相比,LVOS的視頻長度更長,對于VOS算法的要求更高,能夠更高地評估VOS模型在真實場景下的性能。

LVOS數(shù)據(jù)集介紹:

658426e2-4ae1-11ee-97a6-92fbcf53809c.png

LVOS包含220個視頻,總時長達421分鐘,平均每個視頻時長為1.59分鐘,遠遠大于現(xiàn)有的VOS數(shù)據(jù)集。LVOS中的視頻更加復雜,且有著在短時視頻中不存在的挑戰(zhàn),比如長時消失重現(xiàn)和跨時序混淆。這些挑戰(zhàn)更難,且對VOS模型的性能影響更大。LVOS中涉及27個類別的物體,其中包含了7種只有測試集中存在的未見類別,能夠很好地衡量VOS模型的泛化性。

LVOS分為120個訓練視頻,50個驗證視頻和50個測試視頻,其中測試視頻和驗證視頻已經全部開源,而測試視頻目前只開源了視頻圖像和第一幀中目標物體的掩膜,需要將預測結果上傳到測試服務器中進行在線評測。

方法介紹:

6588d66a-4ae1-11ee-97a6-92fbcf53809c.png

針對于長時視頻,我們提出了一個新穎的VOS算法,Diverse Dynamic Memory (DDMemory)。DDMemory包含三個固定大小的記憶模塊,分別是參考記憶,全局記憶和局部記憶。通過記憶模塊,DDMemory將全局的時序信息壓縮到三個固定大小的記憶特征中,在保持高準確率的同時實現(xiàn)了低GPU顯存占用和高效率。在分割當前幀時,當前幀圖像特征會與三個記憶模塊特征進行匹配,并根據(jù)匹配結果輸出掩膜預測。參考記憶存儲第一幀的圖像和掩膜信息,參考記憶負責物體消失或者遮擋之后的找回。局部記憶會隨著視頻不斷更新,存儲前一幀的圖像和掩膜,為當前幀的分割提供位置和形狀的先驗。而全局記憶利用了全局記憶編碼器,通過循環(huán)網絡的形式,有效地將全局歷史信息存儲在一個固定大小的特征中,實現(xiàn)對于時序信息的高效壓縮和對冗余噪聲干擾的排除。

實驗:

65cfb88c-4ae1-11ee-97a6-92fbcf53809c.png

在驗證集和測試集上,我們對現(xiàn)有的VOS模型和DDMemory進行了分別評測。從表中可以看到,現(xiàn)有僅在短時視頻上訓練的VOS模型在長時視頻上表現(xiàn)不如人意,而在長時視頻上進行了微調之后,性能均有一定的提升。我們提出的DDMemory能夠使用最小的GPU顯存,在實現(xiàn)最好性能的同時,實現(xiàn)實時的速度(30.3FPS)。實驗結果表明,現(xiàn)有的VOS模型對于真實場景表現(xiàn)較差,且由于缺少面向真實場景的數(shù)據(jù)集,在一定程度上限制了現(xiàn)有VOS模型的發(fā)展,也證明了LVOS數(shù)據(jù)集的價值。

65f23c0e-4ae1-11ee-97a6-92fbcf53809c.png

我們也進行了oracle實驗,給定真實的位置和掩膜,模型的性能都會有所提升。在分割當前幀時,給定目標物體的真實位置,性能能夠提升8.3%。而在記憶模塊更新時,使用真實掩膜來代替預測掩膜進行更新,預測性能能夠提升20.8%。但是即使給定目標物體的真實位置和掩膜,模型預測結果仍然和真實結果存在較大差距。實驗表明,錯誤累計以及真實場景視頻中復雜的物體運動對VOS模型仍然是尚未解決的挑戰(zhàn),且這些挑戰(zhàn)在現(xiàn)有短時視頻數(shù)據(jù)集中并不明顯,卻在真實場景下對VOS算法性能有著巨大的影響。

總結

針對于真實場景,我們構建了一個新的長時視頻目標分割數(shù)據(jù)集LVOS,LVOS中的視頻物體運動更加復雜,對于VOS模型的能力有著更高的要求,且比現(xiàn)有的短時數(shù)據(jù)集更加貼近實際應用。我們對現(xiàn)有的VOS算法進行了測試和比較,發(fā)現(xiàn)現(xiàn)有的VOS模型并不能很好地解決長時視頻中的挑戰(zhàn)?;贚VOS,我們也分析了現(xiàn)有方法的缺陷以及一些可能的改進方向。希望LVOS能夠為面向真實場景的視頻理解研究提供一個平臺。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 算法
    +關注

    關注

    23

    文章

    4612

    瀏覽量

    92910
  • 數(shù)據(jù)集

    關注

    4

    文章

    1208

    瀏覽量

    24704
  • VOS
    VOS
    +關注

    關注

    0

    文章

    22

    瀏覽量

    8104

原文標題:?ICCV 2023 | 復旦開源LVOS:面向真實場景的長時視頻目標分割數(shù)據(jù)集

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    鴻蒙開源場景應用開發(fā)資料匯總

    1、鴻蒙開源場景應用開發(fā)——視頻編解碼面對鴻蒙這一全新的生態(tài),廣大消費者在積極嘗鮮的同時,家中不可避免會出現(xiàn)安卓設備和鴻蒙設備并存的現(xiàn)象,短期內可能不會形成全鴻蒙的生態(tài)環(huán)境。因此,在未來的一段時間
    發(fā)表于 03-23 10:09

    復旦微電子學院楊帆:介紹openDACS物理設計&建模驗證SIG,發(fā)布開源Verilog Parser

    物理設計&建模驗證SIG組長,介紹了SIG總體情況,包括四個方面內容:SIG研究方向介紹技術趨勢和相關業(yè)界產品開源目標與計劃開源版本發(fā)布最后代表復旦微電子學院,發(fā)布了openD
    發(fā)表于 07-01 14:35

    3D視頻目標分割與快速跟蹤

    3D視頻目標分割與快速跟蹤_朱仲杰
    發(fā)表于 01-07 16:00 ?0次下載

    廣泛應用的城市語義分割數(shù)據(jù)整理

    這是最早用于自動駕駛領域的語義分割數(shù)據(jù),發(fā)布于2007年末。他們應用自己的圖像標注軟件在一段10分鐘的視頻中連續(xù)標注了700張圖片,這些視頻
    的頭像 發(fā)表于 05-29 09:42 ?8363次閱讀

    如何在信息熵約束下進行視頻目標分割資料詳細概述

    大部分基于圖論的視頻分割方法往往先通過分析運動和外觀信息獲得先驗顯著性區(qū)域,然后用最小化能量模型來進一步分割,這些方法常常忽略對外觀信息精細化分析,建立的目標模型對復雜
    發(fā)表于 12-06 11:53 ?4次下載

    深度學習在視頻對象分割中的應用及相關研究

    視頻對象分割的主要任務,并總結了該任務所面臨的挑戰(zhàn)。其次,對開放的視頻對象分割常用數(shù)據(jù)進行了
    發(fā)表于 03-24 15:47 ?9次下載
    深度學習在<b class='flag-5'>視頻</b>對象<b class='flag-5'>分割</b>中的應用及相關研究

    動態(tài)外觀模型和高階能量的雙邊視頻目標分割方法

    針對復雜場景視頻日標分割質量不佳和時間效率低下的問題,提岀了一種動態(tài)外觀模型和高階能量的雙邊視頻目標
    發(fā)表于 04-07 15:44 ?8次下載
    動態(tài)外觀模型和高階能量的雙邊<b class='flag-5'>視頻</b><b class='flag-5'>目標</b><b class='flag-5'>分割</b>方法

    基于深度學習的場景分割算法研究

    場景分割目標是判斷場景圖像中每個像素的類別.場景分割是計算機視覺領域重要的基本問題之一,對
    發(fā)表于 02-12 11:28 ?583次閱讀

    港中大IDEA開源首個大規(guī)模全場景人體數(shù)據(jù)Human-Art

    然而,現(xiàn)有的計算機視覺任務、訓練的數(shù)據(jù)等大多只關注到了真實世界的照片,這導致相關模型在更豐富的場景下,常常出現(xiàn)性能下降甚至完全失效的問題。即使是SOTA性能的人體檢測模型,面對虛擬
    的頭像 發(fā)表于 04-11 14:13 ?946次閱讀

    語義分割數(shù)據(jù):從理論到實踐

    語義分割是計算機視覺領域中的一個重要問題,它的目標是將圖像或視頻中的語義信息(如人、物、場景等)從背景中分離出來,以便于進行目標檢測、識別和
    的頭像 發(fā)表于 04-23 16:45 ?939次閱讀

    PyTorch教程14.9之語義分割數(shù)據(jù)

    電子發(fā)燒友網站提供《PyTorch教程14.9之語義分割數(shù)據(jù).pdf》資料免費下載
    發(fā)表于 06-05 11:10 ?0次下載
    PyTorch教程14.9之語義<b class='flag-5'>分割</b>和<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>集</b>

    PyTorch教程-14.9. 語義分割數(shù)據(jù)

    14.9. 語義分割數(shù)據(jù)? Colab [火炬]在 Colab 中打開筆記本 Colab [mxnet] Open the notebook in Colab Colab [jax
    的頭像 發(fā)表于 06-05 15:44 ?652次閱讀
    PyTorch教程-14.9. 語義<b class='flag-5'>分割</b>和<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>集</b>

    最全自動駕駛數(shù)據(jù)分享系列一:目標檢測數(shù)據(jù)

    自動駕駛數(shù)據(jù)分享是整數(shù)智能推出的一個全新分享系列,在這個系列中,我們將介紹目前為止各大科研機構和企業(yè)推出的所有公開自動駕駛數(shù)據(jù)。數(shù)據(jù)
    發(fā)表于 06-06 11:15 ?2次下載
    最全自動駕駛<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>集</b>分享系列一:<b class='flag-5'>目標</b>檢測<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>集</b>

    SAM-PT:點幾下鼠標,視頻目標分割出來了!

    這些視頻中包含訓練之外的物體。而表現(xiàn)一般的原因就是沒有特定的視頻分割數(shù)據(jù)進行微調,這些模型就很難在各種場景中保持一致的性能。
    的頭像 發(fā)表于 07-10 15:28 ?733次閱讀
    SAM-PT:點幾下鼠標,<b class='flag-5'>視頻</b><b class='flag-5'>目標</b>就<b class='flag-5'>分割</b>出來了!

    圖像分割目標檢測的區(qū)別是什么

    圖像分割目標檢測是計算機視覺領域的兩個重要任務,它們在許多應用場景中都發(fā)揮著關鍵作用。然而,盡管它們在某些方面有相似之處,但它們的目標、方法和應用
    的頭像 發(fā)表于 07-17 09:53 ?1337次閱讀