TLDR: 視頻分割一直是重標注的一個task,這篇CVPR 2023文章研究了完全不需要標注的視頻物體分割。僅使用ResNet,RCF模型在DAVIS16/STv2/FBMS59上提升了7/9/5%。文章里還提出了不需要標注的調參方法。代碼已公開可用。
Paper title: Bootstrapping Objectness from Videos by Relaxed Common Fate and Visual Grouping
arXiv: https://arxiv.org/abs/2304.08025
作者機構:UC Berkeley, MSRA, UMich
Project page: https://rcf-video.github.io/
Code and models: https://github.com/TonyLianLong/RCF-UnsupVideoSeg
視頻物體分割真的可以不需要人類監(jiān)督嗎?
視頻分割一直是重標注的一個task,可是要標出每一幀上的物體是非常耗時費力的。然而人類可以輕松地分割移動的物體,而不需要知道它們是什么類別。為什么呢?
Gestalt定律嘗試解釋人類是怎么分割一個場景的,其中有一條定律叫做Common Fate,即移動速度相同的物體屬于同一類別。比如一個箱子從左邊被拖到右邊,箱子上的點是均勻運動的,人就會把這個部分給分割出來理解。然而人并不需要理解這是個箱子來做這個事情,而且就算是嬰兒之前沒有見過箱子也能知道這是一個物體。
運用Common Fate來分割視頻
這個定律啟發(fā)了基于運動的無監(jiān)督分割。然而,Common Fate并不是物體性質的可靠指標:關節(jié)可動 (articulated) /可變形物體 (deformable objects) 的一些part可能不以相同速度移動,而物體的陰影/反射 (shadows/reflections) 始終隨物體移動,但并非其組成部分。
舉個例子,下面這個人的腿和身子的運動是不同的(Optical Flow可視化出來顏色不同)。這很常見,畢竟人有關節(jié)嘛 (articulated),要是這個處理不了的話,很多視頻都不能分割了。然而很多baseline是處理不了這點的(例如AMD+和OCLR),他們把人分割成了幾個部分。
還有就是影子和反射,比如上面這只天鵝,它的倒影跟它的運動是一致的(Optical Flow可視化顏色一樣),所以之前的方法認為天鵝跟倒影是一個物體。很多視頻里是有這類現(xiàn)象的(畢竟大太陽下物體都有個影子嘛),如果這個處理不了的話,很多視頻也不能分割了。
那怎么解決?放松。Relax.
長話短說,那我們的方法是怎么解決這個問題的呢?無監(jiān)督學習的一個特性是利用神經(jīng)網(wǎng)絡自己內部的泛化和擬合能力進行學習。既然Common Fate有自己的問題,那么我們沒有必要強制神經(jīng)網(wǎng)絡去擬合Common Fate。于是我們提出了Relaxed Common Fate,通過一個比較弱的學習方式讓神經(jīng)網(wǎng)絡真正學到物體的特性而不是noise。
具體來說,我們的方法認為物體運動由兩部分組成:物體總體的piecewise-constant motion (也就是Common Fate)和物體內部的segment motion。比如你看下圖這個舞者,他全身的運動就可以被理解成piecewise-constant motion來建模,手部腿部這些運動就可以作為residual motion進行擬合,最后合并成一個完整的flow,跟RAFT生成的flow進行比較來算loss。我們用的RAFT是用合成數(shù)據(jù)(FlyingChairs和FlyingThings)進行訓練的,不需要人工標注。
Relaxed Common Fate
首先我們使用一個backbone來進行特征提取,然后通過一個簡單的full-convolutional network獲得Predicted Masks $hat{M}$(下圖里的下半部分),和一般的分割框架是一樣的,也可以切換成別的框架。
那我們怎么優(yōu)化這些Masks呢?我們先提取、合并兩幀的特征,放入一個residual flow prediction head來獲得Residual Flow $hat{R}$ (下圖里的上半部分)。
然后我們對RAFT獲得的Flow用Predicted Masks $hat{M}$進行Guided Pooling,獲得一個piecewise-constant flow,再加上預測的residual flow,就是我們的flow prediction了。最后把flow prediction和RAFT獲得的Flow的差算一個L1 norm Loss進行優(yōu)化,以此來學習segmentation。
在測試的時候,只有Predicted Masks $hat{M}$ 是有用的,其他部分是不用的。
這里的Residual Flow會盡量初始化得小一些,來鼓勵先學piecewise-constant的部分(有點類似ControlNet),再慢慢學習residual部分。
引入Appearance信息來幫助無監(jiān)督視頻分割
光是Relaxed Common Fate就能在DAVIS上相對baseline提5%了,但這還不夠。前面說Relaxed Common Fate的只用了motion而沒有使用appearance信息。
讓我們再次回到上面這個例子。這個舞者的手和身子是一個顏色,然而AMD+直接把舞者的手忽略了。下面這只天鵝和倒影明明在appearance上差別這么大,卻在motion上沒什么差別。如果整合appearance和motion,是不是能提升分割質量呢?
因此我們引入了Appearance 來進行進一步的監(jiān)督。在學習完motion信息之后,我們直接把取得的Mask進行兩步優(yōu)化:一個是low-level的CRF refinement,強調顏色等細節(jié)一致的地方應該屬于同一個mask(或背景),一個是semantic constraint,強調Unsupervised Feature一直的地方應該屬于同一個mask。
把優(yōu)化完的mask再和原mask進行比較,計算L2 Loss,再更新神經(jīng)網(wǎng)絡。這樣訓練的模型的無監(jiān)督分割能力可以進一步提升。具體細節(jié)歡迎閱讀原文。
無監(jiān)督調參
很多無監(jiān)督方法都需要使用有標注的數(shù)據(jù)集來調參,而我們的方法提出可以利用前面說的motion和appearance的一致性來進行調參。簡單地說,motion學習出的mask在appearance上不一致代表這個參數(shù)可能不是最優(yōu)的。具體方法是在Unsupervised Feature上計算Normalized Cuts (但是不用算出最優(yōu)值),Normalized Cuts越小越代表分割效果好。原文里面對此有詳細描述。
方法效果
無論是否有Post-processing,我們的方法在三個視頻分割數(shù)據(jù)集上都有很大提升,在STv2上更是提升了12%。
Ablation可以看出Residual pathway (Relaxed Common Fate)的貢獻是最大的,其他部分總計貢獻了11.9%的增長。
Visualizations
總結
這篇CVPR 2023文章研究了完全不需要標注的視頻物體分割。通過Relaxed Common Fate來利用motion信息,再通過改進和利用appearance信息來進一步優(yōu)化,RCF模型在DAVIS16/STv2/FBMS59上提升了7/9/5%。文章里還提出了不需要標注的調參方法。代碼和模型已公開可用。
-
神經(jīng)網(wǎng)絡
+關注
關注
42文章
4773瀏覽量
100878 -
視頻分割
+關注
關注
0文章
4瀏覽量
5810
原文標題:TLDR: 視頻分割一直是重標注的一個task,這篇CVPR 2023文章研究了完全不需要標注的視頻物體分割。
文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論