0. 筆者個人體會
分割一切模型(SAM)這幾年在CV領(lǐng)域應(yīng)用很多,很多文章都在努力提高SAM的分割精度,但SAM分割的前提是高質(zhì)量的提示(點、框)。但是實踐中的SAM經(jīng)常遇到不準(zhǔn)確的提示,尤其是眾包標(biāo)注平臺,這種不準(zhǔn)確的提示會導(dǎo)致分割錯誤。
這也就是Stable Segment Anything Model這篇文章想要解決的問題,提出了一種新的分割模型Stable-SAM,希望遇到錯誤提示時也能實現(xiàn)穩(wěn)定分割!
1. 效果展示
SAM、HQ-SAM、Stable-SAM在提供次優(yōu)提示時的性能比較,Stable-SAM明顯優(yōu)于其他算法。
SAM和Stable-SAM的預(yù)測Mask和圖像特征的權(quán)重對比,橙色圓圈表示注意力權(quán)重,半徑越大表示得分越高。(a) 當(dāng)提供高質(zhì)量提示時,SAM分割結(jié)果很好。(b) 微小的提示修改會導(dǎo)致不穩(wěn)定的分割輸出,SAM錯誤分割了背景。(c) Stable-SAM通過將更多的特征采樣注意力轉(zhuǎn)移到目標(biāo)對象上來準(zhǔn)確地分割目標(biāo)對象。
2. 具體原理是什么?
Stable-SAM的具體pipeline由三部分組成:
(a)是SAM的Mask解碼器中的可變形采樣插件(DSP)和可變形路由插件(DRP)。DSP采用小偏移網(wǎng)絡(luò)(b)來預(yù)測特征采樣偏移。隨后DSP在更新的采樣位置對可變形圖像特征進(jìn)行重新采樣,并將它們饋送到SAM的標(biāo)記到圖像注意力。DRP采用一個小型MLP網(wǎng)絡(luò)(c)來根據(jù)輸入提示質(zhì)量調(diào)節(jié)DSP激活的程度。注意,DSP自適應(yīng)地單獨調(diào)整圖像特征采樣位置,不會改變原始SAM模型。
3. 和其他SOTA方法對比如何?
在不同質(zhì)量的提示下,SAM、DT-SAM(微調(diào)SAM的Mask解碼器)、PT-SAM(微調(diào)SAM的提示token及其對應(yīng)的輸出MLP層)、HQ-SAM和Stable-SAM在HQ數(shù)據(jù)集上的對比。這里也推薦工坊推出的新課程《如何將深度學(xué)習(xí)模型部署到實際工程中?(分類+檢測+分割)》。
MS COCO和SGinW數(shù)據(jù)集上的對比,Stable-SAM最優(yōu)。
審核編輯:黃飛
-
dsp
+關(guān)注
關(guān)注
553文章
7998瀏覽量
348942 -
解碼器
+關(guān)注
關(guān)注
9文章
1143瀏覽量
40742 -
圖像分割
+關(guān)注
關(guān)注
4文章
182瀏覽量
18002 -
SAM
+關(guān)注
關(guān)注
0文章
112瀏覽量
33524
原文標(biāo)題:SAM終結(jié)者:穩(wěn)定分割一切!
文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論