比Meta的「分割一切模型」(SAM)更快的圖像分割工具,來(lái)了!
最近中科院團(tuán)隊(duì)開(kāi)源了FastSAM模型,能以50倍的速度達(dá)到與原始SAM相近的效果,并實(shí)現(xiàn)25FPS的實(shí)時(shí)推理。
該成果在Github已經(jīng)獲得2.4K+次星標(biāo),在Twitter、PaperswithCode等平臺(tái)也受到了廣泛關(guān)注。
相關(guān)論文預(yù)印本現(xiàn)已發(fā)表。
以下內(nèi)容由投稿者提供
《Fast Segment Anything》
代碼:https://github.com/CASIA-IVA-Lab/FastSAM
論文:https://arxiv.org/abs/2306.12156
視覺(jué)基礎(chǔ)模型 SAM[1]在許多計(jì)算機(jī)視覺(jué)任務(wù)中產(chǎn)?了重?影響。它已經(jīng)成為圖像分割、圖像描述和圖像編輯等任務(wù)的基礎(chǔ)。
然?,其巨?的計(jì)算成本阻礙了它在實(shí)際場(chǎng)景中的?泛應(yīng)?。
最近,中科院?動(dòng)化所提出并開(kāi)源了?種加速替代?案 FastSAM。
通過(guò)將分割?切任務(wù)重新劃分為全實(shí)例分割和提?指導(dǎo)選擇兩個(gè)?任務(wù),?帶實(shí)例分割分?的常規(guī) CNN 檢測(cè)器以?出50倍的運(yùn)?速度實(shí)現(xiàn)了與SAM?法相當(dāng)?shù)男阅埽?個(gè)實(shí)時(shí)分割?切的基礎(chǔ)模型。
意義與動(dòng)機(jī)
SAM 的出現(xiàn)帶動(dòng)了 “分割?切”(Segment Anything)任務(wù)的發(fā)展。這?任務(wù)由于其泛化性和可擴(kuò)展性,有很?可能成為未來(lái)?泛視覺(jué)任務(wù)的基礎(chǔ)。
FastSAM 為該任務(wù)提供了?套實(shí)時(shí)解決?案,進(jìn)?步推動(dòng)了分割?切模型的實(shí)際應(yīng)?和發(fā)展。
本?將“分割?切”任務(wù)解耦為全實(shí)例分割和提?引導(dǎo)選擇兩階段,通過(guò)引???先驗(yàn)結(jié)構(gòu),在提速 50 倍的情況下實(shí)現(xiàn)了與 SAM 相近的表現(xiàn)。
FastSAM 的優(yōu)秀表現(xiàn)為視覺(jué)任務(wù)的架構(gòu)選擇提供了新的視角——對(duì)于特定任務(wù),專(zhuān)用模型結(jié)構(gòu)或許在計(jì)算效率和精確度上仍具有優(yōu)勢(shì)。
從模型壓縮的?度看,F(xiàn)astSAM 也證明了基于大模型產(chǎn)生高質(zhì)量數(shù)據(jù),通過(guò)引???先驗(yàn)結(jié)構(gòu)大幅降低計(jì)算復(fù)雜度的路徑的可?性。
示例
Web DEMO
在 HuggingFace 的 Space 中,你可以快速體驗(yàn) FastSAM 的分割效果。
你可以上傳一張自定義的圖片,選擇模式并設(shè)置參數(shù),點(diǎn)擊分割按鈕,就可以得到一個(gè)滿(mǎn)意的分割結(jié)果。
現(xiàn)在支持一切模式和點(diǎn)模式的交互,其他模式將在未來(lái)嘗試支持。在 Replicate 上已支持所有模式的在線(xiàn)體驗(yàn)。
多種交互?式
FastSAM目前共支持三種交互方式。
多點(diǎn)交互模式
FastSAM ?持多個(gè)帶有前景/背景標(biāo)簽的點(diǎn)交互模式,可以很好地適應(yīng)不同場(chǎng)景的應(yīng)?需求。
以缺陷檢測(cè)場(chǎng)景為例,只需對(duì)缺陷部位添加前景點(diǎn),對(duì)正常藥丸部分添加背景點(diǎn),即可準(zhǔn)確地檢測(cè)出物體缺陷。
框交互模式
FastSAM 也?持框交互模式。也以缺陷檢測(cè)為例,只需對(duì)缺陷?致位置進(jìn)?框選,即可準(zhǔn)確檢測(cè)出物體缺陷。
?本交互模式
FastSAM 也?持并開(kāi)源了?本交互模式。通過(guò)不同的?本提示,F(xiàn)astSAM可以準(zhǔn)確分割出不同顏?的?狗。
如下圖所示,F(xiàn)astSAM 的網(wǎng)絡(luò)架構(gòu)可分為兩個(gè)階段:全實(shí)例分割和提示引導(dǎo)選擇。
在全實(shí)例分割階段,F(xiàn)astSAM 使用卷積神經(jīng)網(wǎng)絡(luò)來(lái)對(duì)圖像中的所有對(duì)象或區(qū)域進(jìn)行劃分。
在提示引導(dǎo)選擇階段,它采用包括點(diǎn)提示、框提示和文本提示的各種提示來(lái)選出關(guān)注對(duì)象。
與基于Transformer的方法不同,F(xiàn)astSAM融合了與視覺(jué)分割任務(wù)緊密相關(guān)的先驗(yàn)知識(shí),例如局部連接和對(duì)象分配策略。這使得它以更低地參數(shù)量和計(jì)算量下更快地收斂。
定性與定量分析
測(cè)試結(jié)果表明,F(xiàn)astSAM各方面的表現(xiàn)完全不輸于Meta的原始版本。
速度
從表中可以看出,F(xiàn)astSAM 取得了遠(yuǎn)超 SAM 的速度表現(xiàn),在「分割?切」模式下,SAM的速度會(huì)受到均勻點(diǎn)提?數(shù)量的影響,? FastSAM 由于結(jié)構(gòu)的特點(diǎn),運(yùn)?時(shí)間不隨點(diǎn)提?數(shù)量的增加?增加,這使得它成為「分割?切」模式的更好選擇。
同時(shí),由于 FastSAM 在結(jié)構(gòu)設(shè)計(jì)中利?了?的先驗(yàn)知識(shí),使得它在實(shí)時(shí)推理的同時(shí)也具備了與 SAM 相當(dāng)?shù)男阅堋?/p>
邊緣檢測(cè)
下圖展?了具有代表性的邊緣檢測(cè)結(jié)果。經(jīng)過(guò)定性觀察可以看出,盡管FastSAM的參數(shù)明顯較少(只有68M),但它也能產(chǎn)?很?質(zhì)量的邊緣檢測(cè)結(jié)果。
從下表可以看出,F(xiàn)astSAM 取得了與 SAM 類(lèi)似的性能。與 Ground Truth 相?,F(xiàn)astSAM和 SAM 都傾向于預(yù)測(cè)更多的邊緣,這種偏差在表中得到了定量的反映。
物體候選
從下表可以看出,F(xiàn)astSAM 在 bbox AR@1000 的表現(xiàn)上超過(guò)了計(jì)算量最?的 SAM 模型(SAM-H E64),僅次于在 LVIS 數(shù)據(jù)集上監(jiān)督訓(xùn)練的 ViTDet-H[2]。
可視化結(jié)果
SA-1B 分割結(jié)果:下圖展?了 FastSAM 在 SA-1B 數(shù)據(jù)集上不同場(chǎng)景和掩碼數(shù)量時(shí)的分割結(jié)果。
下游應(yīng)?對(duì)?:下?三張圖對(duì)?了 FastSAM 和 SAM 在異常檢測(cè)、顯著物體分割和建筑物提取三個(gè)下游任務(wù)的效果,F(xiàn)astSAM 在不同模式下均取得了和 SAM 相當(dāng)?shù)谋憩F(xiàn)。
-
模型
+關(guān)注
關(guān)注
1文章
3243瀏覽量
48842 -
SAM
+關(guān)注
關(guān)注
0文章
112瀏覽量
33524 -
計(jì)算機(jī)視覺(jué)
+關(guān)注
關(guān)注
8文章
1698瀏覽量
45993
原文標(biāo)題:中科院提出FastSAM快速分割一切模型!比Meta原版提速50倍!
文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論