0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

中科院提出FastSAM快速分割一切模型!比Meta原版提速50倍!

CVer ? 來(lái)源:量子位(QbitAI) ? 2023-06-28 14:33 ? 次閱讀

比Meta的「分割一切模型」(SAM)更快的圖像分割工具,來(lái)了!

最近中科院團(tuán)隊(duì)開(kāi)源了FastSAM模型,能以50倍的速度達(dá)到與原始SAM相近的效果,并實(shí)現(xiàn)25FPS的實(shí)時(shí)推理。

該成果在Github已經(jīng)獲得2.4K+次星標(biāo),在Twitter、PaperswithCode等平臺(tái)也受到了廣泛關(guān)注。

da955e1a-1571-11ee-962d-dac502259ad0.png

相關(guān)論文預(yù)印本現(xiàn)已發(fā)表。

以下內(nèi)容由投稿者提供

daa417ca-1571-11ee-962d-dac502259ad0.png

《Fast Segment Anything》

代碼:https://github.com/CASIA-IVA-Lab/FastSAM

論文:https://arxiv.org/abs/2306.12156

視覺(jué)基礎(chǔ)模型 SAM[1]在許多計(jì)算機(jī)視覺(jué)任務(wù)中產(chǎn)?了重?影響。它已經(jīng)成為圖像分割、圖像描述和圖像編輯等任務(wù)的基礎(chǔ)。

然?,其巨?的計(jì)算成本阻礙了它在實(shí)際場(chǎng)景中的?泛應(yīng)?。

最近,中科院?動(dòng)化所提出并開(kāi)源了?種加速替代?案 FastSAM。

通過(guò)將分割?切任務(wù)重新劃分為全實(shí)例分割和提?指導(dǎo)選擇兩個(gè)?任務(wù),?帶實(shí)例分割分?的常規(guī) CNN 檢測(cè)器以?出50倍的運(yùn)?速度實(shí)現(xiàn)了與SAM?法相當(dāng)?shù)男阅埽?個(gè)實(shí)時(shí)分割?切的基礎(chǔ)模型。

dab8fe6a-1571-11ee-962d-dac502259ad0.png

意義與動(dòng)機(jī)

SAM 的出現(xiàn)帶動(dòng)了 “分割?切”(Segment Anything)任務(wù)的發(fā)展。這?任務(wù)由于其泛化性和可擴(kuò)展性,有很?可能成為未來(lái)?泛視覺(jué)任務(wù)的基礎(chǔ)。

FastSAM 為該任務(wù)提供了?套實(shí)時(shí)解決?案,進(jìn)?步推動(dòng)了分割?切模型的實(shí)際應(yīng)?和發(fā)展。

本?將“分割?切”任務(wù)解耦為全實(shí)例分割和提?引導(dǎo)選擇兩階段,通過(guò)引???先驗(yàn)結(jié)構(gòu),在提速 50 倍的情況下實(shí)現(xiàn)了與 SAM 相近的表現(xiàn)。

FastSAM 的優(yōu)秀表現(xiàn)為視覺(jué)任務(wù)的架構(gòu)選擇提供了新的視角——對(duì)于特定任務(wù),專(zhuān)用模型結(jié)構(gòu)或許在計(jì)算效率和精確度上仍具有優(yōu)勢(shì)。

從模型壓縮的?度看,F(xiàn)astSAM 也證明了基于大模型產(chǎn)生高質(zhì)量數(shù)據(jù),通過(guò)引???先驗(yàn)結(jié)構(gòu)大幅降低計(jì)算復(fù)雜度的路徑的可?性。

示例

Web DEMO

在 HuggingFace 的 Space 中,你可以快速體驗(yàn) FastSAM 的分割效果。

你可以上傳一張自定義的圖片,選擇模式并設(shè)置參數(shù),點(diǎn)擊分割按鈕,就可以得到一個(gè)滿(mǎn)意的分割結(jié)果。

現(xiàn)在支持一切模式和點(diǎn)模式的交互,其他模式將在未來(lái)嘗試支持。在 Replicate 上已支持所有模式的在線(xiàn)體驗(yàn)。

dad56e74-1571-11ee-962d-dac502259ad0.jpg

dae83266-1571-11ee-962d-dac502259ad0.jpg

多種交互?式

FastSAM目前共支持三種交互方式。

dafa74bc-1571-11ee-962d-dac502259ad0.png

多點(diǎn)交互模式

FastSAM ?持多個(gè)帶有前景/背景標(biāo)簽的點(diǎn)交互模式,可以很好地適應(yīng)不同場(chǎng)景的應(yīng)?需求。

以缺陷檢測(cè)場(chǎng)景為例,只需對(duì)缺陷部位添加前景點(diǎn),對(duì)正常藥丸部分添加背景點(diǎn),即可準(zhǔn)確地檢測(cè)出物體缺陷。

db2819e4-1571-11ee-962d-dac502259ad0.png

框交互模式

FastSAM 也?持框交互模式。也以缺陷檢測(cè)為例,只需對(duì)缺陷?致位置進(jìn)?框選,即可準(zhǔn)確檢測(cè)出物體缺陷。

db3f0136-1571-11ee-962d-dac502259ad0.png

?本交互模式

FastSAM 也?持并開(kāi)源了?本交互模式。通過(guò)不同的?本提示,F(xiàn)astSAM可以準(zhǔn)確分割出不同顏?的?狗。

db55dc62-1571-11ee-962d-dac502259ad0.png

工作原理

如下圖所示,F(xiàn)astSAM 的網(wǎng)絡(luò)架構(gòu)可分為兩個(gè)階段:全實(shí)例分割和提示引導(dǎo)選擇。

db6da3f6-1571-11ee-962d-dac502259ad0.png

在全實(shí)例分割階段,F(xiàn)astSAM 使用卷積神經(jīng)網(wǎng)絡(luò)來(lái)對(duì)圖像中的所有對(duì)象或區(qū)域進(jìn)行劃分。

在提示引導(dǎo)選擇階段,它采用包括點(diǎn)提示、框提示和文本提示的各種提示來(lái)選出關(guān)注對(duì)象。

與基于Transformer的方法不同,F(xiàn)astSAM融合了與視覺(jué)分割任務(wù)緊密相關(guān)的先驗(yàn)知識(shí),例如局部連接和對(duì)象分配策略。這使得它以更低地參數(shù)量和計(jì)算量下更快地收斂。

定性與定量分析

測(cè)試結(jié)果表明,F(xiàn)astSAM各方面的表現(xiàn)完全不輸于Meta的原始版本。

速度

從表中可以看出,F(xiàn)astSAM 取得了遠(yuǎn)超 SAM 的速度表現(xiàn),在「分割?切」模式下,SAM的速度會(huì)受到均勻點(diǎn)提?數(shù)量的影響,? FastSAM 由于結(jié)構(gòu)的特點(diǎn),運(yùn)?時(shí)間不隨點(diǎn)提?數(shù)量的增加?增加,這使得它成為「分割?切」模式的更好選擇。

db7aa2cc-1571-11ee-962d-dac502259ad0.png

同時(shí),由于 FastSAM 在結(jié)構(gòu)設(shè)計(jì)中利?了?的先驗(yàn)知識(shí),使得它在實(shí)時(shí)推理的同時(shí)也具備了與 SAM 相當(dāng)?shù)男阅堋?/p>

邊緣檢測(cè)

下圖展?了具有代表性的邊緣檢測(cè)結(jié)果。經(jīng)過(guò)定性觀察可以看出,盡管FastSAM的參數(shù)明顯較少(只有68M),但它也能產(chǎn)?很?質(zhì)量的邊緣檢測(cè)結(jié)果。

db8b8a6a-1571-11ee-962d-dac502259ad0.png

從下表可以看出,F(xiàn)astSAM 取得了與 SAM 類(lèi)似的性能。與 Ground Truth 相?,F(xiàn)astSAM和 SAM 都傾向于預(yù)測(cè)更多的邊緣,這種偏差在表中得到了定量的反映。

db9c7e10-1571-11ee-962d-dac502259ad0.png

物體候選

從下表可以看出,F(xiàn)astSAM 在 bbox AR@1000 的表現(xiàn)上超過(guò)了計(jì)算量最?的 SAM 模型(SAM-H E64),僅次于在 LVIS 數(shù)據(jù)集上監(jiān)督訓(xùn)練的 ViTDet-H[2]。

dbb0244c-1571-11ee-962d-dac502259ad0.png

可視化結(jié)果

SA-1B 分割結(jié)果:下圖展?了 FastSAM 在 SA-1B 數(shù)據(jù)集上不同場(chǎng)景和掩碼數(shù)量時(shí)的分割結(jié)果。

dbc02c2a-1571-11ee-962d-dac502259ad0.png

下游應(yīng)?對(duì)?:下?三張圖對(duì)?了 FastSAM 和 SAM 在異常檢測(cè)、顯著物體分割和建筑物提取三個(gè)下游任務(wù)的效果,F(xiàn)astSAM 在不同模式下均取得了和 SAM 相當(dāng)?shù)谋憩F(xiàn)。

dbd40254-1571-11ee-962d-dac502259ad0.png

dbeaa428-1571-11ee-962d-dac502259ad0.png

dc072a26-1571-11ee-962d-dac502259ad0.png

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3243

    瀏覽量

    48842
  • SAM
    SAM
    +關(guān)注

    關(guān)注

    0

    文章

    112

    瀏覽量

    33524
  • 計(jì)算機(jī)視覺(jué)

    關(guān)注

    8

    文章

    1698

    瀏覽量

    45993

原文標(biāo)題:中科院提出FastSAM快速分割一切模型!比Meta原版提速50倍!

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    Meta發(fā)布新AI模型Meta Motivo,旨在提升元宇宙體驗(yàn)

    Meta公司近日宣布,將推出款名為Meta Motivo的全新人工智能模型。該模型具備控制類(lèi)似人類(lèi)的數(shù)字代理動(dòng)作的能力,有望為元宇宙的用戶(hù)
    的頭像 發(fā)表于 12-16 10:34 ?303次閱讀

    Meta發(fā)布Llama 3.2量化版模型

    近日,Meta在開(kāi)源Llama 3.2的1B與3B模型后,再次為人工智能領(lǐng)域帶來(lái)了新進(jìn)展。10月24日,Meta正式推出了這兩個(gè)模型的量化版本,旨在進(jìn)
    的頭像 發(fā)表于 10-29 11:05 ?391次閱讀

    Meta推出可自我評(píng)估AI模型

    Meta近期宣布了項(xiàng)重要的人工智能進(jìn)展,即將發(fā)布系列全新的人工智能模型。其中,款能夠自我評(píng)估的模型
    的頭像 發(fā)表于 10-22 17:07 ?313次閱讀

    亞馬遜云科技上線(xiàn)Meta Llama 3.2模型

    亞馬遜云科技近日宣布,Meta公司的新模型Llama 3.2已在其平臺(tái)上正式上線(xiàn)。該模型包括Meta首款多模態(tài)
    的頭像 發(fā)表于 10-11 18:08 ?460次閱讀

    亞馬遜云科技正式上線(xiàn)Meta Llama 3.2模型

    亞馬遜云科技宣布,Meta的新模型Llama 3.2,包括其首款多模態(tài)模型,現(xiàn)已在Amazon Bedrock和Amazon SageMaker中正式可用。
    的頭像 發(fā)表于 10-11 09:20 ?516次閱讀

    Meta發(fā)布全新開(kāi)源大模型Llama 3.1

    科技巨頭Meta近期震撼發(fā)布了其最新的開(kāi)源人工智能(AI)模型——Llama 3.1,這舉措標(biāo)志著Meta在AI領(lǐng)域的又重大突破。
    的頭像 發(fā)表于 07-24 18:25 ?1442次閱讀

    Meta不會(huì)在歐盟提供新的多模態(tài)AI模型

    科技巨頭Meta近日宣布了項(xiàng)重要決策,其即將推出的創(chuàng)新多模態(tài)Llama模型將不會(huì)在歐盟地區(qū)發(fā)布。這決定背后,是Meta對(duì)歐洲復(fù)雜且不可預(yù)
    的頭像 發(fā)表于 07-19 16:04 ?488次閱讀

    圖像分割與語(yǔ)義分割中的CNN模型綜述

    圖像分割與語(yǔ)義分割是計(jì)算機(jī)視覺(jué)領(lǐng)域的重要任務(wù),旨在將圖像劃分為多個(gè)具有特定語(yǔ)義含義的區(qū)域或?qū)ο蟆>矸e神經(jīng)網(wǎng)絡(luò)(CNN)作為深度學(xué)習(xí)的種核心模型,在圖像
    的頭像 發(fā)表于 07-09 11:51 ?903次閱讀

    中科院重慶研究在勢(shì)壘可光調(diào)諧新型肖特基紅外探測(cè)器研究獲進(jìn)展

    傳統(tǒng)肖特基探測(cè)器和勢(shì)壘可光調(diào)諧的肖特基紅外探測(cè)器的對(duì)比 近日,中科院重慶綠色智能技術(shù)研究微納制造與系統(tǒng)集成研究中心在《創(chuàng)新》(The Innovation)上發(fā)表了題為Schottky
    的頭像 發(fā)表于 06-25 06:27 ?298次閱讀
    <b class='flag-5'>中科院</b>重慶研究<b class='flag-5'>院</b>在勢(shì)壘可光調(diào)諧新型肖特基紅外探測(cè)器研究獲進(jìn)展

    阿里達(dá)摩提出“知識(shí)鏈”框架,降低大模型幻覺(jué)

    近日,阿里巴巴達(dá)摩(湖畔實(shí)驗(yàn)室)攜手新加坡南洋理工大學(xué)等研究機(jī)構(gòu),共同推出了大模型知識(shí)鏈(CoK)框架。該框架不僅可實(shí)時(shí)檢索異構(gòu)知識(shí)源,還能逐步糾正推理錯(cuò)誤,有效提高了大模型在回答知識(shí)型問(wèn)題時(shí)的準(zhǔn)確率,并顯著降低了所謂的“幻覺(jué)
    的頭像 發(fā)表于 05-10 11:46 ?695次閱讀

    英特爾AI產(chǎn)品助力其運(yùn)行Meta代大語(yǔ)言模型Meta Llama 3

    英特爾豐富的AI產(chǎn)品——面向數(shù)據(jù)中心的至強(qiáng)處理器,邊緣處理器及AI PC等產(chǎn)品為開(kāi)發(fā)者提供最新的優(yōu)化,助力其運(yùn)行Meta代大語(yǔ)言模型Meta Llama 3
    的頭像 發(fā)表于 04-28 11:16 ?639次閱讀

    Meta推出最強(qiáng)開(kāi)源模型Llama 3 要挑戰(zhàn)GPT

    公司這次開(kāi)源了Llama 3 8B與70B兩款不同規(guī)模的模型,開(kāi)發(fā)者可以免費(fèi)使用,而Meta公司還將陸續(xù)推出系列具備多模態(tài)、多語(yǔ)言對(duì)話(huà)、更長(zhǎng)上下文窗口等能力的新模型。 據(jù)悉
    的頭像 發(fā)表于 04-19 17:00 ?838次閱讀

    中科加禾完成天使輪數(shù)千萬(wàn)元融資,專(zhuān)注編譯技術(shù),推動(dòng)國(guó)產(chǎn)算力和大數(shù)據(jù)發(fā)展

    創(chuàng)辦于2023年的中科加禾,依托中科院計(jì)算所的雄厚科技實(shí)力,傾心于編譯技術(shù),旨在填補(bǔ)國(guó)產(chǎn)芯片生態(tài)系統(tǒng)的空缺,助力國(guó)產(chǎn)算力和大模型應(yīng)用推廣,推動(dòng)我國(guó)人工智能產(chǎn)業(yè)的快速發(fā)展。其主營(yíng)業(yè)務(wù)涵蓋
    的頭像 發(fā)表于 03-19 16:49 ?1108次閱讀

    Meta發(fā)布CodeLlama70B開(kāi)源大模型

    Meta發(fā)布CodeLlama70B開(kāi)源大模型 Meta發(fā)布了開(kāi)源大模型CodeLlama70B,號(hào)稱(chēng)是CodeLlama系列體量最大、性能最強(qiáng)的大
    的頭像 發(fā)表于 01-31 10:30 ?1421次閱讀

    龍芯中科中科信息簽訂合作框架協(xié)議

    1月24日,龍芯中科技術(shù)股份有限公司與中科院成都信息技術(shù)股份有限公司(以下簡(jiǎn)稱(chēng)“中科信息”)合作框架簽約儀式在成都興隆湖畔科學(xué)城園區(qū)舉行。
    的頭像 發(fā)表于 01-26 11:44 ?825次閱讀