0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

SAM分割模型是什么?

新機器視覺 ? 來源:新機器視覺 ? 2023-05-20 09:30 ? 次閱讀

SAM是一類處理圖像分割任務的通用模型。與以往只能處理某種特定類型圖片的圖像分割模型不同,SAM可以處理所有類型的圖像。相比于以往的圖像分割模型,SAM可以識別各種輸入提示,確定圖像中需要分割的內容,還可以靈活集成到虛擬現實/增強現實等其他系統(tǒng)中,且目前對于一些它未見過或相對模糊的場景,也能實現較好的圖像分割效果。

最近一段時間,人工智能通用模型領域頻現“爆款”。4月,Meta公司發(fā)布了一款名為“Segment Anything Model”(SAM)的通用模型,號稱可以“零樣本分割一切”。也就是說,SAM能從照片或視頻圖像中對任意對象實現一鍵分割,并且能夠零樣本遷移到其他任務中。

在相關展示頁面中,在一張包含水果、案板、刀具、綠植、儲物架等眾多物體、背景雜亂的廚房照片中,該模型可迅速識別出不同的物體,以粗線條勾勒出物體輪廓,并用不同顏色對不同物體進行區(qū)分?!斑@就是SAM最重要的功能——圖像分割?!?/p>

那么,SAM的技術原理是什么?相比于此前的圖像分割模型,該模型有何不同?未來又有可能在哪些方面應用?

圖像分割通用模型泛用性強

像SAM這樣可以處理多種不同類型任務的人工智能模型,叫作通用模型。與之相對,那些專門處理一種類型任務的人工智能模型,叫作專有模型。

打個形象的比喻,通用模型就好比是一個“多面手”。它具有處理一般事務的能力,但是在精度等性能上往往會遜色于只處理一種類型任務的專有模型。

既然通用模型可能會在精度上低于專有模型,為什么還要費盡心力地開發(fā)通用模型?通用模型與專有模型定位不同。通用模型帶來的,是解決分割問題的新范式,特別是幫助科研人員提升在解決專有任務時的效率,“以前,面對不同的任務需求,科研人員往往需要開發(fā)不同的專有模型來應對。這樣開發(fā)出的模型精度確實會更高,但是往往也會付出較大的研發(fā)成本,而且研發(fā)的模型通用性不強?!?/p>

通用模型能夠將所有任務都處理得“八九不離十”,因此科研人員往往只需在通用模型的基礎上進行優(yōu)化,使之更加符合任務需求即可,而不需要費盡心力地從零開始搭建專有模型。因此,通用模型的初始開發(fā)成本可能會高,但隨著使用通用模型的次數越來越多,其應用成本也會越來越低。

SAM就是一類處理圖像分割任務的通用模型。與以往只能處理某種特定類型圖片的圖像分割模型不同,SAM可以處理所有類型的圖像?!霸赟AM出現前,基本上所有的圖像分割模型都是專有模型。”“打個比方,在醫(yī)學領域,有專門分割核磁圖像的人工智能模型,也有專門分割CT影像的人工智能模型。但這些模型往往只在分割專有領域內的圖像時,才具有良好性能,而在分割其他領域的圖像時往往性能不佳?!?/p>

有業(yè)內專家表示,相比于以往的圖像分割模型,SAM可以識別各種輸入提示,確定圖像中需要分割的內容,還可以靈活集成到虛擬現實/增強現實等其他系統(tǒng)中,且目前對于一些它未見過或相對模糊的場景,也能實現較好的圖像分割效果;同時,SAM建立了一套圖像分割的通用模型,降低了對于特定場景建模知識、訓練計算、數據標記的需求,有望在統(tǒng)一框架下完成圖像分割任務。目前Meta公司已經開放共享SAM的代碼和訓練數據集。

利用海量數據實現準確分割

那么,SAM是通過什么技術手段,實現對物體的識別與分割?尤其是在面對復雜環(huán)境、甚至沒遇到過的物體和圖像時,SAM又是怎么做到準確識別與分割的?

“根據Meta發(fā)布的相關論文,SAM的模型結構其實并不是特別復雜?!毕嚓P專家告訴作者,“它用到了一個叫作‘編碼解碼器’的構架。”

作者了解到,SAM先通過圖像編碼器為圖像生成編碼,同時用一個輕量級編碼器將用戶的文字提示轉換為提示編碼。然后,SAM將圖像編碼分別和提示編碼信息源組合在一起,輸送到一個輕量級解碼器中,用于預測分割掩碼。這樣一來,一旦使用者給出提示,則每個提示只需要幾毫秒就能在瀏覽器中得到結果響應。

用一個生動的例子解釋SAM的運行原理?!氨热缯f,給你一張帶有貓和狗的圖片?!畬⒄掌械呢垬俗⒊鰜怼@就是提示;但是對于機器來說,它并不能直接‘明白’這種文字性提示,因此就需要將文字性提示轉換為機器能夠理解的提示編碼。”同理,對于照片中的貓和狗,機器實際上并不能直接“明白”什么是貓、什么是狗,而是將照片中的貓和狗與圖片編碼對應起來。SAM通過訓練學習提示編碼與圖片編碼的不同結合,理解人類在文字提示中表述的希望如何分割這張圖片。一旦“將照片中的貓標注出來”這句提示被輸入時,SAM就能快速運行,得到人類想要的結果。

既然SAM并沒有真正理解什么是貓、什么是狗,它又是如何準確地執(zhí)行人類賦予的任務的呢?

“雖然SAM并沒有完全理解人類的語言和視覺的能力,但是通過對海量數據的學習,SAM仍然能夠做到準確執(zhí)行任務?!毕嚓P專家解釋道,用于訓練SAM的數據集的數據量,是以往最大數據集的6倍。在這個數據集中,包括1100萬張圖像,和11億個標注(可簡單理解為11億個物體)。這是一個“走量”的過程,數據量越大,機器分割圖像的能力就越準確;即使在某張圖中出現了這11億個物體之外的物體,機器也往往能夠根據以往經驗以較高的準確率“推斷”出它是什么物體,并將其納入自己的數據庫,這就是為什么SAM對于從未見過的物體,也能有很好的識別與分割效果。

“需要注意的是,這11億個標注也不是純手工完成的,而是通過漸進的方式自動完成標注的。一開始,這個數據集中只有相對少量的標注數據??蒲腥藛T先用這些數據訓練出一個模型,然后再讓這個模型自動標注數據,并通過人工對標注結果進行改進,這就得到了比上一個數據集更大一些的數據集。如此循環(huán)往復,就能得到海量標注數據集?!?/p>

促進計算機視覺領域發(fā)展

功能如此強大的圖像分割通用模型,將給計算機視覺領域帶來哪些改變?

“SAM的出現將為計算機視覺領域的科研人員帶來工作范式上的變化?!薄癝AM的出現確實會對目前一些與機器人視覺相關的研究領域造成沖擊,但從總體上看,SAM的出現會提升相關科研人員的效率?!?/p>

以往科研人員構建圖像分割模型,是一個“從下到上、從零開始”的過程;而圖像分割通用模型則將模型構建方式變成了“從上到下”,即在已有性能和泛化能力更強的模型基礎上繼續(xù)修改、優(yōu)化,“這可能確實會取代某些專有模型,但從總體上看它將有利于整個領域的發(fā)展?!?/p>

此外,在具體應用上,圖像分割通用模型前景十分廣闊。

工業(yè)中的機器視覺、自動駕駛、安防等一些原來采用計算機視覺技術的行業(yè),因為長尾場景多,需要大量標簽數據,因此訓練成本較高。有了圖像分割通用模型后,這些領域內定制化開發(fā)產品的成本可能會降低,由此帶來毛利率的提升;還有一些領域,過去因為樣本量少而難以應用深度學習等人工智能算法?,F在,由于SAM在零樣本或者少量樣本上表現優(yōu)異,一些新的應用領域將被拓展,比如從代碼驅動變?yōu)橐曈X驅動的機器人、流程工業(yè)場景等。

同時,由于SAM可以接受來自其他系統(tǒng)的輸入提示,因此科幻片中根據用戶視覺焦點信息來識別并選擇對應物體或將成為可能。

SAM不僅將在上述這些前沿領域發(fā)揮作用,同樣或將會用于人們的日常生活?!氨热缭卺t(yī)學影像診斷領域,SAM可能會催生出精度更高的醫(yī)學影像模型,提升醫(yī)療水平;在拍照過程中,SAM的加入或將實現更快更智能的人臉識別?!?/p>





審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • 編碼器
    +關注

    關注

    45

    文章

    3643

    瀏覽量

    134524
  • 人工智能
    +關注

    關注

    1791

    文章

    47279

    瀏覽量

    238511
  • 圖像分割
    +關注

    關注

    4

    文章

    182

    瀏覽量

    18002
  • SAM
    SAM
    +關注

    關注

    0

    文章

    112

    瀏覽量

    33524

原文標題:CV不存在了?SAM分割模型是什么?

文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    如何在SAM時代下打造高效的高性能計算大模型訓練平臺

    Segment Anything Model (SAM)是Meta 公司最近推出的一個創(chuàng)新AI 模型,專門用于計算機視覺領域圖像分割任務。借鑒ChatGPT 的學習范式,將預訓練和特定任務結合
    的頭像 發(fā)表于 08-21 04:02 ?2277次閱讀
    如何在<b class='flag-5'>SAM</b>時代下打造高效的高性能計算大<b class='flag-5'>模型</b>訓練平臺

    【愛芯派 Pro 開發(fā)板試用體驗】+ 圖像分割和填充的Demo測試

    框架SAM 這個例子使用了Meta AI發(fā)布的圖像識別和分割框架SAM(Segment Anything,分割一切對象模型)。自SA項目自2
    發(fā)表于 12-26 11:22

    基于多級混合模型的圖像分割方法

    本文研究了典型的基于區(qū)域的圖像分割方法主動形狀模型(Active Shape Model, ASM)和基于邊緣的圖像分割snake 算法,分析了算法適用條件和各自的優(yōu)缺點。結合snake 模型
    發(fā)表于 07-08 09:58 ?20次下載

    SAM-Adapter:首次讓SAM在下游任務適應調優(yōu)!

    在這些基礎模型中,Segment Anything Model(SAM)作為一個在大型視覺語料庫上訓練的通用圖像分割模型取得了顯著的突破。事實證明,
    的頭像 發(fā)表于 04-20 10:13 ?1612次閱讀

    近期分割模型發(fā)展情況

    SAM(Segment Anything Model)Meta 的 FAIR 實驗室發(fā)布的一種最先進的圖像分割模型,該模型將自然語言處理領域的prompt范式引入計算機視覺領域,可以通
    的頭像 發(fā)表于 05-22 16:26 ?879次閱讀
    近期<b class='flag-5'>分割</b>大<b class='flag-5'>模型</b>發(fā)展情況

    第一篇綜述!分割一切模型(SAM)的全面調研

    SAM 是一個提示型模型,其在 1100 萬張圖像上訓練了超過 10 億個掩碼,實現了強大的零樣本泛化。許多研究人員認為「這是 CV 的 GPT-3 時刻,因為 SAM 已經學會了物體是什么的一般
    的頭像 發(fā)表于 05-24 14:36 ?1017次閱讀
    第一篇綜述!<b class='flag-5'>分割</b>一切<b class='flag-5'>模型</b>(<b class='flag-5'>SAM</b>)的全面調研

    SAM 到底是什么

    的有這么強大嗎?讓我們一起通過本文了解詳情! SAM 是一個由 Meta AI 實驗室推出的強大人工智能圖像分割應用,可以自動識別哪些圖像像素屬于一個對象,并且對圖像中各個對象進行自動風格處理,可廣泛用于分析科學圖像、編輯照片等。 SA
    的頭像 發(fā)表于 06-12 10:46 ?4937次閱讀
    <b class='flag-5'>SAM</b> 到底是什么

    YOLOv8最新版本支持SAM分割一切

    分割任何模型 (Segment Anything Model - SAM) 是一種突破性的圖像分割模型,可實現具有實時性能的快速
    的頭像 發(fā)表于 06-18 11:42 ?1622次閱讀
    YOLOv8最新版本支持<b class='flag-5'>SAM</b><b class='flag-5'>分割</b>一切

    中科院提出FastSAM快速分割一切模型!比Meta原版提速50倍!

    通過將分割?切任務重新劃分為全實例分割和提?指導選擇兩個?任務,?帶實例分割分?的常規(guī) CNN 檢測器以?出50倍的運?速度實現了與SAM?法相當的性能,是?個實時
    的頭像 發(fā)表于 06-28 14:33 ?1708次閱讀
    中科院提出FastSAM快速<b class='flag-5'>分割</b>一切<b class='flag-5'>模型</b>!比Meta原版提速50倍!

    基于SAM設計的自動化遙感圖像實例分割方法

    RSPrompter的目標是學習如何為SAM生成prompt輸入,使其能夠自動獲取語義實例級掩碼。相比之下,原始的SAM需要額外手動制作prompt,并且是一種類別無關的分割方法。
    發(fā)表于 07-04 10:45 ?939次閱讀
    基于<b class='flag-5'>SAM</b>設計的自動化遙感圖像實例<b class='flag-5'>分割</b>方法

    基于 Transformer 的分割與檢測方法

    來源:機器之心 SAM (Segment Anything )作為一個視覺的分割基礎模型,在短短的 3 個月時間吸引了很多研究者的關注和跟進。如果你想系統(tǒng)地了解 SAM 背后的技術,并
    的頭像 發(fā)表于 07-05 10:18 ?996次閱讀
    基于 Transformer 的<b class='flag-5'>分割</b>與檢測方法

    基于SAM實現自動分割遙感圖像實例

    本篇文章為大家介紹RSPrompter: Learning to Prompt for Remote Sensing Instance Segmentation based on Visual Foundation Model (基于視覺基礎模型的遙感實例分割提示學習),
    的頭像 發(fā)表于 07-06 09:08 ?1866次閱讀
    基于<b class='flag-5'>SAM</b>實現自動<b class='flag-5'>分割</b>遙感圖像實例

    ICCV 2023 | 超越SAM!EntitySeg:更少的數據,更高的分割質量

    ,需要在不同的圖像領域、新的物體類別以及各種圖像分辨率和質量下都能夠保持魯棒性。為了解決這個問題,早在 SAM[6] 模型一年之前,一種不考慮類別的實體分割任務 [1] 被提出,作為評估模型
    的頭像 發(fā)表于 10-02 10:40 ?823次閱讀
    ICCV 2023 | 超越<b class='flag-5'>SAM</b>!EntitySeg:更少的數據,更高的<b class='flag-5'>分割</b>質量

    一種新的分割模型Stable-SAM

    SAM、HQ-SAM、Stable-SAM在提供次優(yōu)提示時的性能比較,Stable-SAM明顯優(yōu)于其他算法。這里也推薦工坊推出的新課程《如何將深度學習
    的頭像 發(fā)表于 12-29 14:35 ?681次閱讀
    一種新的<b class='flag-5'>分割</b><b class='flag-5'>模型</b>Stable-<b class='flag-5'>SAM</b>

    圖像分割與語義分割中的CNN模型綜述

    圖像分割與語義分割是計算機視覺領域的重要任務,旨在將圖像劃分為多個具有特定語義含義的區(qū)域或對象。卷積神經網絡(CNN)作為深度學習的一種核心模型,在圖像分割與語義
    的頭像 發(fā)表于 07-09 11:51 ?903次閱讀