0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

三項(xiàng)SOTA!MasQCLIP:開(kāi)放詞匯通用圖像分割新網(wǎng)絡(luò)

3D視覺(jué)工坊 ? 來(lái)源:3D視覺(jué)工坊 ? 2023-12-12 11:23 ? 次閱讀

1. 效果展示

MasQCLIP在開(kāi)放詞匯實(shí)例分割、語(yǔ)義分割和全景分割三項(xiàng)任務(wù)上均實(shí)現(xiàn)了SOTA,漲點(diǎn)非常明顯。這里也推薦工坊推出的新課程《徹底搞懂視覺(jué)-慣性SLAM:VINS-Fusion原理精講與源碼剖析》。

2c36400a-987a-11ee-8b88-92fbcf53809c.png

再來(lái)看看開(kāi)放詞匯全景分割的定性效果,圖片來(lái)源于ADE20k,可以發(fā)現(xiàn)MasQCLIP分割出的Mask和類別精度更高。

2c7bd53e-987a-11ee-8b88-92fbcf53809c.png

2. 具體原理是什么?

先介紹一下基礎(chǔ)的CLIP模型:ICML-2021的工作,多模態(tài)視覺(jué)-語(yǔ)言模型代表。主要用來(lái)提取zero-shot目標(biāo)的特征。核心思想是,很多模型需要預(yù)定義圖像類別,但是文本實(shí)際上就已經(jīng)提供了未見(jiàn)類別的信息,融合文本就可以極大增強(qiáng)模型的泛化性。

MasQCLIP的思想是,利用稠密特征與預(yù)訓(xùn)練的CLIP模型無(wú)縫集成,從而避免訓(xùn)練大規(guī)模參數(shù)。MasQCLIP在使用CLIP模型構(gòu)建圖像分割時(shí)側(cè)重兩方面:

(1)學(xué)生-教師模塊,通過(guò)從基礎(chǔ)(已見(jiàn))類中提取信息來(lái)處理新(未見(jiàn))類的Mask;

(2)更新CLIP模型中查詢的模型參數(shù)的微調(diào)過(guò)程。

具體Pipeline是,MasQCLIP由類無(wú)關(guān)Mask提議網(wǎng)絡(luò)和基于CLIP的Mask分類模塊組成。在Mask提議網(wǎng)絡(luò)中,應(yīng)用漸進(jìn)蒸餾來(lái)分割基類之外的Mask。之后將預(yù)測(cè)的Mask送入分類模塊以獲得標(biāo)簽。為了有效利用密集CLIP特征,還提出了MasQ-Tuning策略。

2cfae536-987a-11ee-8b88-92fbcf53809c.png

再來(lái)看看這個(gè)漸進(jìn)蒸餾,就是從教師模型的分割圖中提取和基礎(chǔ)類別沒(méi)有重疊的Mask,用來(lái)做輔助訓(xùn)練,將這些額外的標(biāo)注蒸餾到學(xué)生模型中,然后不停的迭代循環(huán)來(lái)提高泛化性。

2d2090f6-987a-11ee-8b88-92fbcf53809c.png

3. 再來(lái)看看效果如何

開(kāi)放詞匯通用圖像分割的定量結(jié)果,直接對(duì)比了實(shí)例分割、語(yǔ)義分割、全景分割三個(gè)任務(wù)。三大任務(wù)漲點(diǎn)都非常明顯!

2d438bce-987a-11ee-8b88-92fbcf53809c.png

開(kāi)放詞匯實(shí)例分割結(jié)果,分別對(duì)比基類和新類別的定量精度,展示了模型的泛化性。這里也推薦工坊推出的新課程《徹底搞懂視覺(jué)-慣性SLAM:VINS-Fusion原理精講與源碼剖析》。

2d6efc00-987a-11ee-8b88-92fbcf53809c.png

開(kāi)放詞匯實(shí)例分割定性對(duì)比,可以發(fā)現(xiàn)MasQCLIP分割精度更高!

2d87cc80-987a-11ee-8b88-92fbcf53809c.jpg








審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 圖像分割
    +關(guān)注

    關(guān)注

    4

    文章

    182

    瀏覽量

    18002
  • Clip
    +關(guān)注

    關(guān)注

    0

    文章

    31

    瀏覽量

    6667

原文標(biāo)題:北大&清華最新開(kāi)源 | 三項(xiàng)SOTA!MasQCLIP:開(kāi)放詞匯通用圖像分割新網(wǎng)絡(luò)

文章出處:【微信號(hào):3D視覺(jué)工坊,微信公眾號(hào):3D視覺(jué)工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    納微半導(dǎo)體榮獲2024行家極光獎(jiǎng)三項(xiàng)大獎(jiǎng)

    近日,一年一度的行家說(shuō)代半年會(huì)“2024碳化硅&氮化鎵產(chǎn)業(yè)高峰論壇暨極光獎(jiǎng)?lì)C獎(jiǎng)典禮”重磅召開(kāi)。納微半導(dǎo)體憑借2024年優(yōu)異的應(yīng)用和產(chǎn)品表現(xiàn),榮獲三項(xiàng)重磅大獎(jiǎng)!
    的頭像 發(fā)表于 12-13 17:43 ?437次閱讀

    鴻海榮獲2024 IR Magazine三項(xiàng)大獎(jiǎng)

    與服務(wù)商鴻??萍技瘓F(tuán)(TWSE:2317)宣布榮獲全球權(quán)威“投資者關(guān)系雜志”《IR Magazine》頒發(fā)“最佳企業(yè) - 科技業(yè)”、“最佳科技應(yīng)用(包含AI)”以及“最佳投資人關(guān)系人員”三項(xiàng)大獎(jiǎng),肯定公司作為科技產(chǎn)業(yè)領(lǐng)導(dǎo)者之一,不斷結(jié)合各種創(chuàng)新模式與投資人溝通。今年鴻海一
    的頭像 發(fā)表于 12-07 18:10 ?312次閱讀

    蘋果iOS 18.2將推三項(xiàng)備忘錄AI功能,提升創(chuàng)作效率

    11月6日,據(jù)外媒報(bào)道,蘋果公司正籌備推出第二波Apple Intelligence(蘋果智能)功能,并計(jì)劃在下個(gè)月發(fā)布的iOS 18.2更新中,為備忘錄應(yīng)用帶來(lái)三項(xiàng)關(guān)鍵的人工智能改進(jìn),旨在提升用戶的創(chuàng)作效率和日常記錄體驗(yàn)。
    的頭像 發(fā)表于 11-06 14:58 ?457次閱讀

    圖像語(yǔ)義分割的實(shí)用性是什么

    圖像語(yǔ)義分割是一種重要的計(jì)算機(jī)視覺(jué)任務(wù),它旨在將圖像中的每個(gè)像素分配到相應(yīng)的語(yǔ)義類別中。這項(xiàng)技術(shù)在許多領(lǐng)域都有廣泛的應(yīng)用,如自動(dòng)駕駛、醫(yī)學(xué)圖像分析、機(jī)器人導(dǎo)航等。 一、
    的頭像 發(fā)表于 07-17 09:56 ?432次閱讀

    圖像分割和語(yǔ)義分割的區(qū)別與聯(lián)系

    圖像分割和語(yǔ)義分割是計(jì)算機(jī)視覺(jué)領(lǐng)域中兩個(gè)重要的概念,它們?cè)?b class='flag-5'>圖像處理和分析中發(fā)揮著關(guān)鍵作用。 1. 圖像
    的頭像 發(fā)表于 07-17 09:55 ?955次閱讀

    圖像分割與目標(biāo)檢測(cè)的區(qū)別是什么

    圖像分割與目標(biāo)檢測(cè)是計(jì)算機(jī)視覺(jué)領(lǐng)域的兩個(gè)重要任務(wù),它們?cè)谠S多應(yīng)用場(chǎng)景中都發(fā)揮著關(guān)鍵作用。然而,盡管它們?cè)谀承┓矫嬗邢嗨浦帲鼈兊哪繕?biāo)、方法和應(yīng)用場(chǎng)景有很大的不同。本文將介紹圖像分割
    的頭像 發(fā)表于 07-17 09:53 ?1336次閱讀

    圖像分割與語(yǔ)義分割中的CNN模型綜述

    圖像分割與語(yǔ)義分割是計(jì)算機(jī)視覺(jué)領(lǐng)域的重要任務(wù),旨在將圖像劃分為多個(gè)具有特定語(yǔ)義含義的區(qū)域或?qū)ο蟆>矸e神經(jīng)網(wǎng)絡(luò)(CNN)作為深度學(xué)習(xí)的一種核心
    的頭像 發(fā)表于 07-09 11:51 ?903次閱讀

    機(jī)器人視覺(jué)技術(shù)中常見(jiàn)的圖像分割方法

    機(jī)器人視覺(jué)技術(shù)中的圖像分割方法是一個(gè)廣泛且深入的研究領(lǐng)域。圖像分割是將圖像劃分為多個(gè)區(qū)域或?qū)ο蟮倪^(guò)程,這些區(qū)域或?qū)ο缶哂心撤N共同的特征,如顏
    的頭像 發(fā)表于 07-09 09:31 ?702次閱讀

    機(jī)器人視覺(jué)技術(shù)中圖像分割方法有哪些

    機(jī)器人視覺(jué)技術(shù)是人工智能領(lǐng)域的一個(gè)重要分支,它涉及到圖像處理、模式識(shí)別、機(jī)器學(xué)習(xí)等多個(gè)學(xué)科。圖像分割是機(jī)器人視覺(jué)技術(shù)中的一個(gè)重要環(huán)節(jié),它的目標(biāo)是從一幅圖像中將目標(biāo)物體與背景分離出來(lái),以
    的頭像 發(fā)表于 07-04 11:34 ?990次閱讀

    NB81是否支持OneNet SOTA功能?應(yīng)該如何激活SOTA

    NB81是否支持OneNet SOTA功能? 可以支持,應(yīng)該如何激活SOTA
    發(fā)表于 06-04 06:14

    旋變位置不變的情況下,當(dāng)使能SOTA功能與關(guān)閉SOTA功能時(shí),APP中DSADC采樣得到的旋變sin和cos兩者值不一樣,為什么?

    旋變位置不變的情況下,當(dāng)使能SOTA功能與關(guān)閉SOTA功能時(shí),APP中DSADC采樣得到的旋變sin和cos兩者值不一樣,用示波器采的輸入到MCU端的差分電壓是一樣的,難道是SOTA使能后影響了MCU芯片內(nèi)部的等效阻抗嗎,有專家
    發(fā)表于 05-17 08:13

    維信諾主導(dǎo)三項(xiàng)柔性顯示器件團(tuán)體標(biāo)準(zhǔn)發(fā)布

    近日,維信諾昆山公司憑借其深厚的技術(shù)積累和行業(yè)影響力,主導(dǎo)制定并發(fā)布了三項(xiàng)團(tuán)體標(biāo)準(zhǔn):T/SOECC 014-2024《柔性顯示器件 折痕測(cè)試方法》、T/SOECC 015-2024《柔性顯示器
    的頭像 發(fā)表于 03-13 10:37 ?957次閱讀

    中興通訊榮獲GTI Awards 2024三項(xiàng)大獎(jiǎng),展現(xiàn)5G領(lǐng)域硬核實(shí)力

    近日,在備受矚目的MWC24巴塞羅那大會(huì)上,中興通訊憑借其卓越的技術(shù)創(chuàng)新和應(yīng)用實(shí)力,榮獲了三項(xiàng)GTI Awards 2024大獎(jiǎng)。這些獎(jiǎng)項(xiàng)不僅是對(duì)中興通訊在5G領(lǐng)域的突出貢獻(xiàn)的認(rèn)可,更是對(duì)其持續(xù)引領(lǐng)行業(yè)發(fā)展的肯定。
    的頭像 發(fā)表于 03-03 15:40 ?989次閱讀

    改進(jìn)棉花根系圖像分割方法

    棉花是錦葵科棉屬植物,棉花生產(chǎn)的纖維是我國(guó)各類衣服、家具布和工業(yè)用布的材料,目前我國(guó)的棉花產(chǎn)量也非常高,主要以新疆地區(qū)為主。根系是植物組成的重要部分,其生長(zhǎng)發(fā)育至關(guān)重要。 根系圖像分割是根系表型分析
    的頭像 發(fā)表于 01-18 16:18 ?304次閱讀

    納微半導(dǎo)體斬獲三項(xiàng)功率器件行業(yè)大獎(jiǎng)

    近日,納微半導(dǎo)體在第十四屆“亞洲電源技術(shù)發(fā)展論壇”上大放異彩,不僅展出了多款大小功率的杰出展品,還發(fā)表了以電動(dòng)汽車充電為主題的重磅演講。更令人矚目的是,納微半導(dǎo)體憑借其卓越的技術(shù)和產(chǎn)品實(shí)力,一舉斬獲了三項(xiàng)行業(yè)重磅大獎(jiǎng)!
    的頭像 發(fā)表于 01-03 16:01 ?623次閱讀