0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

SegVG視覺(jué)定位方法的各個(gè)組件

CVer ? 來(lái)源:CVer ? 作者:CVer ? 2024-10-28 13:59 ? 次閱讀

動(dòng)機(jī)

視覺(jué)定位(Visual Grounding)旨在基于自由形式的自然語(yǔ)言文本表達(dá)定位圖像中的目標(biāo)物體。隨著多模態(tài)推理系 統(tǒng)的普及,如視覺(jué)問(wèn)答和圖像描述,視覺(jué)定位的重要性愈加凸顯。已有的研究大致可以分為三類(lèi):兩階段方法、單 階段方法和基于變換器(Transformer)的方法。盡管這些方法取得了良好的效果,但在注釋的利用上仍顯得不 足,尤其是僅將框注釋作為回歸的真值樣本,限制了模型的性能表現(xiàn)。

具體而言,視覺(jué)定位面臨的挑戰(zhàn)在于其稀疏的監(jiān)督信號(hào),每對(duì)文本和圖像僅提供一個(gè)邊界框標(biāo)簽。這與目標(biāo)檢測(cè)任 務(wù)(Object Detection)存在顯著不同,因此充分利用框注釋至關(guān)重要,將其視為分割掩膜(即邊界框內(nèi)的像素賦 值為1,外部像素賦值為0),可以為視覺(jué)定位提供更細(xì)粒度的像素級(jí)監(jiān)督。

在本研究中,提出了一個(gè)名為SegVG的新方法,旨在將邊界框級(jí)的注釋轉(zhuǎn)化為分割信號(hào),以提供更為豐富的監(jiān)督信 號(hào)。該方法倡導(dǎo)多層多任務(wù)編碼器-解碼器結(jié)構(gòu),學(xué)習(xí)回歸查詢和多個(gè)分割查詢,以通過(guò)回歸和每個(gè)解碼層的分割來(lái) 實(shí)現(xiàn)目標(biāo)定位。此外,為了解決由于特征域不匹配而產(chǎn)生的差異,研究中引入了三重對(duì)?模塊,通過(guò)三重注意機(jī)制 更新查詢、文本和視覺(jué)特征,以確保它們共享同一空間,從而提高后續(xù)的目標(biāo)檢測(cè)效果。

綜上,SegVG通過(guò)最大化邊界框注釋的利用,提供了額外的像素級(jí)監(jiān)督,并通過(guò)三重對(duì)?消除特征之間的域差異, 這在視覺(jué)定位任務(wù)中具有重要的創(chuàng)新意義。以下是來(lái)自論文中的相關(guān)圖示,用以進(jìn)一步說(shuō)明視覺(jué)定位框架的不同:

wKgZomcfKI-ARJ36AAJHHHCSJ_0047.png

方法

在本節(jié)中,介紹了SegVG方法的各個(gè)組件,按數(shù)據(jù)流的順序進(jìn)行說(shuō)明,包括?干網(wǎng)絡(luò)、Triple Alignment模塊以及 Multi-layer Multi-task Encoder-Decoder。

?干網(wǎng)絡(luò)

SegVG方法的視覺(jué)?干網(wǎng)絡(luò)和文本?干網(wǎng)絡(luò)分別處理圖像和文本數(shù)據(jù)。視覺(jué)?干網(wǎng)絡(luò)使用的是經(jīng)過(guò)Object Detection任務(wù)在MSCOCO數(shù)據(jù)集上預(yù)訓(xùn)練的ResNet和DETR的Transformer編碼器。文本?干網(wǎng)絡(luò)使用BERT的嵌入層將輸入文本轉(zhuǎn)換為語(yǔ)言Token。在Token前添加一個(gè)[CLS] 標(biāo)記,并在末尾添加一個(gè)[SEP]標(biāo)記,隨后通過(guò)BERT層迭代處理得到語(yǔ)言嵌入 。

Triple Alignment

Triple Alignment模塊致?于解決視覺(jué)??、?本??和查詢特征之間的域差異。該模塊利?注意?機(jī)制執(zhí)?三?形特征采樣,確保查詢、?本和視覺(jué)特征之間的?致性。輸?的查詢 被初始化為可學(xué)習(xí)的嵌?,包含?個(gè)回歸查詢和多個(gè)分割查詢。這?過(guò)程按以下?式進(jìn)?:

41d64834-94db-11ef-a511-92fbcf53809c.png

通過(guò)這種?式,Triple Alignmen模塊能夠在每?層迭代幫助三類(lèi)特征實(shí)現(xiàn)有效地對(duì)?。

Multi-layer Multi-task Encoder-Decoder

Multi-layer Multi-task Encoder-Decoder是目標(biāo)對(duì)接階段的核心部分,旨在通過(guò)跨模態(tài)融合和目標(biāo)對(duì)接同時(shí)執(zhí)行邊 框回歸任務(wù)和邊框分割任務(wù)。編碼器部分融合了文本和視覺(jué)特征,每一層通過(guò)多頭自注意力層(MHSA)和前饋網(wǎng) 絡(luò)(FFN)過(guò)程實(shí)現(xiàn)提升。解碼器部分則通過(guò) bbox2seg范式將邊框注釋轉(zhuǎn)化為分割掩碼,分割掩碼將框內(nèi)的像素 標(biāo)記為前景(值為1),而框外像素則標(biāo)記為背景(值為0)。在每一解碼層中,一個(gè)回歸查詢用于回歸邊框,多個(gè) 分割查詢則用于對(duì)目標(biāo)進(jìn)行分割。

41e06b2a-94db-11ef-a511-92fbcf53809c.png

上述公式中,各種損失函數(shù)(如L1損失、GIoU損失、Focal損失和Dice損失)被結(jié)合用于驅(qū)動(dòng)模型的訓(xùn)練過(guò)程,使 得模型在執(zhí)行回歸和分割任務(wù)時(shí)獲得強(qiáng)化的反饋。

通過(guò)將分割輸出的信心值轉(zhuǎn)化為Focal損失因子,可以有效地強(qiáng)調(diào)那些難以訓(xùn)練的數(shù)據(jù)樣本,以進(jìn)一步提升模型的 性能。整體而言,SegVG方法實(shí)現(xiàn)了對(duì)邊框注釋的最大化利用,并有效解決了多模態(tài)特征間的域差異問(wèn)題,為視覺(jué) 目標(biāo)定位任務(wù)帶來(lái)了重要的改進(jìn)和提升。

實(shí)驗(yàn)

在實(shí)驗(yàn)部分,研究者對(duì)所提出的SegVG模型進(jìn)行了全面的評(píng)估,涉及多個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集和不同的實(shí)驗(yàn)設(shè)置,以驗(yàn)證其 有效性和優(yōu)越性。

指標(biāo)與數(shù)據(jù)集

研究者采用的主要評(píng)估指標(biāo)是交并比(IoU)和前1準(zhǔn)確率,以評(píng)估預(yù)測(cè)邊界框與真實(shí)邊界框的匹配程度。使用的標(biāo) 準(zhǔn)基準(zhǔn)數(shù)據(jù)集包括RefCOCO、RefCOCO+、RefCOCOg-g、RefCOCOg-umd以及Refer It Game等。

實(shí)施細(xì)節(jié)

研究中對(duì)數(shù)據(jù)輸入進(jìn)行了特別配置,使用640x640的圖像大小,以及最大文本?度設(shè)定為40。當(dāng)圖像大小調(diào)整時(shí), 會(huì)保持原始寬高比。模型的訓(xùn)練過(guò)程采用AdamW優(yōu)化器,及其學(xué)習(xí)率和權(quán)重衰減參數(shù)。

定量結(jié)果在定量實(shí)驗(yàn)中,SegVG模型在所有基準(zhǔn)數(shù)據(jù)集中表現(xiàn)出色。例如,在RefCOCO+數(shù)據(jù)集上,其預(yù)先訓(xùn)練模型在各個(gè) 子集上相較于之前的最先進(jìn)模型取得了顯著提升,分別達(dá)到了2.99%、3.7%和2.42%的錯(cuò)誤率下降。在RefCOCOg 數(shù)據(jù)集上,SegVG同樣取得了+3.03%、+2.31%和+3.24%的改善。這些結(jié)果證明了結(jié)合Triple Alignment和Multi- layer Multi-task Encoder-Decoder后,模型在目標(biāo)定位和準(zhǔn)確性上的提升。

41e837ec-94db-11ef-a511-92fbcf53809c.png

消融研究

進(jìn)一步分析通過(guò)控制變量法對(duì)各個(gè)模塊的有效性進(jìn)行消融研究。研究顯示,加入Triple Alignment模塊后,可以有 效消除查詢、文本及視覺(jué)特征之間的領(lǐng)域差異,進(jìn)而促進(jìn)后續(xù)的目標(biāo)定位。此外,通過(guò)加入Multi-layer Multi-task 監(jiān)督,能夠迭代充分利用注釋信息,從而增強(qiáng)查詢表示的學(xué)習(xí)能力。

41ff3b68-94db-11ef-a511-92fbcf53809c.png

計(jì)算開(kāi)銷(xiāo)比較

研究者還對(duì)不同Transformer模型的參數(shù)數(shù)量和GFLOPS進(jìn)行了比較,以評(píng)估SegVG的計(jì)算開(kāi)銷(xiāo)。結(jié)果表明,SegVG的計(jì) 算成本處于合理范圍,符合實(shí)際應(yīng)用需求。

420f909e-94db-11ef-a511-92fbcf53809c.png

定性結(jié)果

在定性分析中,通過(guò)對(duì)比不同模型在目標(biāo)檢測(cè)中的表現(xiàn),SegVG在初始解碼層階段就能準(zhǔn)確識(shí)別目標(biāo)位置,相較于 對(duì)比模型VLTVG而言,表現(xiàn)更加穩(wěn)健。具體案例中,SegVG成功定位復(fù)雜背景下的目標(biāo),顯示了其在多任務(wù)優(yōu)化時(shí) 的高度有效性。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3643

    瀏覽量

    134510
  • 變換器
    +關(guān)注

    關(guān)注

    17

    文章

    2098

    瀏覽量

    109304
  • 視覺(jué)定位
    +關(guān)注

    關(guān)注

    5

    文章

    51

    瀏覽量

    12392

原文標(biāo)題:ECCV 2024 | SegVG:刷新視覺(jué)定位新SOTA!將視覺(jué)定位的目標(biāo)邊界框轉(zhuǎn)化為分割信號(hào)

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    基于labview機(jī)器視覺(jué)的圖像定位

    大家好,畢業(yè)設(shè)計(jì)做基于labview機(jī)器視覺(jué)的圖像定位系統(tǒng),打算調(diào)用筆記本的攝像頭進(jìn)行圖像采集,再進(jìn)行圖像處理,視覺(jué)模塊和采集模塊已經(jīng)下載了,可是不知道怎么采集圖像,求大家支招.
    發(fā)表于 03-31 14:54

    視覺(jué)定位,旋轉(zhuǎn)平移的問(wèn)題:

    視覺(jué)定位,旋轉(zhuǎn)平移的問(wèn)題,旋轉(zhuǎn)中心不在法蘭盤(pán)中心的問(wèn)題,圖解。方法,公式如下
    發(fā)表于 09-01 20:36

    【HarmonyOS HiSpark AI Camera】視覺(jué)定位

    項(xiàng)目名稱:視覺(jué)定位試用計(jì)劃:項(xiàng)目名稱:視覺(jué)定位系統(tǒng)計(jì)劃:借助視覺(jué)方案,對(duì)物料進(jìn)行精準(zhǔn)取放,視覺(jué)標(biāo)
    發(fā)表于 11-23 15:10

    視覺(jué)定位方案求助,謝

    功能:視覺(jué)定位玻璃的位置和角度,給平面4軸機(jī)器人抓取1.附件是我自己用視覺(jué)助手做的驗(yàn)證,很不穩(wěn)定2.相機(jī)是1200W,視野范圍是350*200,玻璃規(guī)格大小有很多,圖片是其中一款3.定位
    發(fā)表于 10-05 17:15

    基于視覺(jué)信標(biāo)的倉(cāng)儲(chǔ)物流機(jī)器人定位方法

    針對(duì)輪式倉(cāng)儲(chǔ)物流機(jī)器人的自主定位問(wèn)題,提出了一種基于視覺(jué)信標(biāo)和里程計(jì)數(shù)據(jù)融合的室內(nèi)定位方法。首先,通過(guò)建立相機(jī)模型巧妙地解算信標(biāo)與相機(jī)之間的旋轉(zhuǎn)和平移關(guān)系,獲取
    發(fā)表于 11-28 10:16 ?0次下載
    基于<b class='flag-5'>視覺(jué)</b>信標(biāo)的倉(cāng)儲(chǔ)物流機(jī)器人<b class='flag-5'>定位</b><b class='flag-5'>方法</b>

    用于移動(dòng)機(jī)器人聽(tīng)覺(jué)和視覺(jué)一體的定位方法

    介紹了一種用于移動(dòng)機(jī)器人搜索目標(biāo)人方位的聽(tīng)覺(jué)和視覺(jué)一體的定位方法。針對(duì)目標(biāo)人的位置,利用機(jī)器人聽(tīng)覺(jué)定位系統(tǒng)進(jìn)行聲源水平方向初定位。在此基礎(chǔ)上
    發(fā)表于 12-18 16:48 ?0次下載
    用于移動(dòng)機(jī)器人聽(tīng)覺(jué)和<b class='flag-5'>視覺(jué)</b>一體的<b class='flag-5'>定位</b><b class='flag-5'>方法</b>

    基于GEME-3000主控制器和計(jì)算機(jī)視覺(jué)組件實(shí)現(xiàn)自動(dòng)化定位系統(tǒng)的設(shè)計(jì)

    計(jì)算機(jī)視覺(jué)的應(yīng)用大致上可以分成定位、量測(cè)、識(shí)別、缺陷檢測(cè)四大類(lèi),其中以定位的應(yīng)用最為廣泛。機(jī)器視覺(jué)系統(tǒng)可以用來(lái)檢視主機(jī)板上的電子組件,也可以
    的頭像 發(fā)表于 04-25 11:13 ?2039次閱讀
    基于GEME-3000主控制器和計(jì)算機(jī)<b class='flag-5'>視覺(jué)</b><b class='flag-5'>組件</b>實(shí)現(xiàn)自動(dòng)化<b class='flag-5'>定位</b>系統(tǒng)的設(shè)計(jì)

    醫(yī)療器械視覺(jué)定位應(yīng)用

    隨著醫(yī)療器械水平的不斷更新和提高,越來(lái)越多的生產(chǎn)廠商將機(jī)器視覺(jué)技術(shù)引入實(shí)際生產(chǎn)中來(lái),以達(dá)到提高生產(chǎn)效率,加強(qiáng)產(chǎn)品品質(zhì)保障的目的。而利用機(jī)器視覺(jué)技術(shù),實(shí)現(xiàn)自動(dòng)定位噴碼便是機(jī)器視覺(jué)技術(shù)在醫(yī)
    的頭像 發(fā)表于 05-22 15:08 ?2294次閱讀

    融合3D場(chǎng)景幾何信息的視覺(jué)定位算法

    了大量創(chuàng)新性工作。不久前,視覺(jué)定位組提出的融合3D場(chǎng)景幾何信息的視覺(jué)定位算法被ICRA2020收錄,本文將對(duì)該方法進(jìn)行介紹。 背景 1.
    的頭像 發(fā)表于 11-13 10:50 ?5026次閱讀
    融合3D場(chǎng)景幾何信息的<b class='flag-5'>視覺(jué)</b><b class='flag-5'>定位</b>算法

    基于計(jì)算機(jī)視覺(jué)的客機(jī)艙門(mén)識(shí)別與定位方法

    基于計(jì)算機(jī)視覺(jué)的客機(jī)艙門(mén)識(shí)別與定位方法
    發(fā)表于 06-22 16:37 ?42次下載

    【技術(shù)干貨】光伏組件生產(chǎn)全流程AI視覺(jué)檢測(cè)方案來(lái)了!

    機(jī)器視覺(jué)檢測(cè)已在光伏產(chǎn)品生產(chǎn)的各個(gè)環(huán)節(jié)中,為產(chǎn)品產(chǎn)量與質(zhì)量提供可靠保障。維視智造作為光伏組件視覺(jué)檢測(cè)系統(tǒng)領(lǐng)先者,為企業(yè)提供專(zhuān)業(yè)、系統(tǒng)、穩(wěn)定的光伏組件
    的頭像 發(fā)表于 01-13 11:02 ?2172次閱讀
    【技術(shù)干貨】光伏<b class='flag-5'>組件</b>生產(chǎn)全流程AI<b class='flag-5'>視覺(jué)</b>檢測(cè)方案來(lái)了!

    六自由度視覺(jué)定位

    基于三維模型的視覺(jué)定位通過(guò)在查詢圖像和三維模型間建立 2D-3D 對(duì)應(yīng)關(guān)系,估計(jì)相機(jī)六自由度的位姿。傳統(tǒng)的視覺(jué)定位方法通常采用人工設(shè)計(jì)的局部
    的頭像 發(fā)表于 04-20 10:07 ?1153次閱讀

    機(jī)器視覺(jué)檢測(cè)與機(jī)器視覺(jué)定位的區(qū)別與應(yīng)用

    機(jī)器視覺(jué)檢測(cè)與機(jī)器視覺(jué)定位是兩種重要的機(jī)器視覺(jué)應(yīng)用技術(shù),主要區(qū)別在于檢測(cè)對(duì)象和應(yīng)用領(lǐng)域不同。機(jī)器視覺(jué)檢測(cè)技術(shù)可以用于檢測(cè)產(chǎn)品的外觀、尺寸、密
    的頭像 發(fā)表于 05-30 17:10 ?1062次閱讀

    激光焊接視覺(jué)定位引導(dǎo)方法

    和效率的關(guān)鍵手段。本文將探討激光焊接視覺(jué)定位引導(dǎo)方法的基本原理、技術(shù)實(shí)現(xiàn)及其在實(shí)際應(yīng)用中的優(yōu)勢(shì)和挑戰(zhàn)。 視覺(jué)定位引導(dǎo)的基本原理
    的頭像 發(fā)表于 05-28 10:34 ?526次閱讀
    激光焊接<b class='flag-5'>視覺(jué)</b><b class='flag-5'>定位</b>引導(dǎo)<b class='flag-5'>方法</b>

    一種將NeRFs應(yīng)用于視覺(jué)定位任務(wù)的新方法

    視覺(jué)定位旨在估計(jì)在已知環(huán)境中捕獲的給定圖像的旋轉(zhuǎn)和位置,大致可以分為絕對(duì)姿態(tài)回歸(APR),場(chǎng)景坐標(biāo)回歸(SCR)和分層方法(HM)。
    的頭像 發(fā)表于 10-28 10:03 ?203次閱讀
    一種將NeRFs應(yīng)用于<b class='flag-5'>視覺(jué)</b><b class='flag-5'>定位</b>任務(wù)的新<b class='flag-5'>方法</b>