0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于Discrete Diffusion的模型不可知分割細(xì)化

jf_pmFSk4VX ? 來(lái)源:GiantPandaCV ? 2024-01-19 15:14 ? 次閱讀

這次這篇文章介紹一篇很有意思的工作:SegRefiner,來(lái)自 NeurIPS, 2023,目前代碼已開(kāi)源。

SegRefiner 提出一種新的的任務(wù)解釋?zhuān)瑢⒎指罴?xì)化視為一個(gè)數(shù)據(jù)生成過(guò)程。因此,細(xì)化可以通過(guò)一系列去噪擴(kuò)散步驟來(lái)實(shí)現(xiàn),其中 Coarse Mask 是 Ground Truth 的噪聲版本。此外,為了處理二值掩模,進(jìn)一步設(shè)計(jì)了一種新穎的離散擴(kuò)散過(guò)程,在該過(guò)程中,每個(gè)像素執(zhí)行單向隨機(jī)狀態(tài)轉(zhuǎn)換。所提出的過(guò)程可以在訓(xùn)練期間逐漸將 Ground Truth 轉(zhuǎn)換為 Coarse Mask,并在推理期間使用 Coarse Mask 作為采樣起點(diǎn)。換句話(huà)說(shuō),SegRefiner 將掩模細(xì)化任務(wù)表述為一個(gè)條件生成問(wèn)題,其中輸入圖像(指原圖)作為條件,用于迭代更新/細(xì)化 Coarse Mask 中的錯(cuò)誤預(yù)測(cè)。

SegRefiner 是模型不可知的,因此適用于不同的分割模型和任務(wù)。SegRefiner 驗(yàn)證的任務(wù)包括:語(yǔ)義分割,實(shí)例分割和二分圖像分割。

相關(guān)工作

分割細(xì)化的目標(biāo)是提高現(xiàn)有分割模型中掩模的質(zhì)量。一些工作專(zhuān)注于增強(qiáng)特定的分割模型。還有一些模型不可知方法的細(xì)化方法,這些策略強(qiáng)調(diào)使用多種形式的輸入,包括整個(gè)圖像、邊界補(bǔ)丁和邊緣條帶等。盡管這些技術(shù)可以細(xì)化來(lái)自不同模型的粗糙掩模,但它們的適用性仍然局限于特定的分割任務(wù)。

擴(kuò)散模型在檢測(cè)和分割任務(wù)中的應(yīng)用也成為越來(lái)越多研究的焦點(diǎn),這些研究主要遵循 DDPM 的高斯擴(kuò)散過(guò)程,并利用額外的圖像編碼器來(lái)提取圖像特征作為生成掩模的條件。SegRefiner 是第一個(gè)將擴(kuò)散模型應(yīng)用于圖像分割細(xì)化任務(wù)的工作,它還在基于擴(kuò)散的分割任務(wù)中首次放棄連續(xù)的高斯假設(shè),轉(zhuǎn)而采用新設(shè)計(jì)的離散擴(kuò)散過(guò)程。

Forward diffusion process

在介紹前向過(guò)程之前,先看一下整體框架的實(shí)現(xiàn):

158fc404-b2e0-11ee-8b88-92fbcf53809c.png請(qǐng)?zhí)砑訄D片描述

右側(cè)是提出的 transition sample 模塊,它基于輸入狀態(tài)轉(zhuǎn)換概率從當(dāng)前掩模中隨機(jī)采樣像素,并改變它們的值以匹配目標(biāo)掩模中的值(也就是完成我們?cè)谝灾刑岬降摹懊總€(gè)像素執(zhí)行單向隨機(jī)狀態(tài)轉(zhuǎn)換”)??催@張框架圖的時(shí)候,注意區(qū)分不同 pipeline 的顏色區(qū)分,這里吐槽一下,我第一看 transition sample 沒(méi)有清楚的看到三種輸入。

在訓(xùn)練期間,轉(zhuǎn)換樣本模塊將 Ground Truth 轉(zhuǎn)換為 Coarse Mask,因此 Coarse Mask 是目標(biāo)掩模。在推理過(guò)程中,目標(biāo)掩模指的是預(yù)測(cè)的細(xì)致掩模,這個(gè)模塊根據(jù)預(yù)測(cè)的細(xì)致掩模和轉(zhuǎn)換概率在每個(gè)時(shí)間步中更新 Coarse Mask 中的值。

接下來(lái)仔細(xì)介紹下前向過(guò)程:

這種方法涉及將一個(gè)精細(xì)的 mask 逐漸轉(zhuǎn)變?yōu)橐粋€(gè)更粗糙的 mask,包含以下關(guān)鍵要素:

起始狀態(tài) (mo):與 ground truth 的精細(xì) mask 相對(duì)應(yīng)。

目標(biāo)狀態(tài) (mr):一個(gè)粗糙的 mask。

中間狀態(tài) (mt):隨著時(shí)間步 t 的增加,逐漸從 mo 向 mr 演變的中間狀態(tài)。

轉(zhuǎn)移采樣模塊

引入了“轉(zhuǎn)移采樣”模塊,該模塊負(fù)責(zé)根據(jù)當(dāng)前 mask mt、粗 mask mr 以及狀態(tài)轉(zhuǎn)移概率來(lái)進(jìn)行狀態(tài)的轉(zhuǎn)移。狀態(tài)的轉(zhuǎn)移是單向的,保證了最終會(huì)收斂到粗糙 mask mr。

參數(shù)技巧

此外,SegRefiner 還提到了重參數(shù)技巧(reparameterization trick),通過(guò)引入二元隨機(jī)變量 x 來(lái)描述這一過(guò)程。該過(guò)程允許直接獲取任何中間時(shí)間步的 mask mt,而無(wú)需逐步采樣。具體表述為:

定義 x 表示為一個(gè) one-hot 向量,表示中間掩模 mt 中像素 (i, j) 的狀態(tài)。

設(shè)置 xi = [1, 0] 和 xi = [0, 1] 分別表示精細(xì)狀態(tài)和粗糙狀態(tài)。

因此,前向過(guò)程可以表示為公式:

where

為超參數(shù),而 對(duì)應(yīng)了上述的狀態(tài)轉(zhuǎn)移概率。狀態(tài)轉(zhuǎn)移矩陣 的邊緣分布可以表示為:

整體上還是遵循 DDPM,但是引入 二元隨機(jī)變量 x 。

Reverse diffusion process

將粗糙 mask mr 逐漸修正為精細(xì) mask mo。

由于此時(shí)精細(xì) mask mo 和狀態(tài)轉(zhuǎn)移概率未知,對(duì)照著 SegRefiner 框架圖來(lái)看,訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò) 來(lái)預(yù)測(cè)精細(xì) ,表示為:

其中 I 是相應(yīng)的圖像。

和 分別表示預(yù)測(cè)的精細(xì) mask 和其置信度分?jǐn)?shù)。相應(yīng)的, 可視作 中每個(gè)像素處于“精細(xì)狀態(tài)”的概率。

反向狀態(tài)轉(zhuǎn)移概率

根據(jù)前向過(guò)程的設(shè)定和貝葉斯定理,延續(xù) DDPM 的方法,我們可以由前向過(guò)程的后驗(yàn)概率和預(yù)測(cè)的 得到反向過(guò)程的概率分布,表示為:

where

其中 為反向過(guò)程的狀態(tài)轉(zhuǎn)移概率。

迭代修正過(guò)程

給定粗糙 mask mr 以及相應(yīng)的圖像 I,首先將所有像素初始化為粗糙狀態(tài) xi = [1, 0]。通過(guò)不斷迭代地狀態(tài)轉(zhuǎn)移,逐漸修正 m_T 中的預(yù)測(cè)值。

推理過(guò)程

給定一個(gè)粗糙的掩模和其對(duì)應(yīng)的圖像,我們首先初始化所有像素為粗糙狀態(tài)。我們?cè)谝韵虏襟E之間迭代:

前向過(guò)程:以獲取 和 。

計(jì)算反向狀態(tài)轉(zhuǎn)移矩陣: 并得到 。

計(jì)算精細(xì)化的掩模:基于 , 和 計(jì)算精細(xì)化的掩模 。

這個(gè)過(guò)程(1)-(3)迭代進(jìn)行,直到獲得精細(xì)的掩模。

實(shí)驗(yàn)

分別訓(xùn)練了 LR-SegRefiner 和 HR-SegRefiner,數(shù)據(jù)集和具體的 settings 在上 。

定性對(duì)比其他方法,覺(jué)得對(duì)比 U-Net 和 ISNet 的效果的確很明顯。

總結(jié)

SegRefiner 是首個(gè)基于擴(kuò)散的圖像分割細(xì)化方法,采用了離散擴(kuò)散過(guò)程。SegRefiner 執(zhí)行模型不可知的分割細(xì)化,并在各種分割任務(wù)的細(xì)化中取得了強(qiáng)有力的實(shí)證結(jié)果。雖然它在準(zhǔn)確度上取得了顯著的提升,但其局限性在于擴(kuò)散過(guò)程由于多步迭代策略而導(dǎo)致推理速度變慢。

審核編輯:湯梓紅
聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 開(kāi)源
    +關(guān)注

    關(guān)注

    3

    文章

    3363

    瀏覽量

    42536
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3254

    瀏覽量

    48881
  • 代碼
    +關(guān)注

    關(guān)注

    30

    文章

    4791

    瀏覽量

    68694

原文標(biāo)題:基于 Discrete Diffusion 的模型不可知分割細(xì)化

文章出處:【微信號(hào):GiantPandaCV,微信公眾號(hào):GiantPandaCV】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    使用全卷積網(wǎng)絡(luò)模型實(shí)現(xiàn)圖像分割

    OpenCv-C++-深度神經(jīng)網(wǎng)絡(luò)(DNN)模塊-使用FCN模型實(shí)現(xiàn)圖像分割
    發(fā)表于 05-28 07:33

    基于多級(jí)混合模型的圖像分割方法

    本文研究了典型的基于區(qū)域的圖像分割方法主動(dòng)形狀模型(Active Shape Model, ASM)和基于邊緣的圖像分割snake 算法,分析了算法適用條件和各自的優(yōu)缺點(diǎn)。結(jié)合snake 模型
    發(fā)表于 07-08 09:58 ?20次下載

    基于改進(jìn)活動(dòng)輪廓模型的圖像分割

    基于改進(jìn)活動(dòng)輪廓模型的圖像分割_王芳
    發(fā)表于 01-07 19:00 ?0次下載

    谷歌華為中斷合作 三星有機(jī)會(huì)借此“松口氣”

    對(duì)于華為將有著短期的影響,但長(zhǎng)期而言,結(jié)果仍不可知。
    的頭像 發(fā)表于 05-21 17:28 ?3857次閱讀
    谷歌華為中斷合作 三星有機(jī)會(huì)借此“松口氣”

    電磁屏蔽知識(shí),必不可知!

    電磁屏蔽一般可分為三種:靜電屏蔽、靜磁屏蔽和高頻電磁場(chǎng)屏蔽。三種屏蔽的目的都是防止外界的電磁場(chǎng)進(jìn)入到某個(gè)需要保護(hù)的區(qū)域中,原理都是利用屏蔽對(duì)外場(chǎng)的感應(yīng)產(chǎn)生的效應(yīng)來(lái)抵消外場(chǎng)的影響。但是由于所要屏蔽的場(chǎng)的特性不同,因而對(duì)屏蔽殼材料的要求和屏蔽效果也就不相同。 一、 靜電屏蔽 靜電屏蔽的目的是防止外界的靜電場(chǎng)進(jìn)入需要保護(hù)的某個(gè)區(qū)域。靜電屏蔽依據(jù)的原理是:在外界靜電場(chǎng)的作用下導(dǎo)體表面電荷將重新分布,直到導(dǎo)體內(nèi)部
    的頭像 發(fā)表于 10-30 18:43 ?1795次閱讀

    基于遙感數(shù)據(jù)的海島邊界快速分割模型

    基于遙感數(shù)據(jù)的海島邊界快速分割模型
    發(fā)表于 06-11 15:32 ?4次下載

    關(guān)于寬禁帶生態(tài)系統(tǒng)的仿真模型驗(yàn)證

      滿(mǎn)足客戶(hù)多樣化的仿真平臺(tái)需求對(duì)我們很重要。因此,SPICE不可知論的方法至關(guān)重要。不可知論法意思是在行業(yè)標(biāo)準(zhǔn)仿真軟件中只使用最小公分母結(jié)構(gòu),避免依賴(lài)仿真器的專(zhuān)有方案。
    的頭像 發(fā)表于 05-09 14:43 ?648次閱讀
    關(guān)于寬禁帶生態(tài)系統(tǒng)的仿真<b class='flag-5'>模型</b>驗(yàn)證

    使用OpenVINO?在算力魔方上加速stable diffusion模型

    Stable Diffusion 是 stability.ai 開(kāi)源的 AI 圖像生成模型,實(shí)現(xiàn)輸入文字,生成圖像的功能。Stable Diffusion 將 AI 圖像生成提升到了全新高度,將引發(fā)媒體創(chuàng)作領(lǐng)域的革命。
    的頭像 發(fā)表于 05-12 09:10 ?1480次閱讀
    使用OpenVINO?在算力魔方上加速stable <b class='flag-5'>diffusion</b><b class='flag-5'>模型</b>

    SAM分割模型是什么?

    SAM是一類(lèi)處理圖像分割任務(wù)的通用模型。與以往只能處理某種特定類(lèi)型圖片的圖像分割模型不同,SAM可以處理所有類(lèi)型的圖像。
    的頭像 發(fā)表于 05-20 09:30 ?2274次閱讀

    近期分割模型發(fā)展情況

    SAM(Segment Anything Model)Meta 的 FAIR 實(shí)驗(yàn)室發(fā)布的一種最先進(jìn)的圖像分割模型,該模型將自然語(yǔ)言處理領(lǐng)域的prompt范式引入計(jì)算機(jī)視覺(jué)領(lǐng)域,可以通過(guò)點(diǎn)擊、框選和自動(dòng)識(shí)別三種交互方式,實(shí)現(xiàn)精準(zhǔn)
    的頭像 發(fā)表于 05-22 16:26 ?882次閱讀
    近期<b class='flag-5'>分割</b>大<b class='flag-5'>模型</b>發(fā)展情況

    優(yōu)化 Stable Diffusion 在 GKE 上的啟動(dòng)體驗(yàn)

    Diffusion 等應(yīng)運(yùn)而生。Stable Diffusion 是一個(gè)文字生成圖像的 Diffusion 模型,它能夠根據(jù)給定任何文本輸入生成逼真的圖像。我們?cè)?GitHub Re
    的頭像 發(fā)表于 06-03 08:35 ?908次閱讀

    iPhone兩秒出圖,目前已知的最快移動(dòng)端Stable Diffusion模型來(lái)了

    近日,Snap 研究院推出最新高性能 Stable Diffusion 模型,通過(guò)對(duì)網(wǎng)絡(luò)結(jié)構(gòu)、訓(xùn)練流程、損失函數(shù)全方位進(jìn)行優(yōu)化,在 iPhone 14 Pro 上實(shí)現(xiàn) 2 秒出圖(512x512
    的頭像 發(fā)表于 06-12 15:25 ?791次閱讀
    iPhone兩秒出圖,目前已知的最快移動(dòng)端Stable <b class='flag-5'>Diffusion</b><b class='flag-5'>模型</b>來(lái)了

    CLE Diffusion:可控光照增強(qiáng)擴(kuò)散模型

    本文提出了新型的可控光照增強(qiáng)框架,主要采用了條件擴(kuò)散模型來(lái)控制任意區(qū)域的任意亮度增強(qiáng)。通過(guò)亮度控制模塊(Brightness Control Module)將亮度信息信息融入Diffusion網(wǎng)絡(luò)中,并且設(shè)計(jì)了和任務(wù)適配的條件控制信息和損失函數(shù)來(lái)增強(qiáng)
    的頭像 發(fā)表于 09-11 17:20 ?970次閱讀
    CLE <b class='flag-5'>Diffusion</b>:可控光照增強(qiáng)擴(kuò)散<b class='flag-5'>模型</b>

    圖像分割與語(yǔ)義分割中的CNN模型綜述

    圖像分割與語(yǔ)義分割是計(jì)算機(jī)視覺(jué)領(lǐng)域的重要任務(wù),旨在將圖像劃分為多個(gè)具有特定語(yǔ)義含義的區(qū)域或?qū)ο?。卷積神經(jīng)網(wǎng)絡(luò)(CNN)作為深度學(xué)習(xí)的一種核心模型,在圖像分割與語(yǔ)義
    的頭像 發(fā)表于 07-09 11:51 ?964次閱讀

    如何開(kāi)啟Stable Diffusion WebUI模型推理部署

    如何開(kāi)啟Stable Diffusion WebUI模型推理部署
    的頭像 發(fā)表于 12-11 20:13 ?112次閱讀
    如何開(kāi)啟Stable <b class='flag-5'>Diffusion</b> WebUI<b class='flag-5'>模型</b>推理部署