隨著擴(kuò)散生成模型的發(fā)展,人工智能步入了屬于AIGC的新紀(jì)元。擴(kuò)散生成模型可以對初始高斯噪聲進(jìn)行逐步去噪而得到高質(zhì)量的采樣。當(dāng)前,許多應(yīng)用都涉及擴(kuò)散模型的反演,即找到一個(gè)生成樣本對應(yīng)的初始噪聲。當(dāng)前的采樣器不能兼顧反演的準(zhǔn)確性和采樣的質(zhì)量。
為徹底解決這一問題,微信視覺團(tuán)隊(duì)與浙江大學(xué)和清華大學(xué)聯(lián)手提出了基于雙向顯式線性多步法的擴(kuò)散模型精確反演采樣器(BELM)這一通用算法,并通過截?cái)嗾`差分析確定了最優(yōu)的 BELM 采樣器系數(shù)。
此方法在確保精確反演的同時(shí)還提升了生成樣本的質(zhì)量,在圖像與視頻的編輯、插值等下游任務(wù)中有廣泛的應(yīng)用前景。這一研究成果已被 NeurIPS 2024 會議接收。
當(dāng)前,擴(kuò)散模型在圖像生成、文字生成、音頻生成等多個(gè)領(lǐng)域得到了廣泛應(yīng)用,表現(xiàn)出了卓越的性能。擴(kuò)散模型的反演操作,即找到一個(gè)生成樣本對應(yīng)的初始噪聲,對若干下游任務(wù)起到關(guān)鍵的作用。傳統(tǒng)的 DDIM 反演會造成嚴(yán)重的不一致問題,即原始圖片加噪再去噪的結(jié)果與原圖相差甚遠(yuǎn)。
近期,研究者們提出了多種啟發(fā)式的精確反演采樣器來解決 DDIM 反演的不一致問題。然而,這些啟發(fā)式的精確反演采樣器的理論特性尚不明確,且采樣質(zhì)量常常不盡如人意,這在一定程度上限制了它們的應(yīng)用。
為此,本研究引入了一種通用的精確反演采樣器范式 —— 雙向顯式線性多步(BELM)采樣器,該范式包含了上文提到的啟發(fā)式精確反演采樣器。該團(tuán)隊(duì)在 BELM 范式內(nèi)系統(tǒng)地研究了局部截?cái)嗾`差(LTE),發(fā)現(xiàn)現(xiàn)有的精確反演采樣器的 LTE 并非最優(yōu)。
因此,研究團(tuán)隊(duì)通過 LTE 最小化方法提出了最優(yōu)的 BELM(Optimal-BELM,O-BELM)采樣器。實(shí)驗(yàn)表明,O-BELM 采樣器在實(shí)現(xiàn)精確反演的同時(shí),也提升了采樣的質(zhì)量。
論文題目:BELM: Bidirectional Explicit Linear Multi-step Sampler for Exact Inversion in Diffusion Models
論文鏈接:
https://arxiv.org/abs/2410.07273
項(xiàng)目鏈接:
https://github.com/zituitui/BELM
背景:DDIM反演造成的不一致問題 由于 DDIM 的正向過程和反演過程使用的迭代式并不相同,所以 DDIM 的反演重構(gòu)樣本與初始的樣本存在較大差別。 實(shí)際使用中,DDIM 的反演有顯著的不一致問題:
現(xiàn)有精確反演方法
Null-text-inversion 以 Null-tex-inversion 為代表的方法對 unconditional占位符進(jìn)行 fine-tune,以達(dá)到精確反演。 問題:這類方法局限于 text-classifier-free-guidance 場景下的擴(kuò)散模型;需要額外訓(xùn)練,低效。
EDICT EDICT 是基于 DDIM 的啟發(fā)式算法,借鑒了可逆網(wǎng)絡(luò)的做法,有兩個(gè)相互糅合的采樣鏈。
其逆過程如下,精確可逆:
問題:需要兩倍計(jì)算量;超參數(shù) p 不魯棒,導(dǎo)致采樣質(zhì)量不可控。 BDIA BDIA 改進(jìn)了 EDICT,使用 x_i 的速度,x_i 和 x_{i+1} 的位置,通過下述公式實(shí)現(xiàn)精確可逆:
問題:超參數(shù) gamma 不魯棒,導(dǎo)致采樣質(zhì)量不佳。 EDICT 和 BDIA 參數(shù)的不魯棒: EDICT 和 BDIA 超參數(shù)的意義不明,沒有理論指導(dǎo)如何調(diào)整,導(dǎo)致不同情形下超參數(shù)的選擇差別巨大。使用起來極為不便。
雙向顯式線性多步法(BELM)框架思路起源:DDIM 的正向過程(由藍(lán)線表示)與反演過程(由紅線表示)是兩種不同的關(guān)系,這導(dǎo)致了 DDIM 的反演不準(zhǔn)確。如果強(qiáng)制正過程與反過程使用相同關(guān)系,又會引入隱式方法,大大增加計(jì)算復(fù)雜度。如果多引入一個(gè)點(diǎn),不用隱式方法也可逆(由綠線表示)。
該論文中的算法,正向和反演過程都服從相同的關(guān)系,因此能夠精確反演。具體來說,為了系統(tǒng)地設(shè)計(jì)這種采樣器,首先要將擴(kuò)散模型的采樣過程建模為一個(gè) IVP(Initial Value Problem,初值問題):
以下是IVP的一般形式,這實(shí)際上是一個(gè)變步長變公式線性多步方法(VSVFM):
為了避免隱式方法的復(fù)雜計(jì)算,上式需要在正向和反向都是顯式的,該團(tuán)隊(duì)稱這一性質(zhì)為雙向顯性(bidirectional explicit)。
代入雙向顯性條件,可以得到一般的 k 步 BELM 采樣器:
最簡單的形式是 k=2,稱為 2-BELM,其表達(dá)式如下:
據(jù)此很容易證明,一個(gè)滿足雙向顯性性質(zhì)的線性多步法采樣器擁有精確反演性質(zhì):
研究團(tuán)隊(duì)還發(fā)現(xiàn),前文提到的 EDICT 和 BDIA 都是 BELM 框架的特例:
這也解釋了 EDICT 和 BDIA 能夠精確反演的原因。
最優(yōu)雙向顯式線性多步(O-BELM)采樣器研究團(tuán)隊(duì)在推導(dǎo) BELM 框架暫時(shí)沒有給出具體的系數(shù)選擇,而啟發(fā)式的系數(shù)選擇(如 EDICT 和 BDIA)會造成采樣質(zhì)量的退化。因此,他們提出使用局部截?cái)嗾`差(LTE)來獲取最優(yōu)系數(shù)。 首先分析 BELM 的局部截?cái)嗾`差:
通過對局部截?cái)嗾`差的最小化,我們得到了最優(yōu)的 BELM 系數(shù),我們稱此系數(shù)下的 BELM 采樣器為最優(yōu) BELM(O-BELM):
O-BELM 的正向過程表達(dá)式如下:
O-BELM 的反演過程表達(dá)式如下:
此外,研究團(tuán)隊(duì)還證明了 O-BELM 滿足穩(wěn)定性和全局收斂性:
至此,可以對比幾種不同反演采樣器的性質(zhì):
可見,O-BELM 是第一種在嚴(yán)格的理論保證下兼顧精確反演性質(zhì)和采樣質(zhì)量的采樣器。
實(shí)驗(yàn)重建實(shí)驗(yàn)(驗(yàn)證O-BELM精確反演性質(zhì)) latent 空間上的 O-BELM 的重建誤差為 0,這表明 O-BELM 具有精確反演的性質(zhì):
采樣實(shí)驗(yàn)(驗(yàn)證O-BELM的高質(zhì)量采樣性質(zhì))
不論在無條件生成還是條件生成中,O-BELM 都表現(xiàn)出了高于 DDIM,EDICT 和 BDIA 的采樣質(zhì)量:
下游任務(wù) —— 圖像編輯
圖像編輯實(shí)驗(yàn)體現(xiàn)了:
1. 由于 DDIM 不具有精確反演性質(zhì),編輯的結(jié)果中存在不一致問題(紅色框);
2. 由于 EDICT 和 BDIA 具有較大的采樣誤差,編輯的結(jié)果出現(xiàn)了不真實(shí)區(qū)域(黃色框);
3.O-BELM 在保持圖像一致的條件下完成了高質(zhì)量的編輯。
由于 O-BELM 是一個(gè)采樣方法,因此可以無縫地與 controlNet 結(jié)合,編輯效果也優(yōu)于其他方法:
下游任務(wù) —— 圖像插值 由于 O-BELM 精確地建立了噪聲和生成樣本的對應(yīng)關(guān)系,這個(gè)關(guān)系是 probability flow ODE 的近似,因此 O-BELM 也使得圖像插值更符合人的直覺:
結(jié)語 本研究提出的雙向顯式線性多步法采樣器從理論上分析并徹底解決了現(xiàn)有擴(kuò)散生成模型中的反演問題,進(jìn)一步拓寬了擴(kuò)散模型在計(jì)算機(jī)視覺領(lǐng)域的能力邊界。在圖像和視頻的編輯任務(wù)上有巨大的應(yīng)用前景。
-
算法
+關(guān)注
關(guān)注
23文章
4612瀏覽量
92884 -
采樣器
+關(guān)注
關(guān)注
0文章
34瀏覽量
2467
原文標(biāo)題:NeurIPS 2024 | 浙大、微信提出精確反演采樣器新范式,徹底解決擴(kuò)散模型反演問題
文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論