ControlNet給出的實(shí)驗(yàn)結(jié)果實(shí)在是過(guò)于驚艷了,近期視覺(jué)領(lǐng)域最讓人興奮的工作。可編輯圖像生成領(lǐng)域異?;馃?,看了一些相關(guān)文章,選出幾篇感興趣的文章記錄一下。
從CLIP模型開始,OpenAI走通了大規(guī)模圖文對(duì)預(yù)訓(xùn)練模型的技術(shù)路徑,這代表著文字域和圖片域是可以很好的對(duì)齊;緊隨其后,OpenAI在CLIP的技術(shù)基礎(chǔ)上,發(fā)布了DALLE文字生成圖片的模型,生成圖片的質(zhì)量遠(yuǎn)超之前的模型,這主要得益于大規(guī)模圖文對(duì)預(yù)訓(xùn)練的CLIP模型;
與此同時(shí),Diffusion Models的圖像生成方法的圖像生成質(zhì)量也超越了以往的GAN、VAE等模型,并且隨著算法的精進(jìn),推理速度不斷加快,預(yù)示著Diffusion Models即將全面替代GAN、VAE等生成模型;果不其然,OpenAI將DALLE模型和Diffusion Models結(jié)合發(fā)布了DALLE2模型,生成圖片的質(zhì)量進(jìn)一步提高。
在DALLE2這個(gè)階段,雖然圖像生成質(zhì)量相比以往有了質(zhì)變,但是圖像生成的過(guò)程是不可控,這導(dǎo)致各種繪畫設(shè)計(jì)行業(yè)無(wú)法在工作中使用,況且DALLE2還沒(méi)有開源。隨著Stable Diffusion模型的發(fā)布和開源,可編輯圖像生成領(lǐng)域變得空前火熱,出現(xiàn)了各種各樣DIY的產(chǎn)物,Stable Diffusion模型算是一個(gè)關(guān)鍵的時(shí)間節(jié)點(diǎn)。
而在2023年2月份大概1周之內(nèi)同時(shí)涌現(xiàn)出了ControlNet、T2I-Adapter和Composer三個(gè)基于Stable Diffusion的可編輯圖像生成模型,其中ControlNet再一次帶熱了AI繪畫設(shè)計(jì)。
下面主要介紹一下Stable Diffusion、ControlNet、T2I-Adapter和Composer四篇文章,最后談?wù)剤D像結(jié)構(gòu)化和圖像生成之間的關(guān)系。
Stable Diffusion
Stable Diffusion模型在Diffusion Models(DM)的基礎(chǔ)上,增加了conditioning機(jī)制。
通過(guò)conditioning機(jī)制,可以將semantic map、text、representations和images等信息傳遞到DM模型中,通過(guò)cross-attention機(jī)制進(jìn)行信息的融合,通過(guò)多個(gè)step進(jìn)行擴(kuò)散生成圖片。
如上面兩個(gè)結(jié)果圖所示,Stable Diffusion可以通過(guò)版面結(jié)構(gòu)圖或者語(yǔ)義分割圖來(lái)控制圖像的生成。
ControlNet
ControlNet在Stable Diffusion(SD)的基礎(chǔ)上,鎖住SD的參數(shù),并且增加了一個(gè)可學(xué)習(xí)的分支,該分支的開頭和結(jié)尾都增加zero convolution(初始化參數(shù)為0),保證訓(xùn)練的穩(wěn)定性,并且Condition的特征會(huì)疊加回SD的Decoder特征上,進(jìn)而達(dá)到控制圖像生成的目的。
相比于SD模型,ControlNet有兩點(diǎn)區(qū)別:
ControlNet相比于SD,豐富了Condition的種類,總共9大類,包括Canny Edge、Canny Edge(Alter)、Hough Line、HED Boundary、User Sketching、Human Pose(Openpifpaf)、Human Pose(Openpose)、Semantic Segmentation(COCO)、Semantic Segmentation(ADE20K)、Depth(large-scale)、Depth(small-scale)、Normal Maps、Normal Maps(extended)和Cartoon Line Drawing。
ControlNet不需要重新訓(xùn)練SD模型,這極大的降低了可編輯圖像生成領(lǐng)域的門檻,減少二次開發(fā)的成本。
從上圖可以看到,ControlNet可以先提取出動(dòng)物的Canny edge,然后再在Canny edge的基礎(chǔ)上渲染出不同風(fēng)格環(huán)境色彩的動(dòng)物圖片,amazing!
上圖是一些ControlNet圖像生成的例子,更多的例子可以閱讀原文。
T2I-Adapter
T2I-Adapter跟ControlNet非常類似,主要不同有以下幾點(diǎn)區(qū)別:
T2I-Adapter可以同時(shí)組合輸入多種類型的Condition
T2I-Adapter是從SD的Encoder部分傳入Condition的
可以看到T2I-Adapter生成的圖像有著類似ControlNe的可編輯效果。
Composer
Composer跟ControlNet和T2I-Adapter的思路也是類似的,但是Composer提出了一個(gè)有意思的點(diǎn),就是可編輯圖像生成其實(shí)就是對(duì)圖像各種元素的組合,Composer先用各種不同的模型將各種不同的圖片分解成各種元素,然后將不同圖片的元素進(jìn)行重組。比如上圖的戴珍珠耳環(huán)的少女,可以分解成shape、semantics、sketch、masking、style、content、intensity、palette、文字等等元素,然后跟其他不同圖片的元素進(jìn)行想要的重組。
Composer將各種元素區(qū)分成兩類,一類是Global Conditions,另一類是Localized Conditions。其中Global Conditions包括sentence embeddings, image embeddings, and color histograms,并且需要添加到Timestep中;Localized Conditions包括segmentation maps, depthmaps, sketches, grayscale images, and masked images,并且需要添加到Noisy Image中。
上面圖像生成的結(jié)果,充分表現(xiàn)出了Composer模型可編輯的多樣性和豐富性。
圖像結(jié)構(gòu)化和圖像生成
我在這里將圖像檢測(cè)、圖像分割、深度估計(jì)等任務(wù)統(tǒng)稱為圖像結(jié)構(gòu)化。從某種意義上來(lái)說(shuō),圖像結(jié)構(gòu)化其實(shí)可以認(rèn)為是一種特殊的圖像生成,只不過(guò)生成的圖片是某個(gè)單一維度的特征,比如是深度圖、mask圖、關(guān)鍵點(diǎn)圖等等。ControlNet和Composer某種意義上就是將結(jié)構(gòu)化圖片通過(guò)文字控制來(lái)豐富細(xì)節(jié)進(jìn)而生成想要的圖片;而圖像結(jié)構(gòu)化其實(shí)就是把維度復(fù)雜、細(xì)節(jié)豐富的圖片生成維度單一、細(xì)節(jié)簡(jiǎn)單的結(jié)構(gòu)化圖片。
圖像結(jié)構(gòu)化和圖像生成其實(shí)也就是對(duì)應(yīng)著Composer文章里面提到的分解和合成兩個(gè)過(guò)程。我對(duì)于可編輯圖像生成領(lǐng)域未來(lái)的想法是,盡可能準(zhǔn)確豐富的提取圖像中各個(gè)維度的結(jié)構(gòu)化信息(包括文字信息),然后通過(guò)Stable Diffusion模型組合融入想要的結(jié)構(gòu)化信息,進(jìn)而達(dá)到完全自主可控的圖像生成。
總結(jié)
可編輯的圖像生成其實(shí)蘊(yùn)含著人機(jī)交互的思想,人的意志通過(guò)輸入的文字提示和圖片提示傳遞給模型,而模型(或者說(shuō)是機(jī)器)生成的圖片恰好反映出了人的思想??删庉媹D像生成會(huì)改變繪畫設(shè)計(jì)等領(lǐng)域的創(chuàng)作模式(比如公仔服裝周邊等等,可以無(wú)限壓縮設(shè)計(jì)繪畫的時(shí)間),進(jìn)而孕育出新的更有活力的創(chuàng)業(yè)公司,互聯(lián)網(wǎng)行業(yè)可能會(huì)迎來(lái)第二增長(zhǎng)曲線。
審核編輯:劉清
-
Clip
+關(guān)注
關(guān)注
0文章
31瀏覽量
6679 -
GaN器件
+關(guān)注
關(guān)注
1文章
36瀏覽量
7912 -
OpenAI
+關(guān)注
關(guān)注
9文章
1103瀏覽量
6597 -
AIGC
+關(guān)注
關(guān)注
1文章
364瀏覽量
1571
原文標(biāo)題:AIGC—可編輯的圖像生成
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論