0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AIGC可編輯的圖像生成方案

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:Smarter ? 2023-03-03 09:25 ? 次閱讀

ControlNet給出的實(shí)驗(yàn)結(jié)果實(shí)在是過(guò)于驚艷了,近期視覺(jué)領(lǐng)域最讓人興奮的工作。可編輯圖像生成領(lǐng)域異?;馃?,看了一些相關(guān)文章,選出幾篇感興趣的文章記錄一下。

9740c672-b91e-11ed-bfe3-dac502259ad0.png

從CLIP模型開始,OpenAI走通了大規(guī)模圖文對(duì)預(yù)訓(xùn)練模型的技術(shù)路徑,這代表著文字域和圖片域是可以很好的對(duì)齊;緊隨其后,OpenAI在CLIP的技術(shù)基礎(chǔ)上,發(fā)布了DALLE文字生成圖片的模型,生成圖片的質(zhì)量遠(yuǎn)超之前的模型,這主要得益于大規(guī)模圖文對(duì)預(yù)訓(xùn)練的CLIP模型;

與此同時(shí),Diffusion Models的圖像生成方法的圖像生成質(zhì)量也超越了以往的GAN、VAE等模型,并且隨著算法的精進(jìn),推理速度不斷加快,預(yù)示著Diffusion Models即將全面替代GAN、VAE等生成模型;果不其然,OpenAI將DALLE模型和Diffusion Models結(jié)合發(fā)布了DALLE2模型,生成圖片的質(zhì)量進(jìn)一步提高。

在DALLE2這個(gè)階段,雖然圖像生成質(zhì)量相比以往有了質(zhì)變,但是圖像生成的過(guò)程是不可控,這導(dǎo)致各種繪畫設(shè)計(jì)行業(yè)無(wú)法在工作中使用,況且DALLE2還沒(méi)有開源。隨著Stable Diffusion模型的發(fā)布和開源,可編輯圖像生成領(lǐng)域變得空前火熱,出現(xiàn)了各種各樣DIY的產(chǎn)物,Stable Diffusion模型算是一個(gè)關(guān)鍵的時(shí)間節(jié)點(diǎn)。

而在2023年2月份大概1周之內(nèi)同時(shí)涌現(xiàn)出了ControlNet、T2I-Adapter和Composer三個(gè)基于Stable Diffusion的可編輯圖像生成模型,其中ControlNet再一次帶熱了AI繪畫設(shè)計(jì)。

下面主要介紹一下Stable Diffusion、ControlNet、T2I-Adapter和Composer四篇文章,最后談?wù)剤D像結(jié)構(gòu)化和圖像生成之間的關(guān)系。

Stable Diffusion

975d2344-b91e-11ed-bfe3-dac502259ad0.png

Stable Diffusion模型在Diffusion Models(DM)的基礎(chǔ)上,增加了conditioning機(jī)制。

通過(guò)conditioning機(jī)制,可以將semantic map、text、representations和images等信息傳遞到DM模型中,通過(guò)cross-attention機(jī)制進(jìn)行信息的融合,通過(guò)多個(gè)step進(jìn)行擴(kuò)散生成圖片。

978088fc-b91e-11ed-bfe3-dac502259ad0.png

981dbdac-b91e-11ed-bfe3-dac502259ad0.png

如上面兩個(gè)結(jié)果圖所示,Stable Diffusion可以通過(guò)版面結(jié)構(gòu)圖或者語(yǔ)義分割圖來(lái)控制圖像的生成。

ControlNet

985ae10a-b91e-11ed-bfe3-dac502259ad0.png

ControlNet在Stable Diffusion(SD)的基礎(chǔ)上,鎖住SD的參數(shù),并且增加了一個(gè)可學(xué)習(xí)的分支,該分支的開頭和結(jié)尾都增加zero convolution(初始化參數(shù)為0),保證訓(xùn)練的穩(wěn)定性,并且Condition的特征會(huì)疊加回SD的Decoder特征上,進(jìn)而達(dá)到控制圖像生成的目的。

相比于SD模型,ControlNet有兩點(diǎn)區(qū)別:

ControlNet相比于SD,豐富了Condition的種類,總共9大類,包括Canny Edge、Canny Edge(Alter)、Hough Line、HED Boundary、User Sketching、Human Pose(Openpifpaf)、Human Pose(Openpose)、Semantic Segmentation(COCO)、Semantic Segmentation(ADE20K)、Depth(large-scale)、Depth(small-scale)、Normal Maps、Normal Maps(extended)和Cartoon Line Drawing。

ControlNet不需要重新訓(xùn)練SD模型,這極大的降低了可編輯圖像生成領(lǐng)域的門檻,減少二次開發(fā)的成本。

9885a78c-b91e-11ed-bfe3-dac502259ad0.png

從上圖可以看到,ControlNet可以先提取出動(dòng)物的Canny edge,然后再在Canny edge的基礎(chǔ)上渲染出不同風(fēng)格環(huán)境色彩的動(dòng)物圖片,amazing!

98a90326-b91e-11ed-bfe3-dac502259ad0.png

98cfac56-b91e-11ed-bfe3-dac502259ad0.png

990130f0-b91e-11ed-bfe3-dac502259ad0.png

9928ce3a-b91e-11ed-bfe3-dac502259ad0.png

9956bc96-b91e-11ed-bfe3-dac502259ad0.png

上圖是一些ControlNet圖像生成的例子,更多的例子可以閱讀原文。

T2I-Adapter

9973ea00-b91e-11ed-bfe3-dac502259ad0.png

T2I-Adapter跟ControlNet非常類似,主要不同有以下幾點(diǎn)區(qū)別:

T2I-Adapter可以同時(shí)組合輸入多種類型的Condition

T2I-Adapter是從SD的Encoder部分傳入Condition的

9988388e-b91e-11ed-bfe3-dac502259ad0.png

可以看到T2I-Adapter生成的圖像有著類似ControlNe的可編輯效果。

Composer

9a4ee7f4-b91e-11ed-bfe3-dac502259ad0.png

Composer跟ControlNet和T2I-Adapter的思路也是類似的,但是Composer提出了一個(gè)有意思的點(diǎn),就是可編輯圖像生成其實(shí)就是對(duì)圖像各種元素的組合,Composer先用各種不同的模型將各種不同的圖片分解成各種元素,然后將不同圖片的元素進(jìn)行重組。比如上圖的戴珍珠耳環(huán)的少女,可以分解成shape、semantics、sketch、masking、style、content、intensity、palette、文字等等元素,然后跟其他不同圖片的元素進(jìn)行想要的重組。

9a75adee-b91e-11ed-bfe3-dac502259ad0.png

Composer將各種元素區(qū)分成兩類,一類是Global Conditions,另一類是Localized Conditions。其中Global Conditions包括sentence embeddings, image embeddings, and color histograms,并且需要添加到Timestep中;Localized Conditions包括segmentation maps, depthmaps, sketches, grayscale images, and masked images,并且需要添加到Noisy Image中。

9a909b4a-b91e-11ed-bfe3-dac502259ad0.png

9b23f462-b91e-11ed-bfe3-dac502259ad0.png

上面圖像生成的結(jié)果,充分表現(xiàn)出了Composer模型可編輯的多樣性和豐富性。

圖像結(jié)構(gòu)化和圖像生成

我在這里將圖像檢測(cè)、圖像分割、深度估計(jì)等任務(wù)統(tǒng)稱為圖像結(jié)構(gòu)化。從某種意義上來(lái)說(shuō),圖像結(jié)構(gòu)化其實(shí)可以認(rèn)為是一種特殊的圖像生成,只不過(guò)生成的圖片是某個(gè)單一維度的特征,比如是深度圖、mask圖、關(guān)鍵點(diǎn)圖等等。ControlNet和Composer某種意義上就是將結(jié)構(gòu)化圖片通過(guò)文字控制來(lái)豐富細(xì)節(jié)進(jìn)而生成想要的圖片;而圖像結(jié)構(gòu)化其實(shí)就是把維度復(fù)雜、細(xì)節(jié)豐富的圖片生成維度單一、細(xì)節(jié)簡(jiǎn)單的結(jié)構(gòu)化圖片。

圖像結(jié)構(gòu)化和圖像生成其實(shí)也就是對(duì)應(yīng)著Composer文章里面提到的分解和合成兩個(gè)過(guò)程。我對(duì)于可編輯圖像生成領(lǐng)域未來(lái)的想法是,盡可能準(zhǔn)確豐富的提取圖像中各個(gè)維度的結(jié)構(gòu)化信息(包括文字信息),然后通過(guò)Stable Diffusion模型組合融入想要的結(jié)構(gòu)化信息,進(jìn)而達(dá)到完全自主可控的圖像生成。

總結(jié)

可編輯的圖像生成其實(shí)蘊(yùn)含著人機(jī)交互的思想,人的意志通過(guò)輸入的文字提示和圖片提示傳遞給模型,而模型(或者說(shuō)是機(jī)器)生成的圖片恰好反映出了人的思想??删庉媹D像生成會(huì)改變繪畫設(shè)計(jì)等領(lǐng)域的創(chuàng)作模式(比如公仔服裝周邊等等,可以無(wú)限壓縮設(shè)計(jì)繪畫的時(shí)間),進(jìn)而孕育出新的更有活力的創(chuàng)業(yè)公司,互聯(lián)網(wǎng)行業(yè)可能會(huì)迎來(lái)第二增長(zhǎng)曲線。






審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • Clip
    +關(guān)注

    關(guān)注

    0

    文章

    31

    瀏覽量

    6679
  • GaN器件
    +關(guān)注

    關(guān)注

    1

    文章

    36

    瀏覽量

    7912
  • OpenAI
    +關(guān)注

    關(guān)注

    9

    文章

    1103

    瀏覽量

    6597
  • AIGC
    +關(guān)注

    關(guān)注

    1

    文章

    364

    瀏覽量

    1571

原文標(biāo)題:AIGC—可編輯的圖像生成

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    基于擴(kuò)散模型的圖像生成過(guò)程

    近年來(lái),擴(kuò)散模型在文本到圖像生成方面取得了巨大的成功,實(shí)現(xiàn)了更高圖像生成質(zhì)量,提高了推理性能,也可以激發(fā)擴(kuò)展創(chuàng)作靈感。 不過(guò)僅憑文本來(lái)控制圖像
    的頭像 發(fā)表于 07-17 11:00 ?2784次閱讀
    基于擴(kuò)散模型的<b class='flag-5'>圖像</b><b class='flag-5'>生成</b>過(guò)程

    AIGC入門及鴻蒙入門

    Generated Content,即人工智能生成內(nèi)容。它利用人工智能技術(shù)自動(dòng)生成或輔助生成文本、圖像、音頻、視頻等內(nèi)容。 AIGC的核心
    發(fā)表于 01-13 10:32

    #新年新氣象,大家新年快樂(lè)!#AIGC入門及鴻蒙入門

    Generated Content,即人工智能生成內(nèi)容。它利用人工智能技術(shù)自動(dòng)生成或輔助生成文本、圖像、音頻、視頻等內(nèi)容。 AIGC的核心
    發(fā)表于 01-13 10:46

    RTthread移植代碼自動(dòng)生成方案

    RTthread再學(xué)習(xí)記錄前言一、RTthread移植代碼自動(dòng)生成方案二、使用CUBEMX在STM32F4上移植RTT1.官方提供的教程2.解決RTT移植的一些細(xì)節(jié)問(wèn)題總結(jié)提示:文章寫完后,目錄可以
    發(fā)表于 02-11 06:29

    一種全新的遙感圖像描述生成方

    遙感圖像描述生成是同時(shí)涉及計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理領(lǐng)域的熱門研究話題,其主要工作是對(duì)于給定的圖像自動(dòng)地生成一個(gè)對(duì)該圖像的描述語(yǔ)句。文中提岀了
    發(fā)表于 04-20 11:21 ?2次下載
    一種全新的遙感<b class='flag-5'>圖像</b>描述<b class='flag-5'>生成方</b>法

    基于模板、檢索和深度學(xué)習(xí)的圖像描述生成方

    描述技術(shù)的發(fā)展歷程為主線,對(duì)圖像描述任務(wù)的方法、評(píng)價(jià)指標(biāo)和常用數(shù)據(jù)集進(jìn)行了詳細(xì)的綜述。針對(duì)圖像描述任務(wù)的技術(shù)方法,總結(jié)了基于模板、檢索和深度學(xué)習(xí)的圖像描述生成方法,重點(diǎn)介紹了基于深度學(xué)
    發(fā)表于 04-23 14:07 ?12次下載
    基于模板、檢索和深度學(xué)習(xí)的<b class='flag-5'>圖像</b>描述<b class='flag-5'>生成方</b>法

    GAN圖像對(duì)抗樣本生成方法研究綜述

    為了提高生成對(duì)抗網(wǎng)絡(luò)模型對(duì)抗樣本的多樣性和攻擊成功率,提出了一種GAN圖像對(duì)抗樣本生成方法。首先,利用原始樣本集整體訓(xùn)練一個(gè)深度卷積對(duì)抗生成網(wǎng)絡(luò)G1,模擬原始樣本集分布;其次,在黑盒攻
    發(fā)表于 04-28 16:39 ?72次下載
    GAN<b class='flag-5'>圖像</b>對(duì)抗樣本<b class='flag-5'>生成方</b>法研究綜述

    基于圖像驅(qū)動(dòng)的三維人臉自動(dòng)生成編輯算法

    基于圖像驅(qū)動(dòng)的三維人臉自動(dòng)生成編輯算法
    發(fā)表于 06-25 17:09 ?27次下載

    AIGC最新綜述:從GAN到ChatGPT的AI生成歷史

    本調(diào)查全面回顧了生成模型的歷史、基本組件、AIGC 從單模態(tài)交互和多模態(tài)交互的最新進(jìn)展。我們從單峰性的角度介紹了文本和圖像生成任務(wù)和相關(guān)模型。我們從多模態(tài)的角度來(lái)介紹上述模態(tài)之間的交
    的頭像 發(fā)表于 03-13 10:13 ?2844次閱讀

    伯克利AI實(shí)驗(yàn)室開源圖像編輯模型InstructPix2Pix,簡(jiǎn)化生成圖像編輯并提供一致結(jié)果

    之前的 AI 圖像編輯能力通常是進(jìn)行風(fēng)格轉(zhuǎn)換,流行的文本到圖像生成模型(如 DALL-E 和 Stable Diffusion)也支持圖像圖像
    的頭像 發(fā)表于 08-28 15:45 ?869次閱讀
    伯克利AI實(shí)驗(yàn)室開源<b class='flag-5'>圖像編輯</b>模型InstructPix2Pix,簡(jiǎn)化<b class='flag-5'>生成</b><b class='flag-5'>圖像編輯</b>并提供一致結(jié)果

    微軟AI新成果:將不可編輯PDF轉(zhuǎn)化為可編輯文檔

    市面現(xiàn)有相關(guān)軟件雖能將PDF轉(zhuǎn)為可編輯版,但易喪失原始布局。微軟研究論文名為《從不可編輯文檔生成可編輯文檔的方法和系統(tǒng)》,其獨(dú)特之處在于運(yùn)用AI技術(shù)保持了字體、色彩、布局及
    的頭像 發(fā)表于 05-30 10:11 ?744次閱讀

    AIGC與傳統(tǒng)內(nèi)容生成的區(qū)別

    AIGC : 主要面向非結(jié)構(gòu)化數(shù)據(jù)的生成,如自然語(yǔ)言文本、圖像、音頻、視頻等。 這類數(shù)據(jù)規(guī)模更大,內(nèi)在結(jié)構(gòu)更復(fù)雜,對(duì)處理技術(shù)提出了更高要求。 傳統(tǒng)內(nèi)容生成 : 主要處理結(jié)構(gòu)化數(shù)據(jù),如
    的頭像 發(fā)表于 10-25 15:13 ?496次閱讀

    AIGC生成內(nèi)容的優(yōu)勢(shì)與挑戰(zhàn)

    人工智能生成內(nèi)容(AIGC,Artificial Intelligence Generated Content)是指利用人工智能技術(shù)自動(dòng)生成文本、圖像、音頻和視頻等內(nèi)容的過(guò)程。隨著深度
    的頭像 發(fā)表于 10-25 15:36 ?632次閱讀

    AIGC是什么及其應(yīng)用 AIGC的定義和工作原理

    AIGC的定義 AIGC是一種新興的技術(shù)領(lǐng)域,它結(jié)合了機(jī)器學(xué)習(xí)、自然語(yǔ)言處理(NLP)、計(jì)算機(jī)視覺(jué)和音頻處理等多個(gè)子領(lǐng)域。AIGC的目標(biāo)是使計(jì)算機(jī)能夠理解、生成
    的頭像 發(fā)表于 11-22 16:00 ?939次閱讀

    AIGC與傳統(tǒng)內(nèi)容生成的區(qū)別 AIGC的優(yōu)勢(shì)和挑戰(zhàn)

    、AIGC與傳統(tǒng)內(nèi)容生成的區(qū)別 數(shù)據(jù)類型與處理 : AIGC主要面向非結(jié)構(gòu)化數(shù)據(jù)的生成,如自然語(yǔ)言文本、圖像、音頻、視頻等。這類數(shù)據(jù)規(guī)模更大
    的頭像 發(fā)表于 11-22 16:04 ?386次閱讀