三浦理惠子近親相姦,人与禽zoz0性伦交

CVPR 2023：GLIGEN: Open-Set Grounded Text-to-Image Generation

1. 論文信息

論文題目：GLIGEN: Open-Set Grounded Text-to-Image Generation

作者：Yuheng Li, Haotian Liu, Qingyang Wu, Fangzhou Mu, Jianwei Yang, Jianfeng Gao,Chunyuan Li, Yong Jae Lee

論文鏈接：https://arxiv.org/abs/2301.07093

代碼地址：https://github.com/gligen/GLIGEN

2. 引言

首先介紹一下open-set Grounded Text2Img Generation，它是一個(gè)框架，它可以根據(jù)文本描述和定位指令生成圖像。定位指令提供有關(guān)圖像的附加信息，例如邊界框、深度圖、語義地圖等。所提出的框架可以在不同類型的定位指令上進(jìn)行訓(xùn)練，例如檢測(cè)數(shù)據(jù)、檢測(cè)+字幕數(shù)據(jù)和定位數(shù)據(jù)。該模型在COCO2014數(shù)據(jù)集上進(jìn)行評(píng)估，同時(shí)在圖像質(zhì)量和定位準(zhǔn)確性方面均取得了最先進(jìn)的性能。本文的一個(gè)限制是，雖然到目前為止的描述集中于使用文本作為實(shí)體e和邊界框作為l（本文的主要setting），但是提出的定位指導(dǎo)是以一般形式表示的。然而，提出的框架可以擴(kuò)展到其他定位條件。

如何做到這些呢？近年來，圖像生成研究取得了巨大進(jìn)展。過去幾年，GANs是最先進(jìn)的技術(shù)，其latent space和conditional inputs已經(jīng)得到了深入研究，以實(shí)現(xiàn)可控的修改和生成。文本條件自回歸和擴(kuò)散模型已經(jīng)展示出驚人的圖像質(zhì)量和概念覆蓋，這是由于它們更穩(wěn)定的學(xué)習(xí)目標(biāo)和基于網(wǎng)絡(luò)圖像-文本對(duì)數(shù)據(jù)的大規(guī)模訓(xùn)練所致。這些模型甚至引起了公眾的關(guān)注，因?yàn)樗鼈兙哂袑?shí)用的用例（例如藝術(shù)設(shè)計(jì)和創(chuàng)作）。盡管取得了令人興奮的進(jìn)展，但現(xiàn)有的大規(guī)模文本到圖像生成模型不能以除文本之外的其他輸入模態(tài)為條件，因此缺乏精確定位概念、使用參考圖像或其他條件輸入來控制生成過程的能力。目前的輸入，即僅限自然語言，限制了信息表達(dá)的方式。例如，使用文本描述一個(gè)物體的精確位置是困難的，而邊界框/關(guān)鍵點(diǎn)可以很容易地實(shí)現(xiàn)這一點(diǎn)。雖然存在以其他輸入模態(tài)進(jìn)行修復(fù)、布局到圖像生成等的條件擴(kuò)散模型和GANs，但它們很少將這些輸入組合起來進(jìn)行可控的文本到圖像生成。

此外，先前的生成模型（不論生成模型家族）通常是在每個(gè)任務(wù)特定的數(shù)據(jù)集上獨(dú)立訓(xùn)練的。相比之下，在識(shí)別領(lǐng)域，長期以來的范例是以在大規(guī)模圖像數(shù)據(jù)或圖像-文本對(duì)上預(yù)訓(xùn)練的基礎(chǔ)模型為起點(diǎn)構(gòu)建識(shí)別模型。由于擴(kuò)散模型已經(jīng)在數(shù)十億個(gè)圖像-文本對(duì)上進(jìn)行了訓(xùn)練，自然而然的問題是：我們能否在現(xiàn)有預(yù)訓(xùn)練的擴(kuò)散模型基礎(chǔ)上構(gòu)建新的條件輸入模態(tài)？通過這種方式，類似于識(shí)別文獻(xiàn)，由于預(yù)訓(xùn)練模型已經(jīng)具有豐富的概念知識(shí)，我們可能能夠在其他生成任務(wù)上實(shí)現(xiàn)更好的性能，同時(shí)獲得對(duì)現(xiàn)有文本到圖像生成模型的更多可控性。

基于上述目標(biāo)，我們提出了一種方法，為預(yù)訓(xùn)練的文本到圖像擴(kuò)散模型提供新的基礎(chǔ)條件輸入。我們?nèi)匀槐Ａ粑谋緲?biāo)題作為輸入，但還啟用其他輸入模態(tài)，如邊界框用于定位概念、引用圖像用于定位、部分關(guān)鍵點(diǎn)定位等。關(guān)鍵挑戰(zhàn)是在學(xué)習(xí)注入新的定位信息的同時(shí)保留預(yù)訓(xùn)練模型的原始豐富概念知識(shí)。為了防止知識(shí)遺忘，我們建議凍結(jié)原始模型權(quán)重，并添加新的可訓(xùn)練門控Transformer層，以接收新的定位輸入（例如邊界框）。在訓(xùn)練期間，我們逐漸使用門控機(jī)制將新的定位信息融合到預(yù)訓(xùn)練模型中。這種設(shè)計(jì)可在生成過程中實(shí)現(xiàn)靈活性，以提高質(zhì)量和可控性；例如，我們展示了在前半部分采用全模型（所有層）進(jìn)行采樣步驟，而在后半部分僅使用原始層（不包括門控Transformer層）可以導(dǎo)致生成結(jié)果準(zhǔn)確反映基礎(chǔ)條件，同時(shí)具有高品質(zhì)圖像。

3. 方法

3.1 Grounding Instruction Input

定位指令輸入是提供有關(guān)圖像的信息的附加輸入，例如邊界框、深度圖、語義地圖等。該輸入表示為一系列定位tokens，其中每個(gè)tokens對(duì)應(yīng)于特定類型的定位信息。定位指令輸入包括以下步驟：

從輸入序列中提取定位tokens。

將每個(gè)tokens映射到其對(duì)應(yīng)的定位信息。

對(duì)于每個(gè)使用邊界框表示的定位文本實(shí)體，我們將位置信息表示為l = [αmin, βmin, αmax, βmax]，其中包含其左上角和右下角坐標(biāo)。對(duì)于文本實(shí)體e，我們使用相同的預(yù)訓(xùn)練文本編碼器來獲取其文本特征ftext（e）（圖2中的淺綠色標(biāo)記），然后將其與其邊界框信息融合以生成定位令tokens：

而keypoints相較于bounding box有什么特點(diǎn)呢？keypoints比bounding box的泛化能力要差，因?yàn)殛P(guān)鍵點(diǎn)表示物體的部分，在不同類別之間不能總是共享。另一方面，邊界框僅指定圖像中物體的粗略位置和大小，并可以跨所有對(duì)象類別共享。這意味著，雖然關(guān)鍵點(diǎn)比邊界框提供了更細(xì)粒度的控制，但它們的泛化能力較差。本文的作者還提到，他們測(cè)試了人類學(xué)習(xí)的關(guān)鍵點(diǎn)定位信息是否可以轉(zhuǎn)移到其他非人型類別，如貓或燈，用于關(guān)鍵點(diǎn)定位生成，但他們發(fā)現(xiàn)即使使用了計(jì)劃采樣，他們的模型在這些情況下也會(huì)遇到困難。

從Closed-set轉(zhuǎn)換成Open-set：相較于open set的方法，現(xiàn)有的這種close-set環(huán)境下的布局到圖像生成方法僅適用于封閉集設(shè)置，限制了模型推廣到新實(shí)體的能力，也缺乏語言指令的語義結(jié)構(gòu)。提出的定位指令采用通用形式，可以擴(kuò)展到其他定位條件，例如圖像提示、關(guān)鍵點(diǎn)和空間對(duì)齊條件。圖像提示可以用于描述更抽象和精細(xì)的概念，而關(guān)鍵點(diǎn)和空間對(duì)齊條件則提供了更細(xì)粒度的可控性。而如圖所示，采用了UNet的結(jié)構(gòu)，其可以通過將條件映射輸入到第一個(gè)卷積層中來加速。

3.2 Continual Learning for Grounded Generation

基于連續(xù)學(xué)習(xí)的定位生成是一種方法，使生成模型能夠從新的定位信息中學(xué)習(xí)而不會(huì)忘記以前學(xué)習(xí)的信息。基于連續(xù)學(xué)習(xí)的定位生成的步驟包括：

在大型圖像和captioning數(shù)據(jù)集上預(yù)訓(xùn)練生成模型。

在包含額外定位信息的較小圖像和captioning數(shù)據(jù)集上fine-tuning模型。

使用回放緩沖區(qū)存儲(chǔ)之前學(xué)習(xí)的信息，并在學(xué)習(xí)新的定位信息時(shí)使用它來防止遺忘。

使用連續(xù)學(xué)習(xí)方法訓(xùn)練模型，平衡學(xué)習(xí)新信息的重要性和保留以前學(xué)習(xí)的信息。

使用生成模型將文本描述與提取的定位信息相結(jié)合生成最終圖像。

為了加快推理過程中的節(jié)奏，本文還提出了一種新的迭代模式，Scheduled Samplin。Scheduled Samplin是GLIGEN模型中使用的一種技術(shù)，通過設(shè)置一個(gè)稱為beta的參數(shù)來安排推理時(shí)間的采樣，其中beta可以設(shè)置為1（使用額外的定位信息）或0（降低到原始預(yù)訓(xùn)練擴(kuò)散模型）。這允許模型在不同階段利用不同的知識(shí)。通過將tau設(shè)置為0.2，可以使用計(jì)劃采樣來改善圖像質(zhì)量，并擴(kuò)展模型以生成具有類似人形形狀的其他對(duì)象。

計(jì)劃采樣的主要好處是提高了視覺效果的質(zhì)量，因?yàn)榇致缘母拍钗恢煤洼喞谠缙陔A段被確定，后續(xù)階段則是細(xì)節(jié)的精細(xì)化處理。它還可以讓我們將在一個(gè)領(lǐng)域（人類關(guān)鍵點(diǎn)）訓(xùn)練的模型擴(kuò)展到其他領(lǐng)域（猴子卡通人物），如圖1所示。

4. 實(shí)驗(yàn)

這段突出顯示的文本呈現(xiàn)了表格1，該表格顯示了在COCO2014驗(yàn)證集上圖像質(zhì)量和布局對(duì)應(yīng)性的評(píng)估結(jié)果。表格中的數(shù)字來自相應(yīng)的論文，是在COCO數(shù)據(jù)集上進(jìn)行微調(diào)的模型。GLIGEN是建立在之上的模型。COCO2014數(shù)據(jù)集是文本到圖像生成領(lǐng)域中使用的標(biāo)準(zhǔn)基準(zhǔn)，用于在封閉集設(shè)置中評(píng)估模型的生成質(zhì)量和定位準(zhǔn)確性。評(píng)估不同類型的定位指令以查看它們對(duì)模型性能的影響。比較的指標(biāo)就是Inception Score（IS）、Fréchet Inception Distance（FID）和Layout Distance Metric（LDM）這些常用的生成模型客觀性評(píng)價(jià)指標(biāo)。IS衡量生成圖像的質(zhì)量，F(xiàn)ID衡量生成圖像與真實(shí)圖像的相似性，而LDM衡量生成的圖像與給定布局的對(duì)應(yīng)性。然后比較了使用COCO2014數(shù)據(jù)集的不同論文的結(jié)果，例如StackGAN++、AttnGAN和DM-GAN。這些論文對(duì)上述指標(biāo)得分的表現(xiàn)不同。是在COCO數(shù)據(jù)集上進(jìn)行微調(diào)的模型，它的得分比原始的LDM模型更好。GLIGEN是建立在L.DM之上的模型，它的得分比表格中提到的其他模型都要好。可見本文提出方法的有效性。

結(jié)合實(shí)驗(yàn)來看，本文提出的方法，在性能和泛化性上，都有特別出彩的點(diǎn)。

5. 討論

本文的貢獻(xiàn)在于提出了一種新的文本到圖像生成方法GLIGEN，它賦予了現(xiàn)有的文本到圖像擴(kuò)散模型新的定位可控性。該模型使用邊界框輸入實(shí)現(xiàn)了開放世界的定位文本到圖像生成，即合成訓(xùn)練中未觀察到的新的局部概念。該模型在布局到圖像任務(wù)的零樣本表現(xiàn)顯著優(yōu)于之前的最新技術(shù)水平，展示了在大型預(yù)訓(xùn)練生成模型的基礎(chǔ)上進(jìn)行下游任務(wù)建模的強(qiáng)大能力。本文總結(jié)認(rèn)為，GLIGEN是推進(jìn)文本到圖像合成領(lǐng)域和擴(kuò)展預(yù)訓(xùn)練模型在各種應(yīng)用中能力的有前途的方向。

本文的一個(gè)limitation是，所提出的GLIGEN模型需要大量的訓(xùn)練數(shù)據(jù)才能實(shí)現(xiàn)良好的性能。另一個(gè)限制是，模型的性能高度依賴于提供的定位信息的質(zhì)量。此外，模型生成具有細(xì)節(jié)的圖像的能力也受到限制。作者建議未來的工作重點(diǎn)應(yīng)該放在改進(jìn)模型處理復(fù)雜定位信息和生成更逼真、更詳細(xì)圖像的能力上。

6. 結(jié)論

GLIGEN是本文提出的一種方法，用于擴(kuò)展預(yù)訓(xùn)練的文本到圖像擴(kuò)散模型的定位能力。該方法使用邊界框、關(guān)鍵點(diǎn)、參考圖像和空間對(duì)齊條件（例如邊緣圖、深度圖等）來從文本描述生成圖像。該模型使用多層感知機(jī)來提取定位信息，并將其與文本描述相結(jié)合生成最終圖像?；谶B續(xù)學(xué)習(xí)的定位生成被用于允許模型從新的定位信息中學(xué)習(xí)而不會(huì)忘記以前學(xué)習(xí)的信息。作者展示了GLIGEN在開放世界泛化方面的有效性，并表明它可以輕松擴(kuò)展到其他定位條件。本文總結(jié)認(rèn)為，GLIGEN是推進(jìn)文本到圖像合成領(lǐng)域和擴(kuò)展預(yù)訓(xùn)練模型在各種應(yīng)用中能力的有前途的方向。

審核編輯：彭靜

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

LDM

LDM

+關(guān)注

關(guān)注
0

文章
6

瀏覽量
10656
模型

模型

+關(guān)注

關(guān)注
1

文章
3265

瀏覽量
48918
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1208

瀏覽量
24737

原文標(biāo)題：論文解讀 Open-Set Grounded Text-to-Image Generation

文章出處：【微信號(hào)：GiantPandaCV，微信公眾號(hào)：GiantPandaCV】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

1553B總線產(chǎn)品有效性測(cè)試（VTP）平臺(tái)

MIL-STD-1553B標(biāo)準(zhǔn)，針對(duì)電氣參數(shù)測(cè)試、協(xié)議兼容性測(cè)試、噪聲抑制測(cè)試三大方面，制定了包括測(cè)試目的、連接結(jié)構(gòu)、測(cè)試內(nèi)容和通過準(zhǔn)則等內(nèi)容的測(cè)試細(xì)則，可有效而全面地解決1553B總線產(chǎn)品設(shè)計(jì)定型前

發(fā)表于 01-20 16:01

神奇的數(shù)據(jù)有效性的使用

數(shù)據(jù)有效性的使用

發(fā)表于 06-24 16:59

CS的有效性可以改編？

1. “如果SD卡在接收復(fù)位命令過程中CS低電平有效，則進(jìn)入SPI模式，否則工作在SD 總線模式?！边@個(gè)不太理解，CS的有效性可以改編嗎，如何實(shí)現(xiàn)？?2. 我的SD卡和LCD都是用SPI讀寫，我在讀

發(fā)表于 05-21 06:50

ATPG有效性是什么意思

Automatic Test Pattern Generation(ATPG)ATPG有效性是衡量測(cè)試錯(cuò)誤覆蓋了的重要指標(biāo)。測(cè)試是向一個(gè)處于已知狀態(tài)的對(duì)象施加確定的輸入激勵(lì)，并測(cè)量其確定的輸出響應(yīng)

發(fā)表于 07-29 08:47

特征選擇在減少預(yù)測(cè)推理時(shí)間方面的有效性展示

。特征選擇是大多數(shù)機(jī)器學(xué)習(xí)管道中的一個(gè)重要步驟，主要用于提高性能。當(dāng)減少特征時(shí)，就是降低了模型的復(fù)雜性，從而降低了訓(xùn)練和驗(yàn)證的時(shí)間。在這篇文章中，我們展示了特征選擇在減少預(yù)測(cè)推理時(shí)間方面的有效

發(fā)表于 09-07 14:46

壓縮機(jī)故障率的有效性估計(jì)和維修周期的確定

壓縮機(jī)故障率的有效性估計(jì)和維修周期的確定

發(fā)表于 05-21 15:01 ?19次下載

高斯混合模型對(duì)乳腺癌診斷的有效性初探

計(jì)算機(jī)輔助醫(yī)療診斷是計(jì)算機(jī)應(yīng)用的一個(gè)熱門方向。本文旨在探討基于EM 算法的高斯混合模型在乳腺癌診斷方面的有效性。通過與現(xiàn)在流行的BP 神經(jīng)網(wǎng)絡(luò)輔助醫(yī)療診斷方法的比較

發(fā)表于 01-09 11:54 ?24次下載

新的模糊聚類有效性指標(biāo)

新的模糊聚類有效性指標(biāo)_趙娜娜

發(fā)表于 01-07 20:32 ?0次下載

如何檢查Oracle數(shù)據(jù)庫備份文件是否有效？備份文件有效性檢測(cè)系統(tǒng)設(shè)計(jì)資料概述

從Oracle 數(shù)據(jù)庫的備份文件是否有效的角度出發(fā)，針對(duì)企業(yè)往往只注重如何制定完善的生產(chǎn)數(shù)據(jù)備份設(shè)計(jì)方案，而忽視對(duì)備份數(shù)據(jù)有效性進(jìn)行檢測(cè)這一問題。依據(jù)備份檢測(cè)原理并考慮實(shí)際生產(chǎn)環(huán)境，設(shè)計(jì)了

發(fā)表于 09-07 17:14 ?5次下載

什么是欺詐證明和有效性證明

欺詐證明提出證據(jù)，表明狀態(tài)轉(zhuǎn)換是不正確的。它們反映了對(duì)世界的樂觀看法：假設(shè)區(qū)塊代表L2數(shù)據(jù)的正確狀態(tài)，直到被證明不是這樣。但實(shí)際上，一個(gè)已提交的區(qū)塊可能包含錯(cuò)誤的狀態(tài)轉(zhuǎn)換。 有效性證明則提出

發(fā)表于 01-28 10:46 ?2577次閱讀

PLC冗余系統(tǒng)的可行性和有效性分析

結(jié)合客戶需求，通過熱備硬件和軟件冗余程序設(shè)計(jì)控制系統(tǒng)冗余方案。從熱備硬件和冗余程序設(shè)計(jì)的角度分別分析了冗余系統(tǒng)的可靠性和系統(tǒng)主備站切換時(shí)間，實(shí)踐證明冗余系統(tǒng)的可行性與有效性.

發(fā)表于 10-30 16:26 ?10次下載

利用人工智能測(cè)試藥物對(duì)新冠的治療有效性

利用人工智能來測(cè)試藥物對(duì)新冠的治療有效性和安全性

發(fā)表于 11-29 09:34 ?2177次閱讀

Oracle數(shù)據(jù)庫備份文件有效性檢測(cè)設(shè)計(jì)方案

Oracle數(shù)據(jù)庫備份文件有效性檢測(cè)設(shè)計(jì)方案(電源技術(shù)投稿難度)-該文檔為Oracle數(shù)據(jù)庫備份文件有效性檢測(cè)設(shè)計(jì)方案講解文檔，是一份不錯(cuò)的參考資料，感興趣的可以下載看看，，，，，，，，，，，

發(fā)表于 09-24 16:58 ?2次下載

合成數(shù)據(jù)的不合理有效性

電子發(fā)燒友網(wǎng)站提供《合成數(shù)據(jù)的不合理有效性.zip》資料免費(fèi)下載

發(fā)表于 07-13 09:29 ?0次下載

adc采集的電壓值數(shù)值如何真有效性轉(zhuǎn)換？

adc采集的電壓值數(shù)值如何真有效性轉(zhuǎn)換？adc采集溫度基準(zhǔn)電壓紋波太大有什么影響？ ADC采集的電壓值數(shù)值真正的有效性轉(zhuǎn)換，需要考慮多個(gè)因素。首先需要明確的是，ADC采集到的數(shù)字量表示的是一種電壓值

發(fā)表于 10-17 18:17 ?1540次閱讀