0. 筆者個(gè)人體會(huì)
最近文本到圖像的工作很火,生成的圖像也非常真實(shí)。但還有個(gè)問(wèn)題,現(xiàn)有工作效率比較低,往往只能接受一次text指令,再修改就要重新輸入text重新生成,可能會(huì)影響原本的語(yǔ)義信息,這樣導(dǎo)出的圖像和最初圖像可能差距甚遠(yuǎn)。
今天筆者將為大家分享一項(xiàng)最新開(kāi)源的工作LEDITS++,可以一次輸入無(wú)限多的編輯指令,一次性生成真實(shí)圖像!而且LEDITS++是無(wú)參數(shù)方案,不需要微調(diào)和優(yōu)化。不得不感慨AI發(fā)展之迅速,距離人們真實(shí)生活也越來(lái)越近了。
下面一起來(lái)閱讀一下這項(xiàng)工作,文末附論文和代碼鏈接~
1. 效果展示
先看一下具體效果,輸入具體指令就可以直接產(chǎn)生對(duì)應(yīng)效果。PS要想在幾十秒內(nèi)達(dá)到同等效果應(yīng)該是有點(diǎn)困難。
LEDITS++很強(qiáng)調(diào)編輯前后的圖像一致性,也就是僅修改圖像的相關(guān)區(qū)域,保持原始圖像的語(yǔ)義信息。這里也推薦工坊推出的新課程《徹底搞懂視覺(jué)-慣性SLAM:VINS-Fusion原理精講與源碼剖析》。
代碼已經(jīng)開(kāi)源了,官方主頁(yè)也開(kāi)放了交互式demo,感興趣的讀者可以上傳自己的圖像和文本指令嘗鮮一下效果。
2. 具體原理是什么?
LEDITS++可以分為三個(gè)部分:(1)有效的圖像反轉(zhuǎn);(3)多功能文本編輯;(3)圖像變化的語(yǔ)義基礎(chǔ)。
我們知道擴(kuò)散模型生成圖像是通過(guò)反轉(zhuǎn)采樣來(lái)進(jìn)行的,重點(diǎn)是識(shí)別噪聲。LEDITS++從DDPM反演中提取特征,并提出一種有效的反演方法,大大減少所需的步驟,同時(shí)降低重建誤差。當(dāng)將反向擴(kuò)散過(guò)程公式化為SDE時(shí),DDPM可以被視為一階SDE解算器。使用高階微分方程解算器可以更有效地解算,因此作者推導(dǎo)出一種新的更快技術(shù)------DPM-solver++反演。
在創(chuàng)建重建序列之后,可以通過(guò)一組編輯指令操縱噪聲來(lái)編輯圖像。根據(jù)有條件和無(wú)條件估計(jì),作者分別設(shè)計(jì)了一個(gè)專(zhuān)門(mén)的引導(dǎo)項(xiàng),既反映了編輯的方向,又最大化了對(duì)所需編輯效果的細(xì)粒度控制。
最后,LEDITS++還包括一個(gè)Mask項(xiàng),由交叉注意層生成的Mask和噪聲估計(jì)導(dǎo)出的Mask取交集計(jì)算得到。Mask可以捕捉與編輯概念相關(guān)的圖像區(qū)域,對(duì)于多次編輯特別有效。這里也推薦工坊推出的新課程《徹底搞懂視覺(jué)-慣性SLAM:VINS-Fusion原理精講與源碼剖析》。
3. 和其他SOTA方法對(duì)比如何?
不同編輯方法的指令對(duì)齊和圖像相似度權(quán)衡的比較,側(cè)重CLIP得分(越高越好)與LPIPS相似度(越低越好),也就是圖中越靠近左上角效果越好。
-
圖像
+關(guān)注
關(guān)注
2文章
1084瀏覽量
40468 -
AI
+關(guān)注
關(guān)注
87文章
30896瀏覽量
269108 -
開(kāi)源
+關(guān)注
關(guān)注
3文章
3349瀏覽量
42501
原文標(biāo)題:放下你的PhotoShop!無(wú)限圖像編輯已開(kāi)源!
文章出處:【微信號(hào):3D視覺(jué)工坊,微信公眾號(hào):3D視覺(jué)工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論