大佬何愷明還未正式入職MIT,但和MIT的第一篇合作研究已經(jīng)出來了:
他和MIT師生一起開發(fā)了一個(gè)自條件圖像生成框架,名叫RCG(代碼已開源)。
這個(gè)框架結(jié)構(gòu)非常簡單但效果拔群,直接在ImageNet-1K數(shù)據(jù)集上實(shí)現(xiàn)了無條件圖像生成的新SOTA。
它生成的圖像不需要任何人類注釋(也就是提示詞、類標(biāo)簽什么的),就能做到既保真又具有多樣性。
這樣的它不僅顯著提高了無條件圖像生成的水平,還能跟當(dāng)前最好的條件生成方法一較高下。
用何愷明團(tuán)隊(duì)自己的話來說:
有條件和無條件生成任務(wù)之間長期存在的性能差距,終于在這一刻被彌補(bǔ)了。
那么,它究竟是如何做到的呢?
類似自監(jiān)督學(xué)習(xí)的自條件生成
首先,所謂無條件生成,就是模型在沒有輸入信號(hào)幫助的情況下直接捕獲數(shù)據(jù)分布生成內(nèi)容。
這種方式比較難以訓(xùn)練,所以一直和條件生成有很大性能差距——就像無監(jiān)督學(xué)習(xí)比不過監(jiān)督學(xué)習(xí)一樣。
但就像自監(jiān)督學(xué)習(xí)的出現(xiàn),扭轉(zhuǎn)了這一局面一樣。
在無條件圖像生成領(lǐng)域,也有一個(gè)類似于自監(jiān)督學(xué)習(xí)概念的自條件生成方法。
相比傳統(tǒng)的無條件生成簡單地將噪聲分布映射到圖像分布,這種方法主要將像素生成過程設(shè)置在從數(shù)據(jù)分布本身導(dǎo)出的表示分布上。
它有望超越條件圖像生成,并推動(dòng)諸如分子設(shè)計(jì)或藥物發(fā)現(xiàn)這種不需要人類給注釋的應(yīng)用往前發(fā)展(這也是為什么條件生成圖像發(fā)展得這么好,我們還要重視無條件生成)。
現(xiàn)在,基于這個(gè)自條件生成概念,何愷明團(tuán)隊(duì)首先開發(fā)了一個(gè)表示擴(kuò)散模型RDM。
它主要用于生成低維自監(jiān)督圖像表示,方法是通過自監(jiān)督圖像編碼器從圖像中截?。?/p>
它的核心架構(gòu)如下:
首先是輸入層,它負(fù)責(zé)將表征投射到隱藏維度C,接著是N個(gè)全連接塊,最后是一個(gè)輸出層,負(fù)責(zé)把隱藏層的潛在特征重新投射(轉(zhuǎn)換)到原始表征維度。
其中每一層都包含一個(gè)LayerNorm層、一個(gè)SiLU層以及一個(gè)線性層。
這樣的RDM具有兩個(gè)優(yōu)點(diǎn):
一是多樣性強(qiáng),二是計(jì)算開銷小。
接著,利用RDM,團(tuán)隊(duì)就提出了今天的主角:表示條件圖像生成架構(gòu)RCG。
它是一個(gè)簡單的自條件生成框架,由三個(gè)組件組成:
一個(gè)是SSL圖像編碼器,用于將圖像分布轉(zhuǎn)換為緊湊的表示分布。
一個(gè)是RDM,用于對該分布進(jìn)行建模和采樣。
最后是一個(gè)像素生成器MAGE,用于根據(jù)表示來處理圖像像。
MAGE的工作方式主要是向token化的圖像中添加隨機(jī)掩碼,并要求網(wǎng)絡(luò)以從同一圖像中提取的表示為條件來重建丟失的token。
最終,測試表明,這個(gè)自條件生成框架雖結(jié)構(gòu)簡單但效果非凡:
在ImageNet 256×256上,RCG實(shí)現(xiàn)了3.56的FID和186.9的IS(Inception Score)得分。
相比之下,在它之前最厲害的無條件生成方法FID分?jǐn)?shù)為7.04,IS得分為123.5。
以及,相比條件生成,RCG也絲毫不遜色,可以達(dá)到相當(dāng)甚至超過該領(lǐng)域基準(zhǔn)模型的水平。
最后,在無分類器引導(dǎo)的情況下,RCG的成績還能進(jìn)一步提高到3.31(FID)和253.4(IS)。
團(tuán)隊(duì)表示:
這些結(jié)果表明,自條件圖像生成模型擁有巨大潛力,可能預(yù)示這一領(lǐng)域新時(shí)代的到來。
團(tuán)隊(duì)介紹
本文一共三位作者:
代碼:https://github.com/LTH14/rcg
論文:https://arxiv.org/abs/2312.03701
一作是MIT博士生黎天鴻,本科畢業(yè)于清華姚班,研究方向?yàn)榭缒B(tài)集成傳感技術(shù)。
他的主頁很有意思,還專門放了一個(gè)菜譜合集——做研究和做飯是他最熱愛的兩件事。
另一位作者是MIT電氣工程與計(jì)算機(jī)科學(xué)系(EECS)教授、MIT無線網(wǎng)絡(luò)和移動(dòng)計(jì)算中心主任Dina Katabi,她是今年斯隆獎(jiǎng)的獲得者,并已當(dāng)選美國國家科學(xué)院院士。
最后,通訊作者為何愷明,他將在明年正式回歸學(xué)界、離開Meta加入MIT電氣工程和計(jì)算機(jī)科學(xué)系,與Dina Katabi成為同事。
-
圖像
+關(guān)注
關(guān)注
2文章
1086瀏覽量
40493 -
MIT
+關(guān)注
關(guān)注
3文章
253瀏覽量
23412 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1208瀏覽量
24727
原文標(biāo)題:何愷明新作RCG:無自條件圖像生成新SOTA!與MIT首次合作!
文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論