0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

何愷明新作RCG:無自條件圖像生成新SOTA!與MIT首次合作!

CVer ? 來源:量子位 ? 2023-12-10 10:24 ? 次閱讀

大佬何愷明還未正式入職MIT,但和MIT的第一篇合作研究已經(jīng)出來了:

他和MIT師生一起開發(fā)了一個(gè)自條件圖像生成框架,名叫RCG(代碼已開源)。

這個(gè)框架結(jié)構(gòu)非常簡單但效果拔群,直接在ImageNet-1K數(shù)據(jù)集上實(shí)現(xiàn)了無條件圖像生成的新SOTA。

968392de-96ac-11ee-8b88-92fbcf53809c.png

它生成的圖像不需要任何人類注釋(也就是提示詞、類標(biāo)簽什么的),就能做到既保真又具有多樣性。

968f3756-96ac-11ee-8b88-92fbcf53809c.png

這樣的它不僅顯著提高了無條件圖像生成的水平,還能跟當(dāng)前最好的條件生成方法一較高下。

用何愷明團(tuán)隊(duì)自己的話來說:

有條件和無條件生成任務(wù)之間長期存在的性能差距,終于在這一刻被彌補(bǔ)了。

那么,它究竟是如何做到的呢?

類似自監(jiān)督學(xué)習(xí)的自條件生成

首先,所謂無條件生成,就是模型在沒有輸入信號(hào)幫助的情況下直接捕獲數(shù)據(jù)分布生成內(nèi)容。

這種方式比較難以訓(xùn)練,所以一直和條件生成有很大性能差距——就像無監(jiān)督學(xué)習(xí)比不過監(jiān)督學(xué)習(xí)一樣。

但就像自監(jiān)督學(xué)習(xí)的出現(xiàn),扭轉(zhuǎn)了這一局面一樣。

在無條件圖像生成領(lǐng)域,也有一個(gè)類似于自監(jiān)督學(xué)習(xí)概念的自條件生成方法。

相比傳統(tǒng)的無條件生成簡單地將噪聲分布映射到圖像分布,這種方法主要將像素生成過程設(shè)置在從數(shù)據(jù)分布本身導(dǎo)出的表示分布上。

它有望超越條件圖像生成,并推動(dòng)諸如分子設(shè)計(jì)或藥物發(fā)現(xiàn)這種不需要人類給注釋的應(yīng)用往前發(fā)展(這也是為什么條件生成圖像發(fā)展得這么好,我們還要重視無條件生成)。

現(xiàn)在,基于這個(gè)自條件生成概念,何愷明團(tuán)隊(duì)首先開發(fā)了一個(gè)表示擴(kuò)散模型RDM。

它主要用于生成低維自監(jiān)督圖像表示,方法是通過自監(jiān)督圖像編碼器從圖像中截?。?/p>

969c8794-96ac-11ee-8b88-92fbcf53809c.png

它的核心架構(gòu)如下:

首先是輸入層,它負(fù)責(zé)將表征投射到隱藏維度C,接著是N個(gè)全連接塊,最后是一個(gè)輸出層,負(fù)責(zé)把隱藏層的潛在特征重新投射(轉(zhuǎn)換)到原始表征維度。

其中每一層都包含一個(gè)LayerNorm層、一個(gè)SiLU層以及一個(gè)線性層。

96aaccaa-96ac-11ee-8b88-92fbcf53809c.png

這樣的RDM具有兩個(gè)優(yōu)點(diǎn):

一是多樣性強(qiáng),二是計(jì)算開銷小。

接著,利用RDM,團(tuán)隊(duì)就提出了今天的主角:表示條件圖像生成架構(gòu)RCG。

它是一個(gè)簡單的自條件生成框架,由三個(gè)組件組成:

一個(gè)是SSL圖像編碼器,用于將圖像分布轉(zhuǎn)換為緊湊的表示分布。

一個(gè)是RDM,用于對該分布進(jìn)行建模和采樣。

最后是一個(gè)像素生成器MAGE,用于根據(jù)表示來處理圖像像。

MAGE的工作方式主要是向token化的圖像中添加隨機(jī)掩碼,并要求網(wǎng)絡(luò)以從同一圖像中提取的表示為條件來重建丟失的token。

96b8b810-96ac-11ee-8b88-92fbcf53809c.png

最終,測試表明,這個(gè)自條件生成框架雖結(jié)構(gòu)簡單但效果非凡:

在ImageNet 256×256上,RCG實(shí)現(xiàn)了3.56的FID和186.9的IS(Inception Score)得分。

相比之下,在它之前最厲害的無條件生成方法FID分?jǐn)?shù)為7.04,IS得分為123.5。

96c3fdd8-96ac-11ee-8b88-92fbcf53809c.png

以及,相比條件生成,RCG也絲毫不遜色,可以達(dá)到相當(dāng)甚至超過該領(lǐng)域基準(zhǔn)模型的水平。

最后,在無分類器引導(dǎo)的情況下,RCG的成績還能進(jìn)一步提高到3.31(FID)和253.4(IS)。

團(tuán)隊(duì)表示:

這些結(jié)果表明,自條件圖像生成模型擁有巨大潛力,可能預(yù)示這一領(lǐng)域新時(shí)代的到來。

團(tuán)隊(duì)介紹

本文一共三位作者:

96c8531a-96ac-11ee-8b88-92fbcf53809c.png

代碼:https://github.com/LTH14/rcg

論文:https://arxiv.org/abs/2312.03701

一作是MIT博士生黎天鴻,本科畢業(yè)于清華姚班,研究方向?yàn)榭缒B(tài)集成傳感技術(shù)。

他的主頁很有意思,還專門放了一個(gè)菜譜合集——做研究和做飯是他最熱愛的兩件事。

96d25b26-96ac-11ee-8b88-92fbcf53809c.png

另一位作者是MIT電氣工程與計(jì)算機(jī)科學(xué)系(EECS)教授、MIT無線網(wǎng)絡(luò)和移動(dòng)計(jì)算中心主任Dina Katabi,她是今年斯隆獎(jiǎng)的獲得者,并已當(dāng)選美國國家科學(xué)院院士。

最后,通訊作者為何愷明,他將在明年正式回歸學(xué)界、離開Meta加入MIT電氣工程和計(jì)算機(jī)科學(xué)系,與Dina Katabi成為同事。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1086

    瀏覽量

    40493
  • MIT
    MIT
    +關(guān)注

    關(guān)注

    3

    文章

    253

    瀏覽量

    23412
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1208

    瀏覽量

    24727

原文標(biāo)題:何愷明新作RCG:無自條件圖像生成新SOTA!與MIT首次合作!

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    借助谷歌Gemini和Imagen模型生成高質(zhì)量圖像

    在快速發(fā)展的生成式 AI 領(lǐng)域,結(jié)合不同模型的優(yōu)勢可以帶來顯著的成果。通過利用谷歌的 Gemini 模型來制作詳細(xì)且富有創(chuàng)意的提示,然后使用 Imagen 3 模型根據(jù)這些提示生成高質(zhì)量的圖像,您可
    的頭像 發(fā)表于 01-03 10:38 ?319次閱讀
    借助谷歌Gemini和Imagen模型<b class='flag-5'>生成</b>高質(zhì)量<b class='flag-5'>圖像</b>

    Mamba入局圖像復(fù)原,達(dá)成新SOTA

    MambaIRv2,更高性能、更高效率!另外還有ACM MM 2024上的Freqmamba方法,在圖像去雨任務(wù)中取得了SOTA性能! 顯然,這種基于Mamba的方法在圖像復(fù)原領(lǐng)域,比基于CNN
    的頭像 發(fā)表于 12-30 18:09 ?122次閱讀
    Mamba入局<b class='flag-5'>圖像</b>復(fù)原,達(dá)成新<b class='flag-5'>SOTA</b>

    VCA810輸入激怎么解決?

    各位專家:這是我第一次使用VCA810芯片。但是發(fā)現(xiàn)只要供電就會(huì)出現(xiàn)激,信號(hào)輸入,頻率穩(wěn)定在約38KHz。波形是一個(gè)削了上半邊的正弦波。電源旁放置了10u的鋁電解電容。VCA810電源旁放置了100n。Vc由DA通過一片低噪低失調(diào)運(yùn)放輸入。懇請專家解答。
    發(fā)表于 09-20 07:03

    Freepik攜手Magnific AI推出AI圖像生成

    近日,設(shè)計(jì)資源巨頭Freepik攜手Magnific AI,共同推出了革命性的AI圖像生成器——Freepik Mystic,這一里程碑式的發(fā)布標(biāo)志著AI圖像創(chuàng)作領(lǐng)域邁入了一個(gè)全新的高度
    的頭像 發(fā)表于 08-30 16:23 ?1146次閱讀

    NB81是否支持OneNet SOTA功能?應(yīng)該如何激活SOTA

    NB81是否支持OneNet SOTA功能? 可以支持,應(yīng)該如何激活SOTA
    發(fā)表于 06-04 06:14

    fx3 UVC 32bit圖像黑屏的原因?

    硬件采用FX3套件,FPGA生成圖像傳給FX3顯示在上位機(jī),使用an75779工程,分辨率1920*1080,幀率30,8位數(shù)據(jù)線時(shí),用amcap圖像正常,改為32位數(shù)據(jù)線時(shí),黑屏
    發(fā)表于 05-24 06:59

    旋變位置不變的情況下,當(dāng)使能SOTA功能與關(guān)閉SOTA功能時(shí),APP中DSADC采樣得到的旋變sin和cos兩者值不一樣,為什么?

    旋變位置不變的情況下,當(dāng)使能SOTA功能與關(guān)閉SOTA功能時(shí),APP中DSADC采樣得到的旋變sin和cos兩者值不一樣,用示波器采的輸入到MCU端的差分電壓是一樣的,難道是SOTA使能后影響了MCU芯片內(nèi)部的等效阻抗嗎,有專家
    發(fā)表于 05-17 08:13

    IBM與SAP深化生成式AI領(lǐng)域合作

    近日,IBM與SAP宣布將進(jìn)一步擴(kuò)大他們的合作范圍,共同在生成式人工智能(AI)領(lǐng)域進(jìn)行深度探索。此次合作的核心在于,雙方將共同為SAP的RISE平臺(tái)構(gòu)建全新的生成式AI功能,旨在將人
    的頭像 發(fā)表于 05-13 09:19 ?482次閱讀

    OpenAI發(fā)布圖像檢測分類器,可區(qū)分AI生成圖像與實(shí)拍照片

    據(jù)OpenAI介紹,初步測試結(jié)果表明,該分類器在辨別非AI生成圖像與DALL·E 3生成圖像時(shí),成功率高達(dá)近98%,僅有不到0.5%的非AI圖像
    的頭像 發(fā)表于 05-09 09:57 ?474次閱讀

    麻省理工與Adobe新技術(shù)DMD提升圖像生成速度

    2023年3月27日,據(jù)傳,新型文生圖算法雖然使得圖像生成無比逼真,但奈何運(yùn)行速度較慢。近期,美國麻省理工學(xué)院聯(lián)合Adobe推出新型DMD方法,僅略微犧牲圖像質(zhì)量就大幅度提高圖像
    的頭像 發(fā)表于 03-27 14:17 ?529次閱讀

    施耐德電氣與水木拓簽署合作協(xié)議

    近日,施耐德電氣與水木拓(達(dá)茂)氫能源科技有限公司(以下簡稱“水木拓”)簽訂合作協(xié)議。
    的頭像 發(fā)表于 03-08 09:50 ?481次閱讀

    博世與微軟合作開發(fā)生成式AI產(chǎn)品

    全球知名科技公司博世與微軟聯(lián)合宣布,雙方已建立合作關(guān)系,共同致力于開發(fā)先進(jìn)的生成式AI產(chǎn)品。這一合作的核心目標(biāo)在于通過利用生成式AI技術(shù)來進(jìn)一步強(qiáng)化車輛的自動(dòng)駕駛功能,并提高行車安全性
    的頭像 發(fā)表于 03-05 11:17 ?918次閱讀

    KOALA人工智能圖像生成模型問世

    近日,韓國科學(xué)團(tuán)隊(duì)宣布研發(fā)出名為 KOALA 的新型人工智能圖像生成模型,該模型在速度和質(zhì)量上均實(shí)現(xiàn)了顯著突破。KOALA 能夠在短短 2 秒內(nèi)生成高質(zhì)量圖片,同時(shí)大幅降低了對硬件的需求,為
    的頭像 發(fā)表于 03-05 10:46 ?798次閱讀

    Stability AI試圖通過新的圖像生成人工智能模型保持領(lǐng)先地位

    Stability AI的最新圖像生成模型Stable Cascade承諾比其業(yè)界領(lǐng)先的前身Stable Diffusion更快、更強(qiáng)大,而Stable Diffusion是許多其他文本到圖像
    的頭像 發(fā)表于 02-19 16:03 ?955次閱讀
    Stability AI試圖通過新的<b class='flag-5'>圖像</b><b class='flag-5'>生成</b>人工智能模型保持領(lǐng)先地位

    谷歌推出圖像生成新工具ImageFX,提升圖像質(zhì)量

    作為實(shí)驗(yàn)室的新興工具,ImageFX 允許用戶借助簡潔的文字指令來創(chuàng)作圖像。經(jīng)過前期試驗(yàn),該團(tuán)隊(duì)認(rèn)為對生成型人工智能工具來說最關(guān)鍵的是如何啟發(fā)并鼓勵(lì)用戶挖掘和實(shí)踐創(chuàng)意想法。
    的頭像 發(fā)表于 02-02 14:18 ?691次閱讀