0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

利用基本分類框架來(lái)執(zhí)行廣泛的圖像合成任務(wù)

jf_pmFSk4VX ? 來(lái)源:GiantPandaCV ? 作者:GiantPandaCV ? 2022-10-24 09:56 ? 次閱讀

2. 引言

介紹一篇關(guān)于概率生成模型非常有意思的工作,保持了Aleksander Madry一如既往的風(fēng)格。眾所周知,深度學(xué)習(xí)徹底改變了計(jì)算機(jī)視覺(jué)問(wèn)題的的研究范式,提供了很多原來(lái)大家想完成但沒(méi)有機(jī)遇完成的工作。而這場(chǎng)演化確是從判別模型開(kāi)始的,像Alexnet、VGG、ResNet這些工作取得的非凡進(jìn)展,引發(fā)了深度學(xué)習(xí)范式的擴(kuò)展。

而慢慢地,大家的注意力也從包括更復(fù)雜的任務(wù),如圖像生成和圖像到圖像的轉(zhuǎn)換這種生成式的任務(wù)。但這種生成模型在很大程度上都是基于非常復(fù)雜的,而且基于特定任務(wù)的技術(shù),例如GAN和VAE。所以可能就目前的進(jìn)展來(lái)看,生成任務(wù)的范式是比較復(fù)雜的,但是果真所有的生成任務(wù)都這么復(fù)雜么?本文提供了一個(gè)比較新穎的角度。

本文提供了一種方法,僅憑基本分類工具就足以解決各種圖像合成任務(wù),包括generation、inpainting、image-to-image translation、super-resolution、interactive image manipulation。論文提出的整個(gè)框架都是基于每個(gè)數(shù)據(jù)集的單個(gè)分類器,而且僅僅只涉及執(zhí)行一個(gè)簡(jiǎn)單的輸入操作:使用梯度最大化地下降使預(yù)測(cè)的類分?jǐn)?shù)。

因此,這一較為通用的方法比較易于實(shí)現(xiàn)和訓(xùn)練。其實(shí)論文提出方法最關(guān)鍵的成分是adversarially robust classifiers。此前,其實(shí)就有模型觀察到觀察到,將魯棒模型在輸入上的損失最大化,將導(dǎo)致其他類的狀態(tài)更接近真實(shí)的分布(maximizing the loss of robust models over the input leads to realistic instances of other classes)。

因此,基于這種結(jié)論,論文的研究結(jié)果建立了健壯的分類器作為語(yǔ)義圖像操作的強(qiáng)大manipulation。為了突出核心方法本身的潛力,論文的實(shí)驗(yàn)中有意采用一種通用的分類設(shè)置,而沒(méi)有任何額外的優(yōu)化。

1227d0bc-52ed-11ed-a3b6-dac502259ad0.png

2. 方法

論文首先介紹了作為Input Manipulation的Robust Models,

其實(shí)從這個(gè)視角來(lái)看,我們可以將魯棒優(yōu)化看作是將先驗(yàn)編碼到模型中,防止它依賴于輸入的難以察覺(jué)的特征。的確,也就是說(shuō),這種訓(xùn)練方式可以通過(guò)鼓勵(lì)模型對(duì)小擾動(dòng)不銘感,從而使得Robust training的預(yù)測(cè)變化與輸入變化的顯著性相對(duì)應(yīng)。事實(shí)上,當(dāng)我們最大化一個(gè)Robust Models的特定類面對(duì)目標(biāo)攻擊的敏感概率時(shí),這種現(xiàn)象也會(huì)出現(xiàn)——參見(jiàn)圖2中的說(shuō)明。

這表明,穩(wěn)健的模型表現(xiàn)出更多與人類一致的梯度,更重要的是,我們可以通過(guò)對(duì)模型輸出執(zhí)行梯度下降來(lái)精確控制輸入中的特征。在接下來(lái)的工作中,論文闡釋了魯棒模型的這一特性足以在不同的圖像合成任務(wù)集上獲得良好的性能。論文還是反復(fù)強(qiáng)調(diào),要獲取和自然數(shù)據(jù)domain相近質(zhì)量的質(zhì)量其實(shí)只需要充分利用分類模型就行了,GAN和VAE這些模型雖然取得了不錯(cuò)的效果,但是還是對(duì)分類模型的潛力有所忽略。

3.1 Realistic Image Generation

講了這么多繞來(lái)繞去的,那論文優(yōu)化目標(biāo)是什么呢(中文解釋起來(lái)太復(fù)雜也可能不準(zhǔn)確,還是看原文):

其實(shí)就是做了一個(gè)非常簡(jiǎn)單的假設(shè),使得模型能夠利用class-conditional distribution的混合高斯的多元模型中,重建出相應(yīng)的圖像,優(yōu)化目標(biāo)就是使得符合最小的期望。那么效果如何呢,作者隨機(jī)選取了異步的的可視化:

12a4ad8a-52ed-11ed-a3b6-dac502259ad0.png

3.2 Inpainting

對(duì)于inpainting,是指恢復(fù)具有大區(qū)域被mask掉的圖像。也就是說(shuō)給定一個(gè)圖像x,在一個(gè)對(duì)應(yīng)于二值掩碼m的區(qū)域中的內(nèi)容進(jìn)行補(bǔ)充,inpainting的目標(biāo)是以一種相對(duì)于圖像其余部分感知上合理的方式恢復(fù)丟失的像素。作者發(fā)現(xiàn),簡(jiǎn)單的feed分類器,當(dāng)經(jīng)過(guò)robust的訓(xùn)練時(shí),可以成為這類圖像重建任務(wù)的強(qiáng)大工具。

其實(shí)根據(jù)上一部分我們的描述,其實(shí)可以發(fā)現(xiàn)我們的目標(biāo)也是使用魯棒的模型來(lái)恢復(fù)圖像中缺失的特征。為此,我們將優(yōu)化圖像,使底層真實(shí)類的分?jǐn)?shù)最大化,同時(shí)也迫使其在未損壞的區(qū)域與原始一致。具體來(lái)說(shuō),給定一個(gè)訓(xùn)練在未損壞數(shù)據(jù)上的魯棒分類器,和一個(gè)帶有標(biāo)簽y的損壞圖像z,然后對(duì)優(yōu)化目標(biāo)進(jìn)行求解:

13141f62-52ed-11ed-a3b6-dac502259ad0.png

可以發(fā)現(xiàn)效果確實(shí)還不錯(cuò):

131cd616-52ed-11ed-a3b6-dac502259ad0.png

3.3 Image-to-Image Translation

這個(gè)其實(shí)就跟3.1非常類似了。在本節(jié)中,我們將演示魯棒分類器為執(zhí)行這種圖像到圖像轉(zhuǎn)換提供了一種新的方法。關(guān)鍵是(robustly)訓(xùn)練分類器來(lái)區(qū)分源域和目標(biāo)域。從概念上講,這樣的分類器將提取每個(gè)領(lǐng)域的顯著特征,以便做出準(zhǔn)確的預(yù)測(cè)。然后,我們可以通過(guò)直接最大化目標(biāo)域的預(yù)測(cè)得分來(lái)翻譯來(lái)自源域的輸入。

136c7ed2-52ed-11ed-a3b6-dac502259ad0.png

3.4 Interactive Image Manipulation

13b7432c-52ed-11ed-a3b6-dac502259ad0.png

這個(gè)的優(yōu)化目標(biāo)和3.2類似。

4. 結(jié)論

在這項(xiàng)工作中,我們利用基本分類框架來(lái)執(zhí)行廣泛的圖像合成任務(wù)。特別是,我們發(fā)現(xiàn)基本分類器學(xué)習(xí)到的特征足以完成所有這些任務(wù),前提是該分類器具有adversarially robust。然后,論文非常生動(dòng)地展示這種insight如何產(chǎn)生一個(gè)簡(jiǎn)單、可靠、直接可擴(kuò)展到其他大型數(shù)據(jù)集的toolkit。

事實(shí)上,與GAN這些方法不同的是,我論文的方法實(shí)際上受益于擴(kuò)展到更復(fù)雜的數(shù)據(jù)集——只要底層分類任務(wù)豐富且具有挑戰(zhàn)性,分類器就可能學(xué)習(xí)更細(xì)粒度的特征。實(shí)際上,魯棒性可能為構(gòu)建一個(gè)與人類更加一致的機(jī)器學(xué)習(xí)工具包提供了一條道路。

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3283

    瀏覽量

    49001
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8434

    瀏覽量

    132866
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1209

    瀏覽量

    24767

原文標(biāo)題:NeurIPS19 用分類模型完成生成任務(wù)

文章出處:【微信號(hào):GiantPandaCV,微信公眾號(hào):GiantPandaCV】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    華為云ModelArts入門(mén)開(kāi)發(fā)(完成物體分類、物體檢測(cè))

    利用ModelArts框架可以完成圖像分類、物體檢測(cè)、預(yù)測(cè)分析、聲音分類、文本分類等功能。介紹如
    的頭像 發(fā)表于 07-10 16:26 ?1739次閱讀
    華為云ModelArts入門(mén)開(kāi)發(fā)(完成物體<b class='flag-5'>分類</b>、物體檢測(cè))

    基于多通道分類合成的SAR圖像分類研究

    。目前,SAR圖像分類多是基于單通道圖像數(shù)據(jù)。多通道SAR數(shù)據(jù)極大地豐富了地物目標(biāo)信息量,利用多通道數(shù)據(jù)進(jìn)行分類,是SAR
    發(fā)表于 04-23 11:52

    pyhanlp文本分類與情感分析

    關(guān)系如下:訓(xùn)練訓(xùn)練指的是,利用給定訓(xùn)練集尋找一個(gè)能描述這種語(yǔ)言現(xiàn)象的模型的過(guò)程。開(kāi)發(fā)者只需調(diào)用train接口即可,但在實(shí)現(xiàn)中,有許多細(xì)節(jié)。分詞目前,本系統(tǒng)中的分詞器接口一共有兩種實(shí)現(xiàn): 但文本分類是否
    發(fā)表于 02-20 15:37

    NLPIR平臺(tái)在文本分類方面的技術(shù)解析

    本分類問(wèn)題就是將一篇文檔歸入預(yù)先定義的幾個(gè)類別中的一個(gè)或幾個(gè),而文本的自動(dòng)分類則是使用計(jì)算機(jī)程序來(lái)實(shí)現(xiàn)這種文本分類,即根據(jù)事先指定的規(guī)則和示例樣本,自動(dòng)從海量文檔中識(shí)別并訓(xùn)練
    發(fā)表于 11-18 17:46

    基于文章標(biāo)題信息的漢語(yǔ)自動(dòng)文本分類

    本分類是文本挖掘的一個(gè)重要組成部分,是信息搜索領(lǐng)域的一項(xiàng)重要研究課題。該文提出一種基于文章標(biāo)題信息的漢語(yǔ)自動(dòng)文本分類方法,在HNC理論的領(lǐng)域概念框架下,通過(guò)標(biāo)題
    發(fā)表于 04-13 08:31 ?10次下載

    如何使用Spark計(jì)算框架進(jìn)行分布式文本分類方法的研究

    針對(duì)傳統(tǒng)文本分類算法在面對(duì)日益增多的海量文本數(shù)據(jù)時(shí)效率低下的問(wèn)題,論文在Spark計(jì)算框架上設(shè)計(jì)并實(shí)現(xiàn)了一種并行化樸素貝葉斯文本分類器,并著重介紹了基于Spark計(jì)算框架的文
    發(fā)表于 12-18 14:19 ?3次下載
    如何使用Spark計(jì)算<b class='flag-5'>框架</b>進(jìn)行分布式文<b class='flag-5'>本分類</b>方法的研究

    本分類的一個(gè)大型“真香現(xiàn)場(chǎng)”來(lái)了

    任何標(biāo)注數(shù)據(jù)啦!哇,真香! 當(dāng)前的文本分類任務(wù)需要利用眾多標(biāo)注數(shù)據(jù),標(biāo)注成本是昂貴的。而半監(jiān)督文本分類雖然減少了對(duì)標(biāo)注數(shù)據(jù)的依賴,但還是需要領(lǐng)域?qū)<沂謩?dòng)進(jìn)行標(biāo)注,特別是在類別數(shù)目很大的
    的頭像 發(fā)表于 02-05 11:02 ?1885次閱讀
    文<b class='flag-5'>本分類</b>的一個(gè)大型“真香現(xiàn)場(chǎng)”來(lái)了

    基于深度神經(jīng)網(wǎng)絡(luò)的文本分類分析

      隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,許多研究者嘗試利用深度學(xué)習(xí)來(lái)解決文本分類問(wèn)題,特別是在卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)方面,出現(xiàn)了許多新穎且有效的分類方法。對(duì)基于深度神經(jīng)網(wǎng)絡(luò)的文
    發(fā)表于 03-10 16:56 ?37次下載
    基于深度神經(jīng)網(wǎng)絡(luò)的文<b class='flag-5'>本分類</b>分析

    融合文本分類和摘要的多任務(wù)學(xué)習(xí)摘要模型

    文本摘要應(yīng)包含源文本中所有重要信息,傳統(tǒng)基于編碼器-解碼器架構(gòu)的摘要模型生成的摘要準(zhǔn)確性較低。根據(jù)文本分類和文本摘要的相關(guān)性,提出一種多任務(wù)學(xué)習(xí)摘要模型。從文本分類輔助任務(wù)中學(xué)習(xí)抽象信
    發(fā)表于 04-27 16:18 ?11次下載
    融合文<b class='flag-5'>本分類</b>和摘要的多<b class='flag-5'>任務(wù)</b>學(xué)習(xí)摘要模型

    基于不同神經(jīng)網(wǎng)絡(luò)的文本分類方法研究對(duì)比

    海量文本分析是實(shí)現(xiàn)大數(shù)據(jù)理解和價(jià)值發(fā)現(xiàn)的重要手段,其中文本分類作為自然語(yǔ)言處理的經(jīng)典問(wèn)題受到研究者廣泛關(guān)注,而人工神經(jīng)網(wǎng)絡(luò)在文本分析方面的優(yōu)異表現(xiàn)使其成為目前的主要研究方向。在此背景下
    發(fā)表于 05-13 16:34 ?49次下載

    基于LSTM的表示學(xué)習(xí)-文本分類模型

    的關(guān)鍵。為了獲得妤的文本表示,提高文本分類性能,構(gòu)建了基于LSTM的表示學(xué)習(xí)-文本分類模型,其中表示學(xué)習(xí)模型利用語(yǔ)言模型為文本分類模型提供初始化的文本表示和網(wǎng)絡(luò)參數(shù)。文中主要采用對(duì)抗訓(xùn)
    發(fā)表于 06-15 16:17 ?18次下載

    帶你從頭構(gòu)建文本分類

    本分類是 NLP 中最常見(jiàn)的任務(wù)之一, 它可用于廣泛的應(yīng)用或者開(kāi)發(fā)成程序,例如將用戶反饋文本標(biāo)記為某種類別,或者根據(jù)客戶文本語(yǔ)言自動(dòng)歸類。另外向我們平時(shí)見(jiàn)到的郵件垃圾過(guò)濾器也是文本分類
    的頭像 發(fā)表于 03-22 10:49 ?3642次閱讀

    圖像分類任務(wù)的各種tricks

    計(jì)算機(jī)視覺(jué)主要問(wèn)題有圖像分類、目標(biāo)檢測(cè)和圖像分割等。針對(duì)圖像分類任務(wù),提升準(zhǔn)確率的方法路線有兩條
    的頭像 發(fā)表于 09-14 16:42 ?1191次閱讀

    PyTorch文本分類任務(wù)的基本流程

    本分類是NLP領(lǐng)域的較為容易的入門(mén)問(wèn)題,本文記錄文本分類任務(wù)的基本流程,大部分操作使用了**torch**和**torchtext**兩個(gè)庫(kù)。 ## 1. 文本數(shù)據(jù)預(yù)處理
    的頭像 發(fā)表于 02-22 14:23 ?1140次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)在文本分類領(lǐng)域的應(yīng)用

    在自然語(yǔ)言處理(NLP)領(lǐng)域,文本分類一直是一個(gè)重要的研究方向。隨著深度學(xué)習(xí)技術(shù)的飛速發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,簡(jiǎn)稱CNN)在圖像識(shí)別領(lǐng)域取得了
    的頭像 發(fā)表于 07-01 16:25 ?784次閱讀