0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

GAN技術(shù)再到新高度 利用pytorch技術(shù)生成72種圖像

DPVg_AI_era ? 來源:未知 ? 作者:工程師飛燕 ? 2018-07-30 10:39 ? 次閱讀

隨著GAN的發(fā)展,單憑一張圖像就能自動將面部表情生成動畫已不是難事。但近期在Reddit和GitHub熱議的新款GANimation,卻將此技術(shù)提到新的高度。GANimation構(gòu)建了一種人臉解剖結(jié)構(gòu)(anatomically)上連續(xù)的面部表情合成方法,能夠在連續(xù)區(qū)域中呈現(xiàn)圖像,并能處理復(fù)雜背景和光照條件下的圖像。

若是能單憑一張圖像就能自動地將面部表情生成動畫,那么將會為其它領(lǐng)域中的新應(yīng)用打開大門,包括電影行業(yè)、攝影技術(shù)、時尚和電子商務(wù)等等。隨著生成網(wǎng)絡(luò)和對抗網(wǎng)絡(luò)的流行,這項任務(wù)取得了重大進(jìn)展。像StarGAN這樣的結(jié)構(gòu)不僅能夠合成新表情,還能改變面部的其他屬性,如年齡、發(fā)色或性別。雖然StarGAN具有通用性,但它只能在離散的屬性中改變面部的一個特定方面,例如在面部表情合成任務(wù)中,對RaFD數(shù)據(jù)集進(jìn)行訓(xùn)練,該數(shù)據(jù)集只有8個面部表情的二元標(biāo)簽(binary label),分別是悲傷、中立、憤怒、輕蔑、厭惡、驚訝、恐懼和快樂。

GANimation的目的是建立一種具有FACS表現(xiàn)水平的合成面部動畫模型,并能在連續(xù)領(lǐng)域中無需獲取任何人臉標(biāo)志(facial landmark)而生成具有結(jié)構(gòu)性(anatomically-aware)的表情。為達(dá)到這個目的,我們使用EmotioNet數(shù)據(jù)集,它包含100萬張面部表情(使用其中的20萬張)圖像。并且構(gòu)建了一個GAN體系結(jié)構(gòu),其條件是一個一維向量:表示存在/缺失以及每個動作單元的大小。我們以一種無監(jiān)督的方式訓(xùn)練這個結(jié)構(gòu),僅需使用激活的AUs圖像。為了避免在不同表情下,對同一個人的圖像進(jìn)行訓(xùn)練時出現(xiàn)冗余現(xiàn)象,將該任務(wù)分為兩個階段。首先,給定一張訓(xùn)練照片,考慮一個基于AU條件的雙向?qū)菇Y(jié)構(gòu),并在期望的表情下呈現(xiàn)一張新圖像。然后將合成的圖像還原到原始的樣子,這樣可以直接與輸入圖像進(jìn)行比較,并結(jié)合損失來評估生成圖像的照片級真實感。此外,該系統(tǒng)還超越了最先進(jìn)的技術(shù),因為它可以在不斷變化的背景和照明條件下處理圖像。

最終,構(gòu)建了一種結(jié)構(gòu)上連續(xù)的面部表情合成方法,能夠在連續(xù)區(qū)域中呈現(xiàn)圖像,并能處理復(fù)雜背景和光照條件下的圖像。它與其他已有的GAN方法相比,無論是在結(jié)果的視覺質(zhì)量還是生成的可行性上,都是具有優(yōu)勢的。

圖1:根據(jù)一張圖像生成的面部動畫

無監(jiān)督學(xué)習(xí)+注意力機(jī)制

讓我們將一個輸入RGB圖像定義為,這是在任意面部表情下捕獲的。通過一組N個動作單元對每個手勢表達(dá)式進(jìn)行編碼,其中每個表示0到1之間的歸一化值,表示第n個動作單元的大小。值得指出的是,由于這種連續(xù)的表示,可以在不同表情之間進(jìn)行自然插值,從而可以渲染各種逼真、流暢的面部表情。

我們的目標(biāo)是學(xué)習(xí)一個映射,將轉(zhuǎn)換成一個基于動作單元目標(biāo)的輸出圖像,即:我們希望估計映射:

GAN技術(shù)再到新高度 利用pytorch技術(shù)生成72種圖像

圖2. 生成照片級真實條件圖像方法的概述

所提出的架構(gòu)由兩個主要模塊組成:用于回歸注意力和color mask的生成器G; 用于評估所生成圖像的真實度和表情調(diào)節(jié)實現(xiàn)評論家(critic) D

我們的系統(tǒng)不需要監(jiān)督,也就是說,不需要同一個人不同表情的圖像對,也不假設(shè)目標(biāo)圖像

生成器G

生成器器被訓(xùn)練來逼真地將圖像

我們系統(tǒng)的一個關(guān)鍵要素是使G只聚焦于圖像的那些負(fù)責(zé)合成新表情的區(qū)域,并保持圖像的其余元素如頭發(fā)、眼鏡、帽子、珠寶等不受影響。為此,我們在生成器中嵌入了一個注意力機(jī)制。

GAN技術(shù)再到新高度 利用pytorch技術(shù)生成72種圖像

圖3:Attention-based的生成器

給定一個輸入圖像和目標(biāo)表情,生成器在整個圖像上回歸并注意mask A和RGB顏色變換C。attention mask 定義每個像素強(qiáng)度,指定原始圖像的每個像素在最終渲染圖像中添加的范圍。

具體地說,生成器器不是回歸整個圖像,而是輸出兩個mask,一個color mask C和一個attention mask A。最終圖像可表示為:

實驗評估

首先測試主要組件,即單個和多個AU編輯。然后將我們的模型與離散化情緒編輯任務(wù)中的當(dāng)前技術(shù)進(jìn)行比較,并展示我們的模型處理野外圖像的能力,可以生成大量的解剖學(xué)面部變換的能力。最后討論模型的局限性和失敗案例。

值得注意的是,在某些實驗中,輸入的面部圖像是未被裁剪的。在這種情況下,我們首先使用檢測器2來對面部進(jìn)行定位和裁剪,利用(1)式進(jìn)行表達(dá)式的轉(zhuǎn)換,以應(yīng)用于相關(guān)區(qū)域。 最后,將生成的面部圖像放回原圖像中的原始位置。注意力機(jī)制(attention mechanism)可以確保經(jīng)過變換處理的裁剪面部圖像和原始圖像之間的平滑過渡。

稍后圖中可見,與以前的模型相比,經(jīng)過這三個步驟的處理可以得到分辨率更高的圖像(鏈接見文末)。

圖4:單個動作單元的編輯

隨著強(qiáng)度(0.33-1)的增加,一些特定的動作單元被激活。圖中第一行對應(yīng)的是動作單元應(yīng)用強(qiáng)度為零的情況,可以在所有情況下正確生成了原始圖片。

圖5: 注意力模型

中間注意力掩模A(第一行)和顏色掩模C(第二行)的細(xì)節(jié)。 最底下一行圖像是經(jīng)合成后的表達(dá)結(jié)果。注意掩模A的較暗區(qū)域表示圖像的這些區(qū)域與每個特定的動作單元的相關(guān)度更高。 較亮的區(qū)域保留自原始圖像。

圖6: 與當(dāng)前最先進(jìn)技術(shù)的定性比較

圖為面部表情圖像合成結(jié)果,分別應(yīng)用DIAT、CycleGAN、IcGAN、StarGAN和我們的方法。可以看出,我們的解決方案在視覺準(zhǔn)確度和空間分辨率之間達(dá)到了最佳平衡。 使用StarGAN的一些結(jié)果則出現(xiàn)了一定程度的模糊。

圖7:采樣面部表情分布空間

通過yg向量對活動單元進(jìn)行參數(shù)化,可以從相同的源圖像合成各種各樣的照片的真實圖像。

圖8:自然圖像的定性評估

上圖:分別給出了取自電影《加勒比海盜》中的一幅原圖像(左)及其用我們的方法生成的圖像(右)。 下圖:用類似的方式,使用圖像框(最左綠框)從《權(quán)力的游戲》電視劇中合成了五個不同表情的新圖像。

圖9:成功和失敗案例

圖中分別表示了源圖像Iyr,目標(biāo)Iyg,以及顏色掩膜C和注意力掩模A. 上圖是在極端情況下的一些成功案例。 下圖是一些失敗案例


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • GaN
    GaN
    +關(guān)注

    關(guān)注

    19

    文章

    1936

    瀏覽量

    73532
  • pytorch
    +關(guān)注

    關(guān)注

    2

    文章

    808

    瀏覽量

    13235

原文標(biāo)題:GAN如此簡單的PyTorch實現(xiàn),一張臉生成72種表情(附代碼)

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    將電子配線架靈活性提升到新高度的創(chuàng)新方案

    本設(shè)計方案中,我們討論電子配線架,簡化現(xiàn)場線組與控制器連接的過程。然后介紹一將電子配線架靈活性提升到新高度的創(chuàng)新方案。
    的頭像 發(fā)表于 04-23 09:13 ?8434次閱讀
    一<b class='flag-5'>種</b>將電子配線架靈活性提升到<b class='flag-5'>新高度</b>的創(chuàng)新方案

    ZIF架構(gòu)有哪些優(yōu)勢?如何使無線電設(shè)計性能達(dá)到的新高度?

    取得了性能上的突破,能夠?qū)崿F(xiàn)ZIF技術(shù)以前望塵莫及的新型應(yīng)用。本文將探討ZIF架構(gòu)的諸多優(yōu)勢,介紹這些優(yōu)勢如何使無線電設(shè)計性能達(dá)到的新高度
    發(fā)表于 03-11 07:43

    圖像生成對抗生成網(wǎng)絡(luò)gan_GAN生成汽車圖像 精選資料推薦

    , with PyTorch. 你好! 這是我用PyTorch制作可生成汽車圖像GAN的故事。 First of all, let me
    發(fā)表于 08-31 06:48

    Maxim全新高度集成的數(shù)字脈沖發(fā)生器

    Maxim全新高度集成的數(shù)字脈沖發(fā)生器 2009年11月20日15:35:03 采用有源箝位提高超聲成像質(zhì)量
    發(fā)表于 11-20 15:36 ?453次閱讀

    5G助力MBB走向新高度

    2018年世界移動大會·上海(簡稱“MWC上?!保┯?月27日在上海新國際博覽中心(SNIEC)召開。華為公司輪值董事長徐直軍應(yīng)邀出席,并發(fā)表了《讓5G把MBB推向新高度》的主題演講。
    的頭像 發(fā)表于 06-28 10:51 ?8314次閱讀

    必讀!生成對抗網(wǎng)絡(luò)GAN論文TOP 10

    處理的CelebA-HQ 數(shù)據(jù)集,實現(xiàn)了效果令人驚嘆的生成圖像。作者表示,這種方式不僅穩(wěn)定了訓(xùn)練,GAN 生成圖像也是迄今為止質(zhì)量最好的。
    的頭像 發(fā)表于 03-20 09:02 ?6556次閱讀
    必讀!<b class='flag-5'>生成</b>對抗網(wǎng)絡(luò)<b class='flag-5'>GAN</b>論文TOP 10

    生成對抗網(wǎng)絡(luò)GAN論文TOP 10,幫助你理解最先進(jìn)技術(shù)的基礎(chǔ)

    處理的CelebA-HQ 數(shù)據(jù)集,實現(xiàn)了效果令人驚嘆的生成圖像。作者表示,這種方式不僅穩(wěn)定了訓(xùn)練,GAN 生成圖像也是迄今為止質(zhì)量最好的。
    的頭像 發(fā)表于 03-20 15:16 ?8840次閱讀
    <b class='flag-5'>生成</b>對抗網(wǎng)絡(luò)<b class='flag-5'>GAN</b>論文TOP 10,幫助你理解最先進(jìn)<b class='flag-5'>技術(shù)</b>的基礎(chǔ)

    TCL推出免污式洗衣機(jī) 將免污技術(shù)推向了一個新高度

    解決的問題,在TCL 免污式洗衣機(jī)推出后,都變得十分簡單。今年年初TCL X10免污式洗衣機(jī)的推出更是將免污技術(shù)推向了一個新高度,成為了洗衣機(jī)市場的寵兒。
    發(fā)表于 05-15 16:52 ?1111次閱讀

    重磅新品 | 解鎖空間受限的消費和工業(yè)應(yīng)用,ams微型攝像頭引領(lǐng)攝像新高度

    重磅新品 | 解鎖空間受限的消費和工業(yè)應(yīng)用,ams微型攝像頭引領(lǐng)攝像新高度
    的頭像 發(fā)表于 07-03 18:25 ?2866次閱讀

    華為手機(jī)或?qū){借麒麟990達(dá)到新高度

    麒麟990將推動華為手機(jī)達(dá)到新高度
    的頭像 發(fā)表于 08-26 09:15 ?3290次閱讀

    音圈馬達(dá)加持的vivoX70再創(chuàng)手機(jī)影像新高度

    一款非常適合的手機(jī)。近日, vivo X70系列正式發(fā)布,秉承對手機(jī)影像不斷的人文思考和技術(shù)探索,將專業(yè)影像和旗艦性能和美學(xué)設(shè)計融會貫通,帶來一款全面的影像旗艦,讓手機(jī)攝影更加人性化,旗艦體驗應(yīng)有盡有。 據(jù)小編音圈馬達(dá)獲悉,作為vivo X系列影像旗艦的新高度
    發(fā)表于 09-16 15:18 ?1004次閱讀

    工業(yè)智能新高度,昂視領(lǐng)跑機(jī)器視覺賽道正當(dāng)時

    工業(yè)智能新高度的堅實步伐!下面,讓我們聚焦昂視新品,從新產(chǎn)品探究行業(yè)發(fā)展風(fēng)向,從新技術(shù)縱覽昂視未來發(fā)展布局! 有目共睹,近年來工業(yè)智能化轉(zhuǎn)型加速鋪開,視覺檢測應(yīng)用范圍日益廣泛,市場不斷膨脹,新需求層出不窮,對軟硬件的
    發(fā)表于 09-28 14:24 ?780次閱讀
    工業(yè)智能<b class='flag-5'>新高度</b>,昂視領(lǐng)跑機(jī)器視覺賽道正當(dāng)時

    高技傳動科技登陸央視,國家平臺助力打造品牌新高度

    高技傳動科技登陸央視,國家平臺助力打造品牌新高度
    的頭像 發(fā)表于 12-30 15:33 ?656次閱讀
    高技傳動科技登陸央視,國家平臺助力打造品牌<b class='flag-5'>新高度</b>

    光纖矩陣,提升視覺體驗新高度

    隨著科技的不斷進(jìn)步,視覺體驗成為了人們追求的重要方向之一。訊維光纖矩陣技術(shù)作為現(xiàn)代科技的前沿代表,為提升視覺體驗新高度提供了強(qiáng)有力的支持。 作為一先進(jìn)的信息傳輸技術(shù),訊維光纖矩陣
    的頭像 發(fā)表于 09-01 15:08 ?627次閱讀
    光纖矩陣,提升視覺體驗<b class='flag-5'>新高度</b>

    利用Arm Kleidi技術(shù)實現(xiàn)PyTorch優(yōu)化

    PyTorch 是一個廣泛應(yīng)用的開源機(jī)器學(xué)習(xí) (ML) 庫。近年來,Arm 與合作伙伴通力協(xié)作,持續(xù)改進(jìn) PyTorch 的推理性能。本文將詳細(xì)介紹如何利用 Arm Kleidi 技術(shù)
    的頭像 發(fā)表于 12-23 09:19 ?171次閱讀
    <b class='flag-5'>利用</b>Arm Kleidi<b class='flag-5'>技術(shù)</b>實現(xiàn)<b class='flag-5'>PyTorch</b>優(yōu)化