亚洲国产v高清在线观看,精品无码一区二区在线,亚洲无码亚洲有码

本文總結(jié)了5個最近推出的用于圖像合成的GAN架構(gòu)，對論文從核心理念、關(guān)鍵成就、社區(qū)價值、未來商業(yè)化及可能的落地應(yīng)用方向?qū)φ撐倪M行解讀，對創(chuàng)業(yè)者、開發(fā)者、工程師、學(xué)者均有非常高的價值。

1. STARGAN：

多域圖像到圖像翻譯的統(tǒng)一生成網(wǎng)絡(luò)。作者YUNJEY CHOI，MINJE CHOI，MUNYOUNG KIM，JUNG-WOO HA，SUNGHUN KIM，JAEGUL CHOO。論文地址：

https://arxiv.org/abs/1711.09020

論文摘要

最近的研究表明，兩個領(lǐng)域的圖像到圖像轉(zhuǎn)換取得了顯著的成功。然而，現(xiàn)有方法在處理兩個以上的域時，可擴展性和魯棒性的比較有限，因為需要為每對圖像域獨立地構(gòu)建不同的模型。

StarGAN的出現(xiàn)就是為了解決這一問題。研究人員提出了一種新穎且可擴展的方法，可以實現(xiàn)僅靠單個模型就能對多個域執(zhí)行圖像到圖像的轉(zhuǎn)換。

StarGAN這種統(tǒng)一模型架構(gòu)，允許在單個網(wǎng)絡(luò)內(nèi)同時訓(xùn)練具有不同域的多個數(shù)據(jù)集。與現(xiàn)有模型相比，StarGAN有著更高的圖像轉(zhuǎn)化質(zhì)量，以及將輸入圖像靈活地轉(zhuǎn)換為任何所需目標域的新穎功能。

我們憑經(jīng)驗證明了我們的方法在面部屬性轉(zhuǎn)移，和面部表情綜合任務(wù)方面的有效性。

核心理念

StarGAN是一種可擴展的圖像到圖像轉(zhuǎn)換模型，可以使用單個網(wǎng)絡(luò)從多個域中學(xué)習(xí)：

生成器不是學(xué)習(xí)固定的轉(zhuǎn)換（例如，年輕到年老），而是接收圖像和域信息作為輸入，以在相應(yīng)的域中生成圖像

提供域信息作為標簽（例如，二進制或one-hot矢量）

StarGAN還可以從包含不同類型標簽的多個數(shù)據(jù)集中學(xué)習(xí)：

例如，作者展示了如何使用具有頭發(fā)顏色，性別和年齡等屬性的CelebA數(shù)據(jù)集，以及具有與面部表情相對應(yīng)的標簽的RaFD數(shù)據(jù)集來訓(xùn)練模型

將mask向量添加到域標簽后，生成器會學(xué)著忽略未知標簽，并專注于明確給定的標簽

關(guān)鍵成就

定性和定量評估表明，StarGAN在面部屬性轉(zhuǎn)移和面部表情綜合方面優(yōu)于基準模型：

在更復(fù)雜的多屬性傳輸任務(wù)中，優(yōu)勢尤為明顯，這反映了StarGAN處理具有多個屬性更改的圖像轉(zhuǎn)換的能力

由于多任務(wù)學(xué)習(xí)的隱含數(shù)據(jù)增強效果，StarGAN還可以生成更具視覺吸引力的圖像

社區(qū)評價

該研究論文在計算機視覺的重要會議CVPR 2018 oral上被接受。

未來的研究領(lǐng)域

探索進一步改善生成圖像的視覺質(zhì)量的方法。

可能的商業(yè)應(yīng)用

圖像到圖像轉(zhuǎn)換可以降低用于廣告和電子商務(wù)用途的媒體創(chuàng)意的成本。

源碼

https://github.com/yunjey/stargan

2. ATTNGAN

用細致的文字生成圖像，作者TAO XU, PENGCHUAN ZHANG, QIUYUAN HUANG, HAN ZHANG, ZHE GAN, XIAOLEI HUANG, XIAODONG HE。論文地址：

https://arxiv.org/abs/1711.10485

論文摘要

在論文中，我們提出了一種Attentional生成對抗網(wǎng)絡(luò)（AttnGAN）。它允許注意力驅(qū)動的多階段細化，以實現(xiàn)細粒度粒度的文本到圖像的生成。

通過新穎的注意力生成網(wǎng)絡(luò)，AttnGAN可以通過關(guān)注自然語言描述中的相關(guān)單詞，來合成圖像的不同子區(qū)域的細粒度細節(jié)。此外，提出了一種深度attentional多模態(tài)相似度模型，來計算用于訓(xùn)練生成器的細粒度圖像文本匹配損失。

AttnGAN明顯優(yōu)于當(dāng)前最先進的技術(shù)水平，在CUB數(shù)據(jù)集上提升了14.14％的最佳報告得分，在更具挑戰(zhàn)性的COCO數(shù)據(jù)集上得到170.25％的提升。同時還通過可視化AttnGAN的注意力層來執(zhí)行詳細分析。它首次表明分層注意力GAN能夠自動選擇單詞級別的條件，以生成圖像的不同部分。

核心理念

可以通過多階（例如，單詞級和句子級）調(diào)節(jié)來實現(xiàn)細粒度的高質(zhì)量圖像生成。因此，研究人員提出了一種體系結(jié)構(gòu)，其中生成網(wǎng)絡(luò)通過這些子區(qū)域最相關(guān)的單詞來繪制圖像。

Attentional Generative AdversarialNetwork有兩個新穎的組件：Attentional generative network和深度Attentional多模態(tài)相似度模型（DAMSM）。

Attentional generative network包括以下2個方面

利用全局句子向量在第一階段生成低分辨率圖像

將區(qū)域圖像矢量與對應(yīng)的詞語上下文矢量組合以在周圍子區(qū)域中生成新的圖像特征

而深度Attentional多模態(tài)相似度模型（DAMSM），用于計算生成的圖像和文本描述之間的相似性，為訓(xùn)練生成器提供額外的細粒度圖文匹配損失。

關(guān)鍵成就

CUB數(shù)據(jù)集上提升了14.14％的最佳報告得分

COCO數(shù)據(jù)集提升了170.25％

證明分層條件GAN能夠自動關(guān)注相關(guān)單詞以形成圖像生成的正確條件

社區(qū)評價

該論文在計算機視覺的重要會議2018年CVPR上發(fā)表。

未來的研究領(lǐng)域

探索使模型更好地捕獲全局相干結(jié)構(gòu)的方法；增加生成圖像的照片真實感。

可能的商業(yè)應(yīng)用

根據(jù)文本描述自動生成圖像，可以提高計算機輔助設(shè)計和藝術(shù)品的生產(chǎn)效率。

源碼

GitHub上提供了AttnGAN的PyTorch實現(xiàn)。

3. 通過條件生成式GAN獲得高分辨率圖像合成及語義操作

作者TING-CHUN WANG, MING-YU LIU, JUN-YAN ZHU, ANDREW TAO, JAN KAUTZ, BRYAN CATANZARO。論文地址：

https://arxiv.org/abs/1711.11585

論文摘要

Conditional GAN已有很多應(yīng)用案例，但通常僅限于低分辨率圖像，且遠未達到以假亂真的地步。NVIDIA引入了一個新的方法，可以從語義標簽貼圖中合成高分辨率（2048×1024）、照片級的逼真圖像。

他們的方法基于新的強大對抗性學(xué)習(xí)目標，以及新的多尺度生成器和鑒別器架構(gòu)。這種新方法在語義分割和照片真實性的準確性方面，總體上優(yōu)于以前的方法。此外，研究人員還擴展其框架以支持交互式語義操作，合并了對象實例分割信息，似的它可以實現(xiàn)對象操作，例如更改對象類別、添加/刪除對象或更改對象的顏色和紋理。

人類裁判經(jīng)過肉眼比對后表示，此方法明顯優(yōu)于現(xiàn)有方法。

核心理念

稱為pix2pixHD（基于pix2pix方法）的新框架合成高分辨率圖像，有幾處改進：

coarse-to-fine（由粗糙到細粒度）生成器：訓(xùn)練全局生成器以1024×512的分辨率合成圖像，然后訓(xùn)練局部增強器以提高分辨率

多尺度鑒別器：使用3個不同圖像尺度的鑒別器

改進的對抗性損失：基于鑒別器結(jié)合特征匹配損失

該框架還允許交互式對象編輯，這要歸功于添加額外的低維特征通道作為生成器網(wǎng)絡(luò)的輸入。

關(guān)鍵成就

引入的pix2pixHD方法在以下方面的表現(xiàn)優(yōu)于最先進的方法：

語義分割的逐像素精度，得分為83.78（來自pix2pix基準的5.44，僅比原始圖像的精度低0.51個點）

人工評估員可以在任意數(shù)據(jù)集和任意時間設(shè)置（無限時間和有限時間）上進行的成對比較

社區(qū)評價

在計算機視覺的重要會議CVPR 2018上 Oral上，深度學(xué)習(xí)研究員Denny Britz對此評價：“這些GAN結(jié)果令人印象深刻。如果你現(xiàn)在正在用Photoshop修圖來謀生，那么可能是時候另謀出路了?！?/p>

可能的商業(yè)應(yīng)用

該方法為更高級別的圖像編輯提供了新工具，例如添加/刪除對象或更改現(xiàn)有對象的外觀?？梢杂迷谛迗D工具中，或者創(chuàng)建新的修圖工具。

源碼

https://github.com/NVIDIA/pix2pixHD

4. 高強度自然圖像合成的大型GAN訓(xùn)練

作者ANDREW BROCK，JEFF DONAHUE和KAREN SIMONYAN，論文地址：

https://arxiv.org/abs/1809.11096

論文摘要

DeepMind團隊發(fā)現(xiàn)，盡管最近在生成圖像建模方面取得了進展，但是從像ImageNet這樣的復(fù)雜數(shù)據(jù)集中成功生成高分辨率、多樣化的樣本仍然是一個難以實現(xiàn)的目標。

經(jīng)過對GAN進行了最大規(guī)模的訓(xùn)練嘗試，并研究了這種規(guī)模特有的不穩(wěn)定性后，發(fā)現(xiàn)將正交正則化應(yīng)用于生成器可以使得它適合于簡單的“截斷技巧”，允許通過截斷潛在空間來精確控制樣本保真度和變化之間的權(quán)衡。

這樣的改動導(dǎo)致模型在類條件圖像合成中達到了新的技術(shù)高度，當(dāng)在ImageNet上以128×128分辨率進行訓(xùn)練時，模型（BigGAN）的Inception Score（IS）達到了166.3；Frechet Inception Distance（FID）為9.6。而之前的最佳IS為52.52，F(xiàn)ID為18.65。

該論文表明，如果GAN以非常大的規(guī)模進行訓(xùn)練，例如用兩倍到四倍的參數(shù)和八倍于之前的批量大小，就可以生成看起來非常逼真的圖像。這些大規(guī)模的GAN（即BigGAN）是類條件圖像合成中最先進的新技術(shù)。

核心理念

隨著批量大小和參數(shù)數(shù)量的增加，GAN的性能在提升

將正交正則化應(yīng)用于生成器使得模型響應(yīng)于特定技術(shù)（“截斷技巧”），通過這種方式提供對樣本保真度和變化之間的權(quán)衡的控制

關(guān)鍵成就

證明GAN可以通過增加數(shù)據(jù)量來獲得更好的收益

構(gòu)建模型，允許對樣本種類和保真度之間的權(quán)衡進行明確的、細粒度的控制

發(fā)現(xiàn)大規(guī)模GAN的不穩(wěn)定性并根據(jù)經(jīng)驗進行表征

在ImageNet上以128×128分辨率訓(xùn)練的BigGAN實現(xiàn)

Inception Score（IS）為166.3，之前的最佳IS為52.52

FrechetInception Distance（FID）為9.6，之前的最佳FID為18.65

社區(qū)評價

該文件正在被評審是否錄取為下一屆ICLR 2019。

在BigGAN發(fā)生器登上TF Hub后，來自世界各地的AI研究人員用BigGAN來生成狗，手表，比基尼圖像，蒙娜麗莎，海濱等等，玩的不亦樂乎

未來的研究領(lǐng)域

遷移到更大的數(shù)據(jù)集以緩解GAN穩(wěn)定性問題

探索減少GAN產(chǎn)生的奇怪樣本數(shù)量的可能性

可能的商業(yè)應(yīng)用

替代廣告和電商成本較高的手動媒體創(chuàng)建。

源碼

https://colab.research.google.com/github/tensorflow/hub/blob/master/examples/colab/biggan_generation_with_tf_hub.ipynb

https://github.com/AaronLeong/BigGAN-pytorch

5.基于風(fēng)格的生成器網(wǎng)絡(luò)的生成器架構(gòu)

作者TERO KARRAS，SAMULI LAINE，TIMO AILA，論文地址：

https://arxiv.org/abs/1812.04948

論文摘要

NVIDIA團隊推出了一種新的生成器架構(gòu)StyleGAN，借鑒了風(fēng)格轉(zhuǎn)移文獻。在這項研究中，他們解決了對傳統(tǒng)GAN架構(gòu)生成的圖像進行非常有限的控制的問題。

StyleGAN中的生成器自動學(xué)習(xí)分離圖像的不同方面，而無需任何人為監(jiān)督，從而可以多種不同方式組合這些方面。例如，我們可以從一個人那里獲取性別，年齡，頭發(fā)長度，眼鏡和姿勢，而從另一個人那里獲取所有其他方面。由此產(chǎn)生的圖像在質(zhì)量和真實性方面優(yōu)于先前的技術(shù)水平。

核心理念

StyleGAN基于漸進式GAN設(shè)置，其中假定網(wǎng)絡(luò)的每個層控制圖像的不同視覺特征，層越低，其影響的特征越粗糙：

對應(yīng)于粗糙空間分辨率（4×4 - 8×8）的層使得能夠控制姿勢、一般發(fā)型、面部形狀等

中間層（16×16 - 32×32）影響較小規(guī)模的面部特征，如發(fā)型、睜眼/閉眼等

細粒度分辨率（64×64 - 1024×1024）的層主要帶來顏色方案和微結(jié)構(gòu)

受風(fēng)格轉(zhuǎn)移文獻的推動，NVIDIA團隊引入了一種生成器架構(gòu)，可以通過新穎的方式控制圖像合成過程

省略輸入層并從學(xué)習(xí)的常量開始

在每個卷積層調(diào)整圖像“樣式”，允許直接控制不同尺度的圖像特征的強度

在每個卷積之后添加高斯噪聲以生成隨機細節(jié)

關(guān)鍵成就

在CelebA-HQ數(shù)據(jù)集上得到5.06的Frèchet inception distance（FID）得分，在Flickr-Faces-HQ數(shù)據(jù)集上獲得4,40得分

呈現(xiàn)人臉Flickr-Faces-HQ的新數(shù)據(jù)集，其具有比現(xiàn)有高分辨率數(shù)據(jù)集更高的圖像質(zhì)量和更寬的變化

社區(qū)評價

Uber的軟件工程師Philip Wang創(chuàng)建了一個網(wǎng)站

thispersondoesnotexist.com

可以在其中找到使用StyleGAN生成的面孔。這個網(wǎng)站形成了病毒式傳播

未來的研究領(lǐng)域

探索在訓(xùn)練過程中直接塑造中間潛在空間的方法

可能的商業(yè)應(yīng)用

由于StyleGAN方法的靈活性和高質(zhì)量的圖像，它可以替代廣告和電子商務(wù)中昂貴的手工媒體創(chuàng)作。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

圖像

圖像

+關(guān)注

關(guān)注
2

文章
1084

瀏覽量
40470
GaN

GaN

+關(guān)注

關(guān)注
19

文章
1935

瀏覽量
73451
生成器

生成器

+關(guān)注

關(guān)注
7

文章
315

瀏覽量
21011

原文標題：5個最新圖像合成GAN架構(gòu)解讀：核心理念、關(guān)鍵成就、商業(yè)化路徑

文章出處：【微信號：AI_era，微信公眾號：新智元】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

GaN可靠性測試新突破：廣電計量推出高壓性能評估方案

氮化鎵（GaN），作為一種具有獨特物理和化學(xué)性質(zhì)的半導(dǎo)體材料，憑借卓越的功率轉(zhuǎn)換效率、超快的開關(guān)速度以及出色的耐高溫性能，在5G通信、新能源汽車、數(shù)據(jù)中心及消費電子等前沿領(lǐng)域扮演著重要角色。然而

發(fā)表于 11-28 09:56 ?272次閱讀

<b class='flag-5'>GaN</b>可靠性測試新突破：廣電計量<b class='flag-5'>推出</b>高壓性能評估方案

寶馬集團將OpenUSD用于合成數(shù)據(jù)生成

通?場景描述，又稱為OpenUSD，是?個開放且可擴展的?態(tài)系統(tǒng)，?于在 3D 世界中描述、合成、模擬和協(xié)作。

發(fā)表于 11-20 10:22 ?271次閱讀

視頻時鐘合成芯片怎么用

視頻時鐘合成芯片（Video Clock Synthesizer，VCS）是一種用于生成和調(diào)整視頻信號時鐘的電子設(shè)備，廣泛應(yīng)用于視頻處理、顯示、傳輸?shù)阮I(lǐng)域。它能夠?qū)⑤斎氲臅r鐘信號轉(zhuǎn)換成所需的視頻格式

發(fā)表于 10-10 11:17 ?291次閱讀

三菱電機發(fā)布用于5G massive MIMO基站的16W GaN PAM

三菱電機集團近日宣布，開始為5G massive MIMO*1（mMIMO）基站提供新型16W平均功率氮化鎵（GaN）功率放大器模塊（PAM）的樣品。PAM可用于32T32R mMIMO天線*2

發(fā)表于 09-13 10:47 ?563次閱讀

信越化學(xué)推出12英寸GaN晶圓，加速半導(dǎo)體技術(shù)創(chuàng)新

日本半導(dǎo)體材料巨頭信越化學(xué)近日宣布了一項重大技術(shù)突破，成功研發(fā)并制造出專用于氮化鎵（GaN）外延生長的300毫米（即12英寸）晶圓，標志著公司在高性能半導(dǎo)體材料領(lǐng)域邁出了堅實的一步。此次推出的QST

發(fā)表于 09-10 17:05 ?1005次閱讀

Freepik攜手Magnific AI推出AI圖像生成器

近日，設(shè)計資源巨頭Freepik攜手Magnific AI，共同推出了革命性的AI圖像生成器——Freepik Mystic，這一里程碑式的發(fā)布標志著AI圖像創(chuàng)作領(lǐng)域邁入了一個全新的高

發(fā)表于 08-30 16:23 ?1142次閱讀

ALINX FPGA+GPU異架構(gòu)視頻圖像處理開發(fā)平臺介紹

Alinx 最新發(fā)布的新品 Z19-M 是一款創(chuàng)新的 FPGA+GPU 異構(gòu)架構(gòu)視頻圖像處理開發(fā)平臺，它結(jié)合了 AMD Zynq UltraScale+ MPSoC（FPGA）與 NVIDIA Jetson Orin NX（GPU）的強大功能，能夠應(yīng)

發(fā)表于 08-29 14:43 ?1198次閱讀

DSP教學(xué)實驗箱操作教程_數(shù)字圖像處理：5-5 灰度圖像直方圖

與識別和低級像素處理。包括適用于C64x+、C674x 和 C66x 處理器的 Windows 和 Linux 安裝可執(zhí)行文件。每個可執(zhí)行文件安裝一個組件包存儲庫、一個文檔目錄、一個

發(fā)表于 06-25 15:10

德州儀器推出先進650V三相GaN IPM

德州儀器 (TI) 推出了適用于 250W 電機驅(qū)動器應(yīng)用的先進 650V 三相 GaN IPM。這款全新的 GaN IPM 解決了工程師在設(shè)計大型家用電器及加熱、通風(fēng)和空調(diào) (HVA

發(fā)表于 06-18 14:24 ?757次閱讀

CGD推出高效環(huán)保GaN功率器件

近日，無晶圓廠環(huán)?？萍及雽?dǎo)體公司Cambridge GaN Devices（CGD）發(fā)布了一系列革命性的高能效氮化鎵（GaN）功率器件，旨在推動電子器件向更環(huán)保的方向發(fā)展。

發(fā)表于 06-12 10:24 ?632次閱讀

光庭信息推出了基于S32G+8295+J5新架構(gòu)的中央域控解決方案

在智能化浪潮席卷汽車行業(yè)的今天，光庭信息作為“軟件定義汽車”的引領(lǐng)者，推出了基于S32G+8295+J5新架構(gòu)的中央域控解決方案。

發(fā)表于 05-07 14:33 ?756次閱讀

電壓放大器在合成射流高效摻混機理研究中的應(yīng)用

速度的作用下向下游運動，相互融合形成射流。合成射流已被應(yīng)用于眾多流動控制領(lǐng)域，包括摻混增強、傳熱增強、流動分離控制等。本實驗通過粒子圖像測速（PIV）技術(shù)從瞬時流動結(jié)構(gòu)演化的角度對合成

發(fā)表于 03-08 17:47

谷歌模型合成軟件有哪些

谷歌模型合成軟件通常指的是谷歌提供的用于創(chuàng)建、修改和共享3D模型的軟件。目前，谷歌推出的模型合成軟件中最知名的是Google SketchUp。

發(fā)表于 02-29 18:20 ?1396次閱讀

谷歌模型合成工具怎么用

谷歌模型合成工具主要是指Dreamfusion，這是Google的大型AI圖像模型Imagen與NeRF的3D功能相結(jié)合的一種技術(shù)。Dreamfusion是Dream Fields的演變，Dream Fields是谷歌于2021年底推出

發(fā)表于 02-29 17:33 ?800次閱讀

思特威推出5000萬像素圖像傳感器SC5000CS

思特威，作為領(lǐng)先的CMOS圖像傳感器供應(yīng)商，近日推出了一款適用于手機應(yīng)用的新型5000萬像素圖像傳感器產(chǎn)品——SC5000CS。

發(fā)表于 02-04 15:13 ?1208次閱讀

搜索歷史

5個最近推出的用于圖像合成的GAN架構(gòu)

評論

GaN可靠性測試新突破：廣電計量推出高壓性能評估方案

寶馬集團將OpenUSD用于合成數(shù)據(jù)生成

視頻時鐘合成芯片怎么用

三菱電機發(fā)布用于5G massive MIMO基站的16W GaN PAM

信越化學(xué)推出12英寸GaN晶圓，加速半導(dǎo)體技術(shù)創(chuàng)新

Freepik攜手Magnific AI推出AI圖像生成器

ALINX FPGA+GPU異架構(gòu)視頻圖像處理開發(fā)平臺介紹

DSP教學(xué)實驗箱操作教程_數(shù)字圖像處理：5-5 灰度圖像直方圖

德州儀器推出先進650V三相GaN IPM

CGD推出高效環(huán)保GaN功率器件

光庭信息推出了基于S32G+8295+J5新架構(gòu)的中央域控解決方案

電壓放大器在合成射流高效摻混機理研究中的應(yīng)用

谷歌模型合成軟件有哪些

谷歌模型合成工具怎么用

思特威推出5000萬像素圖像傳感器SC5000CS