0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

英偉達(dá)面目生成器升級至2.0 計算機視覺或許可以再突破

張康康 ? 2019-07-29 18:27 ? 次閱讀

近期,由英偉達(dá)AI團隊為GAN創(chuàng)造了一種新的生成器,連GAN之父Goodfellow也忍不住發(fā)出稱贊。從下圖我們可以看到很多的清晰的人像,但這些并不是照片,而是一組完全由計算機生成的圖片。


這個結(jié)構(gòu)不需要人類監(jiān)督,可以自動分離圖像中的各種屬性。這樣,在或粗糙或精細(xì)的不同尺度上,人類便能自如地控制GAN的生成。

英偉達(dá)研究人員在論文中寫道,他們提出的新架構(gòu)可以完成自動學(xué)習(xí),無監(jiān)督地分離搞基屬性以及生成圖像中的隨機變化,并且可以合成進行更直觀且特定于比例的控制。也就是說,這種新的生成器在生成和混合圖像,特別是人臉圖像時,可以更好地感知圖像之間有意義的變化,并且在各種尺度上針對這些變化做出引導(dǎo)。

研究人員使用的舊系統(tǒng)可能產(chǎn)生兩個“不同”的面部,這兩個面部其實大致相同,只是一個人的耳朵被抹去了,兩個人的襯衫是不同的顏色,而這些并不是真正的面部特異性特征,不過系統(tǒng)并不知道這些是無需重點關(guān)注的變化,而當(dāng)成了兩個人來處理。

e033db547ce1402596bf22191c576f97


1.Generation

什么是生成(generation)?就是模型通過學(xué)習(xí)一些數(shù)據(jù),然后生成類似的數(shù)據(jù)。讓機器看一些動物圖片,然后自己來產(chǎn)生動物的圖片,這就是生成。

以前就有很多可以用來生成的技術(shù)了,比如 auto-encoder(自編碼器),結(jié)構(gòu)如下圖:

632121f7539f43419bb660feee4f64c3


你訓(xùn)練一個 encoder,把 input 轉(zhuǎn)換成 code,然后訓(xùn)練一個 decoder,把 code 轉(zhuǎn)換成一個 image,然后計算得到的 image 和 input 之間的 MSE(mean square error),訓(xùn)練完這個 model 之后,取出后半部分 NN Decoder,輸入一個隨機的 code,就能 generate 一個 image。

但是 auto-encoder 生成 image 的效果,當(dāng)然看著很別扭啦,一眼就能看出真假。所以后來還提出了比如VAE這樣的生成模型,我對此也不是很了解,在這就不細(xì)說。

上述的這些生成模型,其實有一個非常嚴(yán)重的弊端。比如 VAE,它生成的 image 是希望和 input 越相似越好,但是 model 是如何來衡量這個相似呢?model 會計算一個 loss,采用的大多是 MSE,即每一個像素上的均方差。

df6d3266c90749f6a6c018df889b5ec4


第一張,我們認(rèn)為是好的生成圖片,第二張是差的生成圖片,但是對于上述的人來說,這兩張圖片計算出來的 loss 是一樣大的,所以會認(rèn)為是一樣好的圖片。

這就是上述生成模型的弊端,用來衡量生成圖片好壞的標(biāo)準(zhǔn)并不能很好的完成想要實現(xiàn)的目的。于是就有了下面要講的 GAN。

2.GAN

GAN 是如何生成圖片的呢?首先大家都知道 GAN 有兩個網(wǎng)絡(luò),一個是 generator,一個是 discriminator,從二人零和博弈中受啟發(fā),通過兩個網(wǎng)絡(luò)互相對抗來達(dá)到最好的生成效果。流程如下:

6c03437adbfe4e138c2defd290029f21


主要流程類似上面這個圖。首先,有一個一代的 generator,它能生成一些很差的圖片,然后有一個一代的 discriminator,它能準(zhǔn)確的把生成的圖片,和真實的圖片分類,簡而言之,這個 discriminator 就是一個二分類器,對生成的圖片輸出 0,對真實的圖片輸出 1。

接著,開始訓(xùn)練出二代的 generator,它能生成稍好一點的圖片,能夠讓一代的 discriminator 認(rèn)為這些生成的圖片是真實的圖片。然后會訓(xùn)練出一個二代的 discriminator,它能準(zhǔn)確的識別出真實的圖片,和二代 generator 生成的圖片。以此類推,會有三代,四代。。。n 代的 generator 和 discriminator,最后 discriminator 無法分辨生成的圖片和真實圖片,這個網(wǎng)絡(luò)就擬合了。

3.GAN2.0到GAN3.0

使用基于風(fēng)格的生成器的GAN2.0,在各個方面都優(yōu)于傳統(tǒng)的GAN。英特爾團隊相信,對高階屬性與隨機效應(yīng)分離的研究,以及中間隱空間(intermediate latent space)的線性,將會對提高GAN合成的理解和可控性有很大的幫助。平均路徑長度度量可以很容易地用作訓(xùn)練中的正則化器,也許線性可分度量的某些變體也可以作為一個正則化器。

除了人像,GAN 2.0還可以生成房間、汽車等各種場景。有了這樣的技術(shù),未來再也不用發(fā)愁圖像數(shù)據(jù)集。畢竟這些計算機生成的“人”,已經(jīng)如此的真實。總的來說,在訓(xùn)練期間直接塑造中間隱空間(intermediate latent space)的方法將為未來的工作提供有趣的途徑。而未來,GAN3.0將會突破瓶頸,達(dá)到更令人矚目的視覺成就。

4.結(jié)語

目前國內(nèi)做計算機視覺的以曠視科技Face++、商湯科技、極鏈科技Video++為代表的AI頭部企業(yè)為代表,以算法為核心競爭力的AI初創(chuàng)企業(yè),扎根于技術(shù),都在計算機視覺上做出了卓越的成就。計算機視覺的研究和發(fā)展具有極其重要的意義,不但滿足人工智能應(yīng)用的需要,如在計算機實現(xiàn)人工的視覺系統(tǒng)的需要。其次這些成果可以安裝在計算機和各種機器上,使計算機和機器人能夠具有“看”和創(chuàng)作圖像的能力。視覺計算模型的研究結(jié)果反過來對于我們進一步認(rèn)識和研究人類視覺系統(tǒng)本身的機理,甚至人腦的機理,也同樣具有相當(dāng)大的參考意義。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 計算機視覺
    +關(guān)注

    關(guān)注

    8

    文章

    1699

    瀏覽量

    46050
  • 英偉達(dá)
    +關(guān)注

    關(guān)注

    22

    文章

    3815

    瀏覽量

    91492
收藏 人收藏

    評論

    相關(guān)推薦

    Freepik攜手Magnific AI推出AI圖像生成器

    近日,設(shè)計資源巨頭Freepik攜手Magnific AI,共同推出了革命性的AI圖像生成器——Freepik Mystic,這一里程碑式的發(fā)布標(biāo)志著AI圖像創(chuàng)作領(lǐng)域邁入了一個全新的高度
    的頭像 發(fā)表于 08-30 16:23 ?1165次閱讀

    計算機視覺有哪些優(yōu)缺點

    計算機視覺作為人工智能領(lǐng)域的一個重要分支,旨在使計算機能夠像人類一樣理解和解釋圖像和視頻中的信息。這一技術(shù)的發(fā)展不僅推動了多個行業(yè)的變革,也帶來了諸多優(yōu)勢,但同時也伴隨著一些挑戰(zhàn)和局限性。以下是對
    的頭像 發(fā)表于 08-14 09:49 ?1053次閱讀

    機器視覺計算機視覺有什么區(qū)別

    機器視覺計算機視覺是兩個密切相關(guān)但又有所區(qū)別的概念。 一、定義 機器視覺 機器視覺,又稱為計算機
    的頭像 發(fā)表于 07-16 10:23 ?573次閱讀

    計算機視覺的工作原理和應(yīng)用

    計算機視覺(Computer Vision,簡稱CV)是一門跨學(xué)科的研究領(lǐng)域,它利用計算機和數(shù)學(xué)算法來模擬人類視覺系統(tǒng)對圖像和視頻進行識別、理解、分析和處理。其核心目標(biāo)在于使
    的頭像 發(fā)表于 07-10 18:24 ?2163次閱讀

    計算機視覺與人工智能的關(guān)系是什么

    引言 計算機視覺是一門研究如何使計算機能夠理解和解釋視覺信息的學(xué)科。它涉及到圖像處理、模式識別、機器學(xué)習(xí)等多個領(lǐng)域的知識。人工智能則是研究如何使計算
    的頭像 發(fā)表于 07-09 09:25 ?705次閱讀

    計算機視覺和機器視覺區(qū)別在哪

    計算機視覺和機器視覺是兩個密切相關(guān)但又有明顯區(qū)別的領(lǐng)域。 一、定義 計算機視覺 計算機
    的頭像 發(fā)表于 07-09 09:22 ?486次閱讀

    計算機視覺屬于人工智能嗎

    屬于,計算機視覺是人工智能領(lǐng)域的一個重要分支。 引言 計算機視覺是一門研究如何使計算機具有視覺
    的頭像 發(fā)表于 07-09 09:11 ?1360次閱讀

    《科技日報》頭版報道國產(chǎn)超導(dǎo)量子計算機“卡脖子”關(guān)鍵設(shè)備技術(shù)升級

    《科技日報》頭版報道國產(chǎn)超導(dǎo)量子計算機“卡脖子”關(guān)鍵設(shè)備技術(shù)升級
    的頭像 發(fā)表于 06-13 08:22 ?403次閱讀
    《科技日報》頭版報道國產(chǎn)超導(dǎo)量子<b class='flag-5'>計算機</b>“卡脖子”關(guān)鍵設(shè)備技術(shù)<b class='flag-5'>再</b><b class='flag-5'>升級</b>

    計算機視覺的主要研究方向

    計算機視覺(Computer Vision, CV)作為人工智能領(lǐng)域的一個重要分支,致力于使計算機能夠像人眼一樣理解和解釋圖像和視頻中的信息。隨著深度學(xué)習(xí)、大數(shù)據(jù)等技術(shù)的快速發(fā)展,計算機
    的頭像 發(fā)表于 06-06 17:17 ?1032次閱讀

    英偉達(dá)幫助日本建造混合量子超級計算機

    英偉達(dá)正在幫助日本建造混合量子超級計算機,這是日本國家量子計算計劃的一部分。
    的頭像 發(fā)表于 04-23 14:54 ?568次閱讀

    Minitab 交互式表格生成器

    生成器
    MinitabUG
    發(fā)布于 :2024年04月03日 15:58:54

    諾和諾德基金會將聯(lián)手英偉達(dá)打造丹麥AI超級計算機

    諾和諾德基金會攜手英偉達(dá),共同宣布在丹麥打造一臺領(lǐng)先的AI超級計算機。這臺超級計算機將致力于推動醫(yī)療保健、生命科學(xué)以及綠色轉(zhuǎn)型等領(lǐng)域的科研與創(chuàng)新,為丹麥乃至全球的諾和諾德基金會攜手
    的頭像 發(fā)表于 03-21 13:43 ?634次閱讀

    計算機視覺的十大算法

    隨著科技的不斷發(fā)展,計算機視覺領(lǐng)域也取得了長足的進步。本文將介紹計算機視覺領(lǐng)域的十大算法,包括它們的基本原理、應(yīng)用場景和優(yōu)缺點。這些算法在圖像處理、目標(biāo)檢測、人臉識別等領(lǐng)域有著廣泛的應(yīng)
    的頭像 發(fā)表于 02-19 13:26 ?1285次閱讀
    <b class='flag-5'>計算機</b><b class='flag-5'>視覺</b>的十大算法

    RL78的代碼生成器發(fā)布說明

    電子發(fā)燒友網(wǎng)站提供《RL78的代碼生成器發(fā)布說明.pdf》資料免費下載
    發(fā)表于 01-30 09:48 ?0次下載
    RL78的代碼<b class='flag-5'>生成器</b>發(fā)布說明

    英偉達(dá)與Equinix合作為企業(yè)客戶提供超級計算機系統(tǒng)

    近日,數(shù)據(jù)中心運營商Equinix與芯片巨頭英偉達(dá)宣布達(dá)成一項重要合作。雙方將共同為企業(yè)客戶提供英偉達(dá)的超級計算機系統(tǒng),使企業(yè)能夠更輕松地?fù)?/div>
    的頭像 發(fā)表于 01-29 11:20 ?765次閱讀