0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一種利用兩個輕型的卷積神經(jīng)網(wǎng)絡來學習獲取任意遷移矩陣的方法

nlfO_thejiangme ? 來源:未知 ? 作者:李倩 ? 2018-08-31 11:16 ? 次閱讀

藝術風格轉換算得上是AI最有趣的應用之一了,你可以將梵高的名畫風格添加到自己的照片中,也可以個自己的頭像來一幅映像派的油畫。它同時處理風格圖像和內容圖像來進行合成,使得生成的結果在保持了內容的前提下獲得了風格圖像的質感與美學特征。但目前的算法模型實現(xiàn)比較龐大,同時會消耗很大的計算資源,在一定程度上限制了人工智能對于美的創(chuàng)造。

近日,來自英偉達的研究人員與加州大學默塞德分校的研究人員們共同提出了一種新的風格遷移算法,不僅大幅提高了風格遷移的效率,同時實現(xiàn)了任意圖片的風格轉換,這使得AI對于圖像的創(chuàng)造邁向了更廣闊的天地。

對于提供的隨機圖片,這一算法可以將參考圖片中的任意風格進行抽取并基于內容圖片進行合成輸出。近來的任意風格轉換算法主要通過內容圖片特征與預先計算得到的轉化矩陣相乘。但這些算法十分消耗計算,同時合成的圖像有時也不盡如人意。為了解決這些問題,研究人員們從理論上得到了遷移矩陣的表達形式,并給出了一種利用兩個輕型的卷積神經(jīng)網(wǎng)絡來學習獲取任意遷移矩陣的方法,這種基于學習的遷移矩陣可以通過不同層次的風格損失來控制,在保持內容圖像的情況下靈活地結合多層次風格。同時,算法的實現(xiàn)具有很高的效率。

這一工作的主要貢獻在于以下三個方面:

1.提出了一種線性遷移的通用方法,其優(yōu)化過程同時可以最小化風格重建損失;

2.提出了一種速度高達140fps的遷移矩陣學習方法,可靈活的在單一遷移矩陣中結合多層次風格,并在遷移過程中保持內容特征;

3.基于上述靈活性,這一方法可以廣泛用于包括美學風格遷移、視頻圖像實際風格遷移以及領域遷移等很多任務中。

在這一研究中,研究人員提出的模型包括兩個前向卷積網(wǎng)絡、一個對稱的編碼、解碼圖像重建結構以及遷移學習模塊和損失模塊等四個部分。

其中編碼器和解碼器主要用于重建輸入的圖像,事先訓練好后就固定下來作為網(wǎng)絡的基礎用于后續(xù)的訓練過程。(編碼器用于抽取輸入圖像中的特征,分別對內容和風格圖像提取特征圖Fc,F(xiàn)s,而解碼器則用于從抽取重建圖像。)

遷移模塊主要包含了兩個小卷積網(wǎng)絡,用于從前面的編碼器輸出中抽取特征,并輸出遷移矩陣T. 隨后圖像遷移通過內容圖像與遷移矩陣的線性乘法來實現(xiàn),隨后利用解碼其重建合成圖像。在網(wǎng)絡的最后,一個與訓練并固定的VGG-19網(wǎng)絡用于計算多層次的風格損失以及內容損失。整個網(wǎng)絡是純粹的前向傳播卷積神經(jīng)網(wǎng)絡,對于GPU的運算十分友好,可以實現(xiàn)高達140fps的高效率風格遷移。

在網(wǎng)絡中,只有藍色的壓縮和解壓模塊,以及綠色的遷移單元是可以學習的,而其他的模塊都是固定的。

研究人員先從理論上探討了風格轉換、學習轉換矩陣的模型、高效計算的模型以及無損風格轉換的表達。對于風格轉換來說,其目標就是最小化遷移后的特征Fc和期望的虛擬特征phis之間的中心協(xié)方差,所以風格損失函數(shù)可以寫為下面的形式:

但絕對值中的兩項差為0時可以實現(xiàn)最小化。同時可以利用線性約束和分解計算出風格遷移矩陣T,

其主要用內容和特征圖像的特征的協(xié)方差決定的。為了計算出T,需要選擇合適的模型來進行學習。

T矩陣是由內容和風格圖像共同決定的,研究人員認為一種可能的方法便是利用神經(jīng)網(wǎng)絡同時將輸入的兩張圖像轉換為C*C的T矩陣輸出。在這一工作中,主要利用了兩個相互隔離的CNNs來實現(xiàn)。為了獲取這一輸出,其輸入包含了三種不同的形式:內容和風格圖像、內容和風格特征圖、內容和風格特征圖的協(xié)方差。下圖是三種不同輸入的情況下的風格轉換結果,可以看到將編碼器特征圖的協(xié)方差作為全連接輸入進行風格遷移的效果更好:

研究人員選擇了利用協(xié)方差來生成C*C的中間矩陣,隨后得到T矩陣。首先T矩陣與輸入的維數(shù)不相干,并在不同分辨率下保持一致。同時需要全連接層在卷積的頂部進行處理。利用協(xié)方差作為模型的輸出將對更一般地風格遷移得到更好的結果。

為了實現(xiàn)高效的模型,研究人員們將以往算法中耗時的矩陣分解工作用前向網(wǎng)絡代替,將耗時的計算從GPU中移除。研究顯示T可以通過CNNs模塊和一個全連接層方便的訓練得到。同時利用學習的方法得到了包含多層次特征單個T矩陣。T可以通過與不同風格重建損失的結合來實現(xiàn)豐富的表達。

基于線性遷移的風格轉換還具有較強的內容保留特性,通過這種特性和淺層自編碼器,可以實現(xiàn)較好的無失真圖像遷移。保證了在風格遷移的過程中內容圖像的內容不會產(chǎn)生畸變。

在深入研究了各個方面后,研究人員按照前述的架構構建了神經(jīng)網(wǎng)絡,并在不同任務上進行了驗證。其數(shù)據(jù)集來自于MS-COCO和WikiArt進80000張圖像。利用Pytorch在TitanXP上訓練需要約2小時。下圖是本文提出算法與不同算法的比較結果:

其中視頻和照片的實際場景風格遷移,將拍攝到的圖像遷移到期望的場景中區(qū),具有十分廣闊的應用,這將會生成更為有效的濾鏡和產(chǎn)品。

研究人員表示這將給內容生產(chǎn)者提供更多的創(chuàng)意,并將在實際生活中產(chǎn)生更多有趣的應用,將周圍的場景實時渲染成期望的樣子。

最后,研究人員們還驗證了這種方法在不同領域間遷移的有效性。通過將Cityscapes中的圖像作為風格圖,GTA游戲場景數(shù)據(jù)中的圖作為內容圖,并利用在Cityscapes上訓練的PSPNet來進行語義風格。研究結果顯示,進行風格遷移后的圖像具有比原圖更好的語義分割效果。

這也為低成本獲取語義分割數(shù)據(jù)集訓練提供了可行的手段。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 編碼器
    +關注

    關注

    45

    文章

    3643

    瀏覽量

    134531
  • 神經(jīng)網(wǎng)絡

    關注

    42

    文章

    4771

    瀏覽量

    100777
  • 英偉達
    +關注

    關注

    22

    文章

    3776

    瀏覽量

    91114

原文標題:NVIDIA研究人員提出新的風格遷移算法,可大幅提高風格遷移的效率,同時實現(xiàn)任意圖片的風格轉換

文章出處:【微信號:thejiangmen,微信公眾號:將門創(chuàng)投】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    非局部神經(jīng)網(wǎng)絡,打造未來神經(jīng)網(wǎng)絡基本組件

    ,非局部運算將某處位置的響應作為輸入特征映射中所有位置的特征的加權和進行計算。我們將非局部運算作為高效、簡單和通用的模塊,用于獲取
    發(fā)表于 11-12 14:52

    【PYNQ-Z2試用體驗】神經(jīng)網(wǎng)絡基礎知識

    神經(jīng)網(wǎng)絡的計算。對于多層多節(jié)點的神經(jīng)網(wǎng)絡,我們可以使用矩陣乘法表示。在上面的神經(jīng)網(wǎng)絡中,我們將權重作為
    發(fā)表于 03-03 22:10

    基于賽靈思FPGA的卷積神經(jīng)網(wǎng)絡實現(xiàn)設計

    ,看下 FPGA 是否適用于解決大規(guī)模機器學習問題。卷積神經(jīng)網(wǎng)絡一種深度神經(jīng)網(wǎng)絡 (DNN)
    發(fā)表于 06-19 07:24

    卷積神經(jīng)網(wǎng)絡卷積的處理過程

    。本文就以卷積神經(jīng)網(wǎng)絡為例談談怎么步優(yōu)化卷積神經(jīng)網(wǎng)
    發(fā)表于 12-23 06:16

    卷積神經(jīng)網(wǎng)絡模型發(fā)展及應用

    十余年來快速發(fā)展的嶄新領域,越來越受到研究者的關注。卷積神經(jīng)網(wǎng)絡(CNN)模型是深度學習模型中最重要的一種經(jīng)典結構,其性能在近年來深度學習
    發(fā)表于 08-02 10:39

    卷積神經(jīng)網(wǎng)絡簡介:什么是機器學習

    列文章將只關注卷積神經(jīng)網(wǎng)絡 (CNN)。CNN的主要應用領域是輸入數(shù)據(jù)中包含的對象的模式識別和分類。CNN是一種用于深度學習的人工神經(jīng)網(wǎng)絡。
    發(fā)表于 02-23 20:11

    一種卷積神經(jīng)網(wǎng)絡和極限學習機相結合的人臉識別方法_余丹

    一種卷積神經(jīng)網(wǎng)絡和極限學習機相結合的人臉識別方法_余丹
    發(fā)表于 01-08 11:20 ?0次下載

    一種改進的基于卷積神經(jīng)網(wǎng)絡的行人檢測方法

    為了在行人檢測任務中使卷積神經(jīng)網(wǎng)絡(CNN)選擇出更優(yōu)模型并獲得定位更準確的檢測框,提出一種改進的基于卷積神經(jīng)網(wǎng)絡的行人檢測
    發(fā)表于 12-01 15:23 ?0次下載
    <b class='flag-5'>一種</b>改進的基于<b class='flag-5'>卷積</b><b class='flag-5'>神經(jīng)網(wǎng)絡</b>的行人檢測<b class='flag-5'>方法</b>

    卷積神經(jīng)網(wǎng)絡的主要兩個特征

    卷積神經(jīng)網(wǎng)絡(CNN)是一種目前計算機視覺領域廣泛使用的深度學習網(wǎng)絡,與傳統(tǒng)的人工神經(jīng)網(wǎng)絡結構不同,它包含有非常特殊的
    的頭像 發(fā)表于 05-04 18:24 ?1.4w次閱讀

    卷積神經(jīng)網(wǎng)絡三大特點

    一種基于圖像處理的神經(jīng)網(wǎng)絡,它模仿人類視覺結構中的神經(jīng)元組成,對圖像進行處理和學習。在圖像處理中,通常將圖像看作是二維矩陣,即每個像素點都
    的頭像 發(fā)表于 08-21 16:49 ?5791次閱讀

    卷積神經(jīng)網(wǎng)絡層級結構 卷積神經(jīng)網(wǎng)絡卷積層講解

    卷積神經(jīng)網(wǎng)絡層級結構 卷積神經(jīng)網(wǎng)絡卷積層講解 卷積神經(jīng)網(wǎng)絡
    的頭像 發(fā)表于 08-21 16:49 ?8899次閱讀

    卷積神經(jīng)網(wǎng)絡的介紹 什么是卷積神經(jīng)網(wǎng)絡算法

    的深度學習算法。CNN模型最早被提出是為了處理圖像,其模型結構中包含卷積層、池化層和全連接層等關鍵技術,經(jīng)過多個卷積層和池化層的處理,CNN可以提取出圖像中的特征信息,從而對圖像進行分類。
    的頭像 發(fā)表于 08-21 16:49 ?1880次閱讀

    卷積神經(jīng)網(wǎng)絡訓練的是什么

    、訓練過程以及應用場景。 1. 卷積神經(jīng)網(wǎng)絡的基本概念 1.1 卷積神經(jīng)網(wǎng)絡的定義 卷積神經(jīng)網(wǎng)絡
    的頭像 發(fā)表于 07-03 09:15 ?412次閱讀

    卷積神經(jīng)網(wǎng)絡分類方法有哪些

    卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks,CNN)是一種深度學習模型,廣泛應用于圖像分類、目標檢測、語義分割等計算機視覺任務。本文將詳細介紹
    的頭像 發(fā)表于 07-03 09:40 ?471次閱讀

    卷積神經(jīng)網(wǎng)絡的實現(xiàn)原理

    、訓練過程以及應用場景。 卷積神經(jīng)網(wǎng)絡的基本原理 1.1 卷積操作 卷積神經(jīng)網(wǎng)絡的核心是卷積操作
    的頭像 發(fā)表于 07-03 10:49 ?553次閱讀