藝術風格轉換算得上是AI最有趣的應用之一了,你可以將梵高的名畫風格添加到自己的照片中,也可以個自己的頭像來一幅映像派的油畫。它同時處理風格圖像和內容圖像來進行合成,使得生成的結果在保持了內容的前提下獲得了風格圖像的質感與美學特征。但目前的算法模型實現(xiàn)比較龐大,同時會消耗很大的計算資源,在一定程度上限制了人工智能對于美的創(chuàng)造。
近日,來自英偉達的研究人員與加州大學默塞德分校的研究人員們共同提出了一種新的風格遷移算法,不僅大幅提高了風格遷移的效率,同時實現(xiàn)了任意圖片的風格轉換,這使得AI對于圖像的創(chuàng)造邁向了更廣闊的天地。
對于提供的隨機圖片,這一算法可以將參考圖片中的任意風格進行抽取并基于內容圖片進行合成輸出。近來的任意風格轉換算法主要通過內容圖片特征與預先計算得到的轉化矩陣相乘。但這些算法十分消耗計算,同時合成的圖像有時也不盡如人意。為了解決這些問題,研究人員們從理論上得到了遷移矩陣的表達形式,并給出了一種利用兩個輕型的卷積神經(jīng)網(wǎng)絡來學習獲取任意遷移矩陣的方法,這種基于學習的遷移矩陣可以通過不同層次的風格損失來控制,在保持內容圖像的情況下靈活地結合多層次風格。同時,算法的實現(xiàn)具有很高的效率。
這一工作的主要貢獻在于以下三個方面:
1.提出了一種線性遷移的通用方法,其優(yōu)化過程同時可以最小化風格重建損失;
2.提出了一種速度高達140fps的遷移矩陣學習方法,可靈活的在單一遷移矩陣中結合多層次風格,并在遷移過程中保持內容特征;
3.基于上述靈活性,這一方法可以廣泛用于包括美學風格遷移、視頻圖像實際風格遷移以及領域遷移等很多任務中。
在這一研究中,研究人員提出的模型包括兩個前向卷積網(wǎng)絡、一個對稱的編碼、解碼圖像重建結構以及遷移學習模塊和損失模塊等四個部分。
其中編碼器和解碼器主要用于重建輸入的圖像,事先訓練好后就固定下來作為網(wǎng)絡的基礎用于后續(xù)的訓練過程。(編碼器用于抽取輸入圖像中的特征,分別對內容和風格圖像提取特征圖Fc,F(xiàn)s,而解碼器則用于從抽取重建圖像。)
遷移模塊主要包含了兩個小卷積網(wǎng)絡,用于從前面的編碼器輸出中抽取特征,并輸出遷移矩陣T. 隨后圖像遷移通過內容圖像與遷移矩陣的線性乘法來實現(xiàn),隨后利用解碼其重建合成圖像。在網(wǎng)絡的最后,一個與訓練并固定的VGG-19網(wǎng)絡用于計算多層次的風格損失以及內容損失。整個網(wǎng)絡是純粹的前向傳播卷積神經(jīng)網(wǎng)絡,對于GPU的運算十分友好,可以實現(xiàn)高達140fps的高效率風格遷移。
在網(wǎng)絡中,只有藍色的壓縮和解壓模塊,以及綠色的遷移單元是可以學習的,而其他的模塊都是固定的。
研究人員先從理論上探討了風格轉換、學習轉換矩陣的模型、高效計算的模型以及無損風格轉換的表達。對于風格轉換來說,其目標就是最小化遷移后的特征Fc和期望的虛擬特征phis之間的中心協(xié)方差,所以風格損失函數(shù)可以寫為下面的形式:
但絕對值中的兩項差為0時可以實現(xiàn)最小化。同時可以利用線性約束和分解計算出風格遷移矩陣T,
其主要用內容和特征圖像的特征的協(xié)方差決定的。為了計算出T,需要選擇合適的模型來進行學習。
T矩陣是由內容和風格圖像共同決定的,研究人員認為一種可能的方法便是利用神經(jīng)網(wǎng)絡同時將輸入的兩張圖像轉換為C*C的T矩陣輸出。在這一工作中,主要利用了兩個相互隔離的CNNs來實現(xiàn)。為了獲取這一輸出,其輸入包含了三種不同的形式:內容和風格圖像、內容和風格特征圖、內容和風格特征圖的協(xié)方差。下圖是三種不同輸入的情況下的風格轉換結果,可以看到將編碼器特征圖的協(xié)方差作為全連接輸入進行風格遷移的效果更好:
研究人員選擇了利用協(xié)方差來生成C*C的中間矩陣,隨后得到T矩陣。首先T矩陣與輸入的維數(shù)不相干,并在不同分辨率下保持一致。同時需要全連接層在卷積的頂部進行處理。利用協(xié)方差作為模型的輸出將對更一般地風格遷移得到更好的結果。
為了實現(xiàn)高效的模型,研究人員們將以往算法中耗時的矩陣分解工作用前向網(wǎng)絡代替,將耗時的計算從GPU中移除。研究顯示T可以通過CNNs模塊和一個全連接層方便的訓練得到。同時利用學習的方法得到了包含多層次特征單個T矩陣。T可以通過與不同風格重建損失的結合來實現(xiàn)豐富的表達。
基于線性遷移的風格轉換還具有較強的內容保留特性,通過這種特性和淺層自編碼器,可以實現(xiàn)較好的無失真圖像遷移。保證了在風格遷移的過程中內容圖像的內容不會產(chǎn)生畸變。
在深入研究了各個方面后,研究人員按照前述的架構構建了神經(jīng)網(wǎng)絡,并在不同任務上進行了驗證。其數(shù)據(jù)集來自于MS-COCO和WikiArt進80000張圖像。利用Pytorch在TitanXP上訓練需要約2小時。下圖是本文提出算法與不同算法的比較結果:
其中視頻和照片的實際場景風格遷移,將拍攝到的圖像遷移到期望的場景中區(qū),具有十分廣闊的應用,這將會生成更為有效的濾鏡和產(chǎn)品。
研究人員表示這將給內容生產(chǎn)者提供更多的創(chuàng)意,并將在實際生活中產(chǎn)生更多有趣的應用,將周圍的場景實時渲染成期望的樣子。
最后,研究人員們還驗證了這種方法在不同領域間遷移的有效性。通過將Cityscapes中的圖像作為風格圖,GTA游戲場景數(shù)據(jù)中的圖作為內容圖,并利用在Cityscapes上訓練的PSPNet來進行語義風格。研究結果顯示,進行風格遷移后的圖像具有比原圖更好的語義分割效果。
這也為低成本獲取語義分割數(shù)據(jù)集訓練提供了可行的手段。
-
編碼器
+關注
關注
45文章
3643瀏覽量
134531 -
神經(jīng)網(wǎng)絡
+關注
關注
42文章
4771瀏覽量
100777 -
英偉達
+關注
關注
22文章
3776瀏覽量
91114
原文標題:NVIDIA研究人員提出新的風格遷移算法,可大幅提高風格遷移的效率,同時實現(xiàn)任意圖片的風格轉換
文章出處:【微信號:thejiangmen,微信公眾號:將門創(chuàng)投】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論