即將在6月美國鹽湖城舉行的計算機視覺頂級會議CVPR 2018,騰訊優(yōu)圖的其中兩篇入選論文,由于其較高的應(yīng)用價值,受到學(xué)術(shù)界和產(chǎn)業(yè)界的關(guān)注。
作為計算機視覺領(lǐng)域最高級別的會議之一的CVPR,其論文集通常代表著計算機視覺領(lǐng)域最新的發(fā)展方向和水平。
騰訊優(yōu)圖多篇論文被CVPR2018收錄,其中基于尺度迭代深度神經(jīng)網(wǎng)絡(luò)的圖像去模糊算法(“Scale-recurrentNetwork for Deep Image Deblurring”),介紹了AI技術(shù)在處理非特定場景圖片去模糊中的應(yīng)用,和通過Facelet-Bank進行快速肖像處理(Facelet-BankforFastPortraitManipulation),介紹了用AI技術(shù)快速處理肖像的應(yīng)用,這兩項技術(shù),解決了長期困擾圖片處理中的一些難題,因為極大的應(yīng)用價值而受到產(chǎn)業(yè)界和關(guān)注。
解密運動模糊:走向?qū)嵱玫姆翘囟▓鼍皥D片去模糊技術(shù)
在慢速曝光或快速運動拍攝照片時,圖像模糊常常困擾著照片拍攝者。優(yōu)圖實驗室的研究人員開發(fā)了可以恢復(fù)模糊圖像的有效新算法。
在此之前,圖像去模糊一直是圖像處理中困擾業(yè)界的難題。 圖像模糊產(chǎn)生的原因可能非常復(fù)雜。比如,相機晃動,失焦,拍攝物體高速運動等等?,F(xiàn)有的圖片編輯軟件中的工具通常不盡如人意,例如,Photoshop CC中的“相機抖動還原”工具,只能處理簡單的相機平移抖動模糊。 這種類型的模糊在計算機視覺業(yè)內(nèi)被稱為“均勻模糊”。而大部分模糊圖片并不是“均勻模糊”的,因而現(xiàn)有圖片編輯軟件的應(yīng)用十分有限。
模糊的照片
去模糊后的照片
騰訊優(yōu)圖實驗室的新算法,可以處理非特定場景中的圖片模糊。算法基于一種被稱為“動態(tài)模糊”的模糊模型假設(shè)。它為每個像素的運動單獨建模,因而可以處理幾乎所有類型的運動模糊。比如,上圖中,由于相機抖動而產(chǎn)生的平移和旋轉(zhuǎn),每個人物的運動軌跡都不相同。經(jīng)過騰訊優(yōu)圖實驗室的新算法處理后,圖片已經(jīng)恢復(fù)到幾乎完全清晰,甚至背景中的書籍上的字也清晰可辨。
據(jù)騰訊優(yōu)圖實驗室的研究員介紹,騰訊優(yōu)圖采用的方法采用的基本技術(shù)是深度神經(jīng)網(wǎng)絡(luò)。在經(jīng)歷了對數(shù)千對模糊/清晰的圖像組的處理訓(xùn)練后,強大的神經(jīng)網(wǎng)絡(luò)自動學(xué)習(xí)了如何將模糊的圖像結(jié)構(gòu)清晰化。
盡管使用神經(jīng)網(wǎng)絡(luò)進行圖片去模糊并不是一個新想法,但騰訊優(yōu)圖實驗室別出心裁的將物理直覺結(jié)合進來以促進模型訓(xùn)練。在騰訊優(yōu)圖實驗室新算法的論文中,其網(wǎng)絡(luò)模仿了一種被稱為“由粗到精”的成熟的圖像恢復(fù)策略。該策略首先將模糊圖像縮小成多種尺寸,然后從比較容易恢復(fù)的較小而偏清晰的圖像出發(fā),逐步處理更大尺寸的圖片。每一步中產(chǎn)生的清晰圖像則可以進一步引導(dǎo)更大的圖像的恢復(fù),降低了網(wǎng)絡(luò)訓(xùn)練的難度。
AI肖像藝術(shù)家:以干凈優(yōu)雅的方式快速處理人像屬性
修改人像照片中的臉部屬性(不僅是美化)非常困難。藝術(shù)家通常需要對人像做很多層面上的處理才能使得修改后的圖像自然美觀。 AI可以接管這些復(fù)雜的操作嗎?
來自賈佳亞教授領(lǐng)導(dǎo)的騰訊優(yōu)圖實驗室的研究人員提出了“自動人像操縱”的最新模型。借助此模型,用戶只需簡單地提供所需效果的高級描述,模型就會根據(jù)命令自動呈現(xiàn)照片,例如,使他變年輕/變老等。
完成這項任務(wù),面臨的主要挑戰(zhàn)是,無法收集到“輸入-輸出”的樣本用于訓(xùn)練。因此,無監(jiān)督學(xué)習(xí)中流行的“生成對抗”網(wǎng)絡(luò)通常用于此任務(wù)。然而,優(yōu)圖團隊提出的這種方法并不依賴于生成對抗網(wǎng)絡(luò)。它通過生成帶噪聲的目標來訓(xùn)練神經(jīng)網(wǎng)絡(luò)。由于深度卷積網(wǎng)絡(luò)的去噪效果,其網(wǎng)絡(luò)的輸出甚至優(yōu)于所學(xué)習(xí)的目標。
“生成對抗網(wǎng)絡(luò)是一個強大的工具,但它很難優(yōu)化,我們希望找到更簡單的方法來解決這個問題,我們希望這項工作不僅能減輕藝術(shù)家的負擔,還能減輕訓(xùn)練模型的工程師的負擔?!彬v訊的研究人員說。
據(jù)介紹,該模型的另一個吸引人的特點是它支持局部模型更新,也就是說,當切換不同的操作任務(wù)時,只需要替換模型的一小部分。這對系統(tǒng)開發(fā)人員十分友好。而且,從應(yīng)用層面,也使得應(yīng)用可以“增量更新”。
即使相片中的人臉沒有裁剪并且很好地對齊,該模型也可以隱式地參加正確的面部區(qū)域。在很多情況下,用戶僅僅將原始照片輸入給模型就足以產(chǎn)生高質(zhì)量的結(jié)果。甚至將視頻一幀一幀地輸入模型中,也可以處理整段視頻中人臉的屬性。
附:除以上兩篇,騰訊優(yōu)圖實驗室其余入選CVPR2018的文章簡介
1、ReferringImageSegmentationviaRecurrentRefinementNetworks
通過循環(huán)神經(jīng)網(wǎng)絡(luò)進行指定圖像指定區(qū)域的語義分割
根據(jù)自然語言的描述來分割圖片的指定區(qū)域是一個充滿挑戰(zhàn)的問題。此前的基于神經(jīng)網(wǎng)絡(luò)的方法通過融合圖像和語言的特征進行分割,但是忽略了多尺度的信息,這導(dǎo)致分割結(jié)果質(zhì)量不高。對此,我們提出了一種基于循環(huán)卷積神經(jīng)網(wǎng)絡(luò)的模型,在每一次迭代過程中加入底層卷積神經(jīng)網(wǎng)絡(luò)的特征來使得網(wǎng)絡(luò)可以逐漸捕獲圖片不同尺度下的信息。我們可視化了模型的中間結(jié)果并且在所有的相關(guān)公開數(shù)據(jù)集中都達到了最佳水平。
2、Weakly SupervisedHuman Body Part Parsing via Pose-Guided Knowledge Transfer
通過由姿態(tài)引導(dǎo)的知識遷移進行弱監(jiān)督及半監(jiān)督的人體部位分割
人體部位解析,或稱人類語義部位分割,是許多計算機視覺任務(wù)的基礎(chǔ)。在傳統(tǒng)的語義分割方法中,我們需要提供手工標注的標簽,以便使用全卷積網(wǎng)絡(luò)(FCN)進行端到端的訓(xùn)練。雖然過去的方法能達到不錯的效果,但它們的性能高度依賴于訓(xùn)練數(shù)據(jù)的數(shù)量和質(zhì)量。
在本文中,我們提出了一種獲得訓(xùn)練數(shù)據(jù)的新方法,它可以使用容易獲得的人體關(guān)鍵點的數(shù)據(jù)來生成人體部位解析數(shù)據(jù)。我們的主要想法是利用人類之間的形態(tài)相似性,將一個人的部位解析結(jié)果傳遞給具有相似姿勢的另一個人。使用我們生成的結(jié)果作為額外的訓(xùn)練數(shù)據(jù),我們的半監(jiān)督模型在PASCAL-Person-Part數(shù)據(jù)集上優(yōu)于強監(jiān)督的方法6個mIOU,并且達到了最好的人類部位解析結(jié)果。我們的方法具有很好的通用性。它可以容易地擴展到其他物體或動物的部位解析任務(wù)中,只要它們的形態(tài)相似性可以由關(guān)鍵點表示。我們的模型和源代碼將在之后公開。
3、Learning DualConvolutional Neural Networks for Low-Level Vision
基于雙層卷積神經(jīng)網(wǎng)絡(luò)處理低層視覺的方法
本文提出了一個雙層卷積神經(jīng)網(wǎng)絡(luò)來處理一些低層視覺問題,比如圖像超分辨率、保邊緣的圖像濾波、圖像去雨、圖像去霧等。這些低層視覺問題通常涉及到目標結(jié)果的結(jié)構(gòu)和細節(jié)部分的估計。受此啟發(fā),本文提出的雙層卷積神經(jīng)網(wǎng)絡(luò)包含兩個分支,其中這兩個分支可端到端的估計目標結(jié)果的結(jié)構(gòu)和細節(jié)信息?;诠烙嫷慕Y(jié)構(gòu)和細節(jié)信息,目標結(jié)果可分別通過特定問題的成像模型來得到。本文所提出的雙層卷積神經(jīng)網(wǎng)絡(luò)是一個一般性的框架,它可以利用現(xiàn)有的卷積神經(jīng)網(wǎng)絡(luò)來處理相關(guān)低層視覺問題。大量的實驗結(jié)果表明,本文所提出的雙層卷積神經(jīng)網(wǎng)絡(luò)可以應(yīng)用于大多數(shù)低層視覺問題,并取得了較好的結(jié)果。
4、GeoNet:GeometricNeuralNetworkforJointDepthandSurfaceNormalEstimation
GeoNet:通過幾何神經(jīng)網(wǎng)絡(luò)進行聯(lián)合的深度和平面法向量估計
在這篇論文中,我們提出了幾何神經(jīng)網(wǎng)絡(luò),用于同時預(yù)測圖片場景的深度和平面法向量。我們的模型基于兩個不同卷積神經(jīng)網(wǎng)絡(luò),通過對幾何關(guān)系的建模來循環(huán)迭代更新深度信息和平面法向量信息,這使得最后的預(yù)測結(jié)果有著極高的一致性和準確率。我們在NYU數(shù)據(jù)集上驗證了我們提出的幾何神經(jīng)網(wǎng)絡(luò),實驗結(jié)果表明我們的模型可以精確預(yù)測出幾何關(guān)系一致的深度和平面法向量。
5、Path AggregationNetwork for Instance Segmentation
通過路徑聚合網(wǎng)絡(luò)進行實例分割
在神經(jīng)網(wǎng)絡(luò)中,信息傳遞的質(zhì)量是非常重要的。在本文中,我們提出了路徑聚合神經(jīng)網(wǎng)絡(luò),旨在提升基于區(qū)域的實例分割框架中信息傳遞的質(zhì)量。具體來講,我們構(gòu)建了自下而上的通路來傳遞儲存在低層神經(jīng)網(wǎng)絡(luò)層中精確的定位信息,縮短了底層網(wǎng)絡(luò)和高層網(wǎng)絡(luò)之間的信息傳輸距離,增強了整個特征層級的質(zhì)量。我們展示了適應(yīng)性特征池化,它連接了區(qū)域特征與所有的特征層級,進而使得所有有用的信息都能夠直接傳遞到后面的區(qū)域子網(wǎng)絡(luò)。我們增加了一個互補的分支去捕捉每個區(qū)域不同的特性,最終提升了掩膜的預(yù)測質(zhì)量。
這些改進十分易于實現(xiàn),而且增加了較少的額外計算量。這些改進幫助我們在2017 COCO實例分割競賽中取得第一名,在物體檢測競賽中取得第二名。而且我們的方法也在MVD和Cityscapes數(shù)據(jù)集中取得最好成績。
6、FSRNet:End-to-EndLearningFaceSuper-ResolutionwithFacialPriors
FSRNet:基于先驗信息的端到端訓(xùn)練的人臉超分辨率網(wǎng)絡(luò)
本文由騰訊優(yōu)圖實驗室與南京理工大學(xué)主導(dǎo)完成,并入選Spotlight文章。人臉超分辨率是一個特定領(lǐng)域的超分辨率問題,其獨特的人臉先驗信息可以用來更好超分辨率人臉圖像。本文提出一種新的端到端訓(xùn)練的人臉超分辨率網(wǎng)絡(luò),通過更好的利用人臉特征點熱度圖和分割圖等幾何信息,在無需人臉對齊的情況下提升非常低分辨率人臉圖像的質(zhì)量。具體來說,本文首先構(gòu)造一個粗粒度超分網(wǎng)絡(luò)恢復(fù)一個粗精度的高分辨率圖像。其次把該圖像分別送入一個細粒度超分編碼器和一個先驗信息估計網(wǎng)絡(luò)兩條分支。細粒度超分編碼器抽取圖像特征,而先驗網(wǎng)絡(luò)估計人臉的特征點和分割信息。最后兩條分支的結(jié)果匯合送入一個細粒度超分解碼器重構(gòu)出最終的高分辨率圖像。
為了進一步生成更真實的人臉,本文提出人臉超分辨率生成對抗網(wǎng)絡(luò),將對抗思想融入超分網(wǎng)絡(luò)中。另外,我們引入人臉對齊和人臉分割兩種相關(guān)任務(wù),作為人臉超分的新的評估準則。這兩種準則克服了傳統(tǒng)準則(比如PSNR/SSIM)在數(shù)值和視覺質(zhì)量不一致的問題。大量實驗顯示,本文提出的方法在處理非常低分辨率人臉圖像時,在數(shù)值和視覺質(zhì)量兩方面都顯著優(yōu)于以往超分方法。
7、Generative AdversarialLearning Towards Fast Weakly Supervised Detection
基于生成對抗學(xué)習(xí)的快速弱監(jiān)督目標檢測
該論文提出一種面向快速弱監(jiān)督目標檢測的生成對抗學(xué)習(xí)算法。近年來弱監(jiān)督目標檢測領(lǐng)域有著大量的工作。在沒有人工標注包圍盒的情況下,現(xiàn)有的方法大多是多階段流程,其中包括了候選區(qū)域提取階段。這使得在線測試的速度比快速有監(jiān)督目標檢測(如SSD、YOLO等)慢一個數(shù)量級。該論文通過一種新穎的生成對抗學(xué)習(xí)算法來加速。在這過程中,生成器是一個單階段的目標檢測器,引入了一個代理器來挖掘高質(zhì)量的包圍盒,同時用判別器來判斷包圍盒的來源。最后算法結(jié)合了結(jié)構(gòu)相似損失和對抗損失來訓(xùn)練模型。實驗結(jié)果表明該算法取得了明顯的性能提升。
8、GroupCap: Group-based Image Captioning with Structured Relevance andDiversity Constraints
基于組群的帶結(jié)構(gòu)化相關(guān)性和差異性約束的圖像自動描述
該論文提出了一種基于組群圖像結(jié)構(gòu)化語義關(guān)聯(lián)性分析的圖像自動描述方法(GroupCap),對圖像間的語義相關(guān)性和差異性進行建模。具體而言,該論文首先利用深度卷積神經(jīng)網(wǎng)絡(luò)提取圖像的語義特征并利用提出的視覺解析模型構(gòu)建語義關(guān)聯(lián)結(jié)構(gòu)樹,然后在結(jié)構(gòu)樹基礎(chǔ)上采用三聯(lián)損失和分類損失對圖像間語義關(guān)聯(lián)性(相關(guān)性和差異性)進行建模,最后將關(guān)聯(lián)性作為約束來引導(dǎo)深度循環(huán)神經(jīng)網(wǎng)絡(luò)生成文本。該方法新穎且有效,很好解決了當前圖像自動描述方法對于生成結(jié)果精確度不高且判別性不強的缺陷,并在圖像自動描述的多項指標上取得較高的性能。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4777瀏覽量
100960 -
圖像
+關(guān)注
關(guān)注
2文章
1088瀏覽量
40515 -
模糊算法
+關(guān)注
關(guān)注
0文章
16瀏覽量
8754
原文標題:CVPR 2018:騰訊圖像去模糊、自動人像操縱最新研究
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論