通過(guò)對(duì)視野內(nèi)景物位置關(guān)系的描寫(xiě),一幅登高遠(yuǎn)眺的秋色美景圖宛在眼前。而在計(jì)算機(jī)視覺(jué)領(lǐng)域,這幾句詩(shī)其實(shí)體現(xiàn)了場(chǎng)景內(nèi)物體之間的關(guān)系,對(duì)于場(chǎng)景理解的重要性。
今天,來(lái)自中科院信息工程研究所的劉偲副研究員,將從生成對(duì)抗網(wǎng)絡(luò)(GAN)講起,講述如何通過(guò)對(duì)場(chǎng)景內(nèi)物體及物體之間關(guān)系的梳理,讓機(jī)器“析毫剖厘”,以實(shí)現(xiàn)對(duì)場(chǎng)景的理解以及對(duì)圖像的編輯。
圖像理解與編輯涉及兩方面的內(nèi)容:首先獲取圖像中蘊(yùn)含的豐富信息,然后按照需求對(duì)圖像進(jìn)行編輯。下圖展示了圖像理解問(wèn)題的具體示例,對(duì)于某個(gè)場(chǎng)景,我們提取圖像中的背景,如墻壁、桌椅等物體的信息,也可以解析圖像中的重要元素——人,即對(duì)人的身體、服飾等部件進(jìn)行分類、分割,進(jìn)一步的還可對(duì)人臉進(jìn)行解析,定位頭發(fā)、五官等部位。圖像理解與編輯具有廣泛的應(yīng)用場(chǎng)景,比如自動(dòng)駕駛、娛樂(lè)產(chǎn)品、視頻監(jiān)控和增強(qiáng)現(xiàn)實(shí)等方面。
本文將主要介紹以人為主體目標(biāo)的圖像理解與編輯任務(wù)。首先介紹人臉編輯。在圖像編輯方面,生成對(duì)抗網(wǎng)絡(luò)(GAN)發(fā)揮著重要的作用,所以這里首先介紹一下GAN的基本原理以及當(dāng)前的主要發(fā)展方向。GAN由Ian Goodfellow在2014年提出,采用了兩個(gè)網(wǎng)絡(luò)相互對(duì)抗的訓(xùn)練模式,已成為生成模型中里程碑式的工作。GAN包含生成網(wǎng)絡(luò)G和判別網(wǎng)絡(luò)D,G生成數(shù)據(jù),D判斷數(shù)據(jù)是否來(lái)自真實(shí)的數(shù)據(jù)。在訓(xùn)練時(shí),G盡可能生成的數(shù)據(jù)迷惑D,而D盡可能區(qū)分出數(shù)據(jù)是否來(lái)自真實(shí)的分布,通過(guò)這種對(duì)抗式學(xué)習(xí),模型最終能夠生成非常真實(shí)的圖片。這一工作也得到了Yann Lecun的高度評(píng)價(jià),被其稱為近十年來(lái)機(jī)器學(xué)習(xí)領(lǐng)域中最有趣的想法之一。
從2014年GAN的提出,實(shí)現(xiàn)了從噪聲生成圖片功能后,生成對(duì)抗網(wǎng)絡(luò)的研究方向越來(lái)越多。原始的GAN只是從隨機(jī)噪聲生成圖像,缺少對(duì)生成圖片的控制,所以緊隨其后就有研究者提出了Conditional Generative Adversarial Nets。其通過(guò)改變輸入條件,可以控制圖片的生成結(jié)果。同時(shí),以DCGAN為代表的一系列工作探索了適用于GAN的網(wǎng)絡(luò)結(jié)構(gòu)。也有研究者為了解決模式坍塌等問(wèn)題,提出了更多的網(wǎng)絡(luò)形式進(jìn)行對(duì)抗學(xué)習(xí)的研究,如GMAN。 修正GAN的對(duì)抗損失函數(shù)的工作也在一直進(jìn)行中,WGAN是其中非常引人矚目的工作。此外,要擬合真實(shí)數(shù)據(jù)背后的分布度量,常常需要對(duì)D網(wǎng)絡(luò)進(jìn)行正則化, SN-GAN提出的譜歸一化是其中的代表性工作,其可在IMAGENET數(shù)據(jù)庫(kù)上訓(xùn)練成功,生成1000類的圖像。最后,提高大圖像的生成質(zhì)量也是GAN的一個(gè)重點(diǎn)的研究方向。英偉達(dá)提出的PG-GAN即是這樣的工作,可以生成1024x1024的高清真實(shí)圖像。
總而言之,GAN由最開(kāi)始的隨機(jī)噪聲生成圖片,逐漸在眾多領(lǐng)域得到發(fā)展。有研究者使用GAN研究半監(jiān)督學(xué)習(xí)問(wèn)題,也有研究者進(jìn)行圖像到圖像的生成探索,如給定輪廓圖生成正常的圖片,另外還有文本到圖像的生成以及域自適應(yīng)任務(wù)。域自適應(yīng)任務(wù)旨在提升模型對(duì)跨域數(shù)據(jù)的泛化能力,如在一個(gè)數(shù)據(jù)集上訓(xùn)練好圖像分析的模型,通過(guò)域適應(yīng)的方法,在其他不同的數(shù)據(jù)集上仍然能夠表現(xiàn)出較強(qiáng)的能力。此外還有人用GAN來(lái)做對(duì)抗樣本的攻防,旨在解決生成模型的正確性和安全性的問(wèn)題。
基于GAN,在人臉圖像編輯方面,我們課題組主要進(jìn)行了智能美妝方面的研究,屬于圖像到圖像的生成領(lǐng)域的探索。首先我們構(gòu)建了一個(gè)較大的美妝數(shù)據(jù)庫(kù),包括東方風(fēng)格和西方風(fēng)格的子數(shù)據(jù)庫(kù)。東方風(fēng)格包括復(fù)古妝、韓妝、日妝、素顏和煙熏妝,西方風(fēng)格包括彩妝、素顏和煙熏妝。如圖所示,每種妝容都有明確的定義。
除數(shù)據(jù)庫(kù)外,我們基于生成對(duì)抗網(wǎng)絡(luò)對(duì)智能美妝模型做了一定的改進(jìn),這項(xiàng)工作目前還在進(jìn)行中。具體包括兩方面改進(jìn),第一基于大規(guī)模的人臉數(shù)據(jù)庫(kù)輔助生成更高質(zhì)量的美妝圖像,目前是基于20萬(wàn)張的celebA人臉圖像數(shù)據(jù),選取包括是否為濃妝在內(nèi)的總共三個(gè)人臉相關(guān)的屬性,利用粗標(biāo)注數(shù)據(jù)庫(kù)完成智能美妝任務(wù)的輔助訓(xùn)練,從而使美妝屬性的編輯更加細(xì)致。此外我們提出了新的網(wǎng)絡(luò)結(jié)構(gòu)。因?yàn)槿四樉庉嬋蝿?wù)更多是人臉的微調(diào),希望化完妝人的身份信息保持不變,我們的網(wǎng)絡(luò)強(qiáng)調(diào)保持妝前妝后基本一致,更好的保持了圖像的主體信息,更專注地編輯妝容條件。
觀察實(shí)驗(yàn)結(jié)果,各種妝容的編輯結(jié)果比較真實(shí)、自然,沒(méi)有明顯的網(wǎng)格。各種妝容的特點(diǎn)也比較明顯,如亞洲風(fēng)格妝容中復(fù)古妝的腮紅、韓妝漸變的咬唇妝,比較淡的日妝以及特征明顯的素顏和煙熏妝,同樣歐美風(fēng)格的妝容也有較好的編輯效果。值得一提的是,由于素顏類別的存在,我們的方法也可以實(shí)現(xiàn)卸妝的功能。
針對(duì)人臉編輯的另一個(gè)應(yīng)用是人臉老化。下圖中間是當(dāng)前給定圖片,通過(guò)人臉老化算法可以生成7個(gè)不同年齡段的人臉圖像,即可以變年輕如10歲以下,也可以變老如一直到60歲以上。它的應(yīng)用很廣泛,比如可以輔助跨年齡段的人臉識(shí)別。身份證照片常常是很多年前拍攝的,長(zhǎng)時(shí)間沒(méi)有更新導(dǎo)致人證對(duì)比存在一定的難度,那么此時(shí)人臉老化的就可以輔助身份證的人證識(shí)別。另外比較有用的應(yīng)用是尋找丟失的兒童,比如小孩走丟了,只有他很小的照片,人臉老化可以輔助生成長(zhǎng)大后的樣子,我們希望可以通過(guò)這樣的算法,能夠?qū)崿F(xiàn)跨年齡的身份識(shí)別。此外人臉老化編輯還可以應(yīng)用到互動(dòng)娛樂(lè)應(yīng)用中。
我們提出的方法也是基于GAN的。在傳統(tǒng)的conditional GAN的基礎(chǔ)上,我們綜合考慮了不同年齡段人臉的形狀和紋理變化。具體實(shí)現(xiàn)細(xì)節(jié)可參考我們的相關(guān)論文。下圖是我們的結(jié)果,第一列是原始圖片,右邊七列分別是不同年齡條件下的生成結(jié)果??梢钥吹侥挲g較小時(shí),臉型都相對(duì)較小,皮膚也很光滑,而從30歲到60歲,胡子越來(lái)越白,同時(shí)會(huì)出現(xiàn)魚(yú)尾紋或者皺紋。例如第四行輸入是一個(gè)老太太,模型能夠生成她比較小的樣子,皮膚非常光滑,同時(shí)很像這個(gè)人。
接下來(lái)介紹整個(gè)框架第二部分,就是人的部分。人體解析定義是這樣的,給定一張圖,去解析人的頭發(fā)、人臉、胳膊(手)等部位,以及上衣、褲子、鞋等衣著。人體解析的相關(guān)工作非常多,由于篇幅限制不再詳細(xì)說(shuō)明。而數(shù)據(jù)集方面主要是中山大學(xué)發(fā)表在CVPR2017上的Look into person,它應(yīng)該是目前最大的人體解析數(shù)據(jù)庫(kù)。
我們?cè)谌梭w解析方面的最新研究是有關(guān)跨域人體解析。因?yàn)楸热缦朐诙鄠€(gè)城市建立圖像分析系統(tǒng),不可能在每個(gè)場(chǎng)景都標(biāo)注很多數(shù)據(jù),但是不同應(yīng)用場(chǎng)景很多條件確實(shí)不一樣。所以我們希望一旦建立了較好的模型,通過(guò)跨域的方法,該模型放在其他的特定場(chǎng)景中也可以使用。比如數(shù)據(jù)庫(kù)標(biāo)了很細(xì)致像素級(jí)的分類,這些庫(kù)姿態(tài)多變,光照很多,數(shù)據(jù)量大。我們?cè)趯?shí)際應(yīng)用的時(shí)候,比如想應(yīng)用在室內(nèi)餐廳,或者室外街道,這種情況下重新標(biāo)注數(shù)據(jù)的代價(jià)是非常大的,而直接使用預(yù)先訓(xùn)好的模型效果又不是特別好。我們想研究的就是已經(jīng)訓(xùn)練好的模型怎么使用。
跨域?qū)W習(xí)是近年來(lái)的一個(gè)研究熱點(diǎn),相關(guān)論文很多。比如,Ganin等人提出了一種新的基于深度網(wǎng)絡(luò)結(jié)構(gòu)的方法來(lái)做域變換,該方法促進(jìn)網(wǎng)絡(luò)學(xué)習(xí)一種深度特征:既能對(duì)主要的學(xué)習(xí)任務(wù)上得到區(qū)分,又能在不同域之間達(dá)到一致。MY Liu等人提出了一個(gè)耦合生成對(duì)抗網(wǎng)絡(luò)(coupled generative adversarial network, CoGAN)來(lái)學(xué)習(xí)關(guān)于多個(gè)域圖片的聯(lián)合分布。Long等人提出的一種新的深度變換網(wǎng)絡(luò)框架,通過(guò)MK-MMD將適應(yīng)于特定任務(wù)的深度特征進(jìn)行變換,而Chen等人提出了對(duì)抗姿態(tài)網(wǎng)絡(luò),潛在地考慮到了人物的結(jié)構(gòu)。
當(dāng)前已經(jīng)存在的域變換方法,都是單一考慮特征變換或者簡(jiǎn)單地考慮結(jié)構(gòu)性的標(biāo)簽變換,而我們同時(shí)考慮了特征變換和結(jié)構(gòu)性的標(biāo)注變換。首先一方面,每個(gè)域的特征空間是不同的。例如餐廳中的圖片光照比室外中的光照要暗很多,監(jiān)控圖片的視角和手持相機(jī)拍攝也是不同。因此我們通過(guò)對(duì)抗特征變換最小化這種差異。然后另一方面源域和目標(biāo)域中的人物都有著固有的相同點(diǎn),例如人體部件的關(guān)系大概是相同的,左右胳膊、腿分布在身體的兩側(cè)等。因此我們通過(guò)對(duì)抗式結(jié)構(gòu)標(biāo)簽變換來(lái)最大化這種共性。
最后一個(gè)任務(wù)是綜合考慮到人和場(chǎng)景。今年ECCV的一項(xiàng)競(jìng)賽就是我們和奇虎360公司以及新加坡國(guó)立大學(xué)(NUS)一起舉辦的。比賽的主要任務(wù)還是集中于人這一目標(biāo),希望能夠獲取圖像中最重要的元素——人的信息。
Person In Context (PIC) 2018 (http://www.picdataset.com/) 將于2018年9月9日在德國(guó)慕尼黑的ECCV 2018的workshop "1st Person in Context (PIC) Workshop and Challenge" 上舉辦。我們從真實(shí)場(chǎng)景收集了約1.5萬(wàn)張圖像,平均每張圖包含4個(gè)人。這些圖像包含復(fù)雜的人的姿態(tài)、豐富的拍攝視角、不同程度的遮擋和圖像分辨率。每一張圖片都包含了人和物體像素級(jí)別的語(yǔ)義分割、場(chǎng)景分割以及人和人/物體的關(guān)系標(biāo)注。在客觀世界不計(jì)其數(shù)的類別中,人是最特殊的一類。因此本競(jìng)賽在任務(wù)設(shè)定過(guò)程中,著重考量了以人為中心的關(guān)系分割 (relation segmentation)。傳統(tǒng)的關(guān)系預(yù)測(cè),比如Visual Genome,以及Google 的Open Image Challenge 的關(guān)系都是定義在矩形框(bounding box)上的。PIC競(jìng)賽的特別之處是,其關(guān)系是定義在分割區(qū)域(segmentation)上的。
以人為中心的關(guān)系分割包括該人的和周圍物體的動(dòng)作關(guān)系、位置關(guān)系等。以左圖為例,人A在人B的旁邊。再比如右圖,人A在人C的后面。關(guān)系分割的形式是<主語(yǔ),關(guān)系,賓語(yǔ)> 形式的三元組。值得一提的是,關(guān)系都是建立在人和物體的場(chǎng)景像素級(jí)別分割之上的。
以下為數(shù)據(jù)庫(kù)的標(biāo)注展示,可以看到該數(shù)據(jù)庫(kù)涵蓋了豐富的全景分割和關(guān)系分割。
上圖是PIC跟現(xiàn)有數(shù)據(jù)庫(kù)的區(qū)別。Visual Genome是知名的關(guān)系數(shù)據(jù)庫(kù)。其關(guān)系是定義在bounding-box上,PIC庫(kù)的關(guān)系是定義在像素級(jí)別的分割之上。這種更細(xì)粒度的標(biāo)注,使得定義的關(guān)系更為精確,也更符合實(shí)際應(yīng)用的要求。
我們競(jìng)賽時(shí)間安排及競(jìng)賽信息如下,同時(shí)我們還提供了眾多顯卡作為競(jìng)賽獎(jiǎng)品。冠軍隊(duì)伍可以獲得2塊TitanV 顯卡。
總結(jié)一下,我們的工作由小及大,包含了人臉,人以及人-物關(guān)系三個(gè)層面的內(nèi)容。我們會(huì)在這些領(lǐng)域繼續(xù)進(jìn)行探索。
-
圖像
+關(guān)注
關(guān)注
2文章
1088瀏覽量
40515 -
GaN
+關(guān)注
關(guān)注
19文章
1952瀏覽量
73789
原文標(biāo)題:讓機(jī)器“析毫剖厘”:圖像理解與編輯|VALSE2018之三
文章出處:【微信號(hào):deeplearningclass,微信公眾號(hào):深度學(xué)習(xí)大講堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論