編者按:如今,社交網(wǎng)絡將全球各地的人們緊密聯(lián)系在了一起,雖然這確實帶來了極大的便利,但它也成了不良信息的發(fā)育土壤,比如散布黃圖。月前,F(xiàn)acebook曾向用戶征集裸照,用于訓練模型以屏蔽和用戶相關(guān)的不雅照片,此舉引發(fā)巨大社會反響。而近期,巴西名校里約熱內(nèi)盧天主教大學的幾位研究人員開發(fā)了一個自動給裸露人體穿上比基尼的模型:把別人脫下的衣服,一件件穿了回去。
現(xiàn)在,借助互聯(lián)網(wǎng)的可訪問性和信息的廣泛傳播性,人們獲取各種內(nèi)容的簡易程度堪稱前所未有。雖然這帶來了不少好處,但也暴露了一個事實——部分用戶的隱私信息正在被大肆傳播,比如個人不雅照。
當然,我們不排除社交網(wǎng)絡上存在愿意暴露自己身體的網(wǎng)友,但在缺乏管制和約束的環(huán)境下,一些未經(jīng)本人同意,甚至本人都不知道的圖像也會出現(xiàn)在網(wǎng)絡中,給當事人造成惡劣影響。雖然各國成人信息監(jiān)管由來已久,但這些審查工作至今都還是簡單的二元分類:“忽略”,還是“不忽略”?在這種情況下,受害者的權(quán)益沒法得到保障。
更有甚者,據(jù)澳大利亞伯內(nèi)特的一項統(tǒng)計顯示,92.2%的受訪男孩和62.1%的受訪女孩在18歲以前就已經(jīng)在網(wǎng)上接觸過色情內(nèi)容,首次接觸的中位年齡只有14歲。這些流傳于社交網(wǎng)絡的不良信息正在荼毒我們的下一代,而審查機制不合理(全年齡環(huán)境下)是一個主因。
在這篇論文中,研究人員介紹了一種新的成人信息審查方法:用自動過濾敏感內(nèi)容取代檢測、排除已識別內(nèi)容。他們開發(fā)了一種基于GAN的圖到圖轉(zhuǎn)換方法,可以檢測出圖片中的敏感區(qū)域,在覆蓋它們的同時保留其語義。
簡單來講,就是用穿衣服取代打馬賽克,模型不用學會識別什么是胸部,什么是臀部,它只需要學會判斷哪里是敏感部位,只要這些部位是裸的,它就可以生成符合形狀的布料。
具體方法
因為目標是把裸女轉(zhuǎn)成穿著比基尼女郎,首先,研究人員從網(wǎng)上抓取了兩類圖像:***女性(X)和穿著比基尼的女性(Y)。他們對圖像進行了過濾,一張臉只保留一張圖,這是訓練模型所使用的數(shù)據(jù)集(數(shù)據(jù)集會公開,但由于雙盲評審,鏈接被隱去)。
在摘要中,他們稱即便數(shù)據(jù)集很小,模型的效果也很理想。所以把數(shù)據(jù)集進一步分為訓練集(90%)和測試集(10%)后,對于圖像X,他們有1044張訓練圖像和117張測試圖像;對于圖像Y,他們有921張訓練圖像和103張測試圖像。
圖像到圖像轉(zhuǎn)換是一類經(jīng)典計算機視覺問題,按照一般方法,研究人員需要對齊訓練集圖像,讓模型學習輸入圖像和輸出圖像之間的映射。但在這個問題下找到成對圖像基本是不可能的,他們沒有那個條件去找一千多個模特專門拍攝。如上圖所示,最終他們受Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks這篇論文啟發(fā),用對抗訓練學習域之間的真實映射。
具體而言,這個框架由兩個映射生成器(G:X→Y、F:Y→X)和兩個判別器(DX、DY)組成:
生成器G:把真實裸女圖像{x}轉(zhuǎn)成比基尼女郎偽圖{y?};
生成器F:把真實比基尼女郎圖像{y}轉(zhuǎn)成裸女偽圖{x?};
判別器DX:區(qū)分裸女真圖{x}和裸女偽圖{F (y)} = {x?};
判別器DY:區(qū)分比基尼女郎真圖{y}和比基尼女郎偽圖{y?}。
訓練完成后,生成器就能生成能騙過判別器的圖像,也就是為裸女“穿”上衣服。模型使用的是LSGANs的損失函數(shù),因為它比原始GAN的函數(shù)更穩(wěn)健,具體細節(jié)論文中有明確寫明,此處不再介紹。
實驗結(jié)果
研究人員在實驗中測試了不同架構(gòu)生成器的效果,用的模型分別是ResNet和U-Net,他們也測試了不同深度對判別器的影響。下圖是模型在原數(shù)據(jù)集上的效果:第一行是裸女原圖,第二行是ResNet生成器的結(jié)果,第三行是U-Net生成器結(jié)果。
可以發(fā)現(xiàn),雖然使用U-Net生成器的模型(第三行)為敏感部位打上了“馬賽克”,但它們整體上失真嚴重,不能被視為“比基尼”。而使用ResNet生成器的模型效果更好,比基尼更美觀,覆蓋范圍也更準確,圖像質(zhì)量更高。
在訓練過程中,研究人員發(fā)現(xiàn)模型有時會試圖在圖像主體(人)和圖像背景間建立聯(lián)系,這顯然是誤入歧途。因此他們用Mask R-CNN截取任務輪廓,制作了一個空白背景數(shù)據(jù)集重新訓練模型。從理論上來講,通過使用“無背景”圖像,神經(jīng)網(wǎng)絡可以更專注于當前任務,而不受嘈雜的背景影響。
如上圖所示,無背景下,兩個模型的結(jié)果比之前好了一點,但相比U-Net生成器,ResNet生成器還是顯示出了明顯的優(yōu)勢。此外,他們還對模型的穩(wěn)健性進行了測試:輸入一張比基尼女郎圖后,生成器F輸出了和原圖非常相近的圖像,并沒有做太多更改——這意味著模型在沒有胸部、臀部語義認知的情況下,真正學會了識別敏感區(qū)域。
小結(jié)
看罷全文,相信有讀者會提出質(zhì)疑:近幾年學界發(fā)表了不少去馬賽克的成果,這種技術(shù)和打馬賽克又有多大區(qū)別?
總的來說,區(qū)別還是很明顯的,至少比基尼女郎比馬賽克更美觀,從某種程度上來說也更少兒皆宜。再者說,不用考慮超分辨率去馬賽克,整個模型是一體的,既然生成器G可以生成逼真比基尼女郎圖像,同理,生成器F也能把比基尼給“脫”了,這在論文中有圖文介紹,所以想還原不是沒有辦法。
但需要注意的是,這種技術(shù)的本意是改進現(xiàn)有成人信息審查機制,讓更多不該看到這類信息的人沒有機會接觸不良信息,尤其是青少年和兒童。這也保護了不雅照泄露者的權(quán)益,避免網(wǎng)絡傳播給他們造成二次傷害。從根本上說,它無法真正制止犯罪和侵權(quán),但它能反映一種進步。
如果要說缺點,除了圖像質(zhì)量不高,論文作者給的圖像測試也不具典型性,因為侵權(quán)圖像涉及大量偷拍內(nèi)容,而論文中的裸女照片都像模特擺拍,因此數(shù)據(jù)集還有待擴充。此外,數(shù)據(jù)集中也應該增加男性內(nèi)容。
-
圖像
+關(guān)注
關(guān)注
2文章
1085瀏覽量
40490 -
GaN
+關(guān)注
關(guān)注
19文章
1943瀏覽量
73585 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1208瀏覽量
24725
原文標題:用GAN過濾圖像敏感區(qū)域:為裸女“穿”上比基尼
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論