【導(dǎo)讀】神經(jīng)網(wǎng)絡(luò)黑盒怎么解釋?馬里蘭大學(xué)和NYU研究人員開(kāi)啟了新的嘗試。
AI黑盒如何才能解? 神經(jīng)網(wǎng)絡(luò)模型在訓(xùn)練的時(shí),會(huì)有些ReLU節(jié)點(diǎn)「死亡」,也就是永遠(yuǎn)輸出0,不再有用。 它們往往會(huì)被被刪除或者忽略。 恰好趕上了模糊了生與死的界限的節(jié)日——萬(wàn)圣節(jié),所以這是探索那些「死節(jié)點(diǎn)」的好時(shí)機(jī)。
對(duì)于大多數(shù)圖像生成模型來(lái)說(shuō),會(huì)輸出正面的圖像。但是優(yōu)化算法,可以讓模型生成更多詭異、恐怖的圖像。 就拿CLIP模型來(lái)說(shuō),可以衡量一段文本和一張圖片的匹配程度。 給定一段描述怪誕場(chǎng)景的文本,使用優(yōu)化算法通過(guò)最小化CLIP的損失,來(lái)生成一張與這段文本匹配的、嚇人的圖片。
當(dāng)你不斷探索損失函數(shù)的最深最恐怖的區(qū)域,就像進(jìn)入了一個(gè)瘋狂的狀態(tài)。 就會(huì)發(fā)現(xiàn)這些詭異圖片超乎想象。 最重要的是,它們僅僅是通過(guò)CLIP模型優(yōu)化生成,并沒(méi)有借助其他的模型。
優(yōu)化算法,可以讓我們對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行「解剖」,特征可視化(feature visualization)可以找到一個(gè)最大激活單個(gè)神經(jīng)元的圖像。 吳恩達(dá)和Jeff Dean曾在2012年就ImageNet圖像分類模型上做過(guò)這樣的實(shí)驗(yàn),并發(fā)現(xiàn)了一個(gè)對(duì)黑色貓有響應(yīng)的神經(jīng)元。 對(duì)此,來(lái)自馬里蘭大學(xué)和NYU的研究人員使用「特征可視化」來(lái)剖析CLIP模型,發(fā)現(xiàn)了一個(gè)非常令人不安的神經(jīng)元: 完全是一個(gè)類似骷髏頭的圖像。
但它真的是「骷髏頭神經(jīng)元」嗎?顯然不是,實(shí)際上它代表的是某種更加神秘、難以解釋的模式。 究竟怎么回事?
模型反轉(zhuǎn),卷積網(wǎng)ViT不適用
想要解釋AI生成的圖像,需要用到的一種手段——模型反轉(zhuǎn)(model inversion)。
「模型反轉(zhuǎn)」是可視化和解釋神經(jīng)架構(gòu)內(nèi)部行為、理解模型學(xué)到的內(nèi)容,以及解釋模型行為的重要工具。 一般來(lái)說(shuō),「模型反轉(zhuǎn)」通常尋找可以激活網(wǎng)絡(luò)中某個(gè)特征的輸入(即特征可視化),或者產(chǎn)生某個(gè)特定類別的高輸出響應(yīng)(即類別反轉(zhuǎn))。 然鵝,神經(jīng)網(wǎng)絡(luò)架構(gòu)不斷發(fā)展,為現(xiàn)有的「模型反轉(zhuǎn)」方案帶來(lái)了重大挑戰(zhàn)。 卷積網(wǎng)長(zhǎng)期以來(lái),一直是CV任務(wù)的默認(rèn)方法,也是模型反轉(zhuǎn)領(lǐng)域研究的重點(diǎn)。 隨著Vision Transformer(ViT)、MLP-Mixer、ResMLP等其他架構(gòu)的出現(xiàn),大多數(shù)現(xiàn)有的模型反轉(zhuǎn)方法不能很好地應(yīng)用到這些新結(jié)構(gòu)上。
總而言之,當(dāng)前需要研發(fā)可以應(yīng)用到新結(jié)構(gòu)上的模型反轉(zhuǎn)方法。 對(duì)此,馬里蘭和NYU研究人員將關(guān)注點(diǎn)放在了「類反轉(zhuǎn)」(class inversion)。 目標(biāo)是,在不知道模型訓(xùn)練數(shù)據(jù)的情況下,找到可以最大化某個(gè)類別輸出分?jǐn)?shù)的可解釋圖像。 類反轉(zhuǎn)已在模型解釋、圖像合成等任務(wù)中應(yīng)用,但是存在幾個(gè)關(guān)鍵缺陷:生成圖像質(zhì)量對(duì)正則化權(quán)重高度敏感;需要批標(biāo)準(zhǔn)化參數(shù)的方法不適用于新興架構(gòu)。 研究人員再此提出了基于數(shù)據(jù)增強(qiáng)的類反轉(zhuǎn)方法——Plug-In Inversion(PII)。
論文地址:https://arxiv.org/pdf/2201.12961.pdf PII的好處在于不需要明確的正則化,因此不需要為每個(gè)模型或圖像實(shí)例調(diào)節(jié)超參數(shù)。 實(shí)驗(yàn)結(jié)果證明,PII可以使用相同的架構(gòu)無(wú)關(guān)方法和超參數(shù)反轉(zhuǎn)CNN、ViT和MLP架構(gòu)。
全新類反轉(zhuǎn)——PII
此前,關(guān)于類反轉(zhuǎn)的研究,常常使用抖動(dòng)之類的增強(qiáng)功能。 它會(huì)在水平和垂直方向上隨機(jī)移動(dòng)圖像,以及水平Ips來(lái)提高反轉(zhuǎn)圖像的質(zhì)量。 在最新研究中,作者探討了有利于反轉(zhuǎn)的其他增強(qiáng),然后再描述如何將它們組合起來(lái)形成PII算法。限制搜索空間作者考慮2種增強(qiáng)方法來(lái)提高倒置圖像的空間質(zhì)量——居中(Centering)和縮放(Zoom)。 這些方法的設(shè)計(jì)基于這樣的假設(shè):限制輸入優(yōu)化空間,可以得到更好的特征布局。 兩種方法都從小尺寸開(kāi)始,逐步擴(kuò)大空間,迫使放置語(yǔ)義內(nèi)容在中心,目的是生成更具解釋性和可識(shí)別性的反轉(zhuǎn)圖像。 圖1和圖2分別顯示了,居中和縮放過(guò)程中每個(gè)步驟測(cè)圖像狀態(tài)。
ColorShift增強(qiáng)之前展示的反轉(zhuǎn)圖像,顏色看起來(lái)很不自然。 這是由于研究人員現(xiàn)在提出的一種全新增強(qiáng)方法——ColorShift造成的。 ColorShift是隨機(jī)擾動(dòng)每個(gè)顏色通道的平均值和方差,改變圖像顏色,目的是生成更豐富多樣的反轉(zhuǎn)圖像顏色。 下圖,作者可視化了ColorShift的穩(wěn)定效果。
集成集成是一種成熟的工具,經(jīng)常用于從增強(qiáng)推理到數(shù)據(jù)集安全等應(yīng)用程序。 研究人員發(fā)現(xiàn),優(yōu)化由同一圖像的不同ColorShift組成的整體,可以同時(shí)提高反轉(zhuǎn)方法的性能。 圖4顯示了與ColorShift一起應(yīng)用集成的結(jié)果。 可以觀察,到較大的集成似乎給出了輕微的改進(jìn),但即使是大小為1或2的集成,也能產(chǎn)生令人滿意的結(jié)果。 這對(duì)于像ViT這樣的模型很重要,因?yàn)榭捎玫?a href="http://www.wenjunhu.com/tags/gpu/" target="_blank">GPU內(nèi)存限制了該集合的可能大小。
到這里,你就明白什么是PII了,即結(jié)合了抖動(dòng)、集成、ColorShift、居中和縮放技術(shù),并將結(jié)果命名為「插件反轉(zhuǎn)」。 它可以應(yīng)用到任何可微分模型(包括ViT和MLP),只需要一組固定超參數(shù)。
多種網(wǎng)絡(luò)架構(gòu)適用
那么,PII效果究竟如何? 實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),PII可以應(yīng)用于不同的模型。需要強(qiáng)調(diào)是的是,研究者在所有情況下都對(duì)PII參數(shù)使用相同的設(shè)置。 圖6中,描繪了通過(guò)反轉(zhuǎn)各種架構(gòu)的Volcano類生成的圖像,包括CNN、ViT和MLP的示例。
雖然不同神經(jīng)網(wǎng)絡(luò)的圖像質(zhì)量有所不同,但它們都包含可區(qū)分,且位置恰當(dāng)?shù)囊曈X(jué)信息。 在圖7中,研究人員還顯示了PII從幾個(gè)任意ImageNet類的每種主要架構(gòu)類型的代表生成的圖像。 可以看到,每行有獨(dú)特視覺(jué)風(fēng)格,說(shuō)明模型反轉(zhuǎn)可以用來(lái)理解不同模型的學(xué)習(xí)信息。
在圖8中,作者使用PII來(lái)反轉(zhuǎn)在ImageNet上訓(xùn)練,并在CIFAR-100上進(jìn)行微調(diào)的ViT模型。
圖9顯示了在CIFAR-10上微調(diào)的模型的反轉(zhuǎn)結(jié)果。
為了定量評(píng)估全新方法,作者反轉(zhuǎn)預(yù)訓(xùn)練的ViT模型和預(yù)訓(xùn)練的ResMLP模型,使用PII為每個(gè)類生成一張圖像,并使用DeepDream執(zhí)行相同的操作。 然后使用各種預(yù)訓(xùn)練的模型對(duì)這些圖像進(jìn)行分類。 表1包含這些模型的平均top-1和top-5分類精度,以及每種方法生成的圖像的初始分?jǐn)?shù)。
圖10顯示了PII和DeepInversion生成的一些任意類別的圖像。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4773瀏覽量
100889 -
AI
+關(guān)注
關(guān)注
87文章
31097瀏覽量
269423 -
模型
+關(guān)注
關(guān)注
1文章
3261瀏覽量
48912 -
Clip
+關(guān)注
關(guān)注
0文章
31瀏覽量
6673
原文標(biāo)題:AI生圖太詭異?馬里蘭&NYU合力解剖神經(jīng)網(wǎng)絡(luò),CLIP模型神經(jīng)元形似骷髏頭
文章出處:【微信號(hào):CVSCHOOL,微信公眾號(hào):OpenCV學(xué)堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論