開門見山。最近閱讀了一篇論文,加上看了一些之前的工作。記錄一下,CNN 到底學(xué)到了什么東西,或者換句話講。到底是什么樣的特征在影響著CNN 的性能?
先放論文:
IMAGENET-TRAINED CNNS ARE BIASED TOWARDS TEXTURE; INCREASING SHAPE BIAS IMPROVES ACCURACY AND ROBUSTNESS
論文地址:
https://openreview.net/pdf?id=Bygh9j09KX
JeremyRifkin 在書《The end of Work》中寫道,“時(shí)至今日,當(dāng)科學(xué)家們探討人工智能時(shí),他們通常是在講一門能執(zhí)行人們所希望機(jī)器表現(xiàn)的智能藝術(shù)”。這是我比較喜歡的關(guān)于人工智能的定義。因?yàn)樗苊饬舜笳勌卣勅缃竦娜斯ぶ悄芗夹g(shù)離真正的智能化有多遠(yuǎn)。而是享受當(dāng)下。不過,作為一名研究人員,我覺得揭開大腦的運(yùn)作原理和創(chuàng)造真正的智能機(jī)器是非常重要的。目前深度學(xué)習(xí)主要做的研究是關(guān)于從數(shù)據(jù)中學(xué)到規(guī)則并將其自動(dòng)化的一個(gè)過程。這已經(jīng)帶來了非常多的好處,舉一個(gè)簡單的例子。在醫(yī)學(xué)領(lǐng)域引入深度學(xué)習(xí)技術(shù),可以將許多診斷過程全自動(dòng)化,因此可以讓貧窮地區(qū)或國家的人們享受到頂級(jí)的治療。
開篇完畢,現(xiàn)在進(jìn)入正題。盡管深度學(xué)習(xí)技術(shù)的到來給人們的生活帶來了更多的便利。但是神經(jīng)網(wǎng)絡(luò)看待和解釋世界的方式仍然是一個(gè)黑盒子。因此我們需要嘗試更好的理解它,以便我們對(duì)深度學(xué)習(xí)網(wǎng)絡(luò)做出進(jìn)一步的改進(jìn),以及嘗試去解釋某些深度學(xué)習(xí)行為。有兩種主要的方法可以嘗試?yán)斫馍窠?jīng)網(wǎng)絡(luò)。一種是在數(shù)據(jù)集中查找導(dǎo)致特征圖有高激活響應(yīng)值的圖片,另一種是在隨機(jī)的一張圖片中,通過優(yōu)化像素值來生成模式。接下來,通過一些例子來展示一下,CNN 到底學(xué)到了什么?
特征可視化
這本書《Deep Learning with Python》里面講了如何生成模式。包括濾波器是如何響應(yīng)模式(紋理)等。接下來我們先觀察一下這些模式。以 VGG16 為例。
第7層卷積(64,128)
濾波器12,16,86,110(從左到右,從上到下)
第14層卷積(128,256)
濾波器1, 6,31,32,54, 77(從左到右,從上到下)
第20層卷積(256,256)
濾波器3,34,39,55,62,105(從左到右,從上到下)
第30層卷積(512,512)
濾波器54,62,67,92,123,141(從左到右,從上到下)
第40層卷積(512,512)——網(wǎng)絡(luò)頂部
256,261,265,277,286,462(從左到右,從上到下)
這些得到的中間結(jié)果看著非常漂亮。方法就是在網(wǎng)絡(luò)中最大化某個(gè)激活值就可以得到這些結(jié)果??匆幌碌?40 層的幾張圖。已經(jīng)有了明顯的形狀。比如羽毛、鐵鏈等。接下來我們分析一下這些結(jié)果。
模式識(shí)別
我們先從下面這張圖片開始吧。這張圖片看著像是拱門。于是去數(shù)據(jù)集里面找來了一張拱門的圖片,也就是右圖。
接下來我們來檢驗(yàn)一下,是不是由這張圖來確定的圖片的分類。首先記住,這張圖是最后一層的第 286 個(gè)濾波器。如何檢驗(yàn)?zāi)??我們只需要將這張圖片輸入進(jìn)網(wǎng)絡(luò),并繪制第 40 層的平均激活響應(yīng),如下圖。
可以看到在特征圖第 286 的地方,出現(xiàn)了強(qiáng)烈的飆升。顯然它就是檢測拱形結(jié)構(gòu)的濾波器。但是注意,這樣的形狀結(jié)構(gòu)可能對(duì)應(yīng)著幾個(gè)不同的類別。
那我們?cè)倏匆粋€(gè)例子吧。左邊這個(gè)看著像是雞頭(最后一層,第 256 個(gè))。因此找了右邊這一張圖片來測試。同樣的測試方法。
我們來看一看特征響應(yīng)圖。
好像似乎也印證了我的想法,可能是某種形狀導(dǎo)致了最后的輸出類別。也就是說,影響 CNN 效果的其實(shí)是形狀特征(猜想)。
不過讓我們?cè)訇P(guān)注一個(gè)例子,用同樣的方法。輸入一張鳥類的圖。
濾波器172,288,437,495(從左到右,從上到下)
我們發(fā)現(xiàn)了多個(gè)高響應(yīng)的特征圖。上面的特征圖有像是鳥腿、眼睛和喙的東西?但是下面的特征圖,看不出來是什么,可能與圖像的背景有關(guān),或者一些只有網(wǎng)絡(luò)能理解的東西。這部分現(xiàn)在仍然是黑匣子。也許之前的猜想是錯(cuò)的。
接下來放一下代碼(PyTorch):
1generate_image.py 2classFilterVisualizer(): 3def__init__(self,size=56,upscaling_steps=12,upscaling_factor=1.2): 4self.size,self.upscaling_steps,self.upscaling_factor=size,upscaling_steps,upscaling_factor 5self.model=vgg16(pre=True).cuda().eval() 6set_trainable(self.model,False) 7 8defvisualize(self,layer,filter,lr=0.1,opt_steps=20,blur=None): 9sz=self.size10img=np.uint8(np.random.uniform(150,180,(sz,sz,3)))/255#generaterandomimage11activations=SaveFeatures(list(self.model.children())[layer])#registerhook1213for_inrange(self.upscaling_steps):#scaletheimageupupscaling_stepstimes14train_tfms,val_tfms=tfms_from_model(vgg16,sz)15img_var=V(val_tfms(img)[None],requires_grad=True)#convertimagetoVariablethatrequiresgrad16optimizer=torch.optim.Adam([img_var],lr=lr,weight_decay=1e-6)17forninrange(opt_steps):#optimizepixelvaluesforopt_stepstimes18optimizer.zero_grad()19self.model(img_var)20loss=-activations.features[0,filter].mean()21loss.backward()22optimizer.step()23img=val_tfms.denorm(img_var.data.cpu().numpy()[0].transpose(1,2,0))24self.output=img25sz=int(self.upscaling_factor*sz)#calculatenewimagesize26img=cv2.resize(img,(sz,sz),interpolation=cv2.INTER_CUBIC)#scaleimageup27ifblurisnotNone:img=cv2.blur(img,(blur,blur))#blurimagetoreducehighfrequencypatterns28self.save(layer,filter)29activations.close()3031defsave(self,layer,filter):32plt.imsave("layer_"+str(layer)+"_filter_"+str(filter)+".jpg",np.clip(self.output,0,1))333435pytorch_hook.py3637classSaveFeatures():38def__init__(self,module):39self.hook=module.register_forward_hook(self.hook_fn)40defhook_fn(self,module,input,output):41self.features=torch.tensor(output,requires_grad=True).cuda()42defclose(self):43self.hook.remove()444546filter_visualizer.py4748layer=4049filter=26550FV=FilterVisualizer(size=56,upscaling_steps=12,upscaling_factor=1.2)51FV.visualize(layer,filter,blur=5)52
你以為到這里就完了嗎?還沒到這篇文章的重點(diǎn)內(nèi)容,新鮮出爐的 2019 ICLR 的論文:《Imagenet-trained CNNs are biased towards texture; Increasing shape bias improves accuracy and robustness》
看標(biāo)題,就知道。我們之前的猜想是錯(cuò)誤的!CNN 學(xué)到的應(yīng)該是紋理特征。真讓人頭疼!
作者以一個(gè)問題入手,一只披著象皮的貓,神經(jīng)網(wǎng)絡(luò)會(huì)把它識(shí)別為大象還是貓?最后根據(jù)實(shí)驗(yàn)結(jié)果得出結(jié)論。神經(jīng)網(wǎng)絡(luò)應(yīng)該是根據(jù)物體的紋理特征來進(jìn)行識(shí)別,而并非我們以為的形狀特征。也就是說我們常了解的一些可視化技術(shù)如 Deconv 都是具有誤導(dǎo)性的,它們的結(jié)果僅僅只是圖像的重建部分,而與網(wǎng)絡(luò)如何做出最后的決策關(guān)系不大。
其實(shí)接觸過圖像風(fēng)格遷移技術(shù)的技術(shù)人員應(yīng)該都非常清楚,深度學(xué)習(xí)模型在里面提取的圖像的繪畫風(fēng)格就是紋理特征。貼上一張經(jīng)典圖片,生成的是一張具有梵高《星月夜》圖畫風(fēng)格的建筑圖片。
在論文里面,作者為了更清楚的了解,圖像識(shí)別到底是基于形狀還是基于紋理。做了以下的實(shí)驗(yàn)。使用三張生成的圖片,分別是帶有大象紋理的貓 , 帶有鐘表紋理的汽車 和 帶有水瓶紋理的熊
作者通過實(shí)驗(yàn),采用了多個(gè)神經(jīng)網(wǎng)絡(luò)(AlexNet、VGG-16、GoogLeNet、ResNet-50、ResNet-152、DenseNet-121、SqueezeNet1_1)進(jìn)行輸出結(jié)果。為了對(duì)照,還召集了大約 100 名人類來做對(duì)照實(shí)驗(yàn)。這個(gè)實(shí)驗(yàn)結(jié)果就是一只帶有象皮紋理的貓被深度神經(jīng)網(wǎng)絡(luò)判斷為大象,但對(duì)人類來說仍然是貓。帶有時(shí)鐘紋理的汽車被深度神經(jīng)網(wǎng)絡(luò)判斷為時(shí)鐘,帶有水瓶紋理的熊被深度神經(jīng)網(wǎng)絡(luò)判斷為水瓶。顯然!該實(shí)驗(yàn)支持了這一說法,即目前用于物體識(shí)別的深度學(xué)習(xí)技術(shù)主要依賴紋理,而不是物體形狀。
當(dāng)然,作者還做了更多的對(duì)比實(shí)驗(yàn)。得出了一些具有啟發(fā)性的結(jié)論。比如對(duì)于只包含紋理圖片的數(shù)據(jù)集,神經(jīng)網(wǎng)絡(luò)能取得特別高的準(zhǔn)確率。采用原圖和灰度圖,神經(jīng)網(wǎng)絡(luò)都可以取得非常高的準(zhǔn)確率,而對(duì)于只包含輪廓和只包含邊緣的圖片,神經(jīng)網(wǎng)絡(luò)的預(yù)測準(zhǔn)確率則顯著降低。
更多的實(shí)驗(yàn)細(xì)節(jié),可以查看論文??偨Y(jié)一下,有幾點(diǎn)結(jié)論還是很有啟發(fā)性的:
第一、回答了影響CNN識(shí)別性能的是形狀還是紋理的問題。
第二、如何針對(duì)性的引導(dǎo)神經(jīng)網(wǎng)絡(luò)訓(xùn)練或者學(xué)習(xí)想要它學(xué)習(xí)的特征。(有意的抑制某個(gè)特征)
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4776瀏覽量
100948 -
人工智能
+關(guān)注
關(guān)注
1792文章
47497瀏覽量
239208 -
cnn
+關(guān)注
關(guān)注
3文章
353瀏覽量
22265
原文標(biāo)題:到底是什么特征影響著CNN的性能?
文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論