在卷積神經(jīng)網(wǎng)絡(luò)中,感受野是一個(gè)非常重要的概念,今天,我們具體來(lái)看一下感受野的相關(guān)概念以及如何計(jì)算感受野。
感受野
讓我們快速回顧一下如何計(jì)算感受野的大小。
為了更好地理解感受野,我們可能希望以不同的方式可視化卷積步驟。
在右邊,我們查看輸出神經(jīng)元,也就是新的feature map,而不改變當(dāng)前feature map的分辨率。我們也可以用下面的方法計(jì)算每一層新的感受野。
在現(xiàn)實(shí)生活中,我們打算用一個(gè)程序來(lái)實(shí)現(xiàn)這一點(diǎn)。
注:據(jù)我所知,雙線性上采樣和大多數(shù)其他上采樣方法不會(huì)增加感受野。但是,如果我的邏輯是對(duì)的,轉(zhuǎn)置卷積應(yīng)該會(huì)增加感受野。很容易想象,放置在一個(gè)轉(zhuǎn)置卷積之后的平均神經(jīng)元通過(guò)多個(gè)途徑接收輸入。
有效感受野
在這篇論文中:Understanding the Effective Receptive Field in Deep Convolutional Neural Networks,作者嘗試從輸出映射的中心像素向網(wǎng)絡(luò)反向傳播一個(gè)梯度,并將所有其他梯度設(shè)置為零。然后,我們檢查應(yīng)用于輸入層的梯度。
實(shí)驗(yàn)表明,梯度的性質(zhì)是高斯的,中心像素受影響較大,離中心越遠(yuǎn)梯度信號(hào)越弱。梯度信號(hào)的衰減是指數(shù)級(jí)的,這意味著應(yīng)用于感受野的大多數(shù)像素的梯度將是可忽略的(如果有的話)。因此,這使得作者創(chuàng)造了“有效感受野”這個(gè)術(shù)語(yǔ),因?yàn)閷?shí)際的感受野只占理論感受野的一小部分。這是有意義的,因?yàn)楦嗟闹醒肷窠?jīng)元將有更多的路徑來(lái)傳播信息,從而將從最后一層的中心像素的梯度傳播回所有可能的路徑,導(dǎo)致了梯度有更大的幅度。
那么,還有什么影響有效感受野呢?
Relu—添加任何激活都會(huì)改變ERF的分布,因?yàn)樘荻鹊拇笮‖F(xiàn)在也依賴(lài)于輸入。實(shí)際上,只有Relu似乎創(chuàng)建了一個(gè)較少的高斯分布,因?yàn)镽elu將導(dǎo)致我們的梯度的很大一部分為零。
添加層—正如所期望的那樣,添加層使ERF成倍增長(zhǎng)。然而,相對(duì)于我們的理論感受野,我們的ERF正在縮小。我們的有效感受野在理論感受野中所占的比例越來(lái)越小。注意,隨著層數(shù)的增加,ERF / RF比值的收縮速度也會(huì)變小。此外,作者指出,stride卷積和dilated卷積都顯示出可以擴(kuò)展ERF,雖然他們沒(méi)有提到相對(duì)于理論RF的影響。
訓(xùn)練—在訓(xùn)練過(guò)程中,ERF擴(kuò)展到RF的更大部分,這是有意義的,因?yàn)榫W(wǎng)絡(luò)學(xué)會(huì)適應(yīng)把越來(lái)越大的權(quán)重放在我們感受野的更多外部像素上。在CamVid中,ERF從100增加到150直徑,而理論RF為505 x 505。
最后,讓我們看一下fast-rcnn的RPN。
我們最大的anchor應(yīng)該是64*8 = 512,使用一個(gè)程序我們可以很容易地找到我們的RF是1335,這是一半以上。從之前的實(shí)驗(yàn)中我可以推測(cè)出ERF大約是RF的1/3。好,在RPN中負(fù)責(zé)計(jì)算512×512錨點(diǎn)作為對(duì)象或前景的概率的單元格只有大約445×445個(gè)輸入數(shù)據(jù)的窗口,小于錨框。對(duì)于負(fù)責(zé)調(diào)整我們的建議邊界框的回歸部分也可以進(jìn)行類(lèi)似的計(jì)算。在這一點(diǎn)上,令人驚訝的是,我們的RPN竟然這么好!
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4771瀏覽量
100777
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論