去年,AI科技大本營(yíng)為大家報(bào)道過南開大學(xué)媒體計(jì)算實(shí)驗(yàn)室在邊緣檢測(cè)和圖像過分割的工作成果,不僅刷新了精度記錄,算法也已經(jīng)開源。今天要為大家再介紹該實(shí)驗(yàn)室的最新工作——Res2Net,一種在目標(biāo)檢測(cè)任務(wù)中新的 Backbone 網(wǎng)絡(luò)模塊。
ResNet 大家都很熟悉了,由何愷明等人于 2015 年提出,其強(qiáng)大的表征能力,讓很多計(jì)算機(jī)視覺任務(wù)的性能得到了極大的提升。而南開大學(xué)的這項(xiàng)工作提出的新卷積網(wǎng)絡(luò)構(gòu)造方式,在多個(gè)視覺任務(wù)的基準(zhǔn)數(shù)據(jù)集上(CIFAR10,ImageNet),與 baseline 模型進(jìn)行了對(duì)比,優(yōu)于現(xiàn)有的 SOTA 方法,更多的消融實(shí)驗(yàn)結(jié)果中也證明了作者方法的優(yōu)勢(shì)之處。此外,鑒于 Res2Net 已經(jīng)在幾個(gè)具有代表性的計(jì)算機(jī)視覺任務(wù)體現(xiàn)出了優(yōu)越性,作者認(rèn)為網(wǎng)絡(luò)的多尺度表征能力是非常重要的。
下面,AI科技大本營(yíng)就為大家介紹一下這項(xiàng)工作,大家可以深入研讀后進(jìn)行嘗試~
摘要
在許多視覺任務(wù)中,多尺度的表示特征是非常重要的。最新的研究在不斷的提升著 backbone 網(wǎng)絡(luò)的多尺度表達(dá)能力,在多個(gè)任務(wù)上提高了算法性能。然而,大多數(shù)現(xiàn)有的深度學(xué)習(xí)方法是通過不同層的方式來表達(dá)多尺度特征。作者提出了一種新的卷積網(wǎng)絡(luò)構(gòu)造方式 Res2Net,通過在單個(gè)殘差塊里面構(gòu)建層次化的連接實(shí)現(xiàn)。Res2Net 是在粒度級(jí)別上來表示多尺度特征并且增加了每層網(wǎng)絡(luò)的感受野范圍。它可以無縫插入現(xiàn)有的ResNet,ResNeXt等網(wǎng)絡(luò)結(jié)構(gòu)。并且在多個(gè)視覺任務(wù)的基準(zhǔn)數(shù)據(jù)集上,與 baseline 模型進(jìn)行了對(duì)比,發(fā)現(xiàn)它優(yōu)于現(xiàn)有的 SOTA 方法。更多的消融實(shí)驗(yàn)結(jié)果證明了作者方法的優(yōu)勢(shì)之處。
引言
在多個(gè)視覺任務(wù)中,如圖像分類,目標(biāo)檢測(cè),動(dòng)作識(shí)別,語義分割等,設(shè)計(jì)一個(gè)好的多尺度特征是非常重要的。有以下三點(diǎn)原因,第一,如上圖所示,在一張圖片里面,同一目標(biāo)可能有不同的大小,比如圖上的沙發(fā)。第二,待檢測(cè)目標(biāo)的上下文信息可能比它本身占的區(qū)域更多,例如,我們需要使用大桌子作為上下文信息來判斷放在上面的是杯子還是筆筒。第三,從不同尺度的感知信息來理解如細(xì)粒度分類和語義分割的任務(wù)是非常重要的。
因此,多尺度的特征在傳統(tǒng)方法和深度學(xué)習(xí)里面都得到了廣泛應(yīng)用。通常我們需要采用一個(gè)大感受野的特征提取器來獲得不同尺度的特征描述,而卷積神經(jīng)網(wǎng)絡(luò)通過一堆卷積層可以很自然的由粗到細(xì)多尺度的提取特征。如何設(shè)計(jì)更高效的網(wǎng)絡(luò)結(jié)構(gòu)是提升卷積神經(jīng)網(wǎng)絡(luò)性能的關(guān)鍵。
作者提出了一種簡(jiǎn)單有效的多尺度提取方法。與現(xiàn)有的增強(qiáng)單層網(wǎng)絡(luò)多尺度表達(dá)能力的 CNNs 方法不同,它是在更細(xì)的粒度上提升了多尺度表征能力。
接下來我們?cè)賮砜纯?Res2Net 的架構(gòu)與體系結(jié)構(gòu)等內(nèi)容:
Res2Net
已有的許多工作都是采用的上圖(a)作為其 basic block,因此作者希望找到一種能保持計(jì)算量不增加,卻有更強(qiáng)多尺度特征提取能力的結(jié)構(gòu)來替代它。如上圖(b)所示,作者采用了更小的卷積組來替代 bottleneck block 里面的 3x3 卷積。具體操作如下,首先將 1x1 卷積后的特征圖均分為 s 個(gè)特征圖子集。每個(gè)特征圖子集的大小相同,但是通道數(shù)是輸入特征圖的 1/s。對(duì)每一個(gè)特征圖子集 X_i,有一個(gè)對(duì)應(yīng)的 3x3 卷積K_i(), 假設(shè) K_i() 的輸出是 y_i。接下來每個(gè)特征圖子集 X_i 會(huì)加上 K_i-1() 的輸出,然后一起輸入進(jìn) K_i()。為了在增大 s 的值時(shí)減少參數(shù)量,作者省去了 X_1 的 3x3 網(wǎng)絡(luò)。因此,輸出 y_i 可以用如下公式表示:
根據(jù)圖(b),可以發(fā)現(xiàn)每一個(gè) X_j(j<=i) 下的 3x3 卷積可以利用之前所有的特性信息,它的輸出會(huì)有比 X_j 更大的感受野。因此這樣的組合可以使 Res2Net 的輸出有更多樣的感受野信息。為了更好的融合不同尺度的信息,作者將它們的輸出拼接起來,然后再送入 1x1 卷積,如上圖(b)所示。
實(shí)驗(yàn)
作者提出的這個(gè)模塊可以融合到現(xiàn)有的 CNNs 方法里面,如 ResNet, ResNeXt和DLA,為了公平的實(shí)驗(yàn),作者僅僅將里面的模塊替換為 Res2Net,并在基準(zhǔn)數(shù)據(jù)集(CIFAR10,ImageNet)上對(duì) Res2Net 進(jìn)行了評(píng)估。
以ImageNet 為例,作者進(jìn)行了多個(gè)對(duì)比實(shí)驗(yàn),包括淺層和深層網(wǎng)絡(luò)的對(duì)比,實(shí)驗(yàn)結(jié)果都顯示基于 Res2Net 模塊的網(wǎng)絡(luò)性能更好。作者還探索了尺度大小對(duì)性能的影響,如表格 3 所示,其中 w 代表濾波器的寬度,s 代表尺度。
在 ImageNet 數(shù)據(jù)集上,淺層和深層網(wǎng)絡(luò)的實(shí)驗(yàn)結(jié)果:
尺度大小對(duì)性能的影響:
在更多視覺任務(wù)上的實(shí)驗(yàn)結(jié)果均顯示 Res2Net 模塊可以顯著的提升現(xiàn)有算法的指標(biāo)。
下圖是ResNet-50 和Res2Net-50 在類激活映射的結(jié)果對(duì)比:
下圖是 ResNet-101 和Res2Net-101 在語義分割任務(wù)上的(可視化的)結(jié)果對(duì)比:
下圖是 ResNet-50 和Res2Net-50 在目標(biāo)檢測(cè)任務(wù)上的結(jié)果對(duì)比:
下圖是ResNet-50 和Res2Net-50 在實(shí)例分割任務(wù),COCO 數(shù)據(jù)集上的 AP 和 AR 兩結(jié)果的對(duì)比:
結(jié)論
Res2Net 是一種簡(jiǎn)潔有效的模塊,探索了 CNN 在更細(xì)粒度級(jí)別的多尺度表達(dá)能力。它揭示了 CNN 網(wǎng)絡(luò)里面除了深度,寬度等現(xiàn)有維度之外,還可以有新的維度“尺度”。Res2Net 模塊可以很容易地融合進(jìn) SOTA 的方法。在 CIFAR10 和 ImageNet 上圖像分類的結(jié)果表明,使用 Res2Net 模塊的網(wǎng)絡(luò)比 ResNet,ResNeXt,DLA 等網(wǎng)絡(luò)效果更好。鑒于Res2Net已經(jīng)在幾個(gè)具有代表性的計(jì)算機(jī)視覺任務(wù)體現(xiàn)出了優(yōu)越性,作者認(rèn)為網(wǎng)絡(luò)的多尺度表征能力是非常重要的。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4771瀏覽量
100777 -
網(wǎng)絡(luò)模塊
+關(guān)注
關(guān)注
0文章
26瀏覽量
9312 -
計(jì)算機(jī)視覺
+關(guān)注
關(guān)注
8文章
1698瀏覽量
45994
原文標(biāo)題:南開大學(xué)提出目標(biāo)檢測(cè)新Backbone網(wǎng)絡(luò)模塊:Res2Net | 技術(shù)頭條
文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論