論文提出了一種基于卷積和VIT的混合網(wǎng)絡(luò),利用Transformers捕獲遠(yuǎn)程依賴(lài)關(guān)系,利用cnn提取局部信息。構(gòu)建了一系列模型cmt,它在準(zhǔn)確性和效率方面有更好的權(quán)衡。
CMT:體系結(jié)構(gòu)
CMT塊由一個(gè)局部感知單元(LPU)、一個(gè)輕量級(jí)多頭自注意模塊(LMHSA)和一個(gè)反向殘差前饋網(wǎng)絡(luò)(IRFFN)組成。
1、局部感知單元(LPU)
在以前的transformer中使用的絕對(duì)位置編碼是為了利用標(biāo)記的順序而設(shè)計(jì)的,它破壞了平移不變性。
為了緩解局限性,LPU使用卷積(MobileNetV1)提取局部信息,其定義為:
2、輕量級(jí)多頭自我注意(LMHSA)
在原注意力模塊中,自注意力模塊為:
為了減少計(jì)算開(kāi)銷(xiāo),在注意力操作之前,使用k × k步長(zhǎng)為k的深度卷積(MobileNetV1)來(lái)減小k和V的空間大小。在每個(gè)自注意力模塊中添加一個(gè)相對(duì)位置偏差B(類(lèi)似于Shaw NAACL ' 18):
這里的h個(gè)是與ViT類(lèi)似的注意力頭。
3、反向殘差前饋網(wǎng)絡(luò)(IRFFN)
原始FFN使用兩個(gè)線性層,中間是GELU:
IRFFN由擴(kuò)展層(MobileNetV1)和卷積(投影層)組成。為了更好的性能,還修改了殘差連接的位置:
使用深度卷積(MobileNetV1)提取局部信息,而額外的計(jì)算成本可以忽略不計(jì)。
4、CMT塊
有了上述三個(gè)組成部分,CMT塊可以表述為:
上式中,Yi和Zi分別表示LPU和LMHSA模塊對(duì)第i塊的輸出特征。LN表示層歸一化。
CMT變體
1、模型的復(fù)雜性
Transformer 的計(jì)算復(fù)雜度(FLOPs)可計(jì)算為:
式中,r為FFN的展開(kāi)比,dk和dv分別為key和value的維度。ViT設(shè)d = dk = dv, r = 4,則計(jì)算可簡(jiǎn)化為:
CMT塊的FLOPs:
其中k≥1為L(zhǎng)MHSA的還原比。
可以看到,與標(biāo)準(zhǔn)Transformer塊相比,CMT塊對(duì)計(jì)算成本更友好,并且在更高分辨率(較大n)下更容易處理特征映射。
2、擴(kuò)展策略
受EfficientNet的啟發(fā),使用復(fù)合系數(shù)φ來(lái)均勻縮放層數(shù)(深度)、維度和輸入分辨率:
增加了α·β^(1.5) ·γ2≈2.5的約束,因此對(duì)于給定的新φ,總FLOPS將大約增加2.5^ φ。根據(jù)測(cè)試,默認(rèn)為α=1.2, β=1.3, γ=1.15。
3、CMT變體
在CMT-S的基礎(chǔ)上,根據(jù)提出的縮放策略構(gòu)建了CMT-Ti、CMT-XS和CMT-B。四種模型的輸入分辨率分別為160、192、224和256。
結(jié)果
1、消融研究
ViT/DeiT只能生成單尺度的特征圖,丟失了大量的多尺度信息,但是這部分信息對(duì)密集預(yù)測(cè)至關(guān)重要。
DeiT與CMT-S一樣具有4級(jí)stage,即DeiT- s - 4stage,可以實(shí)現(xiàn)改進(jìn)。
所有的增量改進(jìn)都表明,stem、LPU和IRFFN對(duì)性能的提高也有重要的貢獻(xiàn)。CMT在LMHSA和IRFFN之前使用LN,在卷積層之后插入BN。如果將所有的LN都替換為BN,則模型在訓(xùn)練過(guò)程中無(wú)法收斂。
2、ImageNet
CMTS以4.0B FLOPs達(dá)到83.5%的top-1精度,比基線模型DeiT-S高3.7%,比CPVT高2.0%,表明CMT塊在捕獲局部和全局信息方面的優(yōu)勢(shì)。
值得注意的是,之前所有基于transformer的模型仍然不如通過(guò)徹底的架構(gòu)搜索獲得的EfficientNet,但是CMT-S比EfficientNet- b4高0.6%,計(jì)算成本更低,這也證明了所提出的混合結(jié)構(gòu)的有效性。
3、下游任務(wù)
對(duì)于以RetinaNet為基本框架的目標(biāo)檢測(cè),CMT-S優(yōu)于twin - pcpvt - s (mAP為1.3%)和twin - svt - s (mAP為2.0%)。
以Mask R-CNN為基本框架的分割,CMT-S以1.7%的AP超過(guò)了Twins-PCPVTS,以1.9%的AP超過(guò)了Twins-SVT-S。
CMT- s在所有數(shù)據(jù)集中以更少的FLOPs優(yōu)于其他基于transformer的模型,并在FLOPs減少9倍的情況下與EfficientNet-B7達(dá)到相當(dāng)?shù)男阅?,這證明了CMT架構(gòu)的優(yōu)越性。
-
CMT
+關(guān)注
關(guān)注
0文章
15瀏覽量
10817 -
位置編碼器
+關(guān)注
關(guān)注
1文章
18瀏覽量
5575 -
卷積網(wǎng)絡(luò)
+關(guān)注
關(guān)注
0文章
42瀏覽量
2183
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論