奇米色99欧美一区二区,亚洲欧美日韩高清一区,国产精品日本一区二区在线播放

論文提出了一種基于卷積和VIT的混合網(wǎng)絡(luò)，利用Transformers捕獲遠(yuǎn)程依賴關(guān)系，利用cnn提取局部信息。構(gòu)建了一系列模型cmt，它在準(zhǔn)確性和效率方面有更好的權(quán)衡。

CMT:體系結(jié)構(gòu)

CMT塊由一個(gè)局部感知單元(LPU)、一個(gè)輕量級(jí)多頭自注意模塊(LMHSA)和一個(gè)反向殘差前饋網(wǎng)絡(luò)(IRFFN)組成。

1、局部感知單元(LPU)

在以前的transformer中使用的絕對(duì)位置編碼是為了利用標(biāo)記的順序而設(shè)計(jì)的，它破壞了平移不變性。

為了緩解局限性，LPU使用卷積(MobileNetV1)提取局部信息，其定義為:

2、輕量級(jí)多頭自我注意(LMHSA)

在原注意力模塊中，自注意力模塊為:

為了減少計(jì)算開銷，在注意力操作之前，使用k × k步長(zhǎng)為k的深度卷積(MobileNetV1)來(lái)減小k和V的空間大小。在每個(gè)自注意力模塊中添加一個(gè)相對(duì)位置偏差B(類似于Shaw NAACL ' 18):

這里的h個(gè)是與ViT類似的注意力頭。

3、反向殘差前饋網(wǎng)絡(luò)(IRFFN)

原始FFN使用兩個(gè)線性層，中間是GELU:

IRFFN由擴(kuò)展層(MobileNetV1)和卷積(投影層)組成。為了更好的性能，還修改了殘差連接的位置:

使用深度卷積(MobileNetV1)提取局部信息，而額外的計(jì)算成本可以忽略不計(jì)。

4、CMT塊

有了上述三個(gè)組成部分，CMT塊可以表述為:

上式中，Yi和Zi分別表示LPU和LMHSA模塊對(duì)第i塊的輸出特征。LN表示層歸一化。

CMT變體

1、模型的復(fù)雜性

Transformer 的計(jì)算復(fù)雜度(FLOPs)可計(jì)算為:

式中，r為FFN的展開比，dk和dv分別為key和value的維度。ViT設(shè)d = dk = dv, r = 4，則計(jì)算可簡(jiǎn)化為:

CMT塊的FLOPs:

其中k≥1為L(zhǎng)MHSA的還原比。

可以看到，與標(biāo)準(zhǔn)Transformer塊相比，CMT塊對(duì)計(jì)算成本更友好，并且在更高分辨率(較大n)下更容易處理特征映射。

2、擴(kuò)展策略

受EfficientNet的啟發(fā)，使用復(fù)合系數(shù)φ來(lái)均勻縮放層數(shù)(深度)、維度和輸入分辨率:

增加了α·β^(1.5) ·γ2≈2.5的約束，因此對(duì)于給定的新φ，總FLOPS將大約增加2.5^ φ。根據(jù)測(cè)試，默認(rèn)為α=1.2， β=1.3， γ=1.15。

3、CMT變體

在CMT-S的基礎(chǔ)上，根據(jù)提出的縮放策略構(gòu)建了CMT-Ti、CMT-XS和CMT-B。四種模型的輸入分辨率分別為160、192、224和256。

結(jié)果

1、消融研究

ViT/DeiT只能生成單尺度的特征圖，丟失了大量的多尺度信息，但是這部分信息對(duì)密集預(yù)測(cè)至關(guān)重要。

DeiT與CMT-S一樣具有4級(jí)stage，即DeiT- s - 4stage，可以實(shí)現(xiàn)改進(jìn)。

所有的增量改進(jìn)都表明，stem、LPU和IRFFN對(duì)性能的提高也有重要的貢獻(xiàn)。CMT在LMHSA和IRFFN之前使用LN，在卷積層之后插入BN。如果將所有的LN都替換為BN，則模型在訓(xùn)練過(guò)程中無(wú)法收斂。

2、ImageNet

CMTS以4.0B FLOPs達(dá)到83.5%的top-1精度，比基線模型DeiT-S高3.7%，比CPVT高2.0%，表明CMT塊在捕獲局部和全局信息方面的優(yōu)勢(shì)。

值得注意的是，之前所有基于transformer的模型仍然不如通過(guò)徹底的架構(gòu)搜索獲得的EfficientNet，但是CMT-S比EfficientNet- b4高0.6%，計(jì)算成本更低，這也證明了所提出的混合結(jié)構(gòu)的有效性。

3、下游任務(wù)

對(duì)于以RetinaNet為基本框架的目標(biāo)檢測(cè)，CMT-S優(yōu)于twin - pcpvt - s (mAP為1.3%)和twin - svt - s (mAP為2.0%)。

以Mask R-CNN為基本框架的分割，CMT-S以1.7%的AP超過(guò)了Twins-PCPVTS，以1.9%的AP超過(guò)了Twins-SVT-S。

CMT- s在所有數(shù)據(jù)集中以更少的FLOPs優(yōu)于其他基于transformer的模型，并在FLOPs減少9倍的情況下與EfficientNet-B7達(dá)到相當(dāng)?shù)男阅?，這證明了CMT架構(gòu)的優(yōu)越性。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

CMT

CMT

+關(guān)注

關(guān)注
0

文章
15

瀏覽量
10848
位置編碼器

位置編碼器

+關(guān)注

關(guān)注
1

文章
19

瀏覽量
5611
卷積網(wǎng)絡(luò)

卷積網(wǎng)絡(luò)

+關(guān)注

關(guān)注
0

文章
43

瀏覽量
2271

評(píng)論

相關(guān)推薦

探索一種降低ViT模型訓(xùn)練成本的方法

（1 GPU）和時(shí)間（24小時(shí)）資源下從頭開始訓(xùn)練ViT模型。首先，提出了一種向ViT架構(gòu)添加局部性的有效方法。其次，開發(fā)了一種新的圖像大小課程學(xué)習(xí)策略，該策略允許在訓(xùn)練開始時(shí)減少?gòu)拿?/div>

發(fā)表于 11-24 14:56

利用卷積調(diào)制構(gòu)建一種新的ConvNet架構(gòu)Conv2Former

1、利用卷積探索一種更高效的編碼空域特征的方式　　本文旨在通過(guò)充分利用卷積探索一種更高效的編碼空域特征的方式：通過(guò)組合ConvNet與ViT

發(fā)表于 12-19 17:37

一種混合卷積窗及其在諧波分析中的應(yīng)用

電力系統(tǒng)穩(wěn)態(tài)信號(hào)非同步采樣時(shí)，利用離散傅里葉變換分析諧波會(huì)使各頻率成分產(chǎn)生頻譜泄漏，增大了諧波參數(shù)的測(cè)量誤差。為進(jìn)一步抑制頻譜泄漏，提高諧波測(cè)量的準(zhǔn)確度，提出一種由矩形窗和余弦窗經(jīng)過(guò)卷積運(yùn)算

發(fā)表于 03-28 10:22 ?1次下載

一種用于圖像分類的卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)的特點(diǎn)是逐層提取特征，第一層提取的特征較為低級(jí)，第二層在第一層的基礎(chǔ)上繼續(xù)提取更高級(jí)別的特征，同樣，第三層在第二層的基礎(chǔ)上提取的特征也更為復(fù)雜。越高級(jí)的特征越能體現(xiàn)出圖像

發(fā)表于 07-04 08:59 ?9947次閱讀

<b class='flag-5'>一種</b>用于圖像分類的<b class='flag-5'>卷積</b>神經(jīng)<b class='flag-5'>網(wǎng)絡(luò)</b>

一種多層級(jí)特征融合就的深度卷積網(wǎng)絡(luò)

采用卷積神經(jīng)網(wǎng)絡(luò)對(duì)單目圖像的深度進(jìn)行估計(jì)時(shí)，存在深度信息不精確、邊緣模糊以及細(xì)節(jié)缺失等問(wèn)題。為此，提出一種多層級(jí)特征融合結(jié)構(gòu)的深度卷積網(wǎng)絡(luò)。

發(fā)表于 03-16 09:21 ?7次下載

<b class='flag-5'>一種</b>多層級(jí)特征融合就的深度<b class='flag-5'>卷積</b><b class='flag-5'>網(wǎng)絡(luò)</b>

一種輕量級(jí)時(shí)間卷積網(wǎng)絡(luò)設(shè)計(jì)方案

時(shí)間卷積網(wǎng)絡(luò)（TCN）在處理時(shí)間序列預(yù)測(cè)問(wèn)題時(shí)存在計(jì)算量大和參數(shù)冗余問(wèn)題，導(dǎo)致其難以應(yīng)用于存儲(chǔ)空間和計(jì)算能力受限的手機(jī)、平板電腦、筆記本電腦等移動(dòng)終端。為此，設(shè)計(jì)一種輕量級(jí)時(shí)間卷積

發(fā)表于 03-22 16:04 ?6次下載

<b class='flag-5'>一種</b>輕量級(jí)時(shí)間<b class='flag-5'>卷積</b><b class='flag-5'>網(wǎng)絡(luò)</b>設(shè)計(jì)方案

一種基于混合軟件定義網(wǎng)絡(luò)的路由保護(hù)算法

為使混合軟件定義網(wǎng)絡(luò)（SDN）體系架構(gòu)能夠應(yīng)對(duì)網(wǎng)絡(luò)中的單鏈路故障情形，提出一種基于混合軟件定義網(wǎng)絡(luò)

發(fā)表于 04-01 14:05 ?15次下載

關(guān)于Next-ViT 的建模能力

由于復(fù)雜的注意力機(jī)制和模型設(shè)計(jì)，大多數(shù)現(xiàn)有的視覺 Transformer（ViT）在現(xiàn)實(shí)的工業(yè)部署場(chǎng)景中不能像卷積神經(jīng)網(wǎng)絡(luò)（CNN）那樣高效地執(zhí)行。這就帶來(lái)了一個(gè)問(wèn)題：視覺神經(jīng)

發(fā)表于 07-26 10:25 ?1268次閱讀

一種降噪及雙參量提取卷積神經(jīng)網(wǎng)絡(luò)（DECNN）方案

針對(duì)上述問(wèn)題，華中科技大學(xué)唐明教授、王亮教授團(tuán)隊(duì)提出了一種降噪及雙參量提取卷積神經(jīng)網(wǎng)絡(luò)（DECNN）方案，在單個(gè)卷積神經(jīng)網(wǎng)絡(luò)（CNN）框架下

發(fā)表于 10-28 14:49 ?1535次閱讀

卷積神經(jīng)網(wǎng)絡(luò)的介紹什么是卷積神經(jīng)網(wǎng)絡(luò)算法

卷積神經(jīng)網(wǎng)絡(luò)的介紹什么是卷積神經(jīng)網(wǎng)絡(luò)算法卷積神經(jīng)網(wǎng)絡(luò)

發(fā)表于 08-21 16:49 ?2016次閱讀

卷積神經(jīng)網(wǎng)絡(luò)模型搭建

卷積神經(jīng)網(wǎng)絡(luò)模型搭建卷積神經(jīng)網(wǎng)絡(luò)模型是一種深度學(xué)習(xí)算法。它已經(jīng)成為了計(jì)算機(jī)視覺和自然語(yǔ)言處理等各種領(lǐng)域的主流算法，具有很大的應(yīng)用前景。本篇

發(fā)表于 08-21 17:11 ?1057次閱讀

卷積神經(jīng)網(wǎng)絡(luò)一共有幾層卷積神經(jīng)網(wǎng)絡(luò)模型三層

卷積神經(jīng)網(wǎng)絡(luò)一共有幾層卷積神經(jīng)網(wǎng)絡(luò)模型三層? 卷積神經(jīng)網(wǎng)絡(luò)

發(fā)表于 08-21 17:11 ?7221次閱讀

卷積神經(jīng)網(wǎng)絡(luò)模型的優(yōu)缺點(diǎn)

等領(lǐng)域中非常流行，可用于分類、分割、檢測(cè)等任務(wù)。而在實(shí)際應(yīng)用中，卷積神經(jīng)網(wǎng)絡(luò)模型有其優(yōu)點(diǎn)和缺點(diǎn)。這篇文章將詳細(xì)介紹卷積神經(jīng)網(wǎng)絡(luò)模型的特點(diǎn)、優(yōu)

發(fā)表于 08-21 17:15 ?4973次閱讀

卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練的是什么

卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Networks，簡(jiǎn)稱CNN）是一種深度學(xué)習(xí)模型，廣泛應(yīng)用于圖像識(shí)別、視頻分析、自然語(yǔ)言處理等領(lǐng)域。本文將詳細(xì)介紹

發(fā)表于 07-03 09:15 ?608次閱讀

卷積神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn)原理

卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Networks，簡(jiǎn)稱CNN）是一種深度學(xué)習(xí)模型，廣泛應(yīng)用于圖像識(shí)別、視頻分析、自然語(yǔ)言處理等領(lǐng)域。本文將詳細(xì)介紹

發(fā)表于 07-03 10:49 ?758次閱讀

搜索歷史

介紹一種基于卷積和VIT的混合網(wǎng)絡(luò)

CMT:體系結(jié)構(gòu)

CMT變體

結(jié)果

評(píng)論

探索一種降低ViT模型訓(xùn)練成本的方法

利用卷積調(diào)制構(gòu)建一種新的ConvNet架構(gòu)Conv2Former

一種混合卷積窗及其在諧波分析中的應(yīng)用

一種用于圖像分類的卷積神經(jīng)網(wǎng)絡(luò)

一種多層級(jí)特征融合就的深度卷積網(wǎng)絡(luò)

一種輕量級(jí)時(shí)間卷積網(wǎng)絡(luò)設(shè)計(jì)方案

一種基于混合軟件定義網(wǎng)絡(luò)的路由保護(hù)算法

關(guān)于Next-ViT 的建模能力

一種降噪及雙參量提取卷積神經(jīng)網(wǎng)絡(luò)（DECNN）方案

卷積神經(jīng)網(wǎng)絡(luò)的介紹什么是卷積神經(jīng)網(wǎng)絡(luò)算法

卷積神經(jīng)網(wǎng)絡(luò)模型搭建

卷積神經(jīng)網(wǎng)絡(luò)一共有幾層卷積神經(jīng)網(wǎng)絡(luò)模型三層

卷積神經(jīng)網(wǎng)絡(luò)模型的優(yōu)缺點(diǎn)

卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練的是什么

卷積神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn)原理