計(jì)算機(jī)視覺(jué)兩大門派功力合體,給移動(dòng)端視覺(jué)任務(wù)減負(fù)增速。
當(dāng)下,計(jì)算機(jī)視覺(jué)領(lǐng)域最熱議的方向,莫過(guò)于近兩年越來(lái)越火的視覺(jué)Transformer(ViT)和傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)(ConvNet),誰(shuí)才能主宰計(jì)算機(jī)視覺(jué)的未來(lái)?
風(fēng)頭正盛的ViT,是計(jì)算機(jī)視覺(jué)領(lǐng)域過(guò)去十年最矚目的研究突破之一。2020年,谷歌視覺(jué)大模型Vision Transformer(ViT)橫空出世,憑借碾壓各路ConvNet的性能表現(xiàn),一舉掀起Transformer在計(jì)算機(jī)視覺(jué)領(lǐng)域的研究熱潮。
但“ConvNet派”還沒(méi)到低頭認(rèn)輸?shù)臅r(shí)候。2022年1月,Meta AI研究院、加州大學(xué)伯克利分校的研究人員發(fā)表了卷積神經(jīng)網(wǎng)絡(luò)的“扛鼎之作”——ConvNeXt,基于純ConvNet新架構(gòu),取得了超過(guò)先進(jìn)ViT的計(jì)算速度和精度。
▲ConvNet與ViT模型圖像分類實(shí)驗(yàn)結(jié)果對(duì)比
ViT論文:https://arxiv.org/abs/2010.11929
ConvNeXt論文:https://arxiv.org/abs/2201.03545
那如果將這兩類模型的優(yōu)勢(shì)互補(bǔ),會(huì)不會(huì)產(chǎn)生1+1》2的效果?
近日,基于這一思路的論文《ParC-Net:繼承ConvNet和Transformer優(yōu)點(diǎn)的位置敏感的循環(huán)卷積》入選了計(jì)算機(jī)視覺(jué)頂會(huì)ECCV 2022,并引發(fā)國(guó)內(nèi)外廣泛關(guān)注。
這篇論文提出了一種面向移動(dòng)端、融入ViT優(yōu)點(diǎn)的純卷積結(jié)構(gòu)模型ParC-Net,能以更小的參數(shù)量,在常見視覺(jué)任務(wù)中實(shí)現(xiàn)比主流輕量級(jí)ConvNet更好的性能。
▲ParC-Net在三種視覺(jué)任務(wù)實(shí)驗(yàn)中均以更小參數(shù)量取得最佳性能表現(xiàn)
值得一提的是,論文提出一種既有全局感受野、又對(duì)位置信息保持敏感的基礎(chǔ)卷積算子ParC,它能與現(xiàn)有主流網(wǎng)絡(luò)結(jié)構(gòu)融合,兼顧模型性能和計(jì)算速度的提升,相關(guān)代碼現(xiàn)已開源。
具體是怎么實(shí)現(xiàn)的?我們聯(lián)系到論文第一作者張?zhí)栧硬┦?,并與其進(jìn)行深入交流。
ParC論文:https://arxiv.org/abs/2203.03952
源代碼:https://github.com/hkzhang91/ParC-Net
01.
取ViT的三個(gè)亮點(diǎn),將純卷積結(jié)構(gòu)變強(qiáng)
在計(jì)算機(jī)視覺(jué)領(lǐng)域,ViT模型性能彪悍,門檻和成本卻驚人,無(wú)論是龐大數(shù)據(jù)量,還是超高算力需求,都離不開“鈔能力”的支撐。
相比之下,輕量級(jí)ConvNet雖然性能難以與ViT媲美,但具有易訓(xùn)練、參數(shù)量少、計(jì)算成本低、推理速度快等優(yōu)勢(shì),對(duì)硬件資源的需求不像ViT那么受限,可部署在各種移動(dòng)或邊緣計(jì)算設(shè)備上。此前較流行的輕量級(jí)ConvNet有ShuffleNet、MobileNet、EfficientNet、TinyNet等等。
經(jīng)對(duì)比,云天勵(lì)飛的研究人員借鑒ViT的優(yōu)點(diǎn),基于卷積結(jié)構(gòu)設(shè)計(jì)了一個(gè)輕量級(jí)骨干模型ParC-Net。
論文作者認(rèn)為,ViT和ConvNet有三個(gè)主要區(qū)別:ViT更擅長(zhǎng)提取全局特征,采用meta-former結(jié)構(gòu),而且信息集成由數(shù)據(jù)驅(qū)動(dòng)。ParC的設(shè)計(jì)思路便是從這三點(diǎn)著手來(lái)優(yōu)化ConvNet。
▲普通ConvNet和ViT之間的三個(gè)主要區(qū)別。(a) ConvNet常用的Residual block;(b) ViT中常用的Meta-Former 結(jié)構(gòu);(c) 本文提出的ParC block。
具體而言,研究人員設(shè)計(jì)了一種位置信息敏感的循環(huán)卷積(Position aware circular convolution, ParC)。這是一種簡(jiǎn)單有效的輕量卷積運(yùn)算算子,既擁有像ViT類結(jié)構(gòu)的全局感受野,同時(shí)產(chǎn)生了像局部卷積那樣的位置敏感特征,能克服依賴自注意力結(jié)構(gòu)提取全局特征的問(wèn)題。
ParC結(jié)構(gòu)主要包含三部分改動(dòng):1)結(jié)合circular padding和大感受野低秩分解卷積核提取全局特征;2)引入位置嵌入,保證輸出特征對(duì)于空間位置信息的敏感性;3)動(dòng)態(tài)插值實(shí)時(shí)生成尺寸適配的卷積核和位置編碼,應(yīng)對(duì)輸入分辨率變化情況,這增強(qiáng)了對(duì)不同尺寸輸入的適應(yīng)能力。
▲ParC結(jié)構(gòu)示例
研究人員還將ParC和squeeze exictation(SE)操作結(jié)合起來(lái),構(gòu)建了一個(gè)純卷積結(jié)構(gòu)的meta former結(jié)構(gòu)。該結(jié)構(gòu)舍棄了自注意力硬件支持不友好的操作,但保留了傳統(tǒng)Transformer塊提取全局特征的特點(diǎn)。
然后,研究人員在channel mixer部分引入硬件支持較友好的通道注意力機(jī)制,使其純卷積meta former結(jié)構(gòu)也具備自注意力的特點(diǎn)。
基于ParC結(jié)構(gòu)最終得到的ParC塊,可作為一個(gè)即插即用的基礎(chǔ)單元,替換現(xiàn)有ViT或ConvNet模型中的相關(guān)塊,從而提升精度,并降低計(jì)算成本,有效克服硬件支持的問(wèn)題。
▲ParC實(shí)驗(yàn)結(jié)果
02.
三大視覺(jué)任務(wù)表現(xiàn)出色 多項(xiàng)指標(biāo)打敗蘋果MobileViT
“據(jù)我們所知,這是第一次嘗試結(jié)合ConvNet和ViT的優(yōu)點(diǎn)來(lái)設(shè)計(jì)一個(gè)輕量級(jí)Pure-ConvNet的結(jié)構(gòu)。”論文作者如此描述ParC-Net的開創(chuàng)性。
實(shí)驗(yàn)結(jié)果表明,在圖像分類、物體檢測(cè)、語(yǔ)義分割這三類常見的視覺(jué)任務(wù)中,混合結(jié)構(gòu)的模型性能表現(xiàn)普遍高于當(dāng)前主流的一些純卷積結(jié)構(gòu)、ViT結(jié)構(gòu)的模型,其中ParC-Net模型取得了最好的整體性能表現(xiàn)。
▲對(duì)于ImageNet-1k的圖像分類實(shí)驗(yàn)結(jié)果
在圖像分類實(shí)驗(yàn)中,對(duì)于ImageNet-1k的分類,ParC-Net使用的參數(shù)規(guī)模最?。ù蠹s500萬(wàn)個(gè)參數(shù)),卻實(shí)現(xiàn)了最高準(zhǔn)確率78.6%。
MobileViT是蘋果公司2022年在國(guó)際深度學(xué)習(xí)頂會(huì)ICLR22上提出的輕量級(jí)通用ViT模型。同樣部署在基于Arm的瑞芯微RK3288芯片上,相較基線模型MobileViT,ParC-Net節(jié)省了11%的參數(shù)和13%的計(jì)算成本,同時(shí)準(zhǔn)確率提高了0.2%,推理速度提高了23%。
▲與基準(zhǔn)模型的推理速度對(duì)比
與基于ViT結(jié)構(gòu)的模型相比,ParC-Net的參數(shù)量只有Meta AI團(tuán)隊(duì)DeiT模型參數(shù)的一半左右,準(zhǔn)確率卻比DeiT提高了2.7%。
在MS-COCO物體檢測(cè)和PASCAL VOC分割任務(wù)中,ParC-Net同樣基于較少的參數(shù),實(shí)現(xiàn)了更好的性能、更快的推理速度。
▲MS-COCO物體檢測(cè)實(shí)驗(yàn)結(jié)果
▲PASCAL VOC分割任務(wù)實(shí)驗(yàn)結(jié)果
張?zhí)栧硬┦渴荘arC-Net論文的第一作者,現(xiàn)任深圳云天勵(lì)飛資深算法研究員,研究領(lǐng)域包括網(wǎng)絡(luò)結(jié)構(gòu)搜索、深度估計(jì)、輕量化骨干模型、信息檢索及高光譜圖像分類等。
他告訴智東西,傳統(tǒng)ConvNet可以適應(yīng)視覺(jué)任務(wù)中輸入分辨率的變化,而具有全局感受野的純卷積結(jié)構(gòu)的缺陷是卷積核必須跟輸入分辨率保持一致,為了更好應(yīng)對(duì)分辨率的變化,其團(tuán)隊(duì)正在研究將模型做成動(dòng)態(tài)卷積的形式,以提高魯棒性。
目前這項(xiàng)研究成果已經(jīng)可以用在算力受限的移動(dòng)端或邊緣設(shè)備中,實(shí)現(xiàn)更高準(zhǔn)確率的視覺(jué)任務(wù)。如果進(jìn)行一些小的改動(dòng),ParC-Net還可以被用于其他的視覺(jué)任務(wù),例如6DOF姿態(tài)評(píng)估及其他dense prediction的任務(wù)。
03.
與自研芯片協(xié)同 運(yùn)算速度可提升快3~4倍
那么ParC-Net模型的研究成果,具體如何在實(shí)際業(yè)務(wù)場(chǎng)景中發(fā)揮價(jià)值?
據(jù)介紹,一方面,ParC-Net模型可以集成到開源算法訓(xùn)練平臺(tái)YMIR中,然后被部署至終端設(shè)備;另一方面,通過(guò)與云天勵(lì)飛自研芯片協(xié)同,它能將運(yùn)算速度和精度進(jìn)一步提升。
YMIR是一個(gè)高度自動(dòng)化的AI模型開發(fā)平臺(tái),能做到利用鼠標(biāo)簡(jiǎn)單操作就可以完成數(shù)據(jù)收集、模型訓(xùn)練、數(shù)據(jù)挖掘、數(shù)據(jù)標(biāo)注等功能。將擁有高運(yùn)算效率的ParC-Net模型版本上傳至YMIR后,用戶可在該平臺(tái)上直接選用ParC-Net模型,也可以針對(duì)具體業(yè)務(wù)場(chǎng)景,添加相應(yīng)的數(shù)據(jù)集對(duì)ParC-Net進(jìn)行再訓(xùn)練,從而獲得能更好滿足業(yè)務(wù)需求的模型。
以前有些對(duì)精度要求高或者采用ViT結(jié)構(gòu)的移動(dòng)端視覺(jué)任務(wù),受限于計(jì)算效率問(wèn)題,難以在攝像頭設(shè)備或手機(jī)上運(yùn)行,而上傳到云端做運(yùn)算,對(duì)有較高實(shí)時(shí)性要求的視覺(jué)任務(wù)不是很友好。
ParC-Net則較好地改善了這類問(wèn)題,在模型精度和推理效率之間實(shí)現(xiàn)平衡,使得邊緣設(shè)備可以在本地運(yùn)行一些對(duì)精度要求高的視覺(jué)任務(wù)。比如,人臉識(shí)別終端設(shè)備可運(yùn)用ParC-Net直接對(duì)路過(guò)的人進(jìn)行高質(zhì)量特征值提取,無(wú)需將數(shù)據(jù)傳輸?shù)皆贫?,就能與數(shù)據(jù)庫(kù)進(jìn)行檢索比對(duì)。
與云天勵(lì)飛自研芯片搭配后,ParC-Net模型的性能表現(xiàn)還能再上一個(gè)臺(tái)階。
張?zhí)栧硬┦空劦溃鋱F(tuán)隊(duì)考慮到軟硬件設(shè)計(jì)協(xié)同問(wèn)題,在研發(fā)之初參考了云天勵(lì)飛自研芯片工具鏈的設(shè)計(jì)及算子支持情況,然后進(jìn)行模型網(wǎng)絡(luò)結(jié)構(gòu)及算子的設(shè)計(jì),以更好地發(fā)揮出芯片算力。
研究人員將ParC-Net和基線模型MobileVit均部署到自研低功耗芯片DP上進(jìn)行推理速度測(cè)試。從實(shí)驗(yàn)結(jié)果可以看到,ParC-Net的推理速度能夠達(dá)到MobileViT速度的3~4倍。
▲與基準(zhǔn)模型在不同芯片平臺(tái)上的推理速度對(duì)比
這也是研究團(tuán)隊(duì)決定選擇基于純卷積結(jié)構(gòu)來(lái)設(shè)計(jì)ParC-Net的原因之一。ConvNet已經(jīng)統(tǒng)治計(jì)算機(jī)視覺(jué)領(lǐng)域十年之久,而ViT在這一領(lǐng)域興起時(shí)間較短,很多現(xiàn)有的神經(jīng)網(wǎng)絡(luò)加速器、硬件優(yōu)化策略,都是圍繞卷積結(jié)構(gòu)設(shè)計(jì)。因此部署在移動(dòng)端時(shí),純ConvNet往往能比ViT享有更好的軟硬件及工具鏈支持,并實(shí)現(xiàn)更快的推理速度。
即便搭載在對(duì)支持ViT更友好的芯片上,張?zhí)栧硬┦空f(shuō),ParC-Net依然能取得比現(xiàn)有其他混合模型更好的性能表現(xiàn)。
絕大多數(shù)視覺(jué)任務(wù)可以分為兩類:一類對(duì)位置信息不敏感,如圖像分類等;另一類對(duì)位置信息較敏感,如物體檢測(cè)、3D姿態(tài)估計(jì)、AR試穿等。對(duì)于這些視覺(jué)任務(wù),無(wú)論用在智能門禁、手機(jī)識(shí)圖還是自動(dòng)駕駛汽車的攝像頭,ParC-Net都能夠發(fā)揮出其兼顧模型精度和計(jì)算效率的優(yōu)勢(shì),并且不會(huì)受部署終端設(shè)備配置的限制。
04.
結(jié)語(yǔ):輕量級(jí)視覺(jué)模型設(shè)計(jì)的新啟發(fā)
當(dāng)前ViT與ConvNet兩大研究方向在計(jì)算機(jī)視覺(jué)領(lǐng)域旗鼓相當(dāng),ViT在學(xué)術(shù)界四處屠榜,ConvNet則在工業(yè)界主導(dǎo)地位難以撼動(dòng),將兩者融合的相關(guān)研究也如雨后春筍般涌現(xiàn)。
此次入選ECCV頂會(huì)的ParC-Net模型,既顧及邊緣設(shè)備對(duì)模型規(guī)模的限制,基于純卷積結(jié)構(gòu),確保其具備易訓(xùn)練、易部署、推理效率高、硬件更友好等特點(diǎn),又吸納了ViT的設(shè)計(jì)特征,實(shí)現(xiàn)比其他ConvNet模型更高的精度。這可以給移動(dòng)端視覺(jué)任務(wù)的模型設(shè)計(jì)帶來(lái)一些啟發(fā)。
審核編輯 :李倩
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4779瀏覽量
101096 -
計(jì)算機(jī)視覺(jué)
+關(guān)注
關(guān)注
8文章
1700瀏覽量
46094 -
輕量級(jí)
+關(guān)注
關(guān)注
0文章
16瀏覽量
7349
原文標(biāo)題:媒體關(guān)注丨云天勵(lì)飛論文入選ECCV2022,提出輕量級(jí)視覺(jué)模型新架構(gòu)
文章出處:【微信號(hào):IntelliFusion2,微信公眾號(hào):云天勵(lì)飛】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論