0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于超大感受野注意力的超分辨率模型

CVer ? 來源:AIWalker ? 作者:AIWalker ? 2022-10-27 13:55 ? 次閱讀

注意力機(jī)制是深度學(xué)習(xí)領(lǐng)域非常重要的一個(gè)研究方向,在圖像超分領(lǐng)域也有不少典型的應(yīng)用案例,比如基于通道注意力構(gòu)建的RCAN,基于二階注意力機(jī)制構(gòu)建的SAN,基于像素注意力機(jī)制構(gòu)建的PAN,基于Transformer自注意力機(jī)制構(gòu)建的SwinIR,基于多尺度大核注意力的MAN等。

本文則以PAN為藍(lán)本,對(duì)其進(jìn)行逐步改進(jìn)以期達(dá)到更少的參數(shù)量、更高的超分性能。該方案具體包含以下幾個(gè)關(guān)鍵點(diǎn):

  • 提升注意力分割的感受野,類似大核卷積注意力VAN;
  • 將稠密卷積核替換為深度分離卷積,進(jìn)一步降低參數(shù)量;
  • 引入像素規(guī)范化(Pixel Normalization)技術(shù),其實(shí)就是Layer Normalization,但出發(fā)點(diǎn)不同。

上述關(guān)鍵技術(shù)點(diǎn)為注意力機(jī)制的設(shè)計(jì)提供了一個(gè)清晰的演變路線,最終得到了本文的VapSR,即大感受像素注意力網(wǎng)絡(luò)(VAst-receptive-field Pixel attention Network)。

實(shí)驗(yàn)結(jié)果表明:相比其他輕量超分網(wǎng)絡(luò),VapSR具有更少的參數(shù)量。比如,項(xiàng)目IMDB與RFDN,VapSR僅需21.68%、28.18%的參數(shù)即可取得與之相當(dāng)?shù)男阅堋?/p>

本文動(dòng)機(jī)

通過引入像素注意力,PAN在大幅降低參數(shù)量的同時(shí)取得了非常優(yōu)秀的性能。相比通道注意力與空域注意力,像素注意力是一種更廣義的注意力形式,為進(jìn)一步的探索提供了一個(gè)非常好的基線。

受啟發(fā)于自注意力的發(fā)展,我們認(rèn)為:基于卷積操作的注意力仍有進(jìn)一步改進(jìn)的空間。因此,作者通過以下三個(gè)像素注意力中的設(shè)計(jì)原則展示了改善超分注意力的過程:

  • 首先,在注意力分支引入大核卷積具有明顯的優(yōu)勢(shì);
  • 其次,深度分離卷積可以降低大核卷積導(dǎo)致的巨大計(jì)算復(fù)雜度問題;
  • 最后,引入像素規(guī)范化操作讓訓(xùn)練更高效、更穩(wěn)定。
367cec1e-55b7-11ed-a3b6-dac502259ad0.jpg

**Large Kernel **以上圖i中的baseline為基礎(chǔ),作者首先對(duì)注意力分支進(jìn)行感受野擴(kuò)增:將提升到(將圖示ii),性能提升0.15dB,但參數(shù)量從846K提升到了4123K。

Parameter Reduction 為降低參數(shù)量,我們嘗試盡可能移除相對(duì)不重要的部分。作者提出了三個(gè)方案:(1) 將非注意力分支的卷積尺寸從下調(diào)到;(2) 將大核卷積注意力分支替換為深度深度分離卷積;(3) 將深度分離卷積中的深度卷積進(jìn)行分解為深度卷積+帶擴(kuò)張因子的深度卷積(該機(jī)制可參考下圖,將卷積拆分為+,其中后者的擴(kuò)張因子為3)。此時(shí),模型性能變?yōu)?8.48dB,但參數(shù)量降到了240K,參數(shù)量基本被壓縮到了極限。

368720e4-55b7-11ed-a3b6-dac502259ad0.jpg

Pixel Normalization(PN) 注意力機(jī)制的元素乘操作會(huì)導(dǎo)致訓(xùn)練不穩(wěn)定問題:小學(xué)習(xí)率收斂不夠好,大學(xué)習(xí)率又會(huì)出現(xiàn)梯度異常。前面的注意力改進(jìn)導(dǎo)致所得方案存在性能下降問題。為解決該問題,作者經(jīng)深入分析后提出了像素規(guī)范化技術(shù)(可參考下圖不同規(guī)范化技術(shù)的可視化對(duì)比)。

36997258-55b7-11ed-a3b6-dac502259ad0.jpg

假設(shè)輸入特征為,第i個(gè)像素的特征均值與方差可以描述如下:

那么,像素規(guī)范化可以表示為:

當(dāng)引入PN后,模型的性能取得了顯著的提升,達(dá)到了28.92dB,參數(shù)量?jī)H為241K。

Switch Attention to Middle 在上述基礎(chǔ)上,作者進(jìn)一步將注意力的位置進(jìn)行了調(diào)整,放到了兩個(gè)卷積中間。此時(shí),模型性能得到了0.03dB提升,達(dá)到了28.95dB,參數(shù)量仍為241K。

本文方案

前面的探索主要聚焦在微觀層面,基于此,作者進(jìn)一步在宏觀層面進(jìn)行了更多設(shè)計(jì)與提煉,進(jìn)而構(gòu)建了VapSR,取得了更佳的性能,同時(shí)具有更少的參數(shù)量。

36c0b368-55b7-11ed-a3b6-dac502259ad0.jpg

上圖給出了所提VapSR架構(gòu)示意圖,延續(xù)了常規(guī)輕量方案的設(shè)計(jì)思路:

  • 淺層特征:;
  • 非線性映射: ;
  • 圖像重建:

VAB模塊在前面探索得到的模塊上進(jìn)行了微調(diào):(1) 主要是將模塊輸入與輸出通道數(shù)從64減少到了48,保持中間注意力部分的通道數(shù)仍為64;(2) 將注意力分支深度擴(kuò)張卷積(有時(shí)也稱之為空洞卷積)調(diào)整為深度擴(kuò)張卷積,此時(shí)感受野為;(3) 調(diào)整了注意力分支三個(gè)卷積的順序,將卷積移到最前面。對(duì)于VapSR-S,作者進(jìn)一步將部分從卷積調(diào)整為組卷積(group=2),該操作可以進(jìn)一步降低參數(shù)量。

classAttention(nn.Module):
def__init__(self,dim):
super().__init__()
self.pointwise=nn.Conv2d(dim,dim,1)
self.depthwise=nn.Conv2d(dim,dim,5,padding=2,groups=dim)
self.depthwise_dilated=nn.Conv2d(dim,dim,5,1,padding=6,groups=dim,dilation=3)

defforward(self,x):
u=x.clone()
attn=self.pointwise(x)
attn=self.depthwise(attn)
attn=self.depthwise_dilated(attn)
returnu*attn

classVAB(nn.Module):
def__init__(self,d_model,d_atten):
super().__init__()
self.proj_1=nn.Conv2d(d_model,d_atten,1)
self.activation=nn.GELU()
self.atten_branch=Attention(d_atten)
self.proj_2=nn.Conv2d(d_atten,d_model,1)
self.pixel_norm=nn.LayerNorm(d_model)
default_init_weights([self.pixel_norm],0.1)

defforward(self,x):
shorcut=x.clone()
x=self.proj_1(x)
x=self.activation(x)
x=self.atten_branch(x)
x=self.proj_2(x)
x=x+shorcut

x=x.permute(0,2,3,1)#(B,H,W,C)
x=self.pixel_norm(x)
x=x.permute(0,3,1,2).contiguous()#(B,C,H,W)

returnx

本文實(shí)驗(yàn)

在實(shí)驗(yàn)部分,作者構(gòu)建了VapSR與VapSR-S兩個(gè)版本的輕量型超分方案:

  • VapSR:包含21個(gè)VAB模塊,主干通道數(shù)為48;
  • VapSR-S:包含11個(gè)VAB模塊,主干通道數(shù)為32。

此外,需要注意的是:對(duì)于X4模型,重建模塊并未采用常規(guī)的輕量方案(Conv+PS),而是采用了類EDSR的重方案(Conv+PS+Conv+PS)。

36e349a0-55b7-11ed-a3b6-dac502259ad0.jpg37744252-55b7-11ed-a3b6-dac502259ad0.jpg378c5568-55b7-11ed-a3b6-dac502259ad0.jpg

上表&圖給出了不同方案的性能與可視化效果對(duì)比,從中可以看到:

  • 所提VapSR取得了SOTA性能,同時(shí)具有非常少的參數(shù)量。
  • 在X4任務(wù)上,相比RFDN與IMDN,VapSR僅需21.68%/28.18%的參數(shù)量,即可取得平均0.187dB指標(biāo)提升;
  • VapSR-S取得了與BSRN-S相當(dāng)?shù)男阅埽笳呤荖TIRE2022-ESR模型復(fù)雜度賽道冠軍。
  • 在線條重建方面,VapSR具有比其他方案更精確的重建效果。

審核編輯 :李倩


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 分辨率
    +關(guān)注

    關(guān)注

    2

    文章

    1063

    瀏覽量

    41937
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3244

    瀏覽量

    48848
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5503

    瀏覽量

    121175

原文標(biāo)題:董超團(tuán)隊(duì)提出VapSR:基于超大感受野注意力的超分辨率模型

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    如何提高透鏡成像的分辨率

    透鏡成像分辨率是指透鏡系統(tǒng)能夠分辨的最小細(xì)節(jié)的能力。提高透鏡成像分辨率對(duì)于許多應(yīng)用領(lǐng)域,如顯微鏡、望遠(yuǎn)鏡、相機(jī)等,都是至關(guān)重要的。以下是一些提高透鏡成像分辨率的方法: 1. 減少像差
    的頭像 發(fā)表于 12-25 16:54 ?238次閱讀

    HDMI接口支持哪些視頻分辨率

    HDMI(High-Definition Multimedia Interface)接口支持的視頻分辨率因版本不同而有所差異。以下是HDMI接口不同版本所支持的視頻分辨率的概述: HDMI 1.4
    的頭像 發(fā)表于 11-27 14:14 ?1474次閱讀

    視頻處理器的分辨率是如何管理的

    ? ? 隨著電子應(yīng)用技術(shù)和消費(fèi)市場(chǎng)的不斷發(fā)展,LED顯示屏的顯示單元之間的間距正在逐漸縮小,然而,顯示屏的整體面積卻在不斷擴(kuò)大。為了滿足這一趨勢(shì)下對(duì)超大輸出分辨率的需求,視頻處理器和拼接器變得
    的頭像 發(fā)表于 11-11 15:25 ?267次閱讀
    視頻處理器的<b class='flag-5'>分辨率</b>是如何管理的

    微軟發(fā)布DirectSR新預(yù)覽版:整合FSR 3.1分辨率技術(shù)

    微軟近期發(fā)布了一項(xiàng)專為游戲開發(fā)者設(shè)計(jì)的全新API技術(shù)——DirectSR的預(yù)覽版。這項(xiàng)技術(shù)的核心在于,它能夠幫助開發(fā)者在開發(fā)過程中一次性兼容當(dāng)前市場(chǎng)上的主流分辨率技術(shù),極大地簡(jiǎn)化了開發(fā)流程
    的頭像 發(fā)表于 10-25 13:54 ?220次閱讀

    提高SAR ADC的分辨率

    電子發(fā)燒友網(wǎng)站提供《提高SAR ADC的分辨率.pdf》資料免費(fèi)下載
    發(fā)表于 10-25 09:11 ?0次下載
    提高SAR ADC的<b class='flag-5'>分辨率</b>

    Arm精銳超級(jí)分辨率技術(shù)解析

    近日,Arm 推出了 Arm 精銳超級(jí)分辨率技術(shù) (Arm Accuracy Super Resolution, Arm ASR),這是一款面向移動(dòng)設(shè)備進(jìn)行優(yōu)化升級(jí)的出色開源超級(jí)分辨率(下文簡(jiǎn)稱“分”)解決方案。本文將為你介紹
    的頭像 發(fā)表于 09-03 11:28 ?950次閱讀
    Arm精銳超級(jí)<b class='flag-5'>分辨率</b>技術(shù)解析

    VR顯示器分辨率的選擇

    顯示器能夠提供更加清晰、細(xì)膩的畫面,讓用戶在虛擬現(xiàn)實(shí)世界中獲得更加真實(shí)的感受。 1.2 分辨率與舒適度 除了視覺體驗(yàn)外,分辨率還與用戶的舒適度密切相關(guān)。低分辨率的VR顯示器容易產(chǎn)生紗窗
    的頭像 發(fā)表于 07-08 10:29 ?1097次閱讀

    基于CNN的圖像分辨率示例

    考慮單個(gè)低分辨率圖像,首先使用雙三次插值將其放大到所需的大小,這是執(zhí)行的唯一預(yù)處理。將插值圖像表示為Y。我們的目標(biāo)是從Y中恢復(fù)與真實(shí)高分辨率圖像X盡可能相似的圖像F (Y) 。
    的頭像 發(fā)表于 03-11 11:40 ?712次閱讀
    基于CNN的圖像<b class='flag-5'>超</b><b class='flag-5'>分辨率</b>示例

    華為pockets屏幕分辨率是多少

    華為Pocket S的內(nèi)屏分辨率是2790×1188,外屏分辨率為340×340。該手機(jī)采用了6.9英寸的柔性O(shè)LED屏幕,支持120Hz刷新、1440Hz高頻PWM調(diào)光,色彩表現(xiàn)達(dá)到10.7億色,同時(shí)還配備了防反光納米光學(xué)膜
    的頭像 發(fā)表于 03-06 17:37 ?1161次閱讀

    EVAL_PASCO2_SENSOR為什么無(wú)法從較低的分辨率高速獲得更高的分辨率?

    我有一個(gè)圖像 EVAL_PASCO2_SENSOR,支持高達(dá) 3840x2160 分辨率的超高速和高速。 我能以快的速度拍攝所有靜止畫面。 但是,當(dāng)我嘗試獲得更高分辨率(3840x2160)的靜態(tài)
    發(fā)表于 02-22 07:58

    編碼器分辨率是什么意思 編碼器分辨率和脈沖數(shù)的關(guān)系

    按照編碼器支持的分辨率可以把編碼器分成標(biāo)清編碼器、高清編碼器、全高清編碼器,分辨率越高幀率越高視頻就越清楚。 1.編碼器的分辨率是什么意思 編碼器的分辨率是指編碼器以每旋轉(zhuǎn)360度提供
    的頭像 發(fā)表于 02-21 18:07 ?4248次閱讀
    編碼器<b class='flag-5'>分辨率</b>是什么意思 編碼器<b class='flag-5'>分辨率</b>和脈沖數(shù)的關(guān)系

    電容觸摸屏的分辨率怎么調(diào)

    電容觸摸屏的分辨率調(diào)整是通過調(diào)整觸摸屏的控制器的參數(shù)來實(shí)現(xiàn)的。觸摸屏的分辨率是指能夠在屏幕上識(shí)別的最小觸摸點(diǎn)的像素?cái)?shù)量。分辨率越高,觸摸屏可以更準(zhǔn)確地檢測(cè)和響應(yīng)用戶的操作。 在調(diào)整電容觸摸屏的
    的頭像 發(fā)表于 01-23 16:59 ?1965次閱讀

    鏡頭分辨率簡(jiǎn)述

    分辨率可以從顯示分辨率與圖像分辨率兩個(gè)方向來分類。
    的頭像 發(fā)表于 01-15 11:12 ?940次閱讀

    淺談相機(jī)的圖像分辨率

    談到顯微成像系統(tǒng),常常會(huì)用分辨率來評(píng)價(jià)成像能力的高低,那分辨率到底指的是什么,又怎樣計(jì)算呢?其實(shí)對(duì)于一個(gè)特定的顯微成像系統(tǒng),分辨率要從兩個(gè)方面來考慮,一種是光學(xué)系統(tǒng)的分辨率—光學(xué)衍射極
    的頭像 發(fā)表于 01-09 09:54 ?1819次閱讀
    淺談相機(jī)的圖像<b class='flag-5'>分辨率</b>

    adc電路的分辨率怎么算

    ADC(模數(shù)轉(zhuǎn)換器)電路的分辨率是指其能夠?qū)⒛M信號(hào)轉(zhuǎn)換為數(shù)字信號(hào)時(shí)能夠達(dá)到的最小分辨單位。分辨率通常用位數(shù)表示,例如10位的ADC具有1024個(gè)離散的輸出級(jí)別。 要計(jì)算ADC電路的分辨率
    的頭像 發(fā)表于 01-04 15:23 ?7294次閱讀