国产成人精品免费av,ZOOM动物高清啦啦啦啦啦

來自浦江實驗室、清華等機構的研究人員提出了一種新的基于卷積的基礎模型，稱為 InternImage，與基于 Transformer 的網(wǎng)絡不同，InternImage 以可變形卷積作為核心算子，使模型不僅具有檢測和分割等下游任務所需的動態(tài)有效感受野，而且能夠進行以輸入信息和任務為條件的自適應空間聚合。InternImage-H 在 COCO 物體檢測上達到 65.4 mAP，ADE20K 達到 62.9，刷新檢測分割新紀錄。

近年來大規(guī)模視覺 Transformer 的蓬勃發(fā)展推動了計算機視覺領域的性能邊界。視覺 Transformer 模型通過擴大模型參數(shù)量和訓練數(shù)據(jù)從而擊敗了卷積神經(jīng)網(wǎng)絡。來自上海人工智能實驗室、清華、南大、商湯和港中文的研究人員總結了卷積神經(jīng)網(wǎng)絡和視覺 Transformer 之間的差距。從算子層面看，傳統(tǒng)的 CNNs 算子缺乏長距離依賴和自適應空間聚合能力；從結構層面看，傳統(tǒng) CNNs 結構缺乏先進組件。

針對上述技術問題，來自浦江實驗室、清華等機構的研究人員創(chuàng)新地提出了一個基于卷積神經(jīng)網(wǎng)絡的大規(guī)模模型，稱為 InternImage，它將稀疏動態(tài)卷積作為核心算子，通過輸入相關的信息為條件實現(xiàn)自適應空間聚合。InternImage 通過減少傳統(tǒng) CNN 的嚴格歸納偏置實現(xiàn)了從海量數(shù)據(jù)中學習到更強大、更穩(wěn)健的大規(guī)模參數(shù)模式。其有效性在包括圖像分類、目標檢測和語義分割等視覺任務上得到了驗證。并在 ImageNet、COCO 和 ADE20K 在內(nèi)的挑戰(zhàn)性基準數(shù)據(jù)集中取得了具有競爭力的效果，在同參數(shù)量水平的情況下，超過了視覺 Transformer 結構，為圖像大模型提供了新的方向。

InternImage: Exploring Large-Scale Vision Foundation Models with
Deformable Convolutions

論文鏈接：https://arxiv.org/abs/2211.05778

開源代碼：https://github.com/OpenGVLab/InternImage

傳統(tǒng)卷積神經(jīng)網(wǎng)絡的局限

擴大模型的規(guī)模是提高特征表示質量的重要策略，在計算機視覺領域，模型參數(shù)量的擴大不僅能夠有效加強深度模型的表征學習能力，而且能夠實現(xiàn)從海量數(shù)據(jù)中進行學習和知識獲取。ViT 和 Swin Transformer 首次將深度模型擴大到 20 億和 30 億參數(shù)級別，其單模型在 ImageNet 數(shù)據(jù)集的分類準確率也都突破了 90%，遠超傳統(tǒng) CNN 網(wǎng)絡和小規(guī)模模型，突破了技術瓶頸。但是，傳統(tǒng)的 CNN 模型由于缺乏長距離依賴和空間關系建模能力，無法實現(xiàn)同 Transformer 結構相似的模型規(guī)模擴展能力。研究者總結了傳統(tǒng)卷積神經(jīng)網(wǎng)絡與視覺 Transformer 的不同之處：

（1）從算子層面來看，視覺 Transformer 的多頭注意力機制具有長距離依賴和自適應空間聚合能力，受益于此，視覺 Transformer 可以從海量數(shù)據(jù)中學到比 CNN 網(wǎng)絡更加強大和魯棒的表征。

（2）從模型架構層面來看，除了多頭注意力機制，視覺 Transformer 擁有 CNN 網(wǎng)絡不具有的更加先進的模塊，例如 Layer Normalization (LN), 前饋神經(jīng)網(wǎng)絡 FFN, GELU 等。

盡管最近的一些工作嘗試使用大核卷積來獲取長距離依賴，但是在模型尺度和精度方面都與最先進的視覺 Transformer 有著一定距離。

可變形卷積網(wǎng)絡的進一步拓展

InternImage 通過重新設計算子和模型結構提升了卷積模型的可擴展性并且緩解了歸納偏置，包括（1）DCNv3 算子，基于 DCNv2 算子引入共享投射權重、多組機制和采樣點調制。（2）基礎模塊，融合先進模塊作為模型構建的基本模塊單元（3）模塊堆疊規(guī)則，擴展模型時規(guī)范化模型的寬度、深度、組數(shù)等超參數(shù)。

該工作致力于構建一個能夠有效地擴展到大規(guī)模參數(shù)的 CNN 模型。首先，重新設計的可變形卷積算子 DCNv2 以適應長距離依賴和弱化歸納偏置；然后，將調整后的卷積算子與先進組件相結合，建立了基礎單元模塊；最后，探索并實現(xiàn)模塊的堆疊和縮放規(guī)則，以建立一個具有大規(guī)模參數(shù)的基礎模型，并且可以從海量數(shù)據(jù)中學習到強大的表征。

算子層面，該研究首先總結了卷積算子與其他主流算子的主要區(qū)別。當前主流的 Transformer 系列模型主要依靠多頭自注意力機制實現(xiàn)大模型構建，其算子具有長距離依賴性，足以構建遠距離特征間的連接關系，還具有空間的自適應聚合能力以實現(xiàn)構建像素級別的關系。但這種全局的注意力機制其計算和存儲需求量巨大，很難實現(xiàn)高效訓練和快速收斂。同樣的，局部注意力機制缺乏遠距離特征依賴。大核密集卷積由于沒有空間聚合能力，而難以克服卷積天然的歸納偏置，不利于擴大模型。因此，InternImage 通過設計動態(tài)稀疏卷積算子，達到實現(xiàn)全局注意力效果的同時不過多浪費計算和存儲資源，實現(xiàn)高效訓練。

研究者基于 DCNv2 算子，重新設計調整并提出 DCNv3 算子，具體改進包括以下幾個部分。

（1）共享投射權重。與常規(guī)卷積類似，DCNv2 中的不同采樣點具有獨立的投射權重，因此其參數(shù)大小與采樣點總數(shù)呈線性關系。為了降低參數(shù)和內(nèi)存復雜度，借鑒可分離卷積的思路，采用與位置無關的權重代替分組權重，在不同采樣點之間共享投影權重，所有采樣位置依賴性都得以保留。

（2）引入多組機制。多組設計最早是在分組卷積中引入的，并在 Transformer 的多頭自注意力中廣泛使用，它可以與自適應空間聚合配合，有效地提高特征的多樣性。受此啟發(fā)，研究者將空間聚合過程分成若干組，每個組都有獨立的采樣偏移量。自此，單個 DCNv3 層的不同組擁有不同的空間聚合模式，從而產(chǎn)生豐富的特征多樣性。

（3）采樣點調制標量歸一化。為了緩解模型容量擴大時的不穩(wěn)定問題，研究者將歸一化模式設定為逐采樣點的 Softmax 歸一化，這不僅使大規(guī)模模型的訓練過程更加穩(wěn)定，而且還構建了所有采樣點的連接關系。

構建 DCNv3 算子之后，接下來首先需要規(guī)范化模型的基礎模塊和其他層的整體細節(jié)，然后通過探索這些基礎模塊的堆疊策略，構建 InternImage。最后，根據(jù)所提出模型的擴展規(guī)則，構建不同參數(shù)量的模型。

基礎模塊。與傳統(tǒng) CNN 中廣泛使用的瓶頸結構不同，該研究采用了更接近 ViTs 的基礎模塊，配備了更先進的組件，包括 GELU、層歸一化（LN）和前饋網(wǎng)絡（FFN），這些都被證明在各種視覺任務中更有效率?；A模塊的細節(jié)如上圖所示，其中核心算子是 DCNv3，通過將輸入特征通過一個輕量級的可分離卷積來預測采樣偏置和調制尺度。對于其他組件，遵循與普通 Transformer 相同的設計。

疊加規(guī)則。為了明確區(qū)塊堆疊過程，該研究提出兩條模塊堆疊規(guī)則，其中第一條規(guī)則是后三個階段的通道數(shù)，由第一階段的通道數(shù)決定，即；第二條規(guī)則是各模塊組號與各階段的通道數(shù)對應，即；第三，堆疊模式固定為 “AABA”，即第 1、2 和 4 階段的模塊堆疊數(shù)是相同的，并且不大于第 3 階段。由此選擇將參數(shù)量為 30M 級別的模型作為基礎，其具體參數(shù)為：Steam 輸出通道數(shù)為 64；分組數(shù)為每個階段輸入通道數(shù)的 1/16，第 1、2、4 階段的模塊堆疊數(shù)為 4，第 3 階段的模塊堆疊數(shù)為 18，模型參數(shù)為 30M。

模型縮放規(guī)則?；谏鲜黾s束條件下的最優(yōu)模型，該研究規(guī)范化了網(wǎng)絡模型的兩個縮放維度：即深度 D（模塊堆疊數(shù)）和寬度 C（通道數(shù)），利用限制因子和沿著復合系數(shù)對深度和寬度進行縮放，即，，其中，根據(jù)實驗其最佳設置為。

按照此規(guī)則，該研究構建了不同尺度的模型，即 InternImage-T、S、B、L、XL。具體參數(shù)為：

實驗結果

圖像分類實驗：通過使用 427M 的公共數(shù)據(jù)集合：Laion-400M，YFCC15M，CC12M，InternImage-H 在 ImageNet-1K 的精度達到了 89.2%。

目標檢測：以最大規(guī)模的 InternImage-H 為骨干網(wǎng)絡，并使用 DINO 作為基礎檢測框架，在 Objects365 數(shù)據(jù)集上預訓練 DINO 檢測器，然后在 COCO 上進行微調。該模型在目標檢測任務中達到了 65.4% 的最優(yōu)結果，突破了 COCO 目標檢測的性能邊界。

語義分割：在語義分割上，InternImage-H 同樣取得了很好的性能，結合 Mask2Former 在 ADE20K 上取得了當前最高的 62.9%。

結論

該研究提出了 InternImage，這是一種新的基于 CNN 的大規(guī)模基礎模型，可以為圖像分類、對象檢測和語義分割等多功能視覺任務提供強大的表示。研究者調整靈活的 DCNv2 算子以滿足基礎模型的需求，并以核心算子為核心開發(fā)了一系列的 block、stacking 和 scaling 規(guī)則。目標檢測和語義分割基準的大量實驗驗證了 InternImage 可以獲得與經(jīng)過大量數(shù)據(jù)訓練、且精心設計的大規(guī)模視覺 Transformer 相當或更好的性能，這表明 CNN 也是大規(guī)模視覺基礎模型研究的一個相當大的選擇。盡管如此，大規(guī)模的 CNN 仍處于早期發(fā)展階段，研究人員希望 InternImage 可以作為一個很好的起點。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴