在CVPR 2021中,曠視研究院共入選論文22篇,其中Oral論文2篇,研究領域涵蓋激活函數(shù)、神經(jīng)網(wǎng)絡、神經(jīng)網(wǎng)絡架構搜索、光流估計、無監(jiān)督學習、人體姿態(tài)估計、目標檢測等。
本篇推文中,我們?yōu)榇蠹規(guī)砹?1篇入選論文的精彩摘要,兩篇oral論文也在其中,分享給大家。
1oral論文
Fully Convolutional Networks for Panoptic Segmentation
本文旨在使用全卷積形式統(tǒng)一地表達和預測物體和周邊環(huán)境,從而實現(xiàn)準確高效的全景分割。具體來說,本文提出卷積核生成器將每個物體和每類環(huán)境的語義信息編碼至不同的卷結核中,并同高分辨率的特征圖卷積直接輸出每個前景和背景的分割結果。通過這種方法,物體和環(huán)境的個體差異和語義一致性可以被分別保留下來。該方法在多個全景分割數(shù)據(jù)集上均取得速度和精度的當前最佳結果。關鍵詞:統(tǒng)一表達,動態(tài)卷積,全景分割arxiv: https://arxiv.org/abs/2012.00720github: https://github.com/yanwei-li/PanopticFCN
2oral論文
FFB6D: A Full Flow Bidirectional Fusion Network for 6D Pose Estimation
FFB6D提出一種網(wǎng)絡全流雙向融合的RGBD表征學習框架并應用于6D位姿估計問題。我們發(fā)現(xiàn)現(xiàn)有的表征學習方法都沒能很好地利用RGB中的外觀信息和深度圖(點云)中的幾何信息這兩種互補的數(shù)據(jù)源。
對此,我們設計了一種雙向稠密融合模塊并應用到CNN和點云網(wǎng)絡的每個編碼和解碼層。這種全流雙向融合機制能讓兩個網(wǎng)絡充分利用彼此提取的局部和全局互補信息,從而獲得更好的表征用于下游預測任務。此外,在輸出表征選擇上,我們結合物品的紋理和幾何信息設計了一種SIFT-FPS關鍵點選擇算法,簡化了網(wǎng)絡定位關鍵點的難度并提升了位姿精度。我們的方法在多個基準上都獲得顯著的提升。并且這種RGBD表征學習骨干網(wǎng)絡能通過級聯(lián)不同的預測網(wǎng)絡,應用在更多以RGBD為輸入的視覺任務上。
關鍵詞:RGBD表征學習,3D視覺,6D位姿估計PDF: https://arxiv.org/abs/2103.02242code: https://github.com/ethnhe/FFB6D
3RepVGG: Making VGG-style ConvNets Great Again
科學技術總是螺旋式地上升。我們“復興”了VGG式單路極簡卷積神經(jīng)網(wǎng)絡架構,一路3x3卷到底,在速度和性能上達到SOTA水平,在ImageNet上超過80%正確率。
為了克服VGG式架構訓練困難的問題,我們使用結構重參數(shù)化(structural re-parameterization)在訓練時的模型中構造恒等映射和1x1卷積分支,然后在訓練結束后將其等效融合進3x3卷積中去,因而推理時模型僅包含3x3卷積。這一架構沒有任何分支結構,因此其并行度很高,速度很快。且由于主體部分僅有“3x3-ReLU”這一種算子,特別適合用于定制硬件。
關鍵詞:結構重參數(shù)化,極簡架構,高效模型https://arxiv.org/abs/2101.03697
4Dynamic Region-Aware Convolution
本文提出一種新的卷積操作----動態(tài)區(qū)域注意卷積(DRConv: Dynamic Region-Aware Convolution),該卷積可以根據(jù)特征相似度為不同平面區(qū)域分配定制的卷積核。這種卷積方式相較于傳統(tǒng)卷積極大地增強了對圖像語義信息多樣性的建模能力。標準卷積層可以增加卷積核的數(shù)量以提取更多的視覺元素,但會導致較高的計算成本。DRConv使用可學習的分配器將逐漸增加的卷積核轉移到平面維度,這不僅提高了卷積的表示能力,而且還保持了計算成本和平移不變性。
DRConv是一種用于處理語義信息分布復雜多變的有效而優(yōu)雅的方法,它可以以其即插即用特性替代任何現(xiàn)有網(wǎng)絡中的標準卷積,且對于輕量級網(wǎng)絡的性能有顯著提升。本文在各種模型(MobileNet系列,ShuffleNetV2等)和任務(分類,面部識別,檢測和分割)上對DRConv進行了評估,在ImageNet分類中,基于DRConv的ShuffleNetV2-0.5×在46M計算量的水平下可實現(xiàn)67.1%的性能,相對基準提升6.3%。
https://arxiv.org/abs/2003.12243
5Diverse Branch Block: Building a Convolution as an Inception-like Unit
我們提出一種卷積網(wǎng)絡基本模塊(DBB),用以豐富模型訓練時的微觀結構而不改變其宏觀架構,以此提升其性能。這種模塊可以在訓練后通過結構重參數(shù)化(structural re-parameterization)等效轉換為一個卷積,因而不引入任何額外的推理開銷。
我們歸納了六種可以此種等效轉換的結構,包括1x1-KxK連續(xù)卷積、average pooling等,并用這六種變換給出了一種代表性的形似Inception的DBB實例,在多種架構上均取得了顯著的性能提升。我們通過實驗確認了“訓練時非線性”(而推理時是線性的,如BN)和“多樣的鏈接”(比如1x1+3x3效果好于3x3+3x3)是DBB有效的關鍵。
關鍵詞:結構重參數(shù)化,無推理開銷,無痛提升
6Generalized Few-Shot Object Detection without Forgetting
過去的工作大都聚焦在小類樣本類別性能而犧牲了大類樣本的性能。本文提出一種無遺忘效應的小類樣本目標檢測器,能夠在實現(xiàn)更好的小類樣本類別性能的同時,不掉落大類樣本類別的性能。在本文中,我們發(fā)現(xiàn)了預訓練的檢測器很少在未見過的類別上產(chǎn)生假陽性預測,且還發(fā)現(xiàn)RPN并非理想的類別無關組件?;谶@兩點發(fā)現(xiàn),我們設計了Re-detector和Bias-Balanced RPN兩個簡單而有效的結構,只增加少量參數(shù)和推斷時間即可實現(xiàn)無遺忘效應的小類樣本目標檢測。
關鍵詞:小樣本學習,目標檢測
7
Distribution Alignment: A Unified Framework for Long-tail Visual Recognition
本文提出了一個處理含有長尾數(shù)據(jù)分布的視覺識別任務的統(tǒng)一框架。我們首先針對現(xiàn)有的處理長尾問題的兩階段的方法進行了實驗分析,找出現(xiàn)有方法主要的性能瓶頸。基于實驗分析,我們提出了一種分布對齊策略來系統(tǒng)性解決長尾視覺任務。
該框架基于兩階段方法設計,在第一階段,使用instance-balanced 采樣策略進行特征表示學習(representation learning)。在第二階段,我們首先設計了一個input-aware的對齊函數(shù),以實現(xiàn)對輸入數(shù)據(jù)的得分進行矯正。同時,為了引入數(shù)據(jù)集分布的先驗,我們設計了一個泛化重加權(Generalized Re-weight)方案, 來處理圖像分類,語義分割,物體檢測和實例分割等多種視覺任務場景。我們在四個任務上驗證了我們的方法,在各個任務上均取得了明顯的性能提升。
關鍵詞:圖像分類,語義分割,物體檢測,實例分割
8
End-to-End Object Detection with Fully Convolutional Network
本文首次在全卷積目標檢測器上去除了NMS(非極大值抑制)后處理,做到了端到端訓練。我們分析了主流一階段目標檢測方法,并發(fā)現(xiàn)傳統(tǒng)的一對多標簽分配策略是這些方法依賴NMS的關鍵,并由此提出了預測感知的一對一標簽分配策略。此外,為了提升一對一標簽分配的性能,我們提出了增強特征表征能力的模塊,和加速模型收斂的輔助損失函數(shù)。我們的方法在無NMS的情況下達到了與主流一階段目標檢測方法相當?shù)男阅?。在密集場景上,我們的方法的召回率超過了依賴NMS的目標檢測方法的理論上限。
關鍵詞:端到端檢測,標簽分配,全卷積網(wǎng)絡
https://arxiv.org/abs/2012.03544
9
OTA: Optimal Transport Assignment for Object Detection
我們提出了一種基于最優(yōu)傳輸理論的目標檢測樣本匹配策略,利用全局信息來尋找最優(yōu)樣本匹配的結果,相對于現(xiàn)有的樣本匹配技術,具有如下優(yōu)勢:1)檢測精度高。全局最優(yōu)的匹配結果能幫助檢測器以穩(wěn)定高效的方式訓練,最終在COCO數(shù)據(jù)集上達到最優(yōu)檢測性能。
2) 適用場景廣?,F(xiàn)有的目標檢測算法在遇到諸如目標密集或被嚴重遮擋等復雜場景時,需要重新設計策略或者調整參數(shù),而最優(yōu)傳輸模型在全局建模的過程中包括了尋找最優(yōu)解的過程,不用做任何額外的調整,在各種目標密集、遮擋嚴重的場景下也能達到最先進的性能,具有很大的應用潛力。
關鍵詞:目標檢測、最優(yōu)傳輸、樣本匹配策略
10
IQDet: Instance-wise Quality Distribution Sampling for Object Detection
由于一階段檢測器的標簽分配有靜態(tài)、沒有考慮目標框的全局信息等不足,我們提出了一種基于目標質量分布采樣的目標檢測器。在本文中,我們提出質量分布編碼模塊QDE和質量分布采樣模塊QDS,通過提取目標框的區(qū)域特征,并基于高斯混合模型來對預測框的質量分布進行建模,來動態(tài)的選擇檢測框的正負樣本分配。本方法只涉及訓練階段標簽分配,就可以在COCO等多個數(shù)據(jù)集上實現(xiàn)當前最佳結果。
關鍵詞:標簽分配
11
FSCE: Few-Shot Object Detection via Contrastive Proposal Encoding
論文提出的FSCE方法旨在從優(yōu)化特征表示的角度去解決小樣本物體檢測問題。小樣本物體檢測任務中受限于目標樣本的數(shù)目稀少,對目標樣本的分類正確與否往往對最終的性能有很大的影響。FSCE借助對比學習的思想對相關候選框進行編碼優(yōu)化其特征表示,加強特征的類內緊湊和類間相斥,最后方法在常見的COCO和Pascal VOC數(shù)據(jù)集上都得到有效提升。
關鍵詞:小樣本目標檢測,對比學習論文鏈接:https://arxiv.org/abs/2103.05950
編輯;jq
-
檢測器
+關注
關注
1文章
869瀏覽量
47769 -
數(shù)據(jù)集
+關注
關注
4文章
1209瀏覽量
24800 -
voc
+關注
關注
0文章
105瀏覽量
15713
原文標題:【CVPR2021】曠視研究院入選學術成果盤點
文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論