1. 摘要
CVPR VISION 23挑戰(zhàn)賽第1賽道 "數(shù)據(jù)智能缺陷檢測 "要求參賽者在數(shù)據(jù)缺乏的環(huán)境下對14個工業(yè)檢測數(shù)據(jù)集進行實例分割。本論文的方法聚焦于在有限訓(xùn)練樣本的場景下提高缺陷掩模的分割質(zhì)量的關(guān)鍵問題。基于混合任務(wù)級聯(lián)(HTC)實例分割算法,我們用受CBNetv2啟發(fā)的復(fù)合連接將transformer骨干(Swin-B)連接起來以增強基準結(jié)果。此外,我們提出了兩種模型集成方法來進一步增強分割效果:一種是將語義分割整合到實例分割中,另一種是采用多實例分割融合算法。最后,通過多尺度訓(xùn)練和測試時數(shù)據(jù)增強(TTA),我們在數(shù)據(jù)高效缺陷檢測挑戰(zhàn)賽的測試集上獲得了高于48.49%的平均mAP@0.50:0.95和66.71%的平均mAR@0.50:0.95。論文鏈接:https://arxiv.org/abs/2306.14116代碼鏈接:https://github.com/love6tao/
2. 背景補充
深度學(xué)習(xí)在視覺檢測中的應(yīng)用越來越廣泛,這包括如無人機巡檢電力設(shè)備、檢測工業(yè)表面上的輕微劃痕、識別深孔零件中的銅線缺陷以及檢測芯片和玻璃表面上的導(dǎo)電微粒等工業(yè)缺陷檢測任務(wù)。但是,在工業(yè)制造場景中獲得標注的缺陷數(shù)據(jù)是困難、昂貴和耗時的,因此使得基于視覺的工業(yè)檢測更具挑戰(zhàn)性。為了解決這個問題,CVPR VISION 23挑戰(zhàn)賽第1賽道 - 數(shù)據(jù)高效缺陷檢測競賽啟動。
該競賽數(shù)據(jù)集由14個來自真實場景的缺陷數(shù)據(jù)集組成,最顯著的特點是測試樣本數(shù)量遠遠超過訓(xùn)練樣本數(shù)量。如上圖所示,一些數(shù)據(jù)集如電容器和電子設(shè)備數(shù)據(jù)集僅包含不超過40個訓(xùn)練樣本。此外,某些圖像在數(shù)據(jù)集中存在顯著的尺度變化。大多數(shù)框只覆蓋圖像的10%,而一些框可以覆蓋整個圖像。而且,14個數(shù)據(jù)集之間的背景和缺陷紋理形狀存在顯著差異,使得構(gòu)建可以在每個數(shù)據(jù)集上都取得滿意結(jié)果的統(tǒng)一算法框架是一個巨大的挑戰(zhàn)。為了解決這些問題,我們訓(xùn)練了一個以Swin Transformer 和CBNetV2 為骨干的強大基準模型,然后采用兩種模型集成方法來進一步提升分割性能。我們將在第2節(jié)中介紹我們的流程和詳細組件。實驗結(jié)果和消融研究顯示在第3節(jié)中。
3. 方法介紹
在這一節(jié)中,我們提出了一個由三部分組成的有效流程。首先訓(xùn)練一個強大的單實例分割模型作為基準,使用混合任務(wù)級聯(lián),以Swin Transformer和CBNetV2作為其骨干,如上圖所示。其次,使用Mask2Former 訓(xùn)練一個強大的語義分割模型來進一步提煉分割性能,將語義分割結(jié)果與實例分割結(jié)果融合。最后,融合三個實例分割模型的結(jié)果以進一步改進分割效果用于最終提交。
3.1 基礎(chǔ)實例分割模型
我們的基礎(chǔ)實例分割模型建立在混合任務(wù)級聯(lián)(HTC) 檢測器之上,使用CBSwinBase骨干和CBFPN 架構(gòu)。HTC是一個用于實例分割任務(wù)的穩(wěn)健的級聯(lián)架構(gòu),它巧妙地混合了檢測和分割分支進行聯(lián)合多階段處理,在每個階段逐步提取更有區(qū)分性的特征。為避免需要額外的語義分割注釋,我們從解決方案中刪除了語義頭部。最近的視覺Transformer的進步對各種視覺任務(wù)非常重要,因此我們采用Swin Transformer作為我們的骨干。Swin Transformer在分層特征架構(gòu)中引入了一個高效的window注意力模塊,其計算復(fù)雜度與輸入圖像大小呈線性關(guān)系。在我們的工作中,我們采用在ImageNet-22k數(shù)據(jù)集上預(yù)訓(xùn)練的Swin-B網(wǎng)絡(luò)作為我們的基本骨干。為進一步提高性能,我們受CBNetv2算法的啟發(fā),通過復(fù)合連接將兩個相同的Swin-B網(wǎng)絡(luò)組合在一起。如上圖所示。
3.2 將語義分割整合到實例分割中
盡管單個模型可以取得很好的分割結(jié)果,但實例分割的結(jié)果通常不完整,特別是在設(shè)定IOU閾值過高時,這可能對mask mAP 產(chǎn)生負面影響。因此,我們使用語義分割模型的輸出來補充實例分割模型的結(jié)果。
我們的語義分割模型基于Mask2Former,使用Swin-L作為骨干,其網(wǎng)絡(luò)輸入圖像大小為512×512。預(yù)訓(xùn)練權(quán)重來自ADE20K數(shù)據(jù)集。為了訓(xùn)練語義分割網(wǎng)絡(luò),我們將多缺陷標簽轉(zhuǎn)換為表示背景和缺陷的二進制標簽。
對于融合策略,我們在相同的像素位置組合實例分割結(jié)果和語義分割結(jié)果,生成新的實例分割結(jié)果,如上圖所示。由于語義分割任務(wù)將像素劃分為兩類:缺陷和背景,所以實例分割任務(wù)中的預(yù)測邊界框(bbox)類確定了像素的實際類。值得注意的是,只有預(yù)測實例與bbox置信度大于閾值才會與語義分割結(jié)果進行融合。在競賽中,我們將設(shè)置為0.5以獲得最佳的分割性能。
3.3 多個實例分割的融合
我們的實驗結(jié)果表明,不同的實例分割骨干可以產(chǎn)生互補的結(jié)果。這意味著融合不同骨干的實例分割結(jié)果可以提高模型的召回率。但是,提高召回率往往以犧牲檢測精度為代價。為解決這個問題,我們設(shè)計了一個融合策略,如上圖所示。
在我們的實驗中,我們將model-1、model-2和model-3分別稱為HTC、Cascade Mask rcnn-ResNet50和Cascade Mask rcnn-ConvNext模型。這些模型的設(shè)計目的是在它們之間增加多樣性。
Mask2Former是一個經(jīng)過驗證的高效語義分割架構(gòu),已經(jīng)被證明在各種應(yīng)用中都能實現(xiàn)最先進的結(jié)果,如語義、實例和全景分割。通過將語義分割與實例分割相結(jié)合,我們在測試數(shù)據(jù)集上取得了顯著的48.38%的mask mAP。最后,通過平均模型包中這些模型的預(yù)測,我們的模型集成在競賽中實現(xiàn)了卓越的性能,mAP達到48.49%,mAR達到66.71%。
4. 未來改進方向
半監(jiān)督學(xué)習(xí):在我們的實驗中,我們僅關(guān)注在訓(xùn)練和驗證集上訓(xùn)練實例分割模型。我們嘗試使用基于soft-teacher的半監(jiān)督學(xué)習(xí)方法來改進實例分割的性能。然而,由于數(shù)據(jù)集的差異,無法為半監(jiān)督模型提供統(tǒng)一的訓(xùn)練策略。由于競賽時間的限制,以后的研究將半監(jiān)督方法作為一個更可行的方向。
SAM: Meta提出了通用分割模型(SAM)作為解決分割任務(wù)的基礎(chǔ)模型。我們通過在線演示網(wǎng)站評估了其有效性,并確定該模型在工業(yè)數(shù)據(jù)上的泛化性能也很出色。但是,根據(jù)競賽規(guī)則,我們不能使用SAM。盡管如此,大模型或基礎(chǔ)模型仍有可能為工業(yè)缺陷檢測帶來重大變化,從而為未來工作提供了另一個改進方向。
5. 結(jié)論
在論文中,我們介紹了CVPR VISION 23挑戰(zhàn)賽第1賽道亞軍解決方案"數(shù)據(jù)高效缺陷檢測"技術(shù)細節(jié)。作者的方法包括三個主要組成部分:基礎(chǔ)實例分割模型、將語義分割整合到實例分割中的方法以及融合多個實例分割的策略。通過一系列實驗,我們證明了我們的方法在測試集上的競爭力,在mAP@0.50:0.95上獲得48.49%以上,在mAR@0.50:0.95上獲得66.71%以上。
責任編輯:彭菁
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7035瀏覽量
89047 -
檢測技術(shù)
+關(guān)注
關(guān)注
2文章
355瀏覽量
29077 -
分割
+關(guān)注
關(guān)注
0文章
17瀏覽量
11898
原文標題:CVPR VISION 23挑戰(zhàn)賽第1賽道亞軍解決方案 - 數(shù)據(jù)高效缺陷檢測
文章出處:【微信號:GiantPandaCV,微信公眾號:GiantPandaCV】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論