ICCV2023 基準(zhǔn)測(cè)試:MS-COCO數(shù)據(jù)集的可靠嗎?
摘要
數(shù)據(jù)集是用于分析和比較各種任務(wù)的算法的基礎(chǔ),從圖像分類到分割,它們也在圖像預(yù)訓(xùn)練算法中起著重要作用。然而,人們往往只關(guān)注結(jié)果,而忽略了數(shù)據(jù)集中實(shí)際的內(nèi)容。因此,質(zhì)疑數(shù)據(jù)集中所包含的信息類型以及其中的微妙差異和偏見是非常必要的。在本文中,我們利用形狀分析流程來發(fā)現(xiàn)Sama-COCO(MS-COCO的重新標(biāo)注版本)的潛在問題。我們?cè)趦蓚€(gè)數(shù)據(jù)集上訓(xùn)練和評(píng)估了模型,以檢查不同標(biāo)注條件對(duì)結(jié)果的影響。我們的實(shí)驗(yàn)表明,標(biāo)注方式對(duì)性能有顯著影響,因此標(biāo)注過程應(yīng)該根據(jù)目標(biāo)任務(wù)進(jìn)行設(shè)計(jì)。
引言
數(shù)據(jù)集基準(zhǔn)和評(píng)估標(biāo)準(zhǔn)對(duì)于塑造計(jì)算機(jī)視覺研究的方向和動(dòng)力具有關(guān)鍵作用。它們是衡量社區(qū)進(jìn)步和算法創(chuàng)新的標(biāo)尺。這些組件通常被認(rèn)為是單一的工作,它們被收集和分析以確保所有算法的可靠性和質(zhì)量。然而,當(dāng)基準(zhǔn)本身存在缺陷時(shí),研究人員和從業(yè)者花費(fèi)大量時(shí)間調(diào)整他們的實(shí)驗(yàn)以在基準(zhǔn)上取得最佳性能,會(huì)產(chǎn)生什么后果呢?
視覺數(shù)據(jù)集通常用于分類、檢測(cè)和分割等任務(wù)的算法基準(zhǔn)測(cè)試或大型神經(jīng)網(wǎng)絡(luò)的預(yù)訓(xùn)練。然而,這存在一個(gè)問題,那就是實(shí)際的目標(biāo)并不總是與數(shù)據(jù)集中提供的數(shù)據(jù)相一致。這種不一致可能源于自動(dòng)標(biāo)注協(xié)議的缺陷或眾包努力的不協(xié)調(diào)。因此,有必要建立一個(gè)嚴(yán)格的端到端流程,其中注釋過程由實(shí)際任務(wù)的明確定義所指導(dǎo)。
目標(biāo)檢測(cè)數(shù)據(jù)集(MS-COCO)是一個(gè)用于評(píng)估和比較檢測(cè)和實(shí)例分割算法的標(biāo)準(zhǔn)數(shù)據(jù)集,包括YOLO,R-CNN和DETR等方法。它由自然圖像組成,具有自動(dòng)駕駛行業(yè)的應(yīng)用價(jià)值,因此為在其上開發(fā)的神經(jīng)網(wǎng)絡(luò)提供了質(zhì)量標(biāo)準(zhǔn)。由于MS-COCO在計(jì)算機(jī)視覺中作為基準(zhǔn)的重要性,理解其數(shù)據(jù)集中的邊界框和分割掩模的可靠性和質(zhì)量是非常必要的,因?yàn)樗鼈兎从沉藬?shù)據(jù)的趨勢(shì)和特征。為了評(píng)估數(shù)據(jù)集的質(zhì)量,可以創(chuàng)建數(shù)據(jù)集的重新標(biāo)注版本,以便與原始版本進(jìn)行比較和發(fā)現(xiàn)潛在的差異,這些差異可能會(huì)影響算法的性能和泛化能力。
圖2 除了聚集的實(shí)例外,其他對(duì)象的大小分布
數(shù)據(jù)集
Sama-COCO數(shù)據(jù)集是對(duì)現(xiàn)有MS-COCO數(shù)據(jù)集的重新標(biāo)注工作,由一組專業(yè)的標(biāo)注員完成。該項(xiàng)目最初是作為一個(gè)內(nèi)部工作,旨在生成高質(zhì)量的地面真實(shí)數(shù)據(jù),后來發(fā)展成為一種提供了解機(jī)器學(xué)習(xí)數(shù)據(jù)集質(zhì)量復(fù)雜因素的新方法。
該數(shù)據(jù)集是在數(shù)月內(nèi)生成的,使用了不固定的人力資源:有時(shí)有多達(dá)500名標(biāo)注員同時(shí)工作。關(guān)鍵點(diǎn)是有對(duì)標(biāo)注員的進(jìn)行詳細(xì)指導(dǎo)。與MS-COCO數(shù)據(jù)集一樣,標(biāo)注以矢量多邊形的形式提供。
我們指導(dǎo)標(biāo)注員在繪制COCO對(duì)象輪廓的多邊形時(shí)要盡可能精確,盡量避免包含背景。我們還指導(dǎo)標(biāo)注員優(yōu)先標(biāo)注對(duì)象的單個(gè)實(shí)例,而不是聚集在一起的對(duì)象。如果圖像中某個(gè)對(duì)象類別的實(shí)例數(shù)量超過了給定的閾值,我們就指示標(biāo)注員只標(biāo)注前幾個(gè)實(shí)例,然后將剩余的實(shí)例標(biāo)記為聚集。整個(gè)項(xiàng)目中的閾值根據(jù)不同的情況進(jìn)行調(diào)整,以平衡預(yù)算、時(shí)間和數(shù)據(jù)質(zhì)量之間的關(guān)系。此外,我們還指示標(biāo)注員忽略尺寸小于10×10像素的對(duì)象。
重新標(biāo)注過程涵蓋了MS-COCO數(shù)據(jù)集中的所有123,287張訓(xùn)練和驗(yàn)證圖像。這些圖像預(yù)先加載了MS-COCO的原始標(biāo)注,這使得標(biāo)注員可以根據(jù)需要修改、保留或刪除這些標(biāo)注。在標(biāo)注階段之后,還有一個(gè)質(zhì)量保證(QA)階段,QA專家會(huì)檢查每個(gè)提交的標(biāo)注。不符合質(zhì)量要求的標(biāo)注會(huì)被退回,要求標(biāo)注員進(jìn)行修正,直到達(dá)到滿意的水平。需要注意的是,一些標(biāo)注員誤解了忽略小對(duì)象的要求,認(rèn)為是要?jiǎng)h除MS-COCO的預(yù)標(biāo)注,而另一些標(biāo)注員則沒有改變它們。
與原始MS-COCO數(shù)據(jù)集相比,Sama-COCO數(shù)據(jù)集有幾個(gè)顯著的差異。首先,Sama-COCO數(shù)據(jù)集中標(biāo)記為聚集的實(shí)例明顯更多。這部分是因?yàn)闃?biāo)注員被指示將大型的單一聚集分解為較小的部分和單個(gè)實(shí)體。盡管兩個(gè)數(shù)據(jù)集有相同的基礎(chǔ),但Sama-COCO在80個(gè)類別中的47個(gè)類別中擁有更多的實(shí)例。其中一些類別,如person,增加的數(shù)量非常顯著。其次,Sama-COCO的頂點(diǎn)數(shù)幾乎是MS-COCO的兩倍,這是因?yàn)闃?biāo)注員被指示在繪制多邊形時(shí)要盡可能精確,盡量不包含背景。此外,如圖2所示,大型對(duì)象的數(shù)量顯著減少,因?yàn)榇笮偷木奂驅(qū)ο笕褐械膯蝹€(gè)元素被重新標(biāo)注為不同的實(shí)體。在Sama-COCO數(shù)據(jù)集中還可以觀察到一個(gè)關(guān)鍵的變化是非常小的對(duì)象(尺寸小于或等于10×10像素)的數(shù)量明顯減少。最后,Sama-COCO數(shù)據(jù)集中還有更多的小型(從10×10到32×32像素)和中等大小(從32×32到96×96像素)的對(duì)象。
形狀分析
由于Sama-COCO是重新注釋而非最初數(shù)據(jù)集的更正,所以樣本之間沒有對(duì)應(yīng)關(guān)系。為了確定地分析注釋形狀的差異,必須首先匹配多邊形。放寬分析要求為單個(gè)多邊形形狀,并利用邊界框形狀一致性的概念。形狀一致性假設(shè)輪廓錯(cuò)誤不意味著盒子錯(cuò)誤。使用基于交集與并集(IoU)度量的重疊標(biāo)準(zhǔn)確定匹配。對(duì)于任何一對(duì)封閉形狀,IoU定義為:
數(shù)據(jù)集之間注釋實(shí)例的匹配由所有形狀中IoU大于置信度閾值T的形狀對(duì)定義。每個(gè)注釋最多只有一個(gè)匹配,且不能保證一定找到匹配。經(jīng)驗(yàn)選擇匹配閾值為0.90。這種策略可找到受輪廓噪聲影響的匹配,而不是與全局框錯(cuò)誤相關(guān)的匹配。對(duì)形狀和形狀集,匹配定義為:
一旦找到匹配,則使用輪廓分析量化成對(duì)形狀之間的差異。設(shè)()表示成對(duì)形狀()的輪廓,長度為()。設(shè)為空間域上輪廓的精確距離變換(EDT),其中定義了中的空間位置。用于量化形狀之間平均差異的平均表面距離定義為:
某些成對(duì)形狀可能存在大型區(qū)域分歧。在這種情況下,平均表面距離無法捕獲這種現(xiàn)象。為了緩解這個(gè)問題,引入最大距離,定義為:
匹配流程應(yīng)用于訓(xùn)練分割,找到310504個(gè)確定匹配。每個(gè)形狀使用pycoco標(biāo)準(zhǔn)柵格化為掩模,并通過將掩模與自身的二值腐蝕相減生成輪廓。生成EDT,并通過用成對(duì)形狀的輪廓索引距離圖來計(jì)算路徑積分。該流程對(duì)兩個(gè)形狀雙向完成,如圖3所示。平均和最大表面距離的分布如圖4所示。
圖4:平均和最大表面距離的長尾分布
實(shí)驗(yàn)
為了研究重新標(biāo)注過程對(duì)神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)質(zhì)量的影響,我們使用檢測(cè)和實(shí)例分割任務(wù)來訓(xùn)練和評(píng)估神經(jīng)網(wǎng)絡(luò)。重新標(biāo)注過程包括更精確的多邊形、更細(xì)化的聚集和更多的標(biāo)注實(shí)例。我們使用Detectron2框架在MS-COCO和Sama-COCO上訓(xùn)練了一個(gè)基于ResNet-50和FPN的Faster R-CNN模型,并使用MS-COCO的標(biāo)準(zhǔn)評(píng)估指標(biāo)對(duì)其進(jìn)行評(píng)估,將每個(gè)數(shù)據(jù)集的驗(yàn)證分割作為地面真實(shí)數(shù)據(jù)。我們使用8個(gè)Nvidia V100 GPU,在批量大小為16的情況下,總共進(jìn)行了270k次迭代的訓(xùn)練。我們?cè)谒械膶?shí)驗(yàn)中保持了相同的超參數(shù)。我們使用平均精度均值(mAP)作為評(píng)估指標(biāo),結(jié)果如表1所示。
表1:檢測(cè)和分割結(jié)果
我們還評(píng)估了學(xué)習(xí)與驗(yàn)證集完全匹配的理想表示的意義。在這種情況下,我們將源標(biāo)注與目標(biāo)標(biāo)注進(jìn)行比較,將源視為模型預(yù)測(cè),目標(biāo)視為地面真實(shí)數(shù)據(jù)。我們交替使用MS-COCO和Sama-COCO作為源和目標(biāo),以確保評(píng)估的公平性。結(jié)果如表2所示。
表2: 當(dāng)將源數(shù)據(jù)集視為針對(duì)目標(biāo)數(shù)據(jù)集的預(yù)測(cè)時(shí),檢測(cè)和分割結(jié)果
討論
我們要先說明,沒有任何數(shù)據(jù)集是完美的,Sama-COCO也不比MS-COCO更好或更差。每個(gè)數(shù)據(jù)集都會(huì)不可避免地存在一些偏差,但是不同形式的偏差會(huì)對(duì)神經(jīng)網(wǎng)絡(luò)的性能產(chǎn)生不同的影響。這可以通過比較不同數(shù)據(jù)集的基準(zhǔn)測(cè)試結(jié)果來觀察。
當(dāng)我們比較兩個(gè)數(shù)據(jù)集中的匹配實(shí)例時(shí),可以發(fā)現(xiàn)MS-COCO數(shù)據(jù)集中存在一些系統(tǒng)性的偏差。這些偏差有兩種不同的形式。第一種形式的偏差與多邊形的緊密程度有關(guān)。我們發(fā)現(xiàn),平均表面距離較低的成對(duì)多邊形在輪廓上有輕微的差異。平均來說,Sama-COCO的多邊形比原始標(biāo)注更貼合對(duì)象,但是過分割和欠分割實(shí)例的組合可能對(duì)真實(shí)的預(yù)測(cè)質(zhì)量沒有影響,如果噪聲的期望值為零。也有可能,隨著網(wǎng)絡(luò)規(guī)模的增大,它們會(huì)適應(yīng)這些輪廓中的偏差,從而誤導(dǎo)評(píng)估指標(biāo)。在這種情況下,很難判斷神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的表示的真實(shí)質(zhì)量,因?yàn)樵u(píng)估它們的唯一方式也包含了偏差。
第二種形式的偏差與遮擋物和標(biāo)注風(fēng)格指南的處理和規(guī)定有關(guān)。Sama-COCO強(qiáng)調(diào)多邊形貼近可觀察到的像素,而原始數(shù)據(jù)集包含繞過遮擋物的多邊形。考慮遮擋物更適合像素級(jí)的實(shí)例分割任務(wù),而忽略遮擋物更類似于定位任務(wù)。在這種隱性的偏差上訓(xùn)練的神經(jīng)網(wǎng)絡(luò)會(huì)以不同的方式學(xué)習(xí)解決這些任務(wù)。因此,任何機(jī)器學(xué)習(xí)從業(yè)者都必須了解他們的數(shù)據(jù)集與他們想要解決的下游任務(wù)之間的關(guān)聯(lián)性,并應(yīng)該在數(shù)據(jù)收集階段注意標(biāo)注標(biāo)準(zhǔn)和指南,以盡量減少頂層問題。合并具有沖突標(biāo)注風(fēng)格的數(shù)據(jù)集可能是不明智的,因?yàn)樯窠?jīng)網(wǎng)絡(luò)的下游行為可能難以預(yù)測(cè)。
當(dāng)我們查看檢測(cè)和分割任務(wù)的評(píng)估指標(biāo)差異時(shí),可以明顯看到網(wǎng)絡(luò)從與訓(xùn)練數(shù)據(jù)集相同風(fēng)格的評(píng)估中受益,如表1所示。這意味著性能與主觀的質(zhì)量定義密切相關(guān)。如果我們使用額外的樣本來豐富數(shù)據(jù)集,但是樣本的風(fēng)格分布發(fā)生了變化,那么網(wǎng)絡(luò)的性能可能會(huì)降低,這與我們的預(yù)期相反。這可以通過將一個(gè)數(shù)據(jù)集的驗(yàn)證標(biāo)注作為源,另一個(gè)數(shù)據(jù)集的驗(yàn)證標(biāo)注作為目標(biāo)來理論上驗(yàn)證。即使我們?cè)诹硪粋€(gè)數(shù)據(jù)集上是完美的預(yù)測(cè)者,我們也會(huì)受到錯(cuò)過的實(shí)例、邊界變形和細(xì)微差異的影響。還值得注意的是,一些最先進(jìn)的檢測(cè)算法的性能優(yōu)于我們的結(jié)果。這很有趣,因?yàn)榭驑?biāo)注應(yīng)該與多邊形的變化相對(duì)一致。這意味著網(wǎng)絡(luò)可能會(huì)過擬合訓(xùn)練數(shù)據(jù)集中可能無法在另一個(gè)數(shù)據(jù)集中復(fù)現(xiàn)的特定信息類型。
結(jié)論
從討論中可以看出,數(shù)據(jù)集中的偏差可能導(dǎo)致一些不期望或意外的結(jié)果,這可能是有問題的。在實(shí)例分割中,標(biāo)注方式的選擇會(huì)影響模型對(duì)遮擋對(duì)象的輸出。因此,在構(gòu)建標(biāo)注數(shù)據(jù)集時(shí)必須仔細(xì)考慮,以確保它們能夠反映真實(shí)世界應(yīng)用中的需求。雖然Sama-COCO并不完全避免所有的標(biāo)注錯(cuò)誤,但它確實(shí)提供了一組高質(zhì)量的標(biāo)注,可以用于更好地探索標(biāo)簽噪聲領(lǐng)域和對(duì)精確多邊形很重要的應(yīng)用。
編輯:黃飛
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4773瀏覽量
100861 -
圖像分類
+關(guān)注
關(guān)注
0文章
90瀏覽量
11936 -
計(jì)算機(jī)視覺
+關(guān)注
關(guān)注
8文章
1698瀏覽量
46024 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8423瀏覽量
132744 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1208瀏覽量
24727
原文標(biāo)題:ICCV2023 基準(zhǔn)測(cè)試:MS-COCO數(shù)據(jù)集的可靠嗎?
文章出處:【微信號(hào):GiantPandaCV,微信公眾號(hào):GiantPandaCV】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論