導(dǎo)語:可以這樣說,對機器學習的進展進行正確評估是很微妙的。畢竟,學習算法的目標是生成一個能夠很好地泛化到不可見數(shù)據(jù)中的模型。因此,為了理解當前機器學習進展的可靠性如何,加州大學伯克利分校(UC Berkeley)和麻省理工學院(MIT)的科學家們設(shè)計并開展了一種新的再現(xiàn)性研究。其主要目標是衡量當代分類器從相同分布中泛化到新的、真正不可見數(shù)據(jù)中的程度如何。
可以這樣說,機器學習目前主要是由聚焦于一些關(guān)鍵任務(wù)的改進上的實驗性研究所主導(dǎo)的。但是,性能表現(xiàn)最佳的模型的令人印象深刻的準確性是值得懷疑的,因為用相同的測試集來選擇這些模型已經(jīng)很多年了。為了理解過度擬合(overfitting)的危險,我們通過創(chuàng)建一個真正看不見的圖像的新測試集來衡量CIFAR-10分類器的準確性。盡管我們確保新測試集盡可能接近原始數(shù)據(jù)分布,但我們發(fā)現(xiàn)大部分深度學習模型的精確度大幅下降(4%至10%)。然而,具有較高原始精確度的較新模型顯示出較小的下降和較好的整體性能,這表明這種下降可能不是由于基于適應(yīng)性的過度擬合造成的。相反,我們將我們的結(jié)果視為證據(jù),證明當前的準確性是脆弱的,并且易受數(shù)據(jù)分布中的微小自然變化的影響。
在過去五年中,機器學習已經(jīng)成為一個決定性的實驗領(lǐng)域。在深度學習領(lǐng)域大量研究的推動下,大部分已發(fā)表的論文都采用了一種范式,即一種新的學習技術(shù)出現(xiàn)的主要理由是其在幾個關(guān)鍵基準上的改進性性能表現(xiàn)。與此同時,對于為什么現(xiàn)在提出的技術(shù)相對于之前的研究來說具有更可靠的改進,幾乎沒有什么解釋。相反,我們的進步意識很大程度上取決于少數(shù)標準基準,如CIFAR-10、ImageNet或MuJoCo。這就提出了一個關(guān)鍵問題:
我們目前在機器學習方面的進展有多可靠?
可以這樣說,對機器學習的進展進行正確評估是很微妙的。畢竟,學習算法的目標是生成一個能夠很好地泛化到看不見的數(shù)據(jù)中的模型。由于我們通常無法訪問真實數(shù)據(jù)分布,因此替代性地,我們會在單獨的測試集上評估一個模型的性能。而只要我們不使用測試集來選擇我們的模型,這就確實是一個有原則的評估協(xié)議。
圖1:從新的和原始的測試集中進行的類均衡隨機抽取結(jié)果。
不幸的是,我們通常對相同分布中的新數(shù)據(jù)的訪問受限?,F(xiàn)如今,人們已經(jīng)普遍接受在整個算法和模型設(shè)計過程中多次重復(fù)使用相同的測試集。這種做法的示例非常豐富,包括在單一發(fā)布產(chǎn)品中調(diào)整超參數(shù)(層數(shù)等),并且在其他研究人員的各種發(fā)布產(chǎn)品的研究上進行架構(gòu)構(gòu)建。盡管將新模型與以前的結(jié)果進行比較是自然而然的愿望,但顯然目前的研究方法破壞了分類器獨立于測試集的關(guān)鍵性假設(shè)。這種不匹配帶來了明顯的危險,因為研究社區(qū)可以很容易地設(shè)計一些模型,但這些模型只能在特定的測試集上運行良好,實際上卻不能推泛化到新的數(shù)據(jù)中。
因此,為了理解當前機器學習進展的可靠性如何,我們設(shè)計并開展了一種新的再現(xiàn)性研究。其主要目標是衡量當代分類器從相同分布中泛化到新的、真正不可見的數(shù)據(jù)中的程度如何。我們聚焦于標準的CIFAR-10數(shù)據(jù)集,因為它的透明性創(chuàng)建過程使其特別適合于此任務(wù)。而且,CIFAR-10現(xiàn)在已經(jīng)成為近10年來研究的熱點。由于這個過程的競爭性,這是一個很好的測試案例,用于調(diào)查適應(yīng)性是否導(dǎo)致過度擬合。
過度擬合
我們的實驗是否顯示過度擬合?這可以說是對我們的結(jié)果進行解釋時的主要問題。準確地說,我們首先定義過度擬合的兩個概念:
?訓(xùn)練集過度擬合:量化過度擬合的一種方法是確定訓(xùn)練精確度和測試精確度之間的差異。需要注意的是,我們實驗中的深度神經(jīng)網(wǎng)絡(luò)通常達到100%的訓(xùn)練精確度。所以這種過度擬合的概念已經(jīng)出現(xiàn)在現(xiàn)有的數(shù)據(jù)集上。
?測試集過度擬合:過度擬合的另一個概念是測試精確度和基礎(chǔ)數(shù)據(jù)分布的精確度之間的差距。通過將模型設(shè)計選擇適配于測試集,我們關(guān)心的是我們隱含地將模型擬合到測試集。然后,測試精確度作為在真正看不見的數(shù)據(jù)上性能的精確衡量,將失去其有效性。
圖2:新測試集的模型精確度VS原始測試集的模型精確度
由于機器學習的總體目標是泛化到看不見的數(shù)據(jù)中,所以我們認為,第二個概念,通過測試集自適應(yīng)性事物過度擬合更為重要。令人驚訝的是,我們的研究結(jié)果顯示在CIFAR-10上沒有出現(xiàn)這種過度擬合的跡象。盡管在這個數(shù)據(jù)集上有多年的競爭自適應(yīng)性,但真正持有的數(shù)據(jù)并沒有停滯不前。事實上,在我們的新測試集中,性能最好的模型要比更多已建立的基線更具優(yōu)勢。盡管這種趨勢與通過適應(yīng)性的過度擬合所表明的相反。雖然一個確鑿的圖片需要進一步的復(fù)制實驗,但我們認為我們的結(jié)果是支持基于競爭的方法來提高精確度分數(shù)的。
我們注意到,可以閱讀Blum和Hardt的Ladder算法的分析來支持這一說法。事實上,他們表明,通過加入對標準機器學習競賽的小修改,可以避免那種通過積極的適應(yīng)性來實現(xiàn)的過度擬合。我們的結(jié)果顯示,即使沒有這些修改,基于測試誤差的模型調(diào)整也不會導(dǎo)致標準數(shù)據(jù)集的過度擬合。
分布位移(distribution shift)
盡管我們的結(jié)果不支持基于適應(yīng)性的過度擬合的假設(shè),但仍需要對原始精確度分數(shù)和新精確度分數(shù)之間的顯著差距進行解釋。我們認為這種差距是原始CIFAR-10數(shù)據(jù)集與我們新測試集之間的小分布位移的結(jié)果。盡管我們努力復(fù)制CIFAR-10的創(chuàng)建過程,但這種差距很大,影響了所有模型,從而出現(xiàn)這種情況。通常,對于數(shù)據(jù)生成過程中的特定變化(例如,照明條件的變化)或?qū)剐原h(huán)境中的最壞情況攻擊,我們就會研究分布位移。我們的實驗更加溫和,并沒有帶來這些挑戰(zhàn)。盡管如此,所有模型的精確度下降了4-15%,誤差率的相對增加高達3倍。這表明目前的CIFAR-10分類器難以泛化到圖像數(shù)據(jù)的自然變化中。
未來的研究
具體的未來實驗應(yīng)該探索競爭方法在其他數(shù)據(jù)集(例如ImageNet)和其他任務(wù)(如語言建模)上是否同樣對過度擬合具有復(fù)原性。這里的一個重要方面是確保新測試集的數(shù)據(jù)分布盡可能地接近原始數(shù)據(jù)集。此外,我們應(yīng)該了解什么類型的自然發(fā)生的分布變化對圖像分類器是具有挑戰(zhàn)性的。
更廣泛地說,我們將我們的結(jié)果看作是對機器學習研究進行更全面評估的動機。目前,主要的范式是提出一種新的算法并評估其在現(xiàn)有數(shù)據(jù)上的性能。不幸的是,這些改進在多大程度上可以進行廣泛適用,人們往往知之甚少。為了真正理解泛化問題,更多的研究應(yīng)該收集有洞察力的新數(shù)據(jù)并評估現(xiàn)有算法在這些數(shù)據(jù)上的性能表現(xiàn)。由于我們現(xiàn)在在開源代碼庫中擁有大量預(yù)先注冊的分類器,因此此類研究將符合公認的統(tǒng)計有效研究標準。重要的是要注意區(qū)分機器學習中的當前可再現(xiàn)性性努力,其通常集中在計算的再現(xiàn)性上,即在相同的測試數(shù)據(jù)上運行發(fā)布的代碼。相比之下,像我們這樣的泛化實驗,通過評估分類器在真實新數(shù)據(jù)(類似于招募新參與者進行醫(yī)學或心理學的再現(xiàn)性實驗)上的性能表現(xiàn)來關(guān)注統(tǒng)計再現(xiàn)性。
-
機器學習
+關(guān)注
關(guān)注
66文章
8429瀏覽量
132854 -
深度學習
+關(guān)注
關(guān)注
73文章
5511瀏覽量
121354
原文標題:伯克利與MIT最新研究:「CIFAR-10分類器」能否泛化到CIFAR-10中?
文章出處:【微信號:CAAI-1981,微信公眾號:中國人工智能學會】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論