0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

我們目前在機器學習方面的進展有多可靠?

MqC7_CAAI_1981 ? 來源:未知 ? 作者:李倩 ? 2018-06-07 16:37 ? 次閱讀

導(dǎo)語:可以這樣說,對機器學習的進展進行正確評估是很微妙的。畢竟,學習算法的目標是生成一個能夠很好地泛化到不可見數(shù)據(jù)中的模型。因此,為了理解當前機器學習進展的可靠性如何,加州大學伯克利分校(UC Berkeley)和麻省理工學院(MIT)的科學家們設(shè)計并開展了一種新的再現(xiàn)性研究。其主要目標是衡量當代分類器從相同分布中泛化到新的、真正不可見數(shù)據(jù)中的程度如何。

可以這樣說,機器學習目前主要是由聚焦于一些關(guān)鍵任務(wù)的改進上的實驗性研究所主導(dǎo)的。但是,性能表現(xiàn)最佳的模型的令人印象深刻的準確性是值得懷疑的,因為用相同的測試集來選擇這些模型已經(jīng)很多年了。為了理解過度擬合(overfitting)的危險,我們通過創(chuàng)建一個真正看不見的圖像的新測試集來衡量CIFAR-10分類器的準確性。盡管我們確保新測試集盡可能接近原始數(shù)據(jù)分布,但我們發(fā)現(xiàn)大部分深度學習模型的精確度大幅下降(4%至10%)。然而,具有較高原始精確度的較新模型顯示出較小的下降和較好的整體性能,這表明這種下降可能不是由于基于適應(yīng)性的過度擬合造成的。相反,我們將我們的結(jié)果視為證據(jù),證明當前的準確性是脆弱的,并且易受數(shù)據(jù)分布中的微小自然變化的影響。

在過去五年中,機器學習已經(jīng)成為一個決定性的實驗領(lǐng)域。在深度學習領(lǐng)域大量研究的推動下,大部分已發(fā)表的論文都采用了一種范式,即一種新的學習技術(shù)出現(xiàn)的主要理由是其在幾個關(guān)鍵基準上的改進性性能表現(xiàn)。與此同時,對于為什么現(xiàn)在提出的技術(shù)相對于之前的研究來說具有更可靠的改進,幾乎沒有什么解釋。相反,我們的進步意識很大程度上取決于少數(shù)標準基準,如CIFAR-10、ImageNet或MuJoCo。這就提出了一個關(guān)鍵問題:

我們目前在機器學習方面的進展有多可靠?

可以這樣說,對機器學習的進展進行正確評估是很微妙的。畢竟,學習算法的目標是生成一個能夠很好地泛化到看不見的數(shù)據(jù)中的模型。由于我們通常無法訪問真實數(shù)據(jù)分布,因此替代性地,我們會在單獨的測試集上評估一個模型的性能。而只要我們不使用測試集來選擇我們的模型,這就確實是一個有原則的評估協(xié)議。

圖1:從新的和原始的測試集中進行的類均衡隨機抽取結(jié)果。

不幸的是,我們通常對相同分布中的新數(shù)據(jù)的訪問受限?,F(xiàn)如今,人們已經(jīng)普遍接受在整個算法和模型設(shè)計過程中多次重復(fù)使用相同的測試集。這種做法的示例非常豐富,包括在單一發(fā)布產(chǎn)品中調(diào)整超參數(shù)(層數(shù)等),并且在其他研究人員的各種發(fā)布產(chǎn)品的研究上進行架構(gòu)構(gòu)建。盡管將新模型與以前的結(jié)果進行比較是自然而然的愿望,但顯然目前的研究方法破壞了分類器獨立于測試集的關(guān)鍵性假設(shè)。這種不匹配帶來了明顯的危險,因為研究社區(qū)可以很容易地設(shè)計一些模型,但這些模型只能在特定的測試集上運行良好,實際上卻不能推泛化到新的數(shù)據(jù)中。

因此,為了理解當前機器學習進展的可靠性如何,我們設(shè)計并開展了一種新的再現(xiàn)性研究。其主要目標是衡量當代分類器從相同分布中泛化到新的、真正不可見的數(shù)據(jù)中的程度如何。我們聚焦于標準的CIFAR-10數(shù)據(jù)集,因為它的透明性創(chuàng)建過程使其特別適合于此任務(wù)。而且,CIFAR-10現(xiàn)在已經(jīng)成為近10年來研究的熱點。由于這個過程的競爭性,這是一個很好的測試案例,用于調(diào)查適應(yīng)性是否導(dǎo)致過度擬合。

過度擬合

我們的實驗是否顯示過度擬合?這可以說是對我們的結(jié)果進行解釋時的主要問題。準確地說,我們首先定義過度擬合的兩個概念:

?訓(xùn)練集過度擬合:量化過度擬合的一種方法是確定訓(xùn)練精確度和測試精確度之間的差異。需要注意的是,我們實驗中的深度神經(jīng)網(wǎng)絡(luò)通常達到100%的訓(xùn)練精確度。所以這種過度擬合的概念已經(jīng)出現(xiàn)在現(xiàn)有的數(shù)據(jù)集上。

?測試集過度擬合:過度擬合的另一個概念是測試精確度和基礎(chǔ)數(shù)據(jù)分布的精確度之間的差距。通過將模型設(shè)計選擇適配于測試集,我們關(guān)心的是我們隱含地將模型擬合到測試集。然后,測試精確度作為在真正看不見的數(shù)據(jù)上性能的精確衡量,將失去其有效性。

pIYBAFsY7z2AWlJHAAD4yarCW8Q234.png

圖2:新測試集的模型精確度VS原始測試集的模型精確度

由于機器學習的總體目標是泛化到看不見的數(shù)據(jù)中,所以我們認為,第二個概念,通過測試集自適應(yīng)性事物過度擬合更為重要。令人驚訝的是,我們的研究結(jié)果顯示在CIFAR-10上沒有出現(xiàn)這種過度擬合的跡象。盡管在這個數(shù)據(jù)集上有多年的競爭自適應(yīng)性,但真正持有的數(shù)據(jù)并沒有停滯不前。事實上,在我們的新測試集中,性能最好的模型要比更多已建立的基線更具優(yōu)勢。盡管這種趨勢與通過適應(yīng)性的過度擬合所表明的相反。雖然一個確鑿的圖片需要進一步的復(fù)制實驗,但我們認為我們的結(jié)果是支持基于競爭的方法來提高精確度分數(shù)的。

我們注意到,可以閱讀Blum和Hardt的Ladder算法的分析來支持這一說法。事實上,他們表明,通過加入對標準機器學習競賽的小修改,可以避免那種通過積極的適應(yīng)性來實現(xiàn)的過度擬合。我們的結(jié)果顯示,即使沒有這些修改,基于測試誤差的模型調(diào)整也不會導(dǎo)致標準數(shù)據(jù)集的過度擬合。

分布位移(distribution shift)

盡管我們的結(jié)果不支持基于適應(yīng)性的過度擬合的假設(shè),但仍需要對原始精確度分數(shù)和新精確度分數(shù)之間的顯著差距進行解釋。我們認為這種差距是原始CIFAR-10數(shù)據(jù)集與我們新測試集之間的小分布位移的結(jié)果。盡管我們努力復(fù)制CIFAR-10的創(chuàng)建過程,但這種差距很大,影響了所有模型,從而出現(xiàn)這種情況。通常,對于數(shù)據(jù)生成過程中的特定變化(例如,照明條件的變化)或?qū)剐原h(huán)境中的最壞情況攻擊,我們就會研究分布位移。我們的實驗更加溫和,并沒有帶來這些挑戰(zhàn)。盡管如此,所有模型的精確度下降了4-15%,誤差率的相對增加高達3倍。這表明目前的CIFAR-10分類器難以泛化到圖像數(shù)據(jù)的自然變化中。

未來的研究

具體的未來實驗應(yīng)該探索競爭方法在其他數(shù)據(jù)集(例如ImageNet)和其他任務(wù)(如語言建模)上是否同樣對過度擬合具有復(fù)原性。這里的一個重要方面是確保新測試集的數(shù)據(jù)分布盡可能地接近原始數(shù)據(jù)集。此外,我們應(yīng)該了解什么類型的自然發(fā)生的分布變化對圖像分類器是具有挑戰(zhàn)性的。

更廣泛地說,我們將我們的結(jié)果看作是對機器學習研究進行更全面評估的動機。目前,主要的范式是提出一種新的算法并評估其在現(xiàn)有數(shù)據(jù)上的性能。不幸的是,這些改進在多大程度上可以進行廣泛適用,人們往往知之甚少。為了真正理解泛化問題,更多的研究應(yīng)該收集有洞察力的新數(shù)據(jù)并評估現(xiàn)有算法在這些數(shù)據(jù)上的性能表現(xiàn)。由于我們現(xiàn)在在開源代碼庫中擁有大量預(yù)先注冊的分類器,因此此類研究將符合公認的統(tǒng)計有效研究標準。重要的是要注意區(qū)分機器學習中的當前可再現(xiàn)性性努力,其通常集中在計算的再現(xiàn)性上,即在相同的測試數(shù)據(jù)上運行發(fā)布的代碼。相比之下,像我們這樣的泛化實驗,通過評估分類器在真實新數(shù)據(jù)(類似于招募新參與者進行醫(yī)學或心理學的再現(xiàn)性實驗)上的性能表現(xiàn)來關(guān)注統(tǒng)計再現(xiàn)性。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器學習
    +關(guān)注

    關(guān)注

    66

    文章

    8429

    瀏覽量

    132854
  • 深度學習
    +關(guān)注

    關(guān)注

    73

    文章

    5511

    瀏覽量

    121354

原文標題:伯克利與MIT最新研究:「CIFAR-10分類器」能否泛化到CIFAR-10中?

文章出處:【微信號:CAAI-1981,微信公眾號:中國人工智能學會】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    深度學習自然語言處理方面的研究進展

    要是關(guān)注深度學習自然語言處理方面的研究進展,我相信你一定聽說過Attention Model(后文有時會簡
    的頭像 發(fā)表于 07-19 09:20 ?7546次閱讀
    深度<b class='flag-5'>學習</b><b class='flag-5'>在</b>自然語言處理<b class='flag-5'>方面的</b>研究<b class='flag-5'>進展</b>

    學習一些機器人控制方面的工作,要學習什么內(nèi)容!

    本人應(yīng)屆畢業(yè)生一枚,即將從事機器方面工作,想學習一些機器人控制,變成方面的知識
    發(fā)表于 11-20 15:21

    哪個工業(yè)方面的機器視覺應(yīng)用資料嘛?求分享

    哪個工業(yè)方面的機器視覺應(yīng)用資料嘛?
    發(fā)表于 10-24 00:05

    什么是機器學習? 機器學習基礎(chǔ)入門

    微控制器和單板計算機等受限設(shè)備上的機器學習)的出現(xiàn),機器學習已經(jīng)與所有類型的工程師相關(guān),包括那些從事嵌入式應(yīng)用的工程師。此外,即使您熟悉 TinyML,對
    發(fā)表于 06-21 11:06

    機器學習簡單運用方面的基礎(chǔ)知識

    了有關(guān)他們機器學習(Machine Learning)方面的戰(zhàn)略,以及在哪些方面運用了機器
    發(fā)表于 11-15 11:41 ?1431次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b>簡單運用<b class='flag-5'>方面的</b>基礎(chǔ)知識

    面向認知的源數(shù)據(jù)學習理論和算法研究進展

    學習的最終目的是知識這一認知切入點出發(fā),對人類學習的認知機理、機器學習的三大經(jīng)典理論(計算學習理論、統(tǒng)計
    發(fā)表于 12-26 16:10 ?0次下載

    攜程信息安全部web攻擊識別方面的機器學習實踐之路

    近來機器學習信息安全方面的應(yīng)用引起了人們的大量關(guān)注,我們認為信息安全領(lǐng)域任何需要對數(shù)據(jù)進行處理,做出分析預(yù)測的地方都可以用到
    的頭像 發(fā)表于 01-16 10:24 ?5639次閱讀
    攜程信息安全部<b class='flag-5'>在</b>web攻擊識別<b class='flag-5'>方面的</b><b class='flag-5'>機器</b><b class='flag-5'>學習</b>實踐之路

    介紹Facebook機器學習方面的軟硬件基礎(chǔ)架構(gòu),來滿足其全球規(guī)模的運算需求

    機器學習Facebook的眾多產(chǎn)品和服務(wù)中都有著舉足輕重的地位。 本文將詳細介紹Facebook機器
    的頭像 發(fā)表于 01-24 11:23 ?4304次閱讀
    介紹Facebook<b class='flag-5'>在</b><b class='flag-5'>機器</b><b class='flag-5'>學習</b><b class='flag-5'>方面的</b>軟硬件基礎(chǔ)架構(gòu),來滿足其全球規(guī)模的運算需求

    袁進輝:分享了深度學習框架方面的技術(shù)進展

    1月17日,院友袁進輝博士回到微軟亞洲研究院做了題為《打造最強深度學習引擎》的報告,分享了深度學習框架方面的技術(shù)進展
    的頭像 發(fā)表于 01-25 09:23 ?4836次閱讀
    袁進輝:分享了深度<b class='flag-5'>學習</b>框架<b class='flag-5'>方面的</b>技術(shù)<b class='flag-5'>進展</b>

    我們目前機器學習進展的衡量可靠?

    一項伯克利和MIT合作的新研究,對過去近十年中提出的一些經(jīng)典分類器(比如VGG和ResNet)進行再測試后發(fā)現(xiàn),由于測試集過擬合,很多分類器的精度實際并沒有宣稱的那么高。
    的頭像 發(fā)表于 06-08 14:38 ?2283次閱讀

    如果要從事機器學習方面的研發(fā),可以按照以下幾個步驟學習

    具備軟件開發(fā)能力的程序員,轉(zhuǎn)向機器學習領(lǐng)域會更容易一些,但是即使沒有軟件開發(fā)基礎(chǔ),如果具備扎實的數(shù)學基礎(chǔ)以及較強的學習能力,也完全可以從頭開始學習。對于沒有軟件開發(fā)基礎(chǔ)的人來說,如果要
    的頭像 發(fā)表于 09-20 10:26 ?3232次閱讀

    工業(yè)機器目前面臨哪些技術(shù)方面的問題

    目前的工業(yè)機器人存在的技術(shù)問題之前,我們可以從另外一個角度來思考一下,為什么很多倉儲物流中心或者工廠內(nèi)對于物流和倉庫的管理不采用機器人來
    發(fā)表于 10-21 15:41 ?9958次閱讀

    機器學習框架里不同層面的隱私保護

    數(shù)據(jù)時代,人們從技術(shù)中獲取便利的同時,也面臨著隱私泄露的風險。微軟倡導(dǎo)負責任的人工智能,因此機器學習中的隱私保護問題至關(guān)重要。本文介紹了目前機器學習中隱私保護領(lǐng)域的最新研究
    的頭像 發(fā)表于 09-04 11:34 ?3906次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b>框架里不同層<b class='flag-5'>面的</b>隱私保護

    2020 年十大機器學習研究進展匯總

    去年有哪些機器學習重要進展是你必須關(guān)注的?聽聽 DeepMind 研究科學家怎么說。 ? 2020 年因為新冠疫情,很多人不得不在家工作和學習,大量人工智能學術(shù)會議也轉(zhuǎn)為線上。不過
    的頭像 發(fā)表于 02-13 11:18 ?6986次閱讀
     2020 年十大<b class='flag-5'>機器</b><b class='flag-5'>學習</b>研究<b class='flag-5'>進展</b>匯總

    2020年十大機器學習研究進展

    去年有哪些機器學習重要進展是你必須關(guān)注的?聽聽 DeepMind 研究科學家怎么說。 ? 2020 年因為新冠疫情,很多人不得不在家工作和學習,大量人工智能學術(shù)會議也轉(zhuǎn)為線上。不過
    的頭像 發(fā)表于 02-05 09:17 ?3111次閱讀
    2020年十大<b class='flag-5'>機器</b><b class='flag-5'>學習</b>研究<b class='flag-5'>進展</b>