站在2018年,圖像分類準(zhǔn)確率在95%以上的模型,已經(jīng)遍地都是。
回想2012年,Hinton帶著學(xué)生們以ImageNet上16.4%的錯誤率震驚計算機視覺研究界,似乎已經(jīng)是遠(yuǎn)古時期的歷史。
這些年來的突飛猛進(jìn),真的可信嗎?
最近一項研究引出了一些反思:這些進(jìn)步很可疑。
這項研究,就是加州大學(xué)伯克利分校和MIT的幾名科學(xué)家在arXiv上公開的一篇論文:Do CIFAR-10 Classifiers Generalize to CIFAR-10?。
解釋一下,這個看似詭異的問題——“CIFAR-10分類器能否泛化到CIFAR-10?”,針對的是當(dāng)今深度學(xué)習(xí)研究的一個大缺陷:
看起來成績不錯的深度學(xué)習(xí)模型,在現(xiàn)實世界中不見得管用。因為很多模型和訓(xùn)練方法取得的好成績,都來自對于那些著名基準(zhǔn)驗證集的過擬合。
論文指出,過去5年間,大多數(shù)發(fā)表的論文擁抱了這樣一種范式:一種新的機器學(xué)習(xí)方法在幾個關(guān)鍵基準(zhǔn)測試中數(shù)據(jù),就決定了它的地位。
然而,這種方法與前人相比,為什么會有這樣的進(jìn)步?卻很少有人解釋。我們對于進(jìn)步的感知主要基于幾個標(biāo)準(zhǔn)的基準(zhǔn)測試,比如CIFAR-10、ImageNet、MuJoCo。
這就帶來了一個關(guān)鍵的問題:我們目前對機器學(xué)習(xí)進(jìn)步的衡量方法,有多可靠?
這個指控,幾乎要質(zhì)疑圖像分類算法幾年來的一切進(jìn)步。
空口無憑,如何證明?
為了說明這個問題,幾位作者拿出30個在CIFAR-10驗證集上表現(xiàn)良好的圖像分類模型,換一個數(shù)據(jù)集來測試它們,用結(jié)果說話。
CIFAR-10包含60000張32×32像素的彩色圖像,平均分為5個訓(xùn)練批次(batch)和1個測試批次圖像共有10類:飛機、小汽車、鳥、貓、鹿、狗、青蛙、船、卡車。
當(dāng)然,如果隨便找個數(shù)據(jù)集來測試,有欺負(fù)AI的嫌疑。他們?yōu)榇藢iT造了一個和CIFAR-10非常相似的測試集,包含2000張新圖片,一樣的圖片來源,一樣的數(shù)據(jù)子類別分布,甚至連構(gòu)建過程中的分工都學(xué)了過來。
這個新數(shù)據(jù)集,也就是論文標(biāo)題中提到的第二個CIFAR-10,確切地說應(yīng)該是“高仿CIFAR-10的小型測試集”。
新測試集給模型帶來了明顯的打擊,戰(zhàn)況如下:
著名的VGG和ResNet,分類準(zhǔn)確率從93%左右下降到了85%左右,8個百分點憑空消失。
各位作者還在準(zhǔn)確率的差異上,發(fā)現(xiàn)了一個小趨勢。在原版CIFAR-10上準(zhǔn)確率比較高的那些新模型,在新測試集上的成績下滑不那么明顯。
比如說成績最好的Shake Shake模型,在新舊測試集上的準(zhǔn)確率只差4個百分點。
論文中說,這個小趨勢說明換個數(shù)據(jù)集成績就下降可能不是因為基于適應(yīng)性的過擬合,而是因為新舊測試集之間,數(shù)據(jù)的分布上有一些小變化。
但終究,那些為CIFAR-10打造的分類器,泛化性能依然堪憂。
質(zhì)疑引熱議
這個研究如同一枚深水炸彈。
前不久曾撰文唱衰人工智能的的Filip Piekniewski,稱贊這篇論文是一個偉大的研究。他還把這個問題,稱為“元過擬合”(meta-overfitting)。他還批評機器學(xué)習(xí)這幾年只關(guān)注幾個數(shù)據(jù)集,不關(guān)注現(xiàn)實情況。
俄勒岡州立大學(xué)教授Thomas G. Dietterich指出,不僅僅是CIFAR10,所有的測試數(shù)據(jù)集都被研究者們很快搞得過擬合了。測試基準(zhǔn)需要不斷有新的數(shù)據(jù)集注入。
“我在MNIST上也見過類似的情況。一個準(zhǔn)確率達(dá)到99%的分類器,換一個全新的手寫數(shù)據(jù)集,立刻掉到90%?!監(jiān)penAI的研究員Yaroslav Bulatov說。
Keras作者Fran?ois Chollet顯得更為激動。他說:“顯而易見的是,一大票目前的深度學(xué)習(xí)tricks都對知名的基準(zhǔn)測試集過擬合了,包括CIFAR10。至少從2015年以來,ImageNet也存在這個問題。”
如果你的論文,需要固定的驗證集,以及特定的方法、架構(gòu)和超參數(shù)。那么這個就不是驗證集,而是訓(xùn)練集。這種特定的方法,也不一定能泛化到真實數(shù)據(jù)上。
深度學(xué)習(xí)的研究,很多時候使用了并不科學(xué)的方法。驗證集過擬合是一個值得注意的地方。其他問題還包括:基準(zhǔn)太弱、實證結(jié)果不支持論文想法、大多數(shù)論文存在可重復(fù)性問題、結(jié)果后選等。
比方你參加Kaggle競賽時,如果只根據(jù)驗證集(public leaderboard)數(shù)據(jù)來調(diào)整你的模型,那么你在測試集(private leaderboard)只會一直表現(xiàn)不佳。這在更廣泛的研究領(lǐng)域也是如此。
最后給一個非常簡單的建議,可以克服這些問題:使用高熵驗證過程,例如k-fold驗證,或者更進(jìn)一步,使用帶shuffling的遞歸k-fold驗證。只在最后用官方驗證集上檢查結(jié)果。
“當(dāng)然,這樣做成本更高。但成本本身就是一個正則因子:它迫使你謹(jǐn)慎行動,而不是把一大坨面條扔到墻上,看最后哪根能粘住?!盕ran?ois Chollet說。
不止圖像分類
其實,這個過擬合的問題并不是只出現(xiàn)在圖像分類研究上,其他模型同樣無法幸免。
今年年初,微軟亞洲研究院和阿里巴巴的NLP團(tuán)隊,在機器閱讀理解數(shù)據(jù)集SQuAD上的成績超越了人類。
當(dāng)時,SQuAD閱讀理解水平測試的主辦方,斯坦福NLP小組就對自己的數(shù)據(jù)集產(chǎn)生了懷疑。他們轉(zhuǎn)發(fā)的一條Twitter說:
好像整個研究界都在這個數(shù)據(jù)集上過擬合了。
Google Brain研究員David Ha也說,很期待在文本和翻譯領(lǐng)域也有類似的研究,他說如果在PTB上也看到類似的結(jié)果,那可真是一個好消息,也許更好的泛化方法會被發(fā)現(xiàn)。
論文
這篇論文的作者,包括來自UC Berkeley的Benjamin Recht、Rebecca Roelofs、Vaishaal Shankar,以及來自MIT的Ludwig Schmidt。
評論
查看更多