近期,來自CMU和斯坦福的Zachary C. Lipton和Jacob Steinhardt兩位研究員為頂會(huì)ICML舉辦的Machine Learning: The Great Debate發(fā)表文章,并指出現(xiàn)在機(jī)器學(xué)習(xí)研究中的四大危機(jī):混淆闡述與推測(cè)、無(wú)法明確得到較好結(jié)果的原因、數(shù)學(xué)公式堆積以及語(yǔ)言誤用。
學(xué)術(shù)界在大家的印象里一般是很嚴(yán)肅的,但近期AI頂會(huì)ICML在斯德哥爾摩舉辦了一個(gè)辯論會(huì)—Machine Learning: The Great Debates (ML-GD),專供各家學(xué)者、研究人員積極探討領(lǐng)域內(nèi)技術(shù)的現(xiàn)狀、瓶頸及對(duì)社會(huì)的影響。
有AI小網(wǎng)紅之稱的Zachary C.Lipton攜手斯坦福研究員Jacob Steinhardt發(fā)表了參會(huì)的論文《Troubling Trends in Machine Learning Scholarship》,并發(fā)推文,引發(fā)了熱烈的討論。
觀點(diǎn)提出背景
機(jī)器學(xué)習(xí)(ML)研究人員正在致力于有關(guān)“數(shù)據(jù)驅(qū)動(dòng)算法”知識(shí)的創(chuàng)建和傳播。據(jù)研究,許多研究人員都渴望實(shí)現(xiàn)以下目標(biāo):
理論性闡述可學(xué)習(xí)內(nèi)容
深入理解經(jīng)驗(yàn)嚴(yán)謹(jǐn)?shù)膶?shí)驗(yàn)
構(gòu)建一個(gè)有高預(yù)測(cè)精度的工作系統(tǒng)
雖然確定哪些知識(shí)值得探究是很主觀的,但是一旦主題確定,當(dāng)論文為讀者服務(wù)時(shí),它對(duì)社區(qū)最有價(jià)值,它能創(chuàng)造基礎(chǔ)知識(shí)并盡可能清楚地進(jìn)行闡述。
什么樣的論文更適合讀者呢?我們可以列出如下特征:這些論文應(yīng)該
(i)提供直觀感受以幫助讀者理解,但應(yīng)明確區(qū)別于已證明的強(qiáng)有力結(jié)論;
(ii)闡述考量和排除其他假設(shè)的實(shí)證調(diào)查 ;
(iii)明確理論分析與直覺或經(jīng)驗(yàn)之間的關(guān)系 ;
(iv)利用語(yǔ)言幫助讀者理解,選擇術(shù)語(yǔ)以避免誤解或未經(jīng)證實(shí)的內(nèi)容,避免與其他定義沖突,或與其他相關(guān)但不同的概念混淆。
機(jī)器學(xué)習(xí)研究中的四大危機(jī)
盡管機(jī)器學(xué)習(xí)最近取得了一些進(jìn)展,但這些“理想”狀態(tài)往往與現(xiàn)實(shí)背離。在這篇文章中,我們將重點(diǎn)放在以下四種模式上,這些模式在ML學(xué)術(shù)(schoolar-ship)中似乎是最流行的:
1. 無(wú)法區(qū)分客觀闡述和推測(cè)。
2. 無(wú)法確定得到較好結(jié)果的原因,例如,當(dāng)實(shí)際上是因?yàn)閷?duì)超參數(shù)微調(diào)而獲得好效果的時(shí)候,卻強(qiáng)調(diào)不必要修改神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。
3. 數(shù)學(xué)公式堆積:使用令人混淆的數(shù)學(xué)術(shù)語(yǔ)而不加以澄清,例如混淆技術(shù)與非技術(shù)概念。
4. 語(yǔ)言誤用,例如,使用帶有口語(yǔ)的藝術(shù)術(shù)語(yǔ),或者過多的使用既定的技術(shù)術(shù)語(yǔ)。
雖然這些模式背后的原因是不確定的,但會(huì)導(dǎo)致社區(qū)的迅速擴(kuò)張、評(píng)閱的人數(shù)不足,以及學(xué)術(shù)和短期成功衡量標(biāo)準(zhǔn)(如文獻(xiàn)數(shù)量、關(guān)注度、創(chuàng)業(yè)機(jī)會(huì))之間經(jīng)常出現(xiàn)的不平衡。雖然每種模式都提供了相應(yīng)的補(bǔ)救措施(但不建議這么做),我們還將討論一些關(guān)于社區(qū)如何應(yīng)對(duì)這些趨勢(shì)的推測(cè)性建議。
有缺陷的學(xué)術(shù)研究可能會(huì)誤導(dǎo)大眾,并阻礙學(xué)術(shù)未來的研究。實(shí)際上,這些問題有許多是在人工智能的歷史(更廣泛地說,是在科學(xué)研究)中循環(huán)出現(xiàn)的。1976年,Drew Mc-Dermott[1]指責(zé)人工智能社區(qū)放棄了自律,并預(yù)言“如果我們不能批判自己,別人就會(huì)幫我們解決問題”。
類似的討論在整個(gè)80年代、90年代和2008年都反復(fù)出現(xiàn)[2,3,4]。在心理學(xué)等其他領(lǐng)域,糟糕的實(shí)驗(yàn)標(biāo)準(zhǔn)削弱了人們對(duì)該學(xué)科權(quán)威的信任。當(dāng)今機(jī)器學(xué)習(xí)的強(qiáng)勁潮流歸功于迄今為止大量嚴(yán)謹(jǐn)?shù)难芯浚ɡ碚撗芯縖5,6,7]和實(shí)證研究[8,9,10]。通過提高清晰明了的科學(xué)思維和交流,我們可以維持社區(qū)目前所享有的信任和投資。
總結(jié)
可能有人會(huì)認(rèn)為這些問題可以通過自律、自我糾正來改善。這個(gè)觀點(diǎn)雖然是正確的,但是機(jī)器學(xué)習(xí)社區(qū)需要反復(fù)討論如何構(gòu)建合理的學(xué)術(shù)標(biāo)準(zhǔn)以實(shí)現(xiàn)這種自我修正。
-
人工智能
+關(guān)注
關(guān)注
1791文章
47352瀏覽量
238771 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8422瀏覽量
132723
原文標(biāo)題:【ICML開杠】機(jī)器學(xué)習(xí)研究的四大危機(jī)
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論