一篇一年前的Nature論文近日在Reddit上引發(fā)熱議,一位數(shù)據(jù)科學(xué)家認(rèn)為這篇預(yù)測(cè)地震余震的論文在數(shù)據(jù)處理方法上存在重大缺陷,導(dǎo)致實(shí)驗(yàn)結(jié)果虛高,他向Nature去信反映意見(jiàn),后者承認(rèn)問(wèn)題存在,但認(rèn)為沒(méi)有必要修正,而論文作者則態(tài)度強(qiáng)硬,不承認(rèn)論文有問(wèn)題。有人整理了事件的來(lái)龍去脈,引發(fā)熱烈討論。
近日,一篇一年前發(fā)表在《Nature》上的一篇關(guān)于使用深度學(xué)習(xí)技術(shù)預(yù)測(cè)大地震余震的文章在Reddit上引發(fā)熱議。
事情的起源是,一位名叫Rajiv Shah數(shù)據(jù)科學(xué)家認(rèn)為,這篇由哈佛大學(xué)和谷歌聯(lián)合發(fā)表的論文在訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集劃分和選擇上存在重大缺陷,造成了“目標(biāo)泄露”,導(dǎo)致預(yù)測(cè)性能結(jié)果偏高。這實(shí)際上使整個(gè)實(shí)驗(yàn)結(jié)果不再有效。
于是他聯(lián)系了《Nature》表達(dá)了自己的對(duì)這篇文章的不同意見(jiàn),然而Nature方面盡管承認(rèn)他的意見(jiàn)有合理之處,論文在模型和算法設(shè)計(jì)上存在缺陷,但拒絕對(duì)此進(jìn)行修正。兩位論文作者也給出回復(fù)意見(jiàn),否認(rèn)了Rajiv Shah的全部意見(jiàn)。
一年前舊賬重提:一篇Nature論文缺陷引發(fā)的爭(zhēng)議
于是,近日Rajiv Shah在Medium上發(fā)文,將此事的整個(gè)過(guò)程講述了一遍,并堅(jiān)持自己的觀點(diǎn)。隨文附上了Nature論文、自己與Nature方面的通信往來(lái),以及作者的回復(fù)意見(jiàn)等。熱心網(wǎng)友將此文轉(zhuǎn)到Reddit上,引發(fā)熱烈討論:
來(lái)看看當(dāng)事人Rajiv Shah在Medium上的博客文章對(duì)于此事的梳理:(Medium原文編譯)
人工智能,機(jī)器學(xué)習(xí),預(yù)測(cè)建模和數(shù)據(jù)科學(xué)的研究在過(guò)去幾年中發(fā)展迅速。隨著人工智能研究和相關(guān)產(chǎn)業(yè)的持續(xù)增長(zhǎng),新一代的機(jī)器學(xué)習(xí)增強(qiáng)、自動(dòng)化和GUI工具的誕生讓越來(lái)越多的人構(gòu)建預(yù)測(cè)模型。
但這樣問(wèn)題就來(lái)了:雖然使用預(yù)測(cè)建模工具變得更容易,但預(yù)測(cè)建模知識(shí)還不夠普及,如果不小心,就很容易導(dǎo)致錯(cuò)誤的結(jié)論。
不良方法會(huì)導(dǎo)致不準(zhǔn)確的結(jié)果
大概一年前,我在《自然》上讀到一篇文章,聲稱(chēng)通過(guò)深度學(xué)習(xí)預(yù)測(cè)地震的余震達(dá)到了前所未有的準(zhǔn)確性。但讀過(guò)之后,我對(duì)他們的聲稱(chēng)的結(jié)果產(chǎn)生了深深的懷疑。他們的方法的建模過(guò)程完全不夠仔細(xì),導(dǎo)致結(jié)果不再可信。
與此同時(shí),這篇論文引發(fā)了廣泛關(guān)注和認(rèn)可。甚至在Tensorflow的官方說(shuō)明中也提到了這篇文章,作為深度學(xué)習(xí)應(yīng)用的例子。我發(fā)現(xiàn)這篇論文存在重大缺陷。論文中出現(xiàn)的數(shù)據(jù)泄漏問(wèn)題會(huì)導(dǎo)致文中得出的準(zhǔn)確度得分偏高,而且預(yù)測(cè)方法在模型選擇上也不夠關(guān)注(如果更簡(jiǎn)單的模型可以達(dá)到同樣的準(zhǔn)確度,就不必構(gòu)建6層神經(jīng)網(wǎng)絡(luò)了)。
回到我之前的觀點(diǎn):論文中使用的方法很精巧,但在基本預(yù)測(cè)建模上的錯(cuò)誤可能會(huì)使實(shí)驗(yàn)的整個(gè)結(jié)果無(wú)效。數(shù)據(jù)科學(xué)家應(yīng)該在工作中及時(shí)發(fā)現(xiàn)并避免這些問(wèn)題。我認(rèn)為本文作者們完全忽略了這一點(diǎn),所以我聯(lián)系了作者,希望能改進(jìn)文中的分析流程。雖然我們之前溝通過(guò),但關(guān)于這篇文章的疑問(wèn),她沒(méi)有回復(fù)我的郵件。
Nature回復(fù):承認(rèn)瑕疵,拒絕修正,論文作者表示沒(méi)毛病
那么,我該怎么辦?我的同事建議我發(fā)個(gè)Twitter就算了,但我認(rèn)為應(yīng)該大力提倡良好的建模習(xí)慣和理念。所以在接下來(lái)的6個(gè)月里,我一直在記錄自己的結(jié)果,并與Nature方面進(jìn)行了分享。
今年1月,我收到了Nature的一份回復(fù)說(shuō)明,認(rèn)為盡管關(guān)于數(shù)據(jù)泄漏和模型選擇的嚴(yán)重問(wèn)題使文中的實(shí)驗(yàn)結(jié)果不夠可靠,但他們認(rèn)為沒(méi)有必要糾正,因?yàn)镈evries等人主要關(guān)注的是將機(jī)器學(xué)習(xí)作為一種工具來(lái)獲得對(duì)自然世界的洞察力,重點(diǎn)不是算法設(shè)計(jì)的細(xì)節(jié)。而此文的作者則做出了措辭更為嚴(yán)厲的回應(yīng)。
我感到很失望。這是一篇重磅論文(畢竟發(fā)在Nature上?。?,盡管文中的方法有缺陷,但它還是發(fā)表了,推動(dòng)了對(duì)人工智能的又一波追捧。
本周,兩位從事地震分析的數(shù)據(jù)科學(xué)家Arnaud Mignan和Marco Broccardo也撰文指出了在Nature那篇余震預(yù)測(cè)文章中發(fā)現(xiàn)了缺陷。我也把我自己的分析和可重現(xiàn)的代碼放在了github上。
我想說(shuō)清楚一點(diǎn):我不是故意和Nature那篇論文的作者人品有問(wèn)題。我不認(rèn)為她們是有意為之,她們的目標(biāo)只是展示如何將機(jī)器學(xué)習(xí)技術(shù)應(yīng)用于余震預(yù)測(cè)。文章作者之一Devries是一位多才多藝的地震科學(xué)家,希望將最新的方法用于她的研究領(lǐng)域,并從中找到亮眼的結(jié)果。
但問(wèn)題在于:這些觀點(diǎn)和結(jié)果是基于有根本缺陷的方法得出的。僅僅說(shuō)“這不是機(jī)器學(xué)習(xí)論文,而是地震論文”是解釋不了的。一旦使用了預(yù)測(cè)模型,那么預(yù)測(cè)結(jié)果的質(zhì)量就取決于建模質(zhì)量,取得的成果就屬于數(shù)據(jù)科學(xué)的成果,數(shù)據(jù)科學(xué)的結(jié)果必須嚴(yán)謹(jǐn)。
期刊方面歷來(lái)對(duì)刊登對(duì)關(guān)于最新技術(shù)和方法的論文興趣極高,但是,如果我們?cè)试S有基本問(wèn)題的論文或項(xiàng)目取得進(jìn)展,就會(huì)傷害我們所有人,對(duì)預(yù)測(cè)建模領(lǐng)域造成破壞。
Nature論文介紹:深度學(xué)習(xí)預(yù)測(cè)余震效果拔群
實(shí)際上,新智元在此前的報(bào)道中曾對(duì)Nature這篇文章進(jìn)行過(guò)簡(jiǎn)要介紹:
谷歌和哈佛大學(xué)在Nature雜志發(fā)表的一篇論文中,研究人員展示了如何用深度學(xué)習(xí)預(yù)測(cè)余震位置,而且預(yù)測(cè)結(jié)果比現(xiàn)有模型更可靠。
他們訓(xùn)練了一個(gè)神經(jīng)網(wǎng)絡(luò),在一個(gè)包含131000多個(gè)“主震-余震”事件的數(shù)據(jù)庫(kù)中尋找模式,然后在一個(gè)包含30000對(duì)類(lèi)似事件的數(shù)據(jù)庫(kù)中測(cè)試其預(yù)測(cè)。
“主震-余震”事件的一個(gè)樣本
深度學(xué)習(xí)網(wǎng)絡(luò)比最有用的現(xiàn)有模型(稱(chēng)為“庫(kù)侖破裂應(yīng)力變化”)更可靠。在從0到1的精度范圍內(nèi)——1是完全準(zhǔn)確的模型,0.5是一半準(zhǔn)確的模型——現(xiàn)有庫(kù)侖模型得分為0.583,而新的AI系統(tǒng)達(dá)到0.849。
“關(guān)于地震,你需要知道三件事情,”研究人員說(shuō):“它們什么時(shí)候發(fā)生、它們會(huì)有多強(qiáng)烈、它們會(huì)發(fā)生在哪里。在這項(xiàng)工作之前,我們有經(jīng)驗(yàn)定律來(lái)解釋它們發(fā)生的時(shí)間和規(guī)模,現(xiàn)在我們正在研究它們可能發(fā)生在哪?!?/p>
人工智能在這一領(lǐng)域的成功歸功于該技術(shù)的核心優(yōu)勢(shì)之一:它能夠發(fā)現(xiàn)復(fù)雜數(shù)據(jù)集中以前被忽視的模式。這在地震學(xué)中尤為重要,因?yàn)樵诘卣饘W(xué)中看到數(shù)據(jù)中的關(guān)聯(lián)性非常困難。地震事件涉及太多變量,從不同區(qū)域的地面構(gòu)成到地震板塊之間的相互作用類(lèi)型,以及能量在地震波中穿過(guò)地球傳播的方式。理解這一切是非常困難的。
研究人員表示,他們的深度學(xué)習(xí)模型能夠通過(guò)考量一個(gè)被稱(chēng)為“米塞斯屈服準(zhǔn)則”(von Mises yield criterion)的因素來(lái)做出預(yù)測(cè),這是一種用于預(yù)測(cè)材料何時(shí)開(kāi)始在壓力下破裂的復(fù)雜計(jì)算。研究人員表示,這個(gè)因素常用于冶金等領(lǐng)域,“但在地震科學(xué)中從未流行過(guò)?!爆F(xiàn)在,隨著這一新模型的發(fā)現(xiàn),地質(zhì)學(xué)家可以研究其關(guān)聯(lián)性。
盡管這項(xiàng)研究取得了成功,但它還遠(yuǎn)未準(zhǔn)備好在現(xiàn)實(shí)世界中應(yīng)用。首先,AI模型只關(guān)注由地面永久性變化引起的余震,稱(chēng)為靜態(tài)應(yīng)力。但后續(xù)地震也可能是由于后來(lái)發(fā)生的地面隆隆聲造成的,稱(chēng)為動(dòng)態(tài)壓力?,F(xiàn)有模型也太慢而無(wú)法實(shí)時(shí)工作。這很重要,因?yàn)榇蠖鄶?shù)余震發(fā)生在地震發(fā)生后的第一天,然后每過(guò)一天頻率大致減半。
Rajiv的意見(jiàn):訓(xùn)練方法缺陷導(dǎo)致“目標(biāo)泄露”,實(shí)驗(yàn)結(jié)果虛高
在Rajiv致Nature的信中,指出這篇文章中存在“重大方法性錯(cuò)誤”,使得文章結(jié)論不再?lài)?yán)謹(jǐn)可靠。Rajiv主要提出了三點(diǎn)意見(jiàn),以第一點(diǎn)為主。
第一,文中對(duì)模型訓(xùn)練和測(cè)試數(shù)據(jù)運(yùn)用存在缺陷,出現(xiàn)了“目標(biāo)泄露”(Target Leakage),論文中公布的預(yù)測(cè)精度實(shí)際上是偏高的結(jié)果(AUC=0.849)。論文中使用地震中部分?jǐn)?shù)據(jù)來(lái)訓(xùn)練模型,然后再次使用這些數(shù)據(jù)來(lái)測(cè)試模型。這種目標(biāo)泄露會(huì)導(dǎo)致機(jī)器學(xué)習(xí)中的結(jié)果偏高,而實(shí)際效果并沒(méi)有這么好。為了避免這一錯(cuò)誤,需要使用“分組分區(qū)”的方法,保證地震數(shù)據(jù)只會(huì)出現(xiàn)在訓(xùn)練部分或測(cè)試部分其中之一,而本文沒(méi)有這樣做。
第二個(gè)問(wèn)題是沒(méi)有使用學(xué)習(xí)曲線(xiàn)。
第三是上來(lái)就使用深度學(xué)習(xí)模型,而沒(méi)有考慮邏輯回歸、隨機(jī)森林等基線(xiàn)方法。這可能會(huì)給讀者造成誤導(dǎo),認(rèn)為只有深度學(xué)習(xí)才能對(duì)余震預(yù)測(cè)任務(wù)取得良好效果,實(shí)際上并非如此,許多其他方法(如SVM、GAM)都可以獲得與文中模型基本相當(dāng)?shù)男阅堋?/p>
在Nature的回復(fù)中,實(shí)際上在一定程度上承認(rèn)了Rajiv意見(jiàn)的合理性,但拒絕對(duì)此進(jìn)行糾正。
Nature方面的態(tài)度是:
盡管關(guān)于數(shù)據(jù)泄漏和模型選擇的問(wèn)題使文中的實(shí)驗(yàn)結(jié)果不夠可靠,但沒(méi)有必要糾正,因?yàn)楸疚淖髡逥evries等人主要關(guān)注的是將機(jī)器學(xué)習(xí)作為一種工具來(lái)獲得對(duì)自然世界的洞察力,算法設(shè)計(jì)的細(xì)節(jié)不是重點(diǎn)。
而論文作者方面給出的回復(fù)意見(jiàn)對(duì)這三點(diǎn)均予以反駁,二位作者表示:
1、Rajiv關(guān)于“數(shù)據(jù)泄露”使得模型性能虛高的說(shuō)法在科學(xué)背景下不具備合理性。對(duì)地震數(shù)據(jù)訓(xùn)練集和測(cè)試集的分組符合機(jī)器學(xué)習(xí)的基本方法。
2、本文使用神經(jīng)網(wǎng)絡(luò)作為工具,為了獲得關(guān)于余震的一些模式信息,并沒(méi)有表示其他機(jī)器學(xué)習(xí)方法無(wú)用的意思。
3、整個(gè)文章的主旨就是神經(jīng)網(wǎng)絡(luò)能夠成功學(xué)習(xí)簡(jiǎn)單的模式。
二位作者還在回復(fù)意見(jiàn)的最后部分表示,Rajiv的評(píng)論沒(méi)有任何科學(xué)背景。我們是地震科學(xué)家,我們的目標(biāo)是利用機(jī)器學(xué)習(xí)獲得關(guān)于余震位置模式的信息,完成這個(gè)目標(biāo)的是我們,而不是Rajiv的這些評(píng)論。如果Nature選擇公開(kāi)這些評(píng)論,我們會(huì)感到很失望。
網(wǎng)友熱議:Nature承認(rèn)有問(wèn)題就該改,作者態(tài)度令人堪憂(yōu)
Nature上的文章從來(lái)不缺少關(guān)注,尤其是出現(xiàn)重大爭(zhēng)議的文章。雖然是一筆一年前的老賬,但來(lái)龍去脈還很清楚,毫無(wú)懸念地成為Reddit上頭號(hào)熱帖。
從回復(fù)的熱門(mén)帖子看,很多網(wǎng)友認(rèn)為Rajiv的批評(píng)意見(jiàn)值得充分討論,而Nature在承認(rèn)論文中的算法存在一定問(wèn)題的情況下仍然拒絕修改,沒(méi)有盡到應(yīng)盡的責(zé)任。至于二位作者的回復(fù),一方面缺乏面對(duì)反對(duì)意見(jiàn)時(shí)的風(fēng)度,而且對(duì)某些重要概念(比如數(shù)據(jù)泄露)的理解存在問(wèn)題。
下面簡(jiǎn)單摘選幾個(gè):
1、我覺(jué)得論文作者的回復(fù)比批評(píng)意見(jiàn)本身更為“居高臨下”啊。意見(jiàn)中提到使用更簡(jiǎn)單的方法也能得到基本相同的結(jié)果,這說(shuō)明進(jìn)行一些模型簡(jiǎn)化測(cè)試很有必要。尤其是作者回復(fù)的最后一段,簡(jiǎn)直是在說(shuō):我們是地震科學(xué)家,敢問(wèn)您是哪位?。咳缓筮€跟Nature講,如果你公布了這些評(píng)論意見(jiàn),我們會(huì)“很失望”的。作者憑什么這么說(shuō)?為什么這些評(píng)論意見(jiàn)不該公布?難倒公布了不正能引發(fā)更多良性的科學(xué)討論嗎?而且評(píng)論中的意見(jiàn)也不是孤例,其他文章中也有提到這個(gè)問(wèn)題。如果我是這篇文章的會(huì)議審稿人,我也會(huì)有類(lèi)似的疑問(wèn),至少我會(huì)要求作者作一些模型簡(jiǎn)化測(cè)試。
2、我讀了論文作者(Phoebe DeVrias和Brendan Meade)對(duì)Nature編輯的回應(yīng)。雖然我不知道這些評(píng)論的背景,但可以肯定地說(shuō),她們面對(duì)批評(píng)意見(jiàn)表現(xiàn)得非常不成熟。
3、“我們承認(rèn)在訓(xùn)練和測(cè)試集中都使用了來(lái)自同一地震的數(shù)據(jù),但這并不重要,因?yàn)槲覀兪锹斆鞯牡卣鹂茖W(xué)家。”嗯,很好很強(qiáng)大。
-
人工智能
+關(guān)注
關(guān)注
1792文章
47373瀏覽量
238860 -
論文
+關(guān)注
關(guān)注
1文章
103瀏覽量
14969 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1208瀏覽量
24727
原文標(biāo)題:Reddit熱議:Nature預(yù)測(cè)余震論文被疑存重大缺陷,論文作者回懟
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論