本文是PNAS的一篇特稿,描述了深度學(xué)習(xí)的多種局限,包括易受對(duì)抗攻擊、應(yīng)用不穩(wěn)定、缺乏可解釋性等。最終結(jié)論是,深度學(xué)習(xí)不是實(shí)現(xiàn)類人智能的途徑,但確實(shí)是實(shí)現(xiàn)這一目標(biāo)的基礎(chǔ)或雛形,接下來的道路艱難,但一切皆有可能,這也是為何研究人員前仆后繼研究AI。
AI能將一根香蕉照片識(shí)別成一臺(tái)烤面包機(jī),盡管AI在訓(xùn)練階段可能被展示了數(shù)千張香蕉、蛞蝓、蝸牛以及其他類似物體的照片,就像抽認(rèn)卡一般,讓AI反復(fù)練習(xí),直到完全掌握分類為止。
但是,即便是成千上萬次訓(xùn)練,這個(gè)先進(jìn)的系統(tǒng)也很容易被搞糊涂——只需要將一張小小的貼紙放到圖像的某個(gè)角落,就會(huì)改變識(shí)別結(jié)果。
上面這個(gè)被稱為“對(duì)抗攻擊”(adversarial attack)的例子是由Google Brain的深度學(xué)習(xí)研究人員發(fā)現(xiàn)的,這項(xiàng)研究突顯了人工智能距離接近人類能力之前還有很長(zhǎng)的路要走。
多倫多大學(xué)計(jì)算機(jī)科學(xué)家Geoffrey Hinton是深度學(xué)習(xí)的先驅(qū)之一,他說:“我最初認(rèn)為對(duì)抗樣本只是一個(gè)讓人煩惱的問題,但我現(xiàn)在認(rèn)為它們非常深?yuàn)W。它們會(huì)告訴我們做錯(cuò)了什么?!?/p>
這也是AI從業(yè)者普遍的觀點(diǎn),研究人員中的任何一個(gè)人都能輕松說出一長(zhǎng)串深度學(xué)習(xí)的弊端,除了易受欺騙之外,還存在嚴(yán)重的低效率問題。
比如說,讓一個(gè)孩子學(xué)習(xí)認(rèn)識(shí)奶牛,并不需要他的母親說一萬遍“奶?!?,人類通常只需要一兩個(gè)例子就能學(xué)習(xí)新概念。但是10000遍是深度學(xué)習(xí)系統(tǒng)通常需要的數(shù)字。
然后是不透明問題。一旦深度學(xué)習(xí)系統(tǒng)被訓(xùn)練完,它是如何做出決定的就不總是那么清楚了。MIT- IBM 沃森人工智能實(shí)驗(yàn)室負(fù)責(zé)人、計(jì)算神經(jīng)學(xué)家David Cox說:“在很多情況下,不透明問題是不可接受的,即使它得到了正確的答案。”
假設(shè)一家銀行使用AI來評(píng)估你的信用等級(jí),然后拒絕給你貸款,并且說不清楚拒絕的原因,你會(huì)覺得合理嗎?
也許最重要的是,它們?nèi)狈ΤWR(shí)。深度學(xué)習(xí)系統(tǒng)可能是識(shí)別像素級(jí)模式的高手,但它們無法理解模式的含義,更不用說對(duì)它們進(jìn)行推理了。DeepMind的AI研究員Greg Wayne表示:“我不清楚,目前的AI系統(tǒng)是否能夠理解沙發(fā)和椅子是用來坐的?!?/p>
AI的這些弱點(diǎn)越來越多地引起人們的擔(dān)憂,尤其是自動(dòng)駕駛方面。自動(dòng)駕駛汽車使用類似的深度學(xué)習(xí)系統(tǒng)進(jìn)行導(dǎo)航,已經(jīng)出現(xiàn)了幾起廣為人知的死亡事故。
深度學(xué)習(xí)方法中的明顯缺陷引起了研究人員和大眾的擔(dān)憂,因?yàn)樽詣?dòng)駕駛等應(yīng)用使用深度學(xué)習(xí)進(jìn)行導(dǎo)航
“人們已經(jīng)開始說,(深度學(xué)習(xí))系統(tǒng)可能存在問題?!奔~約大學(xué)認(rèn)知科學(xué)家加里?馬庫(kù)斯(Gary Marcus)說,他是對(duì)深度學(xué)習(xí)最直言不諱的懷疑論者之一。他說:“在一年左右之前,一直存在一種感覺,即深度學(xué)習(xí)具有魔力?,F(xiàn)在人們已經(jīng)認(rèn)識(shí)到深度學(xué)習(xí)不是魔法?!?/p>
不過,不可否認(rèn)的是,深度學(xué)習(xí)是一種非常強(qiáng)大的工具——它使部署面部識(shí)別和語(yǔ)音識(shí)別等應(yīng)用程序變得非常常見,而就在10年前,這些程序幾乎是不可能的。
所以現(xiàn)在的研究人員很難想象,在這個(gè)時(shí)候深度學(xué)習(xí)會(huì)消失。
在過去的2018年,深度學(xué)習(xí)的進(jìn)展似乎沒有達(dá)到人們的預(yù)期,“深度學(xué)習(xí)至頂”、“深度學(xué)習(xí)已死”的論調(diào)頻現(xiàn)。雖然目前深度學(xué)習(xí)依舊生命力旺盛,但更有可能的是,人們會(huì)修改或增強(qiáng)它,并培養(yǎng)出它的下一代接班人。
起底深度學(xué)習(xí):起源“大腦戰(zhàn)爭(zhēng)”
今天的深度學(xué)習(xí)革命起源于上世紀(jì)80年代的“大腦戰(zhàn)爭(zhēng)”(brain wars),當(dāng)時(shí)兩種不同人工智能方法的倡導(dǎo)者之間爭(zhēng)論甚大。
一種是現(xiàn)在被稱為“優(yōu)秀的老式人工智能”(good old-fashioned AI)方法,自20世紀(jì)50年代以來一直占據(jù)這個(gè)領(lǐng)域的主導(dǎo)地位。
這種方法也被稱為符號(hào)AI,使用數(shù)學(xué)符號(hào)來表示對(duì)象和對(duì)象之間的關(guān)系。再加上人類建立的大型知識(shí)庫(kù),這些系統(tǒng)被證明在醫(yī)學(xué)等領(lǐng)域的推理和決策方面非常出色。
但到了20世紀(jì)80年代,人們也越來越清楚地認(rèn)識(shí)到,符號(hào)AI在處理現(xiàn)實(shí)生活中的符號(hào)、概念和推理方面表現(xiàn)非常糟糕。
為了應(yīng)對(duì)這些缺陷,一些研究人員開始提倡人工神經(jīng)網(wǎng)絡(luò),或稱聯(lián)結(jié)主義人工智能(connectionist AI),即今天的深度學(xué)習(xí)系統(tǒng)的前身。
這類系統(tǒng)的想法是通過一個(gè)模擬節(jié)點(diǎn)的網(wǎng)絡(luò)來處理信號(hào),這個(gè)網(wǎng)絡(luò)類似于人類大腦中的神經(jīng)元。信號(hào)通過連接或鏈路從一個(gè)節(jié)點(diǎn)傳遞到另一個(gè)節(jié)點(diǎn):類似于神經(jīng)元之間的突觸連接。而學(xué)習(xí),就像在真實(shí)的大腦中一樣,是一個(gè)調(diào)整“權(quán)重”問題,這個(gè)“權(quán)重”會(huì)放大或減弱每個(gè)連接所攜帶的信號(hào)。
在實(shí)踐中,大多數(shù)網(wǎng)絡(luò)將節(jié)點(diǎn)排列成一系列的層,大致類似于大腦皮層中的不同處理中心。因此,比如說,一個(gè)專門用于圖像識(shí)別的網(wǎng)絡(luò)會(huì)有一個(gè)輸入節(jié)點(diǎn)的層,它對(duì)單個(gè)像素做出響應(yīng),就像桿狀細(xì)胞和錐體細(xì)胞對(duì)照進(jìn)視網(wǎng)膜的光線做出響應(yīng)一樣。一旦被激活,這些節(jié)點(diǎn)通過加權(quán)連接將其激活級(jí)別傳播到下一級(jí)別的其他節(jié)點(diǎn),這些節(jié)點(diǎn)組合輸入信號(hào)并依次激活(或不激活)。
這個(gè)過程一直持續(xù)到信號(hào)到達(dá)節(jié)點(diǎn)的輸出層,其中的激活模式提供一個(gè)答案——一個(gè)斷言,例如輸入圖像是數(shù)字“9”。如果答案錯(cuò)誤了——假設(shè)輸入的圖像是“0”——那么“反向傳播”算法就會(huì)沿著層反向運(yùn)行,調(diào)整權(quán)重,以便下次得到更好的結(jié)果。
到20世紀(jì)80年代末,這類神經(jīng)網(wǎng)絡(luò)在處理噪聲或模糊輸入方面已經(jīng)證明比符號(hào)AI好得多。
然而,這兩種方法之間的對(duì)峙仍未得到解決,主要是因?yàn)楫?dāng)時(shí)能夠裝入計(jì)算機(jī)的AI系統(tǒng)非常有限。人們?nèi)詿o法確切地知道這些系統(tǒng)能做什么。
一切光榮得益計(jì)算力的爆發(fā)
直到2000年,隨著計(jì)算能力以數(shù)量級(jí)增大的計(jì)算機(jī)的出現(xiàn),以及社交媒體網(wǎng)站提供大量圖像、聲音和其他訓(xùn)練數(shù)據(jù),這種理解才開始得到發(fā)展。
首先抓住這波機(jī)會(huì)的是Hinton,他是反向傳播算法的提出者之一,也是20世紀(jì)80年代聯(lián)結(jié)主義的主導(dǎo)者。到2005年左右,他和他的學(xué)生們訓(xùn)練的網(wǎng)絡(luò)不僅比以前的要大得多,而且深得多,層數(shù)從一層或兩層增加到了大約六層。(如今的商業(yè)網(wǎng)絡(luò)經(jīng)常多達(dá)100層以上)
2009年,Hinton和他的兩名研究生證明這種“深度學(xué)習(xí)”比任何其他已知的方法都能更好地識(shí)別語(yǔ)音。
Hinton和他的學(xué)生在2009年的論文
2012年,Hinton和另外兩名學(xué)生發(fā)表的實(shí)驗(yàn)表明,深度神經(jīng)網(wǎng)絡(luò)在識(shí)別圖像方面可能比標(biāo)準(zhǔn)視覺系統(tǒng)要好得多,“幾乎將錯(cuò)誤率減半”。
在語(yǔ)音和圖像識(shí)別的雙重突破下,深度學(xué)習(xí)應(yīng)用的革命開始了,研究人員改進(jìn)這項(xiàng)技術(shù)的努力也開始了。
早期的優(yōu)先任務(wù)之一是拓展深度學(xué)習(xí)系統(tǒng)的訓(xùn)練方式,DeepMind公司的Matthew Botvinick說,語(yǔ)音和圖像識(shí)別系統(tǒng)都使用了所謂的監(jiān)督學(xué)習(xí),這意味著每幅圖像都有一個(gè)正確的答案——比如“貓”——如果網(wǎng)絡(luò)錯(cuò)了,你就要告訴它正確的答案是什么。然后,網(wǎng)絡(luò)使用反向傳播算法來改進(jìn)下一個(gè)猜測(cè)。
實(shí)際上,對(duì)于大部分的現(xiàn)實(shí)世界任務(wù),需要強(qiáng)化學(xué)習(xí)。例如,強(qiáng)化學(xué)習(xí)系統(tǒng)在玩電子游戲時(shí)能學(xué)會(huì)尋求獎(jiǎng)勵(lì)(找到寶藏)和避免懲罰(失去錢)。
強(qiáng)化學(xué)習(xí)深度神經(jīng)網(wǎng)絡(luò)的首次成功實(shí)現(xiàn)是在2015年,當(dāng)時(shí)DeepMind的一個(gè)團(tuán)隊(duì)訓(xùn)練了一個(gè)網(wǎng)絡(luò)玩經(jīng)典雅達(dá)利2600街機(jī)游戲。
2015年DeepMind發(fā)表在Nature的論文
網(wǎng)絡(luò)在游戲過程中接收屏幕圖像作為輸入,在輸出端是制定操作指令的層,比如如何移動(dòng)操作桿。在這個(gè)游戲中,神經(jīng)網(wǎng)絡(luò)的表現(xiàn)與人類玩家相當(dāng),或超過了人類玩家。
然后在2016年,DeepMind的研究人員在AlphaGo中應(yīng)用了同樣方法的更精細(xì)版本,掌握了復(fù)雜的圍棋游戲,并打敗了人類圍棋世界冠軍李世乭。
接下來的幾年,AI成為全民話題,此處不過多介紹。
深度學(xué)習(xí)窮途末路,誰能引領(lǐng)下一代AI?
不幸的是,這幾個(gè)里程碑都沒有解決深度學(xué)習(xí)的根本問題。例如,雅達(dá)利AI需要玩數(shù)千輪才能掌握一款大多數(shù)人類玩家可以在幾分鐘內(nèi)學(xué)會(huì)的游戲。即便如此,網(wǎng)絡(luò)也無法理解或解釋屏幕上物體。
因此,Hinton提出的問題依然存在:深度學(xué)習(xí)到底缺少了什么?
也許什么都沒有缺少,也許所需要的只是更多的連接,更多的層,以及更復(fù)雜的訓(xùn)練方法。畢竟,正如Botvinick指出的,神經(jīng)網(wǎng)絡(luò)在數(shù)學(xué)上等同于一臺(tái)通用計(jì)算機(jī),這意味著它們沒有執(zhí)行不了的計(jì)算——至少理論上是這樣,只要你能找到合適的連接權(quán)重。
但是在實(shí)踐中,這些可能是致命的——這也是為什么這個(gè)領(lǐng)域越來越多的人認(rèn)為,為了解決深度學(xué)習(xí)的缺陷,需要有一些根本性的全新想法。
一種解決方案是簡(jiǎn)單地?cái)U(kuò)展訓(xùn)練數(shù)據(jù)的規(guī)模。例如,在2018年5月發(fā)表的一篇論文中,Botvinick所在的DeepMind小組研究了當(dāng)一個(gè)網(wǎng)絡(luò)被訓(xùn)練做不止一項(xiàng)任務(wù)時(shí)會(huì)發(fā)生什么。
他們發(fā)現(xiàn),只要網(wǎng)絡(luò)有足夠的“循環(huán)”連接從后面的層向更早的層運(yùn)行,它就能自動(dòng)吸取它在前一個(gè)任務(wù)得到的教訓(xùn),更快的學(xué)習(xí)下一個(gè)新任務(wù)。
這至少是一種人類式的“元學(xué)習(xí)”(meta-learning)的雛形,或者稱為learning to learn,這是人類快速掌握事物能力的重要組成部分。
一種更為激進(jìn)的方法是,放棄僅僅通過訓(xùn)練一個(gè)大型網(wǎng)絡(luò)來解決手頭的問題,而是讓多個(gè)網(wǎng)絡(luò)協(xié)同工作。
2018年6月,DeepMind團(tuán)隊(duì)發(fā)布了一個(gè)他們稱為生成查詢網(wǎng)絡(luò)(Generative Query Network )的架構(gòu),利用兩個(gè)不同的網(wǎng)絡(luò),在沒有人工輸入的復(fù)雜虛擬環(huán)境中學(xué)習(xí)。其中一個(gè)被稱為“表示網(wǎng)絡(luò)”(representation network),它本質(zhì)上是利用標(biāo)準(zhǔn)的圖像識(shí)別學(xué)習(xí)來識(shí)別在任何給定時(shí)刻AI能看到的東西。
DeepMind在2018年6月發(fā)表在Science上的GQN研究
與此同時(shí),生成網(wǎng)絡(luò)(generation network)學(xué)習(xí)獲取第一個(gè)網(wǎng)絡(luò)的輸出,并生成一種整個(gè)環(huán)境的3D模型——實(shí)際上是對(duì)AI看不到的對(duì)象和特征進(jìn)行預(yù)測(cè)。例如,如果一張桌子只有三條可見的腿,那么模型將預(yù)測(cè)具有相同大小、形狀和顏色的第四條腿。
Botvinick說,這些預(yù)測(cè)反過來又能讓系統(tǒng)比使用標(biāo)準(zhǔn)的深度學(xué)習(xí)方法更快地學(xué)習(xí)。一個(gè)試圖預(yù)測(cè)事物的agent會(huì)在每一個(gè)時(shí)間步上自動(dòng)得到反饋,因?yàn)樗梢钥吹阶约旱念A(yù)測(cè)結(jié)果如何。因此,它可以不斷更新自己的模型,讓它們變得更好。
更讓人興奮的是,這種學(xué)習(xí)是自我監(jiān)督的:研究人員不需要給環(huán)境中的任何東西貼上標(biāo)簽,就能讓它起作用,甚至不需要提供獎(jiǎng)勵(lì)和懲罰。
圖網(wǎng)絡(luò)前途無量,是類人智能的最佳選手嗎?
還有一種更為激進(jìn)的方法是,不再要求網(wǎng)絡(luò)對(duì)每一個(gè)問題都從頭開始學(xué)習(xí)。
嬰兒似乎生來就有許多固有的“歸納偏見”,這使他們能夠以驚人的速度學(xué)會(huì)某些核心概念。到兩個(gè)月大的時(shí)候,他們已經(jīng)開始掌握直覺物理學(xué)的原理,包括物體存在的概念,物體傾向于沿著連續(xù)的路徑移動(dòng),當(dāng)兩個(gè)物體接觸時(shí)它們的移動(dòng)路徑會(huì)改變等等。
擁有這種內(nèi)置的歸納偏見可能會(huì)有助于深度神經(jīng)網(wǎng)絡(luò)同樣快速地學(xué)習(xí),這就是為什么該領(lǐng)域的許多研究人員現(xiàn)在把這作為優(yōu)先考慮的事情。
事實(shí)上,僅僅在過去的一兩年里,這個(gè)領(lǐng)域就出現(xiàn)了一種被稱為“圖網(wǎng)絡(luò)”(graph network)的強(qiáng)大潛在方法,引起了人們的極大興趣。Botvinick說:“這些是內(nèi)在地傾向于把事物表示為物體和關(guān)系的深度學(xué)習(xí)系統(tǒng)?!?/p>
例如,某些對(duì)象,如爪子、尾巴和胡須,可能都屬于一個(gè)較大的對(duì)象(貓),并且它們之間的關(guān)系是“屬于…的一部分”(a-part-of)。同樣地,一個(gè)球A和一個(gè)方塊B可能具有“在…旁邊”(next-to)的相互關(guān)系,地球與太陽(yáng)具有“圍繞軌道轉(zhuǎn)動(dòng)”(in-orbit-around)的關(guān)系,以此類推,還有許許多多例子。這些關(guān)系都可以用一個(gè)抽象的圖(graph)來表示,其中節(jié)點(diǎn)對(duì)應(yīng)于“物體”,線對(duì)應(yīng)于“關(guān)系”。
因此,圖網(wǎng)絡(luò)是一種神經(jīng)網(wǎng)絡(luò),它將這樣的圖形作為輸入(而不是原始像素或聲波),然后學(xué)習(xí)推理和預(yù)測(cè)對(duì)象及其關(guān)系如何隨時(shí)間演變。
圖網(wǎng)絡(luò)方法已經(jīng)證明了在一系列應(yīng)用實(shí)現(xiàn)快速學(xué)習(xí),以及人類水平的能力,包括復(fù)雜的視頻游戲。如果它能像研究人員希望的那樣繼續(xù)發(fā)展,那么它就可以通過提高訓(xùn)練速度和效率來緩解深度學(xué)習(xí)的10000-cow 問題。
Box-World和星際爭(zhēng)霸2的任務(wù)需要對(duì)實(shí)體及其關(guān)系進(jìn)行推理
此外,圖網(wǎng)絡(luò)可以使網(wǎng)絡(luò)不那么容易受到對(duì)抗性攻擊,原因很簡(jiǎn)單,它是一個(gè)將事物表示為對(duì)象,而不是像素模式的系統(tǒng),不會(huì)輕易被一點(diǎn)噪音或無關(guān)的貼紙所干擾。
Botvinick 承認(rèn),在這些領(lǐng)域中,任何一個(gè)都不會(huì)輕易、快速地取得根本性的進(jìn)展。但即便如此,他仍然相信,圖網(wǎng)絡(luò)前途無量?!疤魬?zhàn)是真實(shí)存在的,但它們并非死路一條?!?/p>
-
人工智能
+關(guān)注
關(guān)注
1792文章
47387瀏覽量
238901 -
自動(dòng)駕駛
+關(guān)注
關(guān)注
784文章
13848瀏覽量
166579 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5506瀏覽量
121265
原文標(biāo)題:深度學(xué)習(xí)已入末路,AI未來是圖網(wǎng)絡(luò)
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論