近日,圖靈獎(jiǎng)得主、深度學(xué)習(xí)巨頭Geoffrey Hinton和Yann LeCun在ACM FCRC 2019上發(fā)表了精彩演講。
二人分別在大會(huì)上做了題為《深度學(xué)習(xí)革命》和《深度學(xué)習(xí)革命:續(xù)集》的精彩演講。目前視頻已經(jīng)公開:
https://www.youtube.com/watch?v=VsnQf7exv5I
新智元對演講內(nèi)容進(jìn)行了整理。
Geoffrey Hinton:《深度學(xué)習(xí)革命》
Geoffrey Hinton
Hinton表示,自從20世紀(jì)50年代開始,人工智能存在兩種范式:分別是邏輯啟發(fā)的方法和生物學(xué)啟發(fā)的方法。
邏輯啟發(fā)的方法(The logic-inspired approach):智能的本質(zhì)是使用符號(hào)規(guī)則來操縱符號(hào)表達(dá)。我們應(yīng)該專注于推理。
生物學(xué)啟發(fā)的方法(The biologically-inspired approach):智能的本質(zhì)是學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)中連接的優(yōu)勢。我們應(yīng)該專注于學(xué)習(xí)和感知。
不同的范式便使得最終的目標(biāo)有所不同。因此,在內(nèi)部表示(internal representation)方面也存在著兩種觀點(diǎn):
內(nèi)部表示是符號(hào)表達(dá)式。程序員可以用一種明確的語言把它們交給計(jì)算機(jī);可以通過對現(xiàn)有表示應(yīng)用規(guī)則派生新的表示。
內(nèi)部表示與語言完全不同。它們是神經(jīng)活動(dòng)的向量(big vectors);它們對神經(jīng)活動(dòng)的其他載體有直接的因果影響;這些向量是從數(shù)據(jù)中學(xué)到的。
由此也導(dǎo)致了兩種讓計(jì)算機(jī)完成任務(wù)的方式。
首先是智能設(shè)計(jì):有意識(shí)地精確計(jì)算出你將如何操縱符號(hào)表示來執(zhí)行任務(wù),然后極其詳細(xì)地告訴計(jì)算機(jī)具體要做什么。
其次是學(xué)習(xí):向計(jì)算機(jī)展示大量輸入和所需輸出的例子。讓計(jì)算機(jī)學(xué)習(xí)如何使用通用的學(xué)習(xí)程序?qū)⑤斎胗成涞捷敵觥?/p>
Hinton舉了一個(gè)例子:人們花了50年的時(shí)間,用符號(hào)型人工智能(symbolic AI)來完成的任務(wù)就是“看圖說話”。
針對這項(xiàng)任務(wù),人們嘗試了很長時(shí)間來編寫相應(yīng)的代碼,即便采用神經(jīng)網(wǎng)絡(luò)的方法依舊嘗試了很長一段時(shí)間。最終,這項(xiàng)任務(wù)得到很好解決的方法竟然是基于純學(xué)習(xí)的方法。
因此,對于神經(jīng)網(wǎng)絡(luò)而言,存在如下的核心問題:
包含數(shù)百萬權(quán)重和多層非線性神經(jīng)元的大型神經(jīng)網(wǎng)絡(luò)是非常強(qiáng)大的計(jì)算設(shè)備。但神經(jīng)網(wǎng)絡(luò)能否從隨機(jī)權(quán)重開始,并從訓(xùn)練數(shù)據(jù)中獲取所有知識(shí),從而學(xué)習(xí)一項(xiàng)困難的任務(wù)(比如物體識(shí)別或機(jī)器翻譯)?
針對這項(xiàng)問題,前人們付出了不少的努力:
針對如何訓(xùn)練人工神經(jīng)網(wǎng)絡(luò),Hinton認(rèn)為分為兩大方法,分別是監(jiān)督訓(xùn)練和無監(jiān)督訓(xùn)練。
監(jiān)督訓(xùn)練:向網(wǎng)絡(luò)顯示一個(gè)輸入向量,并告訴它正確的輸出;調(diào)整權(quán)重,減少正確輸出與實(shí)際輸出之間的差異。
無監(jiān)督訓(xùn)練:僅向網(wǎng)絡(luò)顯示輸入;調(diào)整權(quán)重,以便更好地從隱含神經(jīng)元的活動(dòng)中重建輸入(或部分輸入)。
而反向傳播(backpropagation algorithm)只是計(jì)算權(quán)重變化如何影響輸出錯(cuò)誤的一種有效方法。不是一次一個(gè)地?cái)_動(dòng)權(quán)重并測量效果,而是使用微積分同時(shí)計(jì)算所有權(quán)重的誤差梯度。
當(dāng)有一百萬個(gè)權(quán)重時(shí),反向傳播方法要比變異方法效率高出一百萬倍。
然而,反向傳播算法卻又讓人感到失望。
在20世紀(jì)90年代,雖然反向傳播算法的效果還算不錯(cuò),但并沒有達(dá)到人們所期待的那樣——深度網(wǎng)絡(luò)訓(xùn)練非常困難;在中等規(guī)模的數(shù)據(jù)集上,一些其他機(jī)器學(xué)習(xí)方法甚至比反向傳播更有效。
符號(hào)型人工智能的研究人員稱,期望在大型深層神經(jīng)網(wǎng)絡(luò)中學(xué)習(xí)困難的任務(wù)是愚蠢的,因?yàn)檫@些網(wǎng)絡(luò)從隨機(jī)連接開始,且沒有先驗(yàn)知識(shí)。
Hinton舉了三個(gè)非?;恼Q的理論:
而后,深度學(xué)習(xí)開始被各種拒絕:
2007年:NIPS program committee拒絕了Hinton等人的一篇關(guān)于深度學(xué)習(xí)的論文。因?yàn)樗麄円呀?jīng)接收了一篇關(guān)于深度學(xué)習(xí)的論文,而同一主題的兩篇論文就會(huì)“顯得過多”。
2009年:一位評審員告訴Yoshua Bengio,有關(guān)神經(jīng)網(wǎng)絡(luò)的論文在ICML中沒有地位。
2010年:一位CVPR評審員拒絕了Yann LeCun的論文,盡管它擊敗了最先進(jìn)的論文。審稿人說它沒有告訴我們?nèi)魏侮P(guān)于計(jì)算機(jī)視覺的信息,因?yàn)橐磺卸际恰皩W(xué)到的”。
而在2005年至2009年期間,研究人員(在加拿大!)取得了幾項(xiàng)技術(shù)進(jìn)步,才使反向傳播能夠更好地在前饋網(wǎng)絡(luò)中工作。
到了2012年,ImageNet對象識(shí)別挑戰(zhàn)賽(ImageNet object recognition challenge)有大約100萬張從網(wǎng)上拍攝的高分辨率訓(xùn)練圖像。
來自世界各地的領(lǐng)先計(jì)算機(jī)視覺小組在該數(shù)據(jù)集上嘗試了一些當(dāng)時(shí)最好的計(jì)算機(jī)視覺方法。其結(jié)果如下:
這次比賽的結(jié)果后,計(jì)算機(jī)視覺相關(guān)的組委會(huì)們才突然發(fā)覺原來深度學(xué)習(xí)是有用的!
Hinton在演講中討論了一種全新的機(jī)器翻譯方式。
對于每種語言,我們都有一個(gè)編碼器神經(jīng)網(wǎng)絡(luò)和一個(gè)解碼器神經(jīng)網(wǎng)絡(luò)。編碼器按原句中的單詞順序讀取(它最后的隱藏狀態(tài)代表了句子所表達(dá)的思想)。而解碼器用目標(biāo)語言表達(dá)思想。
自2014年年以來,神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯得了很大的發(fā)展。
接下來,Hinton談到了神經(jīng)網(wǎng)絡(luò)視覺的未來。
他認(rèn)為卷積神經(jīng)網(wǎng)絡(luò)獲得了巨大的勝利,因?yàn)樗羰窃谝粋€(gè)地方能行得通,在其它地方也能使用。但它們識(shí)別物體的方式與我們不同,因此是對抗的例子。
人們通過使用對象的坐標(biāo)系與其部分的坐標(biāo)系之間的視點(diǎn)不變幾何關(guān)系來識(shí)別對象。Hinton認(rèn)為神經(jīng)網(wǎng)絡(luò)也能做到這一點(diǎn)(參考鏈接:arxiv.org/abs/1906.06818)。
那么,神經(jīng)網(wǎng)絡(luò)的未來又是什么呢?
Hinton認(rèn)為:
幾乎所有人工神經(jīng)網(wǎng)絡(luò)只使用兩個(gè)時(shí)間尺度:對權(quán)重的緩慢適應(yīng)和神經(jīng)活動(dòng)的快速變化。但是突觸在多個(gè)不同的時(shí)間尺度上適應(yīng)。它可以使快速權(quán)重(fast weight)進(jìn)行short-term memory將使神經(jīng)網(wǎng)絡(luò)變得更好,可以改善優(yōu)化、可以允許真正的遞歸。
Yann LeCun演講:《深度學(xué)習(xí)革命:續(xù)集》
Yann LeCun
Jeff剛才提到了監(jiān)督學(xué)習(xí),監(jiān)督學(xué)習(xí)在數(shù)據(jù)量很大時(shí)效果很好,可以做語音識(shí)別、圖像識(shí)別、面部識(shí)別、從圖片生成屬性、機(jī)器翻譯等。
如果神經(jīng)網(wǎng)絡(luò)具有某些特殊架構(gòu),比如Jeff在上世紀(jì)八九十年代提出的那些架構(gòu),可以識(shí)別手寫文字,效果很好,到上世紀(jì)90年代末時(shí),我在貝爾實(shí)驗(yàn)室研發(fā)的這類系統(tǒng)承擔(dān)了全美手寫文字識(shí)別工作的10%-20%,不僅在技術(shù)上,而且在商業(yè)上也是一個(gè)成功。
到后來,整個(gè)社群一度幾乎拋棄了神經(jīng)網(wǎng)絡(luò),一方面是因?yàn)槭侨狈Υ笮蛿?shù)據(jù)集,還有部分原因是當(dāng)時(shí)編寫的軟件過于復(fù)雜,投資很大,還有一部分原因是當(dāng)時(shí)的計(jì)算機(jī)速度不夠快,不足以運(yùn)行其他所有應(yīng)用。
卷積神經(jīng)網(wǎng)絡(luò)其實(shí)是受到了生物學(xué)的啟發(fā),它并不是照搬生物學(xué),但確實(shí)從中得到很多啟發(fā),比如視覺皮層的結(jié)構(gòu),以及在學(xué)習(xí)信號(hào)處理時(shí)自然而然產(chǎn)生的一些觀點(diǎn),比如filtering是處理音視頻信號(hào)的好辦法,而卷積是filtering的一種方式。這些經(jīng)典理念早在上世紀(jì)五六十年代就由Hubel和wiesel等人在神經(jīng)科學(xué)領(lǐng)域提出,日本科學(xué)家Fukushima在上世紀(jì)80年代對其也有貢獻(xiàn)。
我從這些觀點(diǎn)和成果中受到啟發(fā),我發(fā)現(xiàn)可以利用反向傳播訓(xùn)練神經(jīng)網(wǎng)絡(luò)來復(fù)現(xiàn)這些現(xiàn)象。卷積網(wǎng)絡(luò)的理念是,世界上的物體是由各個(gè)部分構(gòu)成的,各個(gè)部分由motif構(gòu)成,而motif是由材質(zhì)和邊緣的基本組合,邊緣是由像素的分布構(gòu)成的。如果一個(gè)層級系統(tǒng)能夠檢測到有用的像素組合,再依次到邊緣、motif、最后到物體的各個(gè)部分,這就是一個(gè)目標(biāo)識(shí)別系統(tǒng)。
層級表示不僅適用于視覺目標(biāo),也適用于語音、文本等自然信號(hào)。我們可以使用卷積網(wǎng)絡(luò)識(shí)別面部、識(shí)別路上的行人。
在上世紀(jì)90年代到2010年左右,出現(xiàn)了一段所謂“AI寒冬”,但我們沒有停下腳步,在人臉識(shí)別、行人識(shí)別,將機(jī)器學(xué)習(xí)用在機(jī)器人技術(shù)上,使用卷積網(wǎng)絡(luò)標(biāo)記整個(gè)圖像,圖像中的每個(gè)像素都會(huì)標(biāo)記為“能”或“不能”被機(jī)器人穿越,而且數(shù)據(jù)收集是自動(dòng)的,無需手動(dòng)標(biāo)記。
幾年之后,我們使用類似的系統(tǒng)完成目標(biāo)分割任務(wù),整個(gè)系統(tǒng)可以實(shí)現(xiàn)VGA實(shí)時(shí)部署,對圖像上的每個(gè)像素進(jìn)行分割。這個(gè)系統(tǒng)可以檢測行人、道路、樹木,但當(dāng)時(shí)這個(gè)結(jié)果并未馬上得到計(jì)算機(jī)社群的認(rèn)可。
最近的視覺識(shí)別系統(tǒng)的一個(gè)范例是Facebook的“全景特征金字塔網(wǎng)絡(luò)”,可以通過多層路徑提取圖像特征,由多層路徑特征生成輸出圖像,其中包含圖像中全部實(shí)例和目標(biāo)的掩模,并輸出分類結(jié)果,告訴你圖像中目標(biāo)的分類信息。不僅是目標(biāo)本身的分類,還包括背景、材質(zhì)等分類,比如草地、沙地、樹林等??梢韵胂?,這種系統(tǒng)對于自動(dòng)駕駛會(huì)很有用。
醫(yī)療成像及圖像分割
卷積網(wǎng)絡(luò)對于醫(yī)學(xué)成像應(yīng)用也很有幫助。與上面提到的網(wǎng)絡(luò)類似,它也分為解碼器部分,負(fù)責(zé)提取圖像特征,另一部分負(fù)責(zé)生成輸出圖像,對其進(jìn)行分割。
神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯
在翻譯應(yīng)用上,采用了許多網(wǎng)絡(luò)架構(gòu)上的創(chuàng)新,如自注意力機(jī)制、輕量卷積、動(dòng)態(tài)卷積等,實(shí)現(xiàn)基于語境的動(dòng)態(tài)卷積網(wǎng)絡(luò)內(nèi)核。在ICML2019上的最新機(jī)器翻譯卷積網(wǎng)絡(luò)模型,其參數(shù)數(shù)量達(dá)到200M至300M,WMT數(shù)據(jù)集上的BLEU得分:英語-德語29.7,英語-法語43.2,漢語-英語24.4。
自動(dòng)駕駛系統(tǒng)
游戲
無模型強(qiáng)化學(xué)習(xí)很適合游戲領(lǐng)域應(yīng)用?,F(xiàn)在強(qiáng)化學(xué)習(xí)領(lǐng)域的一大問題就是數(shù)據(jù)的缺乏,使用強(qiáng)化學(xué)習(xí)訓(xùn)練系統(tǒng)需要大量的重復(fù)試驗(yàn)和試錯(cuò),要達(dá)到人類訓(xùn)練15分鐘的水平,機(jī)器需要大概80小時(shí)的實(shí)時(shí)游戲,對于圍棋來說,要達(dá)到超人的水平,機(jī)器需要完成大約2000萬盤的自對弈。Deepmind最近的《星際爭霸2》AI則完成了大約200年的游戲時(shí)間。
這種海量重復(fù)試驗(yàn)的方式在現(xiàn)實(shí)中顯然不可行,如果你想教一個(gè)機(jī)器人抓取目標(biāo),或者教一臺(tái)自動(dòng)駕駛車學(xué)會(huì)駕駛,如此多的重復(fù)次數(shù)是不行的。純粹的強(qiáng)化學(xué)習(xí)只能適用于虛擬世界,那里的嘗試速度要遠(yuǎn)遠(yuǎn)快于現(xiàn)實(shí)世界。
這就引出了一個(gè)問題:為什么人和動(dòng)物的學(xué)習(xí)速度這么快?
和自動(dòng)駕駛系統(tǒng)不同,我們能夠建立直覺上真實(shí)的模型,所以不會(huì)把車開下懸崖。這是我們掌握的內(nèi)部模型,那么我們是怎么學(xué)習(xí)這個(gè)模型的,如何讓機(jī)器學(xué)會(huì)這個(gè)模型?基本上是基于觀察學(xué)會(huì)的。
動(dòng)物身上也存在類似的機(jī)制。預(yù)測是智能的不可或缺的組成部分,當(dāng)實(shí)際情況和預(yù)測出現(xiàn)差異時(shí),實(shí)際上就是學(xué)習(xí)的過程。
上圖顯示了嬰兒學(xué)習(xí)早期概念和語言的過程。嬰兒基本上是通過觀察學(xué)習(xí)這個(gè)世界的,但其中也有一小部分是通過交流。
自監(jiān)督學(xué)習(xí):預(yù)測與重建
以視頻內(nèi)容預(yù)測為例,給定一段視頻數(shù)據(jù),從其中一段視頻內(nèi)容預(yù)測另外一段空白處的內(nèi)容。自監(jiān)督學(xué)習(xí)的典型場景是,事先不公布要空出哪一段內(nèi)容,實(shí)際上根本不用真的留出空白,只是讓系統(tǒng)根據(jù)一些限制條件來對輸入進(jìn)行重建。系統(tǒng)只通過觀察來完成任務(wù),無需外部交互,學(xué)習(xí)效率更高。
機(jī)器在學(xué)習(xí)過程中被輸入了多少信息?對于純強(qiáng)化學(xué)習(xí)而言,獲得了一些樣本的部分碎片信息(就像蛋糕上的櫻桃)。對于監(jiān)督學(xué)習(xí),每個(gè)樣本獲得10-10000bit信息(蛋糕表面的冰層),對于半監(jiān)督學(xué)習(xí),每個(gè)樣本可獲得數(shù)百萬bit的信息(整個(gè)蛋糕內(nèi)部)。
自監(jiān)督學(xué)習(xí)的必要性
機(jī)器學(xué)習(xí)的未來在與自監(jiān)督和半監(jiān)督學(xué)習(xí),而非監(jiān)督學(xué)習(xí)和純強(qiáng)化學(xué)習(xí)。自監(jiān)督學(xué)習(xí)就像填空,在NLP任務(wù)上表現(xiàn)很好(實(shí)際上是預(yù)測句子中缺失的單詞),但在圖像識(shí)別和理解任務(wù)上就表現(xiàn)一般。
為什么?因?yàn)檫@世界并不全是可預(yù)測的。對于視頻預(yù)測任務(wù),結(jié)果可能有多重可能,訓(xùn)練系統(tǒng)做出唯一一種預(yù)測的結(jié)果往往會(huì)得到唯一“模糊”的結(jié)果,即所有未來結(jié)果的“平均”。這并不是理想的預(yù)測。
我們需要利用隱變量來處理不確定性。訓(xùn)練樣本只是整個(gè)可能的輸出集合的表示。
幾百年以來,理論的提出往往伴隨著之后的偉大發(fā)明和創(chuàng)造。深度學(xué)習(xí)和智能理論在未來會(huì)帶來什么?值得我們拭目以待。
-
人工智能
+關(guān)注
關(guān)注
1791文章
47314瀏覽量
238662 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5503瀏覽量
121207
原文標(biāo)題:圖靈獎(jiǎng)得主Hinton和 LeCun最新演講:深度學(xué)習(xí)如何繼續(xù)革命?
文章出處:【微信號(hào):AI_shequ,微信公眾號(hào):人工智能愛好者社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論