一個關于計算機如何學習的新理論的藍圖正在形成,其影響甚至比登月更大!研究人員正試圖解釋神經(jīng)網(wǎng)絡工作原理,并保證如果以規(guī)定的方式構建一個神經(jīng)網(wǎng)絡,它就能夠執(zhí)行特定的任務。
深度學習需要更多的理論!
這是學術界的一個共識。神經(jīng)網(wǎng)絡十分強大,但往往不可預測。
現(xiàn)在,谷歌大腦、FAIR、德州農工大學等的數(shù)學家們試圖深究神經(jīng)網(wǎng)絡的理論基礎,開始揭示神經(jīng)網(wǎng)絡的形式如何影響其功能。
我們對神經(jīng)網(wǎng)絡幾乎一無所知
設計一座摩天大樓時,我們會要求它符合規(guī)范:塔臺要能支撐一定程度的重量,并且要能承受一定強度的地震。
但是,對于現(xiàn)代世界最重要的技術之一,我們實際上是在盲目地建造。我們使用各種不同的設計,使用不同的設置進行修補,但在將它拿出來進行測試運行之前,我們并不真正知道它能做什么,也不知道它會在哪個地方失敗。
這項技術就是神經(jīng)網(wǎng)絡,它是當今最先進的人工智能系統(tǒng)的基礎。神經(jīng)網(wǎng)絡正越來越多地進入社會的核心領域:它們通過社交媒體的信息流決定了我們對世界的了解,它們幫助醫(yī)生診斷疾病,它們甚至影響一個被判犯罪的人是否要被收監(jiān)。
然而,“最接近事實的情況是,我們對神經(jīng)網(wǎng)絡的實際運作方式幾乎一無所知,也不知道什么才是真正有洞察力的理論,”德州農工大學數(shù)學家、FAIR的訪問科學家Boris Hanin說。
他將這種情況與另一種革命性技術的發(fā)展進行類比:蒸汽機。最初,蒸汽機除了抽水之外沒有別的用處。后來,蒸汽機開始為火車提供動力,這可能是現(xiàn)在復雜的神經(jīng)網(wǎng)絡已經(jīng)達到的水平。再后來,科學家和數(shù)學家們發(fā)展了熱力學理論,得以準確地理解任何類型的發(fā)動機內部的運作方式。最終,這些知識將人類帶到了月球。
“首先,你要有很棒的工程,你要有一些很棒的火車,然后你需要一些理論上的理解才能造出火箭和飛船,”Hanin說。
在龐大的神經(jīng)網(wǎng)絡研究社區(qū)中,有一小群具有數(shù)學意識的研究人員正試圖構建神經(jīng)網(wǎng)絡理論——一個可以解釋神經(jīng)網(wǎng)絡是如何工作,并保證如果你以規(guī)定的方式構建一個神經(jīng)網(wǎng)絡,它就能夠執(zhí)行特定的任務的理論。
這項工作仍處于早期階段,但在去年,研究人員已經(jīng)發(fā)表了幾篇論文,詳細闡述了神經(jīng)網(wǎng)絡中形式和功能之間的關系。這項工作一直深究神經(jīng)網(wǎng)絡的基礎,表明在你能證明神經(jīng)網(wǎng)絡可以駕駛汽車之前,你需要證明它們能夠做乘法運算。
如何設計一個神經(jīng)網(wǎng)絡
神經(jīng)網(wǎng)絡的目標是模仿人類的大腦——思考大腦的一種方式是將較小的抽象概念加積到更大的抽象概念。在這個觀點中,思維的復雜性是由你可以利用的更小抽象的范圍,以及你可以將低級抽象組合成高級抽象的次數(shù)來衡量的——就像我們學習區(qū)分狗和鳥的方式一樣。
“對于人類來說,如果你正在學習如何識別一只狗,你就要學會識別四條腿,它們是毛茸茸的,”康奈爾大學計算機科學博士生、谷歌大腦研究員Maithra Raghu說:“理想情況下,我們希望我們的神經(jīng)網(wǎng)絡同樣能夠這樣做?!?/p>
Maithra Raghu,谷歌大腦成員,致力于尋找解釋神經(jīng)網(wǎng)絡如何運作的原理(photo: Arun Chaganty)
抽象對于人類大腦來說是天性。神經(jīng)網(wǎng)絡必須學會抽象。就像大腦一樣,神經(jīng)網(wǎng)絡是由被稱為“神經(jīng)元”的構建塊組成的,這些構建塊以不同的方式連接在一起。(神經(jīng)網(wǎng)絡中的神經(jīng)元受到大腦神經(jīng)元的啟發(fā),但并不直接模仿大腦神經(jīng)元。)每個神經(jīng)元可能代表網(wǎng)絡在每個抽象層次上考慮的一個屬性,或多個屬性的組合。
在將這些神經(jīng)元連接在一起時,工程師們有很多選擇。他們必須決定這個網(wǎng)絡應該有多少層神經(jīng)元(或者它應該有多“深”)。例如,假設有一個神經(jīng)網(wǎng)絡,它的任務是識別圖像中的物體。圖像在第一層被輸入系統(tǒng)。在下一層,網(wǎng)絡中可能有只是簡單地檢測圖像中的邊緣的神經(jīng)元。再下一層結合線條來識別圖像中的曲線。然后再下一層,將曲線組合成形狀和紋理。最后一層處理形狀和紋理,得出它看到圖像中有什么的結論:長毛猛犸象!
“這里的想法是,每一層都結合了前一層的幾個方面。一個圓在許多不同的地方是曲線,一條曲線在許多不同的地方是直線,”賓夕法尼亞大學的數(shù)學家David Rolnick說。
工程師還必須決定每一層的“寬度”,它對應于網(wǎng)絡在每個抽象級別上考慮的不同特性的數(shù)量。在圖像識別的情況下,層的寬度是它在每個層上考慮的線、曲線或形狀的類型的數(shù)量。
除了網(wǎng)絡的深度和寬度之外,還可以選擇如何在層內和層間連接神經(jīng)元,以及為每個連接賦予多少權重。
因此,如果你有一個特定的任務,你怎么知道哪個神經(jīng)網(wǎng)絡架構能最好地完成這個任務呢?
有一些寬泛的經(jīng)驗法則。比如說,對于圖像相關的任務,工程師通常使用“卷積”神經(jīng)網(wǎng)絡,這種網(wǎng)絡的特點是層與層之間相同的連接模式不斷重復。對于自然語言處理任務 ——比如語音識別或語言生成——工程師們發(fā)現(xiàn)“循環(huán)”神經(jīng)網(wǎng)絡似乎性能最好。在這些網(wǎng)絡中,神經(jīng)元可以連接到非相鄰的層。
如何設計一個神經(jīng)網(wǎng)絡
Lucy Reading-Ikkanda/Quanta Magazine
然而,除了這些一般指導原則之外,工程師們很大程度上還必須在依賴實驗證據(jù):他們要運行1000個不同的神經(jīng)網(wǎng)絡,然后觀察哪一個能夠完成任務。
“這些選擇往往是在實踐中反復試驗后做出的,” Hanin說:“這是一種很艱難的方法,因為有無限多的選擇,一個人真的不知道那個選擇是最好的?!?/p>
一種更好的方法是減少反復試驗,多預先了解給定的神經(jīng)網(wǎng)絡架構會帶來什么。最近發(fā)表的幾篇論文將這個領域推向了這個方向。
“可以這么說,這項工作試圖開發(fā)一本設計正確神經(jīng)網(wǎng)絡的食譜。如果你知道你想從網(wǎng)絡中獲得什么,那么這就是這個網(wǎng)絡的配方,”Rolnick說。
讓神經(jīng)網(wǎng)絡無限窄、無限深
神經(jīng)網(wǎng)絡架構最早的一個重要理論保證出現(xiàn)在30年前。1989年,計算機科學家證明,如果一個神經(jīng)網(wǎng)絡只有一個計算層,但這一層有無限數(shù)量的神經(jīng)元,它們之間有無限的連接,那么這個網(wǎng)絡將能夠執(zhí)行你要求它做的任何任務。
這是一個籠統(tǒng)的陳述,結果相當直觀,但不怎么有用。這就好比說,如果你能在一張圖像中識別出無限多的線條,你就可以只用一個層來區(qū)分所有的對象。這在原則上可能是正確的,但在實踐中,祝您好運。
今天的研究人員將這種寬而平的網(wǎng)絡描述為“富有表現(xiàn)力的”(expressive),這意味著它們理論上能夠在可能的輸入(例如圖像)和輸出(例如圖像描述)之間捕獲更豐富的一組連接。然而,這些網(wǎng)絡是極其難以訓練的,這意味著幾乎不可能教他們如何實際產生這些輸出。它們的計算量也超過了任何計算機可以處理的程度。
德州農工大學的數(shù)學家Boris Hanin研究了神經(jīng)網(wǎng)絡中深度和寬度之間的權衡(Intel AI One Tree Studio)
最近,研究人員一直試圖弄清楚他們能在多大程度上將神經(jīng)網(wǎng)絡推向另一個方向——通過使神經(jīng)網(wǎng)絡更窄(每層的神經(jīng)元更少)和更深(整體的層數(shù)更多)。這樣,也許你只需要挑選100條不同的線,但可以利用連接把這100條線變成50條曲線,然后把它們組合成10種不同的形狀,這些形狀可以為你提供識別大多數(shù)物體所需的所有構建塊。
麻省理工學院的Rolnick和Max Tegmark去年發(fā)表了一篇題為The power of deeper networks for expressing natural functions的論文,證明通過增加深度和減少寬度,可以用指數(shù)級更少的神經(jīng)元來執(zhí)行同樣的功能。他們表明,如果你正在建模的情況有100個輸入變量,你可以使用一層中2 的100次方個神經(jīng)元,或兩層中2的10次方個神經(jīng)元獲得同樣的可靠性。
“神經(jīng)網(wǎng)絡中depth這個概念與這樣一種想法有關,即你可以通過按順序做許多簡單的事情來表達一些復雜的事情,”Rolnick說:“這就像一條裝配線?!?/p>
Rolnick和Tegmark通過讓神經(jīng)網(wǎng)絡執(zhí)行一個簡單的任務來證明深度的效用:乘法多項式函數(shù)。(這些方程的特征是變量取自然數(shù)的指數(shù),比如y = x3 + 1)他們通過向網(wǎng)絡展示方程及其乘積的例子來訓練網(wǎng)絡。然后,他們要求這些網(wǎng)絡計算他們之前沒有見過的方程式的乘積。結果顯示,相比更淺的網(wǎng)絡,更深的神經(jīng)網(wǎng)絡學習這個任務使用的神經(jīng)元要少得多。
雖然乘法并不是一項轟動世界的任務,但Rolnick表示,這篇論文提出了一個重要的觀點:“如果一個淺層的網(wǎng)絡連乘法都不會做,那么我們就不應該在任何事情上相信它?!?/p>
賓夕法尼亞大學數(shù)學家David Rolnick證明,增加網(wǎng)絡的深度可以讓網(wǎng)絡以更少的神經(jīng)元完成任務。(Stephanie Ku)
其他研究人員一直在探索神經(jīng)網(wǎng)絡所需的最小寬度。9月底,曾任俄克拉荷馬州立大學數(shù)學家、現(xiàn)為賽諾菲制藥公司研究員的Jesse Johnson證明,在某個特定點上,再大的深度也無法彌補寬度的不足。
為了理解他的結論,讓我們想象一下牧場里的綿羊,但這些是朋克搖滾羊:他們的羊毛被染成了各種各樣的顏色。你的神經(jīng)網(wǎng)絡的任務是在所有相同顏色的羊周圍畫一個框。這個任務類似于圖像分類:網(wǎng)絡有一個圖像集(表示為高維空間中的點),它需要將相似的圖像分組在一起。
Johnson證明,當層的寬度小于或等于輸入的數(shù)量時,神經(jīng)網(wǎng)絡就會在這個任務中失敗。因此,對于朋克搖滾羊這個任務來說,每只羊都可以用兩個輸入來描述:一個x坐標和一個y坐標,用來指定它在牧場的位置。然后,神經(jīng)網(wǎng)絡給每只羊標上顏色標簽,并在相同顏色的羊周圍畫上邊框。在這種情況下,每層需要三個或更多的神經(jīng)元才能解決這個問題。
更具體地說,Johnson證明如果寬度與變量之間的比率沒有了,神經(jīng)網(wǎng)絡將無法實現(xiàn)一個閉環(huán)——比如說,如果所有紅色的羊聚集在牧場中央,神經(jīng)網(wǎng)絡將需要繪制出這樣的循環(huán)。Johnson說:“如果所有層中沒有任何一層的神經(jīng)元數(shù)量比輸入維數(shù)更大,那么無論添加多少層,函數(shù)都無法創(chuàng)建某些形狀?!?/p>
Johnson他們的論文、以及更多這樣的論文正開始構建神經(jīng)網(wǎng)絡理論的雛形。目前,研究人員只能對架構和函數(shù)之間的關系做出非?;镜臄嘌?,而這些斷言與神經(jīng)網(wǎng)絡所承擔的任務的數(shù)量相比只占很小的比例。
因此,盡管神經(jīng)網(wǎng)絡理論不會很快改變系統(tǒng)構建的方式,但一個關于計算機如何學習的新理論的藍圖正在形成——一個將人類帶上更偉大旅程的藍圖,其影響甚至比將人類帶上月球更大。
-
神經(jīng)網(wǎng)絡
+關注
關注
42文章
4777瀏覽量
100989 -
人工智能
+關注
關注
1793文章
47539瀏覽量
239393 -
深度學習
+關注
關注
73文章
5511瀏覽量
121373
原文標題:影響堪比登月!谷歌等探索深度學習新理論藍圖,讓神經(jīng)網(wǎng)絡更深更窄
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論