耶路撒冷號稱三教圣地, 而它的牛逼之處絕不僅在于宗教, 如果你深入了解, 你會發(fā)現(xiàn)它的科學(xué),尤其是理論創(chuàng)新也同樣牛逼, 尤其是在腦科學(xué)和人工智能方向。 當然神族人不是特別關(guān)心最接地氣的問題, 而是更關(guān)注形而上的理論框架。 耶路撒冷的腦與深度學(xué)習(xí)會就是這樣一個杰出的體現(xiàn)。
深度學(xué)習(xí)有關(guān)的核心會議, 從NIPS到ICLR 我們都不會陌生, 這些會議對深度學(xué)習(xí)在人工智能的應(yīng)用極為相關(guān)。 耶路撒冷的這個會議與之不同的是, 它非常關(guān)注深度學(xué)習(xí)與腦的交叉領(lǐng)域, 關(guān)注它們背后共同的指導(dǎo)理論, 在這點上也算是獨樹一幟。因為在大家忙于做應(yīng)用主題的時候, 其實更需要有一些人其思考背后的理論,即使這樣的思考在一個時間里不會馬上促進應(yīng)用, 但是在更長遠的時間里, 卻可能把應(yīng)用推向一個遠高于現(xiàn)在的平衡點。就像人類在了解牛頓定律以前就能夠建造各種各樣的橋梁。有人可能會說我們不需要牛頓定律, 而實際上他們沒有看到我們有了牛頓定律后所造的橋根本不是一種橋, 不是石拱橋,或者獨木橋,而是跨海大橋。 好了,我們直接來說正事, 來總結(jié)下會議里一些有趣的內(nèi)容。
腦與深度學(xué)習(xí)的關(guān)系本來就是一個高度雙向的主題, 這個會議圍繞以下幾個核心問題:
1 深度學(xué)習(xí)的基礎(chǔ)理論, 深度學(xué)習(xí)為何work又為何不work?
2 如何從心理學(xué)和認知科學(xué)的角度歸納當下深度學(xué)習(xí)的不足?
3 如何用深度學(xué)習(xí)促進對人腦的理解,包含感知(視覺為主), 認知與記憶。 反過來如何促進AI?
會議最大的一個板塊, 在于對深度學(xué)習(xí)理論的剖析, 這個板塊可謂大牛云集, 從信息瓶頸理論的創(chuàng)始人Tshiby 到 MIT的 Tomaso Poggio, 從牛津的Andrew Saxe到MIT的Daniel Lee, 都表達了自己的核心觀點, 問題圍繞的一個主線就是深度學(xué)習(xí)的泛化能力 。
我們把這個問題分成兩個子問題:
深度學(xué)習(xí)的泛化能力為什么那么好?大家知道深度學(xué)習(xí)理論的第一個謎團就是一個大的網(wǎng)絡(luò)動輒百萬參數(shù), 而能夠泛化的如此之好, 這是非常不符合貝卡母剃刀原理的(解決同樣的問題簡單的模型更好),更加作妖的是, 這種泛化能力往往隨著參數(shù)的繼續(xù)增加而增強。 這到底是為什么? 幾個不同的流派從不同的角度回答了這個問題。
1, 信息流派:從信息論的角度分析深度學(xué)習(xí), Tshiby是該流派的集大成者,也是此次的發(fā)言者。 他的核心觀點是從把深度網(wǎng)絡(luò)理解為一個信息管道, 數(shù)據(jù), 就是入口的原油 ,里面富集了我們可以預(yù)測未來的信息, 那么這個深度網(wǎng)絡(luò), 就是首先要把輸入數(shù)據(jù)里那些相關(guān)性最高的成分給把握住, 然后再一步步的把我們與預(yù)測信息無關(guān)的東西給剔除, 最后得到一個與預(yù)測對象而非輸入數(shù)據(jù)極為相關(guān)的表征。 深度學(xué)習(xí)的泛化能力, 在于層數(shù)越深, 這種對無關(guān)信息的抽離的效率就越高, 因為隨機梯度下降的訓(xùn)練過程, 每層的網(wǎng)絡(luò)權(quán)重都在做一個隨機游走, 越高的層 ,就越容易忘記那些與預(yù)測無關(guān)的特征, 層數(shù)越多, 這個過程其實就越快,我們能夠在控制梯度消失的同時擁有更多的層, 會使我們越快的發(fā)現(xiàn)那個與預(yù)測相關(guān)的不變的特征本質(zhì)。
信息瓶頸理論, 深度網(wǎng)絡(luò)作為信息抽取的管道。
2, 幾何流派:這是Daniel D Lee 的talk 。從Manifold learning的角度理解 , 深度學(xué)習(xí)的“類" 對應(yīng)一個在高維空間里得到一個低維流形,。這一個高, 一個低, 就是深度能力泛化能力的源泉。 這個觀點的核心起源可以追溯到SVM的max margin solution。 在SVM的世界, 首先我們可以用增加維度的方法把兩堆在低維世界混合分不開的點投影到高維空間, 它們就清楚的分割開來。 然后我們用最大間隔來做限制,讓這兩堆點分的盡可能開, 就可以避免過擬合。
這個做法的本質(zhì)首先用維度增加增強模型的容量, 然后在模型有了更高容量后我們當然也更容易過擬合。但是我們可以用最大間隔盡可能把數(shù)據(jù)”打“到一起, 事實上讓每個類數(shù)據(jù)分布的維度盡可能低,這就可以避免過擬合。在深度學(xué)習(xí)的世界里, 我們每層網(wǎng)絡(luò)都把之前的數(shù)據(jù)映射到一個新的流型里, 最簡單的假設(shè)就是一個球體。比如貓和狗的分類, 就是兩個球體, 一個貓星, 一個狗星。 在一個同樣的高維空間里, 這兩個球的維度越小, 半徑越小, 就越容易把它們分開,而且可以分的類越多。 隨著深度網(wǎng)絡(luò)的層數(shù)變深, 這個趨勢恰恰是每個球的維度越低,半徑越小。 如果不同類型的圖像對應(yīng)不同的球,層數(shù)越深, 就越容易給它們分開。這個觀點的內(nèi)在事實上和Tshiby的信息瓶頸有異曲同工處, 大家體會下, 那個小球的維度越低是不是在抓取數(shù)據(jù)里的不變性。
幾何學(xué)派, 貓星和狗星的分離
幾何流派, 高維空間的低維流型隨著層數(shù)變深的變化
3, 動力學(xué)流派 :高維空間非線性優(yōu)化的本質(zhì)是這種優(yōu)化隨著維度增長效率增加。 這是牛津那位仁兄Andrew Saxe的talk 。 牛津例來是深度學(xué)習(xí)的陣地, 理論當然當仁不讓。 這個talk從非線性優(yōu)化的角度揭示了深度學(xué)習(xí)泛化的本質(zhì)。 網(wǎng)絡(luò)訓(xùn)練的過程, 事實上是高維空間上一個尋找動力學(xué)定點(全局最優(yōu))的過程, 每時每刻,梯度下降的方向是由當下x和y的相關(guān)性和x和x的自相關(guān)性決定的。 當優(yōu)化進行到定點(最優(yōu)點)附近時候, 這個相關(guān)性信息開始減少, 網(wǎng)絡(luò)開始對數(shù)據(jù)里的噪聲敏感, 因此我們需要早停法來減少過擬合。 但是, 如果我們的網(wǎng)絡(luò)足夠大,甚至這個早停都不必要我們無需提防這種擬合噪聲帶來的過擬合。 取得這個結(jié)論需要非常復(fù)雜的線性代數(shù), 同學(xué)們可以參考論文High-dimensional dynamics of generalization error in neural network
會議的另一個部分talk,圍繞深度學(xué)習(xí)的泛化能力為何如此之差, 這不是互相矛盾嗎?此泛化非彼泛化也。
1, 先天的偏見與推理的無知
先驗誤差導(dǎo)致的失靈: 希伯來大學(xué)的Shai Shalev 深度網(wǎng)絡(luò)可以戰(zhàn)勝圍棋這樣牛逼的游戲, 然而你想不想的到, 它可能在學(xué)習(xí)乘法表的時候都會出錯? 這個talk講解了讓深度網(wǎng)絡(luò)學(xué)習(xí)并泛化一個乘法表, 然后看在測試集上它是怎么表現(xiàn)得。 非常有趣的是 ,雖然深度網(wǎng)絡(luò)在訓(xùn)練集上表現(xiàn)完美, 在測試集上出現(xiàn)了讓人恥笑的系統(tǒng)誤差, 說明它還真的不如一個小孩子的學(xué)習(xí)能力。 這突出了反應(yīng)了深度統(tǒng)計學(xué)習(xí)依然無法繞過統(tǒng)計學(xué)習(xí)固有的缺陷, 就是缺少真正的推理能力。 而這種系統(tǒng)誤差背后的原因, 是網(wǎng)絡(luò)內(nèi)在的inductive bias, 這就好像網(wǎng)絡(luò)自己就帶著某種先天的偏見, 我們卻對它茫然無知。
深度學(xué)習(xí)學(xué)乘法出現(xiàn)的難以忍受的系統(tǒng)誤差
另一個驚人的talk來自于Montreal University的Anron Courville。 他圍繞一個深度學(xué)習(xí)的當紅應(yīng)用領(lǐng)域VAQ -視覺看圖回答問題展開。 這個框架的核心在于讓深度網(wǎng)絡(luò)看圖, 回答一個有關(guān)圖像的問題, 比如圖像里有幾把桌子幾把椅子這種。 我們關(guān)鍵考察那些需要一點推理能力才能回答的問題, 比如回答完了圖像里有幾個桌子,有什么顏色的椅子后, 問它圖像里有什么顏色的桌子。 如果這個網(wǎng)絡(luò)真的有泛化能力, 它就會回答這個問題。 事實上是我們所設(shè)計的超復(fù)雜的由CNN和LSTM組成的巨型網(wǎng)絡(luò)在這個問題面前舉步維艱。 它可以找到3張桌子或5張桌子, 但是很難把什么顏色的椅子里學(xué)到的東西遷移到桌子里正確回答出灰色的桌子。之后我們從工程學(xué)的原理設(shè)計了一個全新的結(jié)構(gòu)把這種推理能力人為的遷移進去, 會使問題稍稍好轉(zhuǎn)。
視覺看圖回答問題
2, 你不知道的CNN那些缺陷:
1 CNN真是平移不變的嗎?Yair Weiss 希伯來大學(xué)計算機系的Dean給大家講解了CNN網(wǎng)絡(luò)最大的根據(jù)-平移不變性是錯誤的。 我們知道CNN網(wǎng)絡(luò)建立的基礎(chǔ)是它模仿生物感受野的原理,建立了一個共享權(quán)值的網(wǎng)絡(luò)系統(tǒng) ,這樣不同位置的圖像部分, 會共享同一種特征偏好, 你的鼻子出現(xiàn)在圖像的頂端或下面都是鼻子。
而Yair Weiss卻想了一個方法, 證實了CNN, 哪怕你把圖像向上移動了一個像素, 都可能造成它整個看法(分類)的變化。 這和那個在動物臉上加噪聲看成其它動物的實驗類似, 證明了CNN的脆弱性,同時動搖了平移不變的基礎(chǔ)。 一開始我也覺得是天方夜譚, 但是看了他的整個試驗后開始稍稍信服。 事實上它證實了對于最早期的CNN-neocognitron , 平移不變的確是成立的。 但是對于”現(xiàn)代“CNN, Alexnet, VGG, ResNet, 這個性質(zhì)卻不再成立。 因為現(xiàn)代CNN在整個網(wǎng)絡(luò)結(jié)構(gòu)里,加入了大量的降采樣,比如池化, 這些在空間上離散的降采樣操作, 導(dǎo)致了一種驚人的脆弱性,就是平移不變的喪失。 當然, 在實際應(yīng)用中, 它不夠成那么大的問題, 因為你永遠可以通過數(shù)據(jù)增強的方法, 來強化網(wǎng)絡(luò)里的這些不變性。
CNN居然不是平移不變的
2,CNN對細節(jié)的敏感與對輪廓的忽視。我們本來相信CNN對不同尺度的圖像特征,從細節(jié)紋理到圖像輪廓, 都會同樣器重并做出判斷。 而事實上, 來自德國Tubingen的Matthias Bethe, 給我們展示了CNN事實很可能把自己90%的判斷依據(jù),放在了細節(jié)和紋理上。 也就是說, 它也許可能精確的識別狗和貓,但是它或許真正基于的是狗毛和貓毛的區(qū)別做出的判斷。 如果你聯(lián)想一下那么在圖像里加入噪聲, CNN就可以把熊貓看成長頸鹿的實驗, 就覺得這個想法還挺合理的。 它通過它的實驗驗證了它的這個理論。也就是用那套圖像特征遷移的網(wǎng)絡(luò), 把一個個圖片的紋理抽取, 或者更換掉, 雖然還是貓或者狗, 里面的紋理變了, 那個CNN就徹底傻掉了。 同時它還對比了人的認知測試,看到了CNN的巨大差距。
CNN難道只對細節(jié)感興趣?
以上這些研究都暴露了CNN和人腦的區(qū)別。 即使是圖像識別這個目前AI做的最好的領(lǐng)域, 這個”人工智能“ 也顯得太”人工“ 了, 而與”智能“差距甚遠。當然Matthias通過強化對輪廓的訓(xùn)練識別, 可以讓它變得更像人一點, 可以識別一定的整體特征, 然而這個時候?qū)傮w數(shù)據(jù)集的識別度會變得更差。到這里,可以說是從深度學(xué)習(xí)多么好,到了深度學(xué)習(xí)多么差, 我們畢竟還沒有掌握智能最核心的東西,包括符號推理這些, 也沒有具備真正的”泛化能力“ , 此處之后的幾個talk,就是圍繞這個智能的真正核心,探討人腦有多牛逼了。
腦科學(xué)與心理學(xué)角度的智能:
1, 有關(guān)表征學(xué)習(xí):
來自Princeton的Yael Niv講解了智能科學(xué)的核心-表征學(xué)習(xí)的幾個關(guān)鍵問題:首先什么是表征學(xué)習(xí), 表征學(xué)習(xí)的本質(zhì)概念是學(xué)習(xí)一個真實世界的神經(jīng)表示。它可能是從真實世界抽離出來的一些核心特征, 或者我們說的對真實世界的抽象, 而這里面,卻可以幫助我們大大增強我們舉一反三的學(xué)習(xí)能力。 比如說你被蛇咬了, 下一次出現(xiàn)運動的細長生物你知道避開。 另一方面, 我們可以把任務(wù)根據(jù)當下情景在大腦中重構(gòu)出來, 比如都是討價還價, 你碰到辣妹可能就沒有那么用力了,而是開始談笑風(fēng)聲起來。我們可以把從相似的任務(wù)里學(xué)到的經(jīng)驗整合, 或者同一個經(jīng)驗里學(xué)到的東西和不同的新的任務(wù)結(jié)合。
這些都依賴于我們大腦中一套靈活的對不同任務(wù)和事物的表征系統(tǒng)。 這個系統(tǒng)我們可以管它叫任務(wù)表征系統(tǒng)。Yael 講了這個任務(wù)表征系統(tǒng)的一些基本特性, 比如說貝葉斯證據(jù)整合,證據(jù)如何互相關(guān)聯(lián)和啟發(fā)(召喚), 并把這些研究和大量心理學(xué)測試聯(lián)系在一起。 這種對任務(wù)的極強的遷移學(xué)習(xí)能力, 可以從一個任務(wù)中的經(jīng)驗,關(guān)聯(lián)到一大堆任務(wù)的能力, 是得到更好的泛化能力, 甚至走向通用人工智能的一個關(guān)鍵步驟。 如何能夠通過學(xué)習(xí)得到這種可以遷移的任務(wù)表征也將成為重中之重。
表征學(xué)習(xí)-智能的核心
2, 有關(guān)人類記憶的研究:
來自哈佛醫(yī)學(xué)院的Anna Schapiro 講解了海馬記憶的兩個根本機制。 我們知道, 海馬是人和小鼠短期記憶, 情景記憶的載體。 在海馬體內(nèi)有兩種不同的記憶模式。 一個事短期的快速的記憶, 每個記憶由相互獨立的神經(jīng)元基團表達, 另一種是長期的穩(wěn)固的, 某幾個記憶根據(jù)它們的共性共享大量的神經(jīng)元基團。 在夜晚睡眠的時候, 我們白天記住的東西一部分會從短期轉(zhuǎn)向長期,另一部分則會被遺忘。 有意思的是 , 誰會被遺忘, 誰會被增強呢?
事實上Anna的研究表明人腦有一種非常靈活的機制, 可以把那些重要的記憶篩選出來,從短期區(qū)域走向長期區(qū)域, 而一些不重要的就像被水沖過一樣遺忘掉。 這個機理可以由海馬體的一個網(wǎng)絡(luò)動力模型理解。 同時這個研究還一定程度解開人類神經(jīng)編碼的方式。 那些長期記住的事物為什么要共享神經(jīng)元基團? 這是為了更有效的泛化, 一些類似的事物,或任務(wù),通過共享神經(jīng)元, 可以更好的提取共性, 預(yù)測和它們類似的東西。 反過來這也表明我們大腦內(nèi)的記憶很多可能是錯誤的, 類似的東西之間會”相互污染“ ,這就是我們?yōu)槭裁唇?jīng)常會記混或記串。
兩種記憶承載的模式, 一種很獨立, 一種有重合。
海馬模型
最后一個模塊,就是圍繞人腦和深度學(xué)習(xí)的關(guān)系, 雖然我們的最終夢想是把讓人腦牛逼的算法遷移到AI系統(tǒng), 但是第一步最容易實現(xiàn)的恰好是反過來, 如何借助深度學(xué)習(xí)這個崛起的工具更好的挖掘人腦的原理。
對于這塊,來自斯坦福的Daniel L K Yamins 提出了一個非??岬难芯靠蚣埽?就是用reverse eigeerneering(逆向工程, 正是我導(dǎo)師的領(lǐng)域) 研究人腦的感知系統(tǒng)(視覺或聽覺皮層)。 對人腦視覺或聽覺回路進行建模是我們一直的夢想 ,整個計算神經(jīng)科學(xué), 圍繞如何用數(shù)學(xué)建模來理解這些現(xiàn)象 ,建立實驗數(shù)據(jù)之間的聯(lián)系。然而建立這樣的模型異常復(fù)雜, 需要考慮的生物細節(jié)極為繁瑣。 現(xiàn)在, 深度學(xué)習(xí)的網(wǎng)絡(luò)給我們提供了極佳的工具去理解這些現(xiàn)象。我們的一個想法是用這些深度學(xué)習(xí)模型去學(xué)習(xí)具體任務(wù),等到它學(xué)會了我們再想法來理解它。 那我說你不還是搞一些toy model 給我嗎? 誰信? 沒關(guān)系, 不是有實驗數(shù)據(jù)嗎, 我們先讓它能做任務(wù), 再用它來擬合我們的實驗數(shù)據(jù), 比如你先訓(xùn)練一個CNN來做圖像識別, 同時訓(xùn)練好后, 你想法讓這個CNN里的神經(jīng)元活動能夠匹配從大腦視覺皮層得到的實驗數(shù)據(jù), 這樣你就得到“生物版” CNN。為了確定它是一個真正的科學(xué), 而不是一種“形似”的騙術(shù), 我們會用這個生物版本的CNN提出一些新的現(xiàn)象預(yù)測, 可以拿回到實驗檢驗, 如果真的成立了, 這個用深度學(xué)習(xí)“構(gòu)建出來”的模型, 就可以得到一個我們目前階段最接近真實生物系統(tǒng)的模型。 你可以理解我們做了一個機器貓,它不僅能夠捉老鼠,而且各項生理指標也和真貓差不多。
讓深度網(wǎng)絡(luò)和動物看同樣的圖像,并把它們的內(nèi)部活動聯(lián)系起來!
具體可以見Nature論文Using goal-driven deep learning models to understand sensory cortex。
這一類的工作還有一個talk是如何構(gòu)建一個CNN網(wǎng)絡(luò)理解人類的視網(wǎng)膜系統(tǒng),同樣的,這個網(wǎng)絡(luò)既有視覺信息的處理能力, 同時還能夠描述生物的神經(jīng)活動, 甚至可以預(yù)測一些生物視網(wǎng)膜特有的現(xiàn)象(如對未來運動信息的預(yù)測)。這一類工作可以說打通了生物與工程, 雖然人工神經(jīng)網(wǎng)絡(luò)無論在單個神經(jīng)元還是在功能層面和神經(jīng)元活動層面都獲取了類似于真實生物系統(tǒng)的特性, 我們又有多大可能認為我們用這個方法理解大腦的真正工作機理, 這依然是一個仁者見仁 ,智能見智的過程。
最后, 關(guān)于所有人的夢想, 把大腦的牛逼算法遷移到AI, 有一個talk頗有啟發(fā)。 它來自于斯坦福的Surya Ganguli,如何讓深度網(wǎng)絡(luò)生成語義結(jié)構(gòu):一個AI最根本的問題是如何溝通統(tǒng)計主義, 連接主義和符號主義的人工智能, 統(tǒng)計機器學(xué)習(xí)與深度學(xué)習(xí)代表了前兩者的巔峰, 而早期活躍的符號主義目前只保留了知識圖譜這樣的果實殘留。 事實上, 如果不能讓符號主義的思維重新以某個方式進入到深度學(xué)習(xí), 真正的AI將很難到來。 而這個方向的第一個步驟就是如何得到語義結(jié)構(gòu)的神經(jīng)表示。 人類的語言,可以用幾千個單詞表達十萬百萬的事物, 由于組合規(guī)則和樹結(jié)構(gòu)。那些共用特征的概念會被放在一個樹枝之上, 而另一些則會放在其它樹枝上。 這種特征層級結(jié)構(gòu), 使得人類的概念學(xué)習(xí)極為有效率, 只要直接把一個新概念放到它應(yīng)該在的枝椏上, 有些該有的就都有了。 那么, 基于統(tǒng)計和連接主義的神經(jīng)網(wǎng)絡(luò)可不可以再現(xiàn)這種樹結(jié)構(gòu)呢?Ganguli 的研究給這個方向提示了可能, 它把學(xué)習(xí)和非線性系統(tǒng)在高維空間的運動聯(lián)系起來,訓(xùn)練,就是不同的概念根據(jù)其間相似度互相分離的過程。 通過分叉等結(jié)構(gòu), 把概念的樹結(jié)構(gòu)和動力學(xué)空間聯(lián)系在了一起。 詳情請見論文: A mathematical theory of semantic development.
A mathematical theory of semantic development deep neural networks。 學(xué)習(xí)過程里的概念分離
這個會議, 可以說對于深度學(xué)習(xí)和腦科學(xué)未來的發(fā)展, 意義都非常深刻。 我看到的是, 盡管人們都懷揣著統(tǒng)一兩個領(lǐng)域的夢想, 但現(xiàn)實的差距還非常遙遠, 雙方的溝通依然艱難。而這也更突出了這類會議的難能可貴。
-
人工智能
+關(guān)注
關(guān)注
1792文章
47495瀏覽量
239180 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5510瀏覽量
121334 -
cnn
+關(guān)注
關(guān)注
3文章
353瀏覽量
22265
原文標題:徐鐵:當深度學(xué)習(xí)握手腦科學(xué)-圣城會議歸來
文章出處:【微信號:AItists,微信公眾號:人工智能學(xué)家】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論