近日,DeepMind 在 Nature 上發(fā)表的一篇論文引起 AI 領(lǐng)域和神經(jīng)科學(xué)領(lǐng)域的極大震撼:AI 展現(xiàn)出與人腦 “網(wǎng)格細(xì)胞” 高度一致的空間導(dǎo)航能力。甚至有些學(xué)者認(rèn)為,憑著這篇論文,DeepMind 的作者有可能問鼎諾貝爾獎。本文作者鄧侃博士對這篇突破性的論文進行了解讀。
Google 麾下的 DeepMind 公司,不僅會下圍棋,而且寫的論文也頂呱呱。
2018/5/10,今天的微信朋友圈,被DeepMind 一篇論文刷屏了。論文發(fā)表在最近一期 Nature 雜志上,題目是Vector-based navigation using grid-like representations in artificial agents [1]。
有些學(xué)者認(rèn)為,憑著這篇論文,DeepMind 的作者有可能問鼎諾貝爾獎[2]。
重要意義:AI的定位和導(dǎo)航類似于大腦的位置細(xì)胞和網(wǎng)格細(xì)胞
其實這篇論文是DeepMind 人工智能團隊,與 University College of London(UCL) 的生物學(xué)家,合作的產(chǎn)物。
對空間的定位和導(dǎo)航能力,是生物的本能。早在 1971 年,UCL 的生理學(xué)教授 John O'Keefe 在大腦海馬體中,發(fā)現(xiàn)了位置細(xì)胞(Place Cell)。隨后 O'Keefe 的學(xué)生,Moser 夫婦于 2005 年發(fā)現(xiàn),在大腦內(nèi)嗅皮層,存在一種更為神奇的神經(jīng)元,網(wǎng)格細(xì)胞(Grid Cell)。在運動過程中,生物的網(wǎng)格細(xì)胞,把空間分割為蜂窩那樣的六邊形,并且把運動軌跡記錄在蜂窩狀的網(wǎng)格上。
2014 年的諾貝爾生理學(xué)/醫(yī)學(xué)獎,頒發(fā)給了John O'Keefe 和Moser 夫婦。
人工智能深度學(xué)習(xí)模型,經(jīng)常被詬病的一大軟肋,是缺乏生理學(xué)理論基礎(chǔ)。深度學(xué)習(xí)模型中的隱節(jié)點的物理意義,也無法解釋。
DeepMind 和 UCL 合著的 Nature 論文,發(fā)現(xiàn)深度學(xué)習(xí)模型中隱節(jié)點,與腦內(nèi)的位置細(xì)胞和網(wǎng)格細(xì)胞,這兩者的激活機制和數(shù)值分布,非常相似,幾乎呈一一對應(yīng)的關(guān)系。
Extended Data Fig 3.d:第一行,深度學(xué)習(xí)模型的隱節(jié)點的激活機制和數(shù)值分布。第二行,Moser 夫婦發(fā)現(xiàn)的網(wǎng)格細(xì)胞的蜂窩狀數(shù)值分布。深度學(xué)習(xí)隱節(jié)點與網(wǎng)格細(xì)胞的數(shù)值分布,極為相似。第三行,數(shù)值分布所揭示的空間定位及運動方向。
這篇論文,之所以引起學(xué)界轟動,原因在于證明了,把深度學(xué)習(xí)模型用于空間的定位和導(dǎo)航,其隱節(jié)點的物理意義,類似于大腦的位置細(xì)胞和網(wǎng)格細(xì)胞。進一步猜想,深度學(xué)習(xí)模型的定位和導(dǎo)航的計算過程,很可能與大腦的定位和導(dǎo)航的生理機制,也極為相似。
為什么DeepMind 熱衷于玩游戲?
面向空間定位和導(dǎo)航的深度學(xué)習(xí)模型,有哪些應(yīng)用場景呢?DeepMind 把這個技術(shù)用于玩電子游戲,類似于 “反恐精英”(Counter Strike)那樣的走迷宮射殺***的游戲。
DeepMind 下完圍棋以后,玩初級電子游戲,現(xiàn)在升級了,改玩高級游戲了。為什么DeepMind 那么熱衷于游戲呢?
游戲是仿真系統(tǒng),一切盡在掌控之中,想要什么數(shù)據(jù),就能獲取什么數(shù)據(jù)。所以,每條數(shù)據(jù),都很全面,不會有數(shù)據(jù)丟失。
同時,只要多雇一些玩家,多花一點時間,要多少訓(xùn)練數(shù)據(jù),就有多少訓(xùn)練數(shù)據(jù)。
用游戲來驗證深度學(xué)習(xí)模型,非常方便。這是 DeepMind 熱衷于玩游戲的原因。同時,因為能夠快速地獲取數(shù)據(jù),DeepMind 對于深度學(xué)習(xí)和強化學(xué)習(xí)研究,領(lǐng)先世界。
Figure 3. DeepMind 把基于深度學(xué)習(xí)的空間定位和導(dǎo)航技術(shù),應(yīng)用于反恐精英(Counter Strike)游戲。
問題是,把適用于游戲的深度學(xué)習(xí)模型,移用到真實世界,解決實際問題,是否仍然有效?
同是 Google 麾下兄弟,Google Brain 更注重解決實際問題,兄弟倆各有千秋。Google Brain 開發(fā)的 Tensorflow成為工程利器,而 DeepMind 的論文,提供新方法,引領(lǐng)研究前沿。
深度學(xué)習(xí)仿真位置和網(wǎng)格細(xì)胞的論文,技術(shù)上有什么創(chuàng)新?
短的答案,沒有獨特的創(chuàng)新。
長的答案,得先講講馬爾科夫和強化學(xué)習(xí)。
強化學(xué)習(xí)(Reinforcement Learning)是機器學(xué)習(xí)的一個重要分支,它試圖解決決策優(yōu)化的問題。所謂決策優(yōu)化,是指面對特定狀態(tài)(State,S),采取什么行動方案(Action,A),才能使收益最大(Reward,R)。很多問題都與決策優(yōu)化有關(guān),從下棋,到投資,到課程安排,到駕車,到走迷宮等等。
AlphaGo 的核心算法,就是強化學(xué)習(xí)。AlphaGo不僅穩(wěn)超勝券地戰(zhàn)勝了當(dāng)今世界所有人類高手,而且甚至不需要學(xué)習(xí)人類棋手的棋譜,完全靠自己摸索,在短短幾天內(nèi),發(fā)現(xiàn)并超越了一千多年來人類積累的全部圍棋戰(zhàn)略戰(zhàn)術(shù)。
最簡單的強化學(xué)習(xí)的數(shù)學(xué)模型,是馬爾科夫決策過程(Markov Decision Process,MDP)。之所以說 MDP 是一個簡單的模型,是因為它對問題做了很多限制。
1. 面對的狀態(tài) s_{t},數(shù)量 t = 1... T,T 是有限的。
2. 采取的行動方案 a_{t},數(shù)量t = 1... T,T也是有限的。
3.對應(yīng)于特定狀態(tài) s_{t},當(dāng)下的收益 r_{t} 是明確的。
4. 在某一個時刻 t,采取了行動方案 a_{t},狀態(tài)從當(dāng)前的 s_{t} 轉(zhuǎn)換成下一個狀態(tài) s_{t+1}。下一個狀態(tài)s_{t+1}有多種可能,從當(dāng)前狀態(tài) s_{t}轉(zhuǎn)換到下一個狀態(tài)中的某一種狀態(tài)的概率,稱為轉(zhuǎn)換概率。但是轉(zhuǎn)換概率,只依賴于當(dāng)前狀態(tài) s_{t},而與先前的狀態(tài),s_{t-1}, s_{t-2} ... 無關(guān)。
解決馬爾科夫決策過程問題的常用的算法,是動態(tài)規(guī)劃(Dynamic Programming)。
對馬爾科夫決策過程的各項限制,不斷放松,研究相應(yīng)的算法,是強化學(xué)習(xí)的目標(biāo)。
例如對狀態(tài) s_{t}放松限制,
1. 假如狀態(tài) s_{t} 的數(shù)量t = 1... T,T雖然有限,但是數(shù)量巨大,或者有數(shù)量無限,如何改進算法?
2.假如狀態(tài) s_{t} 不能完全確定,只能被部分觀察到,剩余部分被遮擋或缺失,如何改進算法?
3. 假如轉(zhuǎn)換概率,不僅依賴于當(dāng)前狀態(tài),而且依賴于先前的運動軌跡,如何改進算法?
4. 假如遇到先前沒有遇見過的新狀態(tài)s_{t},有沒有可能在以往遇見過的狀態(tài)中,找到相似狀態(tài),從而估算轉(zhuǎn)換概率,估算收益?
Extended Data Fig 5. 用GridLSTM 來總結(jié)以往的運動軌跡,并加上神經(jīng)網(wǎng)絡(luò) g 來判別當(dāng)前的空間定位和運動方向。然后基于對當(dāng)前的空間定位和導(dǎo)航的判斷,用另一個 LSTM 來估算狀態(tài)轉(zhuǎn)換概率,從而決定導(dǎo)航策略。
這篇論文用深度學(xué)習(xí)模型,來仿真位置和網(wǎng)格細(xì)胞。具體來說,
1.用 CNN 來處理圖像,找到周邊環(huán)境中的標(biāo)志物,用于識別當(dāng)前的空間位置。
2. 把圖像處理的結(jié)果,與以往的運動軌跡相結(jié)合,用GridLSTM 來估算當(dāng)前的狀態(tài)。
3. 把GridLSTM 估算出的當(dāng)前狀態(tài),經(jīng)過一個神經(jīng)網(wǎng)絡(luò) g 的再加工,得到類似于位置細(xì)胞和網(wǎng)格細(xì)胞的隱節(jié)點。
4. 把當(dāng)前的位置和運動方向,以及目標(biāo)的位置,作為第二個 LSTM 模型的輸入,確定導(dǎo)航?jīng)Q策。
上述所有模塊,都是現(xiàn)成技術(shù)的集成,并無顯著創(chuàng)新。
-
導(dǎo)航
+關(guān)注
關(guān)注
7文章
547瀏覽量
42995 -
人工智能
+關(guān)注
關(guān)注
1804文章
48677瀏覽量
246260 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5554瀏覽量
122451
原文標(biāo)題:專家解讀DeepMind最新論文:深度學(xué)習(xí)模型復(fù)現(xiàn)大腦網(wǎng)格細(xì)胞
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
人類首創(chuàng)能生成神經(jīng)細(xì)胞的“迷你大腦”,更精確模擬神經(jīng)網(wǎng)絡(luò)!
人工智能可助辨識細(xì)胞結(jié)構(gòu)
細(xì)胞融合與單克隆抗體
血細(xì)胞的產(chǎn)生與美國科學(xué)家成功制造出具有造血干細(xì)胞功能的細(xì)胞
首次創(chuàng)造出能生成神經(jīng)細(xì)胞的3D版“迷你大腦”
T 細(xì)胞打入腫瘤細(xì)胞要先對好“暗號”
無人機集群類腦導(dǎo)航系統(tǒng)的應(yīng)用特點及發(fā)展現(xiàn)狀研究
“解碼”單細(xì)胞測序的故事
基于人類乳腺細(xì)胞圖譜中各細(xì)胞亞型之間的位置關(guān)系和空間聯(lián)系

單細(xì)胞細(xì)胞注釋詳解之singleR細(xì)胞注釋

活細(xì)胞的“聚光燈”——前沿活細(xì)胞成像的案例分享

評論