AI能夠映射大腦神經(jīng)元。人類大腦包含大約860億個神經(jīng)元,并且一個立方毫米的神經(jīng)元可以產(chǎn)生超過1000TB的數(shù)據(jù)。由于其龐大的規(guī)模,繪制神經(jīng)系統(tǒng)內(nèi)部結(jié)構(gòu)的過程是計算密集和繁瑣的。為了加速這一過程,谷歌和德國馬克斯普朗克神經(jīng)生物學(xué)研究所的研究人員開發(fā)了一種基于深度學(xué)習(xí)的系統(tǒng),可以自動映射大腦的神經(jīng)元。這是 AI 解決21世紀(jì)重大工程挑戰(zhàn)的又一成功例證。
谷歌AI負(fù)責(zé)人Jeff Dean演講時總愛用一張PPT,那就是用機器學(xué)習(xí)解決21世紀(jì)重大工程問題,其中就包括人腦逆向工程,谷歌和馬克思普朗克研究所等機構(gòu)合作,從理解大腦神經(jīng)網(wǎng)絡(luò)的圖像入手,試圖重構(gòu)生物神經(jīng)網(wǎng)絡(luò)。
在之前的報告中,Jeff Dean提到他們提出了一種模擬生成神經(jīng)網(wǎng)絡(luò)的算法“Flood-Filling Networks”,可以使用原始數(shù)據(jù),利用此前的預(yù)測,自動跟蹤神經(jīng)傳導(dǎo)。
今天,描述相關(guān)研究的論文正式在 Nature Methods 發(fā)表,他們的方法不但能自動分析大腦連接組數(shù)據(jù),還將準(zhǔn)確度提高了一個數(shù)量級,突破了當(dāng)前連接組學(xué)的一個重要瓶頸!
研究人員表示,他們的算法比以前的自動化方法準(zhǔn)確度提高了10倍。這是 AI 在推動基礎(chǔ)科學(xué)發(fā)展的又一項成功例證,大大推動了我們對人腦數(shù)據(jù)的解析,也有助于構(gòu)建更好的人工智能。
正如 Jeff Dean 所說,機器學(xué)習(xí)能夠用于幫助乃至解決人類重大工程挑戰(zhàn)。
自動分析大腦連接數(shù)據(jù),將精度提高一個數(shù)量級!
連接組學(xué)(Connectomics)旨在全面地映射神經(jīng)系統(tǒng)中發(fā)現(xiàn)的神經(jīng)元網(wǎng)絡(luò)的結(jié)構(gòu),以便更好地理解大腦如何工作。這個過程需要以納米分辨率(通常使用電子顯微鏡)對3D腦組織進行成像,然后分析所得到的圖像數(shù)據(jù),追蹤大腦的神經(jīng)節(jié)并識別各個突觸連接。由于成像的高分辨率,即使只有一立方毫米的腦組織,也可以產(chǎn)生超過1000TB的數(shù)據(jù)!再加上這些圖像中的結(jié)構(gòu)可能非常微妙和復(fù)雜,構(gòu)建大腦連接圖的主要瓶頸實際上并不在于獲取數(shù)據(jù),而是如何自動分析這些數(shù)據(jù)。
今天,谷歌與馬克斯普朗克神經(jīng)生物學(xué)研究所的同事合作,在Nature Methods發(fā)表了《使用Flood-Filling網(wǎng)絡(luò)高效自動重建神經(jīng)元》(High-Precision Automated Reconstruction of Neurons with Flood-Filling Networks),展示了一種新型的遞歸神經(jīng)網(wǎng)絡(luò)如何提高自動解析連接組數(shù)據(jù)的準(zhǔn)確性。不僅如此,與先前的深度學(xué)習(xí)技術(shù)相比,提高了一個數(shù)量級。
使用 Flood-Filling 網(wǎng)絡(luò)進行三維圖像分割
在大規(guī)模電子顯微鏡數(shù)據(jù)中追蹤神經(jīng)節(jié)是一個圖像分割問題。傳統(tǒng)算法將這個過程分為至少兩個步驟:首先,使用邊緣檢測器或機器學(xué)習(xí)分類器找出神經(jīng)節(jié)之間的邊界,然后使用watershed 或 graph cut 等算法,將未被邊界分隔的圖像像素分組組合在一起。
2015年,谷歌與馬克斯普朗克神經(jīng)生物學(xué)研究所的團隊開始嘗試基于遞歸神經(jīng)網(wǎng)絡(luò)的替代方法,將上述兩個步驟統(tǒng)一起來。新的算法從特定的像素位置開始生長,然后使用一個循環(huán)卷積神經(jīng)網(wǎng)絡(luò)不斷“填充”一個區(qū)域,網(wǎng)絡(luò)會預(yù)測哪些像素是與初始的那個像素屬于同一個物體。在2D中分割物體的Flood-Filing網(wǎng)絡(luò)。黃點是當(dāng)前焦點區(qū)域的中心;隨著算法不斷迭代,檢查整個圖像,分割區(qū)域不斷擴展(藍(lán)色)。
通過預(yù)期運行長度來測量準(zhǔn)確性,優(yōu)于以往深度學(xué)習(xí)方法
自2015年以來,谷歌與馬普研究所的研究人員一直致力于將這種新方法應(yīng)用于大規(guī)模的連接組數(shù)據(jù)集,并嚴(yán)格量化其準(zhǔn)確性。
他們提出了名為“預(yù)期運行長度”(ERL)的概念:在大腦的3D圖像中給定一個隨機的神經(jīng)元,在跟蹤出錯前,能夠?qū)ζ渥粉櫠嚅L距離?
這是一個典型的“失敗前的平均時間”的問題,不過在這個問題中,研究人員查看的是兩次失敗之間的空間,而不是時間。ERL吸引人的地方在于,它可以將線性的物理路徑與算法出現(xiàn)個別錯誤的頻率聯(lián)系起來,以便于直接計算。對于生物學(xué)家來說,ERL的數(shù)值與生物學(xué)上的數(shù)量存在相關(guān)性,比如神經(jīng)系統(tǒng)中不同部分的神經(jīng)元的平均路徑長度。采用ERL方法(藍(lán)色線)的結(jié)果表現(xiàn)最好,紅色線表示“合并率”,即兩個獨立的神經(jīng)元被錯誤地當(dāng)成一個目標(biāo)進行跟蹤的頻率。將合并率保持在一個很低的水平,對于研究人員手動辨別并改正其他錯誤具有很重要的意義。
研究人員利用ERL方法測量了100萬立方微米的斑胸草雀大腦掃描圖像中的神經(jīng)元真實數(shù)據(jù)集,結(jié)果表明,新方法比以往使用同樣數(shù)據(jù)集的其他深度學(xué)習(xí)途徑的表現(xiàn)要好。
ERL算法追蹤斑胸草雀大腦中的一個神經(jīng)元
重構(gòu)斑胸草雀大腦中的一部分。不同顏色表示不同區(qū)域,都是使用Flood-Filing網(wǎng)絡(luò)自動生成的。金球代表使用以前的方法自動識別的突觸位置
斑胸草雀又稱珍珠鳥,屬于雀形目梅花雀科,分布于澳洲。 身長10-11cm,主要以禾本科植物的種子為食。 斑胸草雀與其他梅花雀科鳥類同樣有高度的社會性,雄鳥會通過“唱情歌”向雌鳥求偶。常用于脊椎動物腦、行為和演化研究的模型。
研究人員利用新的Flood-Filling網(wǎng)絡(luò),對斑胸草雀大腦中的一小部分神經(jīng)元做了劃分。將來,他們計劃利用突觸級分辨率技術(shù)繼續(xù)改進連接重構(gòu)。
為了幫助更大的社區(qū)推進與該技術(shù)的相關(guān)研究,Tensorflow代碼現(xiàn)已開源,谷歌還公布了他們開發(fā)的面向3D數(shù)據(jù)集的WebGL可視化軟件,用于理解和改進該研究結(jié)果。
Flood-Filling網(wǎng)絡(luò)的訓(xùn)練、推斷和結(jié)構(gòu)
在今天發(fā)表于 Nature Methods 的論文中,研究人員詳細(xì)介紹了他們的方法。當(dāng)然,我們最關(guān)心的還是 Flood-Filling 網(wǎng)絡(luò)的訓(xùn)練,推斷和結(jié)構(gòu)。
研究人員在論文中寫道,我們得到了一個96x96x114μm的區(qū)域,并用串行塊面EM25成像,其分辨率為9×9×20nm。 對于分類器訓(xùn)練,數(shù)據(jù)集的一小部分由KNOSSOS的人類注釋器分段。然后使用這些注釋作為訓(xùn)練FFN的ground-truth。
FFN具有兩個輸入通道:一個用于3D圖像數(shù)據(jù),一個用于對象形狀(叫做預(yù)測對象圖(POM)的數(shù)據(jù)結(jié)構(gòu))的當(dāng)前預(yù)測。對于每個體素(voxel),POM編碼(使用0和1之間的值)算法對體素是否屬于當(dāng)前正被分割對象的估計。
在訓(xùn)練期間,通過在每個49×49×25體素訓(xùn)練樣本的中心播種(seed)單個體素來初始化POM。 我們在遠(yuǎn)離假定單元邊界的位置自動生成單體素種子,以避免合并(兩個或多個進程錯誤地彼此連接)。 在網(wǎng)絡(luò)推斷的每次迭代之后,POM的值用于通過隨機梯度下降來調(diào)整網(wǎng)絡(luò)權(quán)重,每使用一個體素,交叉熵(cross-entropy)損失26(圖1a,b和方法)。
每個推理步驟的結(jié)果影響FOV移動的位置、決定哪個體素分類被凍結(jié)以及神經(jīng)突擴展何時完成。
FFN的核心體系結(jié)構(gòu)是多層卷積神經(jīng)網(wǎng)絡(luò)(CNN),它基于輸入數(shù)據(jù)和先前的POM值在每次迭代期間更新POM值。此實驗在FFN實施中選擇使用單個3D FOV尺寸(33×33×17體素,297×297×340 nm)進行EM數(shù)據(jù)輸入,推理輸出和循環(huán)反饋。
預(yù)期運行長度的工作原理
不規(guī)則檢測和自動組織分類
許多推理錯誤發(fā)生在數(shù)據(jù)不規(guī)則處,例如切割偽像(cutting artifacts)或?qū)R(alignment)錯誤。在songbird volume EM數(shù)據(jù)集中,由于不規(guī)則性過于頻繁而不能被忽略,但數(shù)量太少而無法有效學(xué)習(xí)(最多影響音量的1%)。 我們沒有在訓(xùn)練集中豐富它們,而是通過互相關(guān)(cross-correlation方法)檢測它們,并防止超級體素跨越任何不規(guī)則性。
當(dāng)神經(jīng)纖維被諸如somata或血管的組織結(jié)構(gòu)中斷時,分割質(zhì)量通常會降低,這些組織結(jié)構(gòu)比典型的軸突,樹突和FOV大幾個數(shù)量級。 為了防止FFN冒然進入這種結(jié)構(gòu),我們訓(xùn)練了一個單獨的CNN,稱之為組織分類CNN,并用它來描繪這種結(jié)構(gòu)。
滯后和近似尺度不變性
由FFN重建的神經(jīng)突形狀取決于初始種子在神經(jīng)突內(nèi)的位置,并且當(dāng)重建神經(jīng)突的順序或種子的位置改變時,它會發(fā)生顯著改變。事實上,這種可變性可用于檢測和消除在校對過程中難以修復(fù)的合并,代價是產(chǎn)生一些額外的分裂(兩個過程彼此錯誤地斷開),這些是比較容易修復(fù)的。我們還研究了不同分辨率下數(shù)據(jù)集的重新取樣,并發(fā)現(xiàn)在五個分割中的對一個oversegmentation consensus 合并的數(shù)量最大程度的減少了(82倍)(分割率僅增加了兩倍)(圖1c,d和方法)。
分割pipeline
我們將數(shù)據(jù)對齊、組織分類、FFN推斷、過分割共識、FFN-scored集和生物合理性測試結(jié)合到pineline中,并用它來分割整個斑胸草雀的體積。
大規(guī)模分割精度
為了測量分割結(jié)果的準(zhǔn)確性,我們對單個神經(jīng)元進行了骨骼化處理。人類注釋者使用KNOSSOS軟件手工地將單個神經(jīng)元的結(jié)構(gòu)注釋為一組節(jié)點和邊緣。我們創(chuàng)建了一個調(diào)優(yōu)集和一個測試集,分別包含12和50個神經(jīng)元,中位數(shù)為0.8 mm和1.9mm,總路徑長度為13.5mm和97mm(27%和34%軸突)。我們專門使用這些集合來優(yōu)化分割pipeline的超參數(shù),并分別對性能進行評估。
在觀察到的與自動分段重疊的基礎(chǔ)上,我們將ground truth骨架的每條邊分別歸類分段中的重構(gòu)、省略(一個或兩個端節(jié)點不在任何段中)、分裂或合并分段的一部分。在成像體積中,大約1.4%的路徑長度被人工骨骼化。這使我們能夠自動地檢測出發(fā)生的所有分裂,但觀察到的合并數(shù)量相比真是數(shù)量嚴(yán)重減低。
最后,我們計算了一個預(yù)期的運行長度(expected run length,ERL),它測量了屬于隨機放置的起始點的片段中包含的平均神經(jīng)元軸突長度。
我們的最終重構(gòu)(FFN-c,應(yīng)用了整個pineline)的ERL達到1.1毫米,并在97毫米神經(jīng)元軸突長度的骨架測試集中包含四個合并(見:圖1為定性分析,圖2為定量分析,包括分裂計數(shù))。
圖1:基于檢測的分割精度分析
圖2:分割精度的定量分析
為了更好地評估FFN-c的性能,我們對斑胸草雀數(shù)據(jù)集應(yīng)用了兩種最先進的替代方法,并量化了分割性能。第一個(“baseline”)方法結(jié)合了一個3D卷積神經(jīng)網(wǎng)絡(luò),利用網(wǎng)格搜索對關(guān)聯(lián)圖域參數(shù)進行了優(yōu)化,并對標(biāo)記數(shù)據(jù)進行了隨機森林分類器的聚類。第二種方法是SegEM,其中3D 卷積神經(jīng)網(wǎng)絡(luò)邊界預(yù)測 boundary prediction被用分水嶺算法進行過分割。
通過這些途徑,baseline方法實現(xiàn)最高的ERL(112μm;圖3),比FFN的結(jié)果差一個數(shù)量級。
神經(jīng)突類型的誤差
我們手工將ground truth骨架中的神經(jīng)突碎片分類為軸突或樹突,并且記錄了182個樹突棘的基部和頭部的位置。然后,我們使用這些數(shù)據(jù)來測量不同神經(jīng)突類別的FFN-c分段的錯誤率。我們觀察到自動重建在識別樹突棘方面優(yōu)于人類注釋(分別為95%和91%recall率)。雖然兩組的精確度都接近100%,但自動化結(jié)果略高(自動重建為99.7%和100%,而人工重建的樹突和軸突分別為98%和99%),自動重建組中的樹突和軸突recall率不如人類注釋所獲得的(自動化過程分別為68%和48%,而人工生成的數(shù)據(jù)分別為89%和85%)。
其他物種和成像方法
FIB-25是果蠅視神經(jīng)葉的公共數(shù)據(jù)集,通過8×8×8 nm的聚焦離子束掃描EM成像,已被用于基準(zhǔn)分割方法。 同樣用作公共分割基準(zhǔn),SNEMI3d是小鼠體感皮層的數(shù)據(jù)集。FFNs應(yīng)用于held-out測試集,獲得了“超過人類”的表現(xiàn)。
-
谷歌
+關(guān)注
關(guān)注
27文章
6171瀏覽量
105485 -
AI
+關(guān)注
關(guān)注
87文章
30998瀏覽量
269304 -
神經(jīng)元
+關(guān)注
關(guān)注
1文章
363瀏覽量
18465 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5504瀏覽量
121229
原文標(biāo)題:【Nature重磅】谷歌AI自動重構(gòu)3D大腦,最高精度繪制神經(jīng)元
文章出處:【微信號:cas-ciomp,微信公眾號:中科院長春光機所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論