21世紀以來,生物大數(shù)據(jù)在量(多數(shù)據(jù)種類,海量樣本數(shù),多時間點采樣等)、質(zhì)(高時空精度,單細胞測序等)兩方面快速發(fā)展,大大推動了生命科學的進步,也為生物醫(yī)學問題的模型建立、數(shù)據(jù)分析,以及預測和控制,帶來了巨大的機遇和挑戰(zhàn)。
傳統(tǒng)的生物學數(shù)據(jù)研究方法大多基于數(shù)據(jù)的靜態(tài)統(tǒng)計信息,即“基于統(tǒng)計學的數(shù)據(jù)科學”(statistics-based data science),其缺點是,在很多場景下不能準確地解釋和預測系統(tǒng)的復雜動態(tài)行為。數(shù)據(jù)分類、數(shù)據(jù)降維、變量聚類、變量相關性分析等方法都是如此。
然而,即使是靜態(tài)的數(shù)據(jù),往往也蘊含著系統(tǒng)的動力學特征。我們需要通過“基于動力學的數(shù)據(jù)科學”(dynamics-based data science),充分建立和利用動力系統(tǒng)的普遍性質(zhì)(如,穩(wěn)定平衡點的臨界性質(zhì)、中心流型的低維性、單變量的吸引子的重構性等),對蘊含在數(shù)據(jù)中的動力學信息進行挖掘和分析。
“基于動力學的數(shù)據(jù)科學”將動力系統(tǒng)理論、統(tǒng)計學理論,和數(shù)據(jù)的實際背景結(jié)合在一起,為處理和解釋動態(tài)生物大數(shù)據(jù)提供了一種基礎堅實、計算高效的理論和方法。
在最近發(fā)表于《國家科學評論》(National Science Review,NSR)的觀點文章中,中科院生化細胞所的陳洛南研究員(通訊作者)、東京大學的史際帆博士(第一作者)和Aihara教授通過3個具體實例,揭示了如何利用動力系統(tǒng)的普遍性質(zhì),由觀測的數(shù)據(jù)對生物學現(xiàn)象進行動力學分析,并解決生命科學的實際問題。1.利用微分方程的分岔理論,由測量的高維數(shù)據(jù),進行健康臨界預警和疾病預測。DNB理論利用了系統(tǒng)在臨界點附近,復雜網(wǎng)絡將表現(xiàn)出有別于非臨界點的網(wǎng)絡特性,量化臨界狀態(tài)并發(fā)現(xiàn)疾病的關鍵因子,實現(xiàn)疾病預警“防病于未然”。
2.利用偏微分方程和diffusion map理論,量化細胞的多潛能性或距離干細胞的遠近。LDD方法是,通過建立隨機生滅過程的偏微分方程模型,對細胞的分化過程進行了多潛能性量化。利用單細胞測序數(shù)據(jù)和相關數(shù)學方法,可以對每類細胞多潛能性進行估計和分化程度排序,實現(xiàn)量化細胞的多潛能性,并構建多潛能性勢能景觀。
3.利用神經(jīng)網(wǎng)絡工具,對基因表達量等的時間序列進行預測。ARNN方法是,利用最新的reservior神經(jīng)網(wǎng)絡工具,通過“空間-時間信息變換方程”STI,即變換高維數(shù)據(jù)的信息為時間的動態(tài)信息,對短序列高維度數(shù)據(jù)(如基因表達數(shù)據(jù))進行學習,可實現(xiàn)復雜系統(tǒng)的短時間序列或動態(tài)演化的預測。
“基于動力學的數(shù)據(jù)科學”是一個全新交叉領域,相比傳統(tǒng)靜態(tài)的“基于統(tǒng)計學的數(shù)據(jù)科學”方法,具有“可解釋性”、“可量化性”和“可拓展性”,在今后的生物醫(yī)學等領域的研究舞臺,將扮演不可或缺的重要角色。
編輯:jq
-
神經(jīng)網(wǎng)絡
+關注
關注
42文章
4777瀏覽量
100966 -
數(shù)據(jù)
+關注
關注
8文章
7108瀏覽量
89302 -
微分
+關注
關注
0文章
31瀏覽量
14117
原文標題:3個實例:“基于動力學的數(shù)據(jù)科學”在生命科學中的應用 | NSR
文章出處:【微信號:zhishexueshuquan,微信公眾號:知社學術圈】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論