百度正式發(fā)布基于飛槳的生物計算平臺 - 螺旋槳 PaddleHelix,進軍生物計算領(lǐng)域。
在本月 20 號召開的 WAVE SUMMIT+2020 深度學(xué)習(xí)開發(fā)者峰會上,百度正式發(fā)布了基于飛槳的生物計算平臺 - 螺旋槳 PaddleHelix,進軍生物計算領(lǐng)域。本次發(fā)布的螺旋槳 PaddleHelix 生物計算開源工具集,提供了包括 RNA 二級結(jié)構(gòu)預(yù)測、大規(guī)模的分子預(yù)訓(xùn)練、藥物 - 靶點親和力預(yù)測、以及 ADMET 成藥性預(yù)測等一系列算法和模型,重點滿足生物醫(yī)藥,疫苗設(shè)計和精準醫(yī)療方面的 AI 需求。
螺旋槳 PaddleHelix 官網(wǎng)地址:https://www.paddlepaddle.org.cn/paddle/paddlehelix
螺旋槳 PaddleHelixGitHub 地址:https://github.com/PaddlePaddle/PaddleHelix
生物醫(yī)藥
在生物醫(yī)藥領(lǐng)域,小分子化合物的篩選是非常關(guān)鍵的環(huán)節(jié)。為了設(shè)計出某種疾病的特效藥,一方面要找到能夠和疾病靶點結(jié)合、具有足夠活性的小分子藥物;另一方面又要保證藥物在人體內(nèi)能夠正常發(fā)生作用,以及滿足一系列額外性質(zhì)(藥物的吸收,分布,代謝,排泄,毒性,統(tǒng)稱 ADMET)。
靶蛋白(Protein)- 藥物配體(Ligand)復(fù)合物 (來源:PDBBind-cn.org)
傳統(tǒng)的藥物發(fā)現(xiàn)方法包括基于靶點結(jié)構(gòu)的藥物設(shè)計(Structure Based Drug Design, SBDD),基于碎片的藥物設(shè)計(Fragment Based Drug Design, FBDD),老藥新用 (Repurposing),以及計算機虛擬藥物設(shè)計(Computational-Aided Drug Design, CADD)等等。這些方法均存在依賴體內(nèi)(in vivo)體外 (in vitro) 實驗驗證,或者消耗大量計算資源等問題。因此近年來,基于分子的結(jié)構(gòu)和知識來直接預(yù)測親和性的 AI 藥物設(shè)計(AIDD)逐漸被廣泛認可和應(yīng)用。相比于 CADD,AIDD 展現(xiàn)出了性能上的巨大優(yōu)勢,但其效果同時受到生物計算領(lǐng)域數(shù)據(jù)量的限制。下面的表格(表 1)展示生物計算一些重要問題的典型數(shù)據(jù)量,其中綠色的是有標注數(shù)據(jù)。我們看到,盡管這個領(lǐng)域有大量的無標注數(shù)據(jù)(僅有分子結(jié)構(gòu)或者序列,沒有性質(zhì),或者次級結(jié)構(gòu)),有標注數(shù)據(jù)卻非常少,難以支撐高質(zhì)量的深度模型。
表 1
在 AI 的其他領(lǐng)域也存在類似問題。以自然語言處理為例,這個領(lǐng)域存在 NER,邏輯推斷,閱讀理解,文本生成等等非常多的子問題。這些問題中的有標注數(shù)據(jù)量都非常少。但是人類文明中累積了大量的無標注語言文字,這些無標注語料給自然語言處理提供了表示學(xué)習(xí)(Representation Learning)的機會。在這樣的背景下,BERT, ERNIE 等一系列基于自監(jiān)督(Self-Supervised)學(xué)習(xí)的方法被提出。
正是基于此,螺旋槳 PaddleHelix 提出基于表示學(xué)習(xí),多任務(wù)學(xué)習(xí)(Multi-Task Learning, MTL)和元學(xué)習(xí)(Meta Learning)來降低深度學(xué)習(xí)在生物計算中的技術(shù)和數(shù)據(jù)門檻,提升其效果。包括生物大分子(蛋白質(zhì),DNA,RNA)或者藥物小分子都由原子或者亞基組成,都可以通過序列,圖,或者三維結(jié)構(gòu)表示。一種自然的想法,是像在自然語言處理領(lǐng)域一樣,利用無標注數(shù)據(jù)上的自監(jiān)督學(xué)習(xí)來優(yōu)化分子的表示,再將其應(yīng)用到下游任務(wù)。同時,生物計算領(lǐng)域存在大量的零散的任務(wù),以 ADMET 為例,有 30~50 個指標需要考慮。這樣的問題中,百度的生物計算團隊也認為多任務(wù)學(xué)習(xí)和元學(xué)習(xí)將會發(fā)揮重要作用。
螺旋槳 PaddleHelix 復(fù)現(xiàn)并內(nèi)置了業(yè)界主流的分子預(yù)訓(xùn)練模型(如表 2),以及常用的很多組網(wǎng)工具(CNN, Transformer, LSTM, ResNet,GNN 等等),開發(fā)者基于預(yù)訓(xùn)練模型實現(xiàn)自己的模型只需要短短幾行代碼。螺旋槳 PaddleHelix 也提供了一些通過了驗證的,可以有效應(yīng)用于下游任務(wù)的模型,效果如表 2 所示。
表 2:使用預(yù)訓(xùn)練在分子性質(zhì)預(yù)測中帶來顯著提升
疫苗設(shè)計
疫苗是通過把病毒或病菌相關(guān)的抗原(通常是蛋白)預(yù)先輸入人體,引起人體免疫反應(yīng)的物質(zhì)。傳統(tǒng)的疫苗需要體外制備抗原蛋白,通常效率低,難于快速大規(guī)模生產(chǎn),因此可在人體自身內(nèi)生產(chǎn)抗原蛋白的 mRNA 疫苗受到越來越多的關(guān)注。mRNA 疫苗制備速度快、無感染風(fēng)險,但有一個天然劣勢就是 mRNA 非常不穩(wěn)定,這與 mRNA 的二級結(jié)構(gòu)相關(guān)。mRNA 疫苗設(shè)計的關(guān)鍵就在于,在不改變翻譯出的抗原蛋白的前提下,設(shè)計 mRNA 序列使其二級結(jié)構(gòu)盡可能更穩(wěn)定。
mRNA 疫苗示意圖(來源:https://translate.bio/)
百度研究院生物計算團隊從 2018 年開始就開展了 RNA 結(jié)構(gòu)預(yù)測和序列設(shè)計相關(guān)研究,并在 2019 年 7 月和 2020 年 7 月分別發(fā)表了 LinearFold 和 LinearPartition 算法, 將 RNA 結(jié)構(gòu)預(yù)測和分析的速度大大提升。其中 LinearFold 能夠在 27 秒內(nèi)完成新冠病毒全基因組結(jié)構(gòu)分析,比傳統(tǒng)算法速度提升 120 倍。正是有了之前的積累,百度研究院在短短兩個月就完成了 LinearDesign 的研發(fā), 在 mRNA 疫苗設(shè)計上提出了革命性的方法。LinearDesign 能夠在 11 分鐘內(nèi)完成新冠 mRNA 疫苗序列的設(shè)計,設(shè)計序列的穩(wěn)定性和有效性大大提升。如圖所示,左邊是能翻譯新冠 S 蛋白的野生型 mRNA 二級結(jié)構(gòu),其中存在大量易斷裂的單鏈環(huán)。右邊是 LinearDesign 設(shè)計序列的結(jié)構(gòu),斷裂點更少,與野生型序列相比穩(wěn)定性大大提升。百度研究院 RNA 結(jié)構(gòu)預(yù)測與序列設(shè)計相關(guān)成果在美國 MIT 科技評論,以及美國消費者新聞與商業(yè)頻道(CNBC)得到了高度評價,并在 2020 年全球人工智能峰會(AI Summit)上獲得了 AI For Good(AI 向善)獎。
在螺旋槳 PaddleHelix 中,百度也完整開源了 LinearRNA 系列算法,目前主要包括 LinearFold 和 LinearPartition,開發(fā)者想要調(diào)用這些強大的工具僅僅需要一行代碼。
新冠 S 蛋白的野生型 mRNA 結(jié)構(gòu)和 LinearDesign 結(jié)構(gòu)
精準醫(yī)療
精準醫(yī)療(precision medicine)的概念是指,根據(jù)患者特征(patient characteristics)實現(xiàn)準確的疾病診斷和分類,從而進行個性化匹配用藥和跟蹤治療。相較于傳統(tǒng)的 one-size-fits-all 治療方案,精準醫(yī)療致力于通過臨床數(shù)據(jù)、生活環(huán)境、特別是分子組學(xué)數(shù)據(jù)精確刻畫個體特征,通過挖掘和探究隱含在多模態(tài)數(shù)據(jù)層面的信息進行綜合分析和判斷,最終提供更好更適配的藥物選擇和治療方案從而提升患者的治療效果最終提高個體的生存時間和生存質(zhì)量。
部分圖片素材來自網(wǎng)絡(luò)
螺旋槳 PaddleHelix 也將提供基于多維數(shù)據(jù)(臨床隨訪數(shù)據(jù)、蛋白組數(shù)據(jù)、基因組數(shù)據(jù)、轉(zhuǎn)錄組數(shù)據(jù)、甲基化組數(shù)據(jù)、小 RNA 數(shù)據(jù)、單細胞組數(shù)據(jù))的表示學(xué)習(xí)算法模型、藥物響應(yīng)模型、疾病預(yù)后模型等,旨在幫助行業(yè)內(nèi)的醫(yī)療專家、研究人員和從業(yè)者更好的利用組學(xué)數(shù)據(jù)和分子特征更精確的刻畫個體表示做組群區(qū)分,從而在精準醫(yī)療的三個維度預(yù)防、預(yù)測、治療(Prevention、Prediction、Treatment)構(gòu)建更好更準確的醫(yī)療模型,幫助到更多的患者得到最好最適配的治療。
結(jié)語
在 WAVE SUMMIT+2020 深度學(xué)習(xí)開發(fā)者峰會上,百度集團副總裁、深度學(xué)習(xí)技術(shù)及應(yīng)用國家工程實驗室副主任,吳甜女士對螺旋槳 PaddleHelix 的發(fā)展做了簡短的概述,希望未來與合作伙伴共建,逐步形成一套完整的面向行業(yè)的生物計算生態(tài)和服務(wù)。
我們也期待,螺旋槳 PaddleHelix 的發(fā)布能帶來更多的跨界驚喜,在生物醫(yī)藥、精準醫(yī)療、疫苗設(shè)計等領(lǐng)域發(fā)揮出更大的價值。
責(zé)任編輯:PSY
-
計算
+關(guān)注
關(guān)注
2文章
450瀏覽量
38820 -
百度
+關(guān)注
關(guān)注
9文章
2270瀏覽量
90422 -
生物
+關(guān)注
關(guān)注
0文章
49瀏覽量
15764 -
飛槳
+關(guān)注
關(guān)注
0文章
33瀏覽量
2302
發(fā)布評論請先 登錄
相關(guān)推薦
評論