AlphaFold有望改變生物學。
近日,谷歌AI團隊DeepMind所研究的 AlphaFold 算法在生物學領域取得了重要突破:通過蛋白質(zhì)的氨基酸序列高精度地確定其3D結(jié)構(gòu)。
具體而言,是DeepMind的第二代AlphaFold 在國際蛋白質(zhì)結(jié)構(gòu)預測競賽(CASP)上擊敗了其余的參會選手,能夠精確地基于氨基酸序列,預測蛋白質(zhì)的3D結(jié)構(gòu)。其準確性可以與使用冷凍電子顯微鏡(CryoEM)、核磁共振或 X 射線晶體學等實驗技術(shù)解析的3D結(jié)構(gòu)相媲美。
前基因泰克(Genentech)首席執(zhí)行官Arthur D. Levinson博士稱這一成就為“劃時代的進步”(once in a generation advance)。
從CASP14,這項權(quán)威的蛋白質(zhì)結(jié)構(gòu)預測競賽結(jié)果中,可以看到AlphaFold2排名第一(總分遠高于第二),排名前六位的分別是David Barke lab的兩個工具(第二、第三位)、密歇根州立大學的 Michael Feig和密歇根大學Yang Zhang排名在第四位、第五位,而騰訊AI lab 的tFold_human 排名第六。
這說明,在某種程度上,在對蛋白質(zhì)結(jié)構(gòu)和折疊的預測這件事情上,人類已非望塵莫及。
第二代AlphaFold做了什么?
在CASP這項比賽中,DeepMind開發(fā)AlphaFold2用的數(shù)據(jù)是:數(shù)據(jù)庫里的超過17萬種蛋白序列與結(jié)構(gòu),以及其他一些大型數(shù)據(jù)庫里的數(shù)據(jù)。
評估蛋白結(jié)構(gòu)預測準確度的指標叫做GDT,也就是評估預測結(jié)構(gòu)里的氨基酸位置,和實際的氨基酸位置差多少。差得越少,得分越高。
GDT的分值在0-100之間。2006-2016年間,這個數(shù)字最高在40左右。2018年,上一代的 AlphaFold得分一下子突破了50。而這次的新一代 AlphaFold,在蛋白結(jié)構(gòu)預測大賽里的中位得分超過了92.4。
不僅僅遠超今年的競爭對手,相比于2018年版的AlphaFold第一代,AlphaFold2的表現(xiàn)也如脫胎換骨一般。
更直觀一些。拿它預測的結(jié)構(gòu)與實際結(jié)構(gòu)對比,可以看到基本完全吻合(下圖,綠色是實驗得到的實際結(jié)構(gòu),藍色是計算預測結(jié)構(gòu))。
在兩年一次的蛋白質(zhì)結(jié)構(gòu)預測關(guān)鍵評估(CASP)競賽中,AlphaFold今年擊敗了所有其他小組,并在準確率方面與實驗結(jié)果相匹配。隨著預測難度增加,AlphaFold的準確率保持在穩(wěn)定的高水平,表現(xiàn)遠超其它團隊以及往屆競賽的水平。
但是對此結(jié)果,也有不少人存在疑問,主要在準確性。首先,17萬的數(shù)據(jù)應該遠遠不夠,準確性存疑;再者,蛋白質(zhì)結(jié)構(gòu)折疊問題太過高深,如果真能夠破解,DeepMind很快就能獲得諾貝爾獎。
因此,在驚嘆AlphaFold取得成果的同時,我們還需要冷靜等待生物學家的實驗驗證。
除了解決的問題值得我們關(guān)注,其實研究方法也更有思考價值。
畢竟,AlphaFold的結(jié)構(gòu)預測與X射線晶體學或低溫電子顯微鏡(cryo-EM)等標準實驗方法來預測并無區(qū)別,只是后者更加費力、更加昂貴??茖W家表示,AlphaFold的出現(xiàn)也許并不會完全替代這些實驗方法,但確實為人們提供了研究生物的新方式。
蛋白質(zhì)結(jié)構(gòu):生物學五十年來的挑戰(zhàn)
蛋白質(zhì)是生命的基礎,與細胞組成內(nèi)容緊密相關(guān)。而蛋白質(zhì)的功能取決于其3D結(jié)構(gòu)。
一直以來,生物學家投入實驗,致力于尋找生命的奧秘,即:氨基酸序列(蛋白質(zhì)的組成部分)是如何繪制出最終的形狀。
在過去,人們一直是通過實驗室來了解蛋白質(zhì)的結(jié)構(gòu)。比如,使用X射線束照射結(jié)晶的蛋白質(zhì),并將衍射光轉(zhuǎn)化為蛋白質(zhì)原子坐標,由此掌握蛋白質(zhì)的第一個完整結(jié)構(gòu)。
除了實驗,隨著計算機的發(fā)展,該項技術(shù)在上世紀末便已用于預測蛋白質(zhì)的結(jié)構(gòu),但效果并不理想。
計算機技術(shù)用于蛋白質(zhì)結(jié)構(gòu)預測的困境,直到AlphaFold在2018年現(xiàn)身于CASP,才讓科學家重新燃起了信心與希望。
AlphaFold的第一次迭代將深度學習應用于結(jié)構(gòu)和遺傳數(shù)據(jù),以預測蛋白質(zhì)中氨基酸對之間的距離。根據(jù)AlphaFold的主要負責人之一John Jumper介紹,在第二個步驟中,雖然沒有使用AI技術(shù),但AlphaFold使用結(jié)構(gòu)與遺傳數(shù)據(jù)得出了蛋白質(zhì)的外觀模型,與之前的研究達成一致。
但第一次迭代存在缺陷。因此,該團隊開發(fā)了一個AI網(wǎng)絡。該網(wǎng)絡結(jié)合了有關(guān)確定蛋白質(zhì)如何折疊的物理和幾何約束的信息。他們設立了一項艱巨的目標:該網(wǎng)絡能夠預測目標蛋白質(zhì)序列的最終結(jié)構(gòu),而不僅是預測氨基酸之間的關(guān)系。
驚人的準確性
CASP的進行歷時數(shù)月。
1994年,Moult及其同事發(fā)起了CASP,每兩年召開一次。比賽團隊獲得約100種蛋白質(zhì)的氨基酸序列,其結(jié)構(gòu)未知。一些小組計算每個序列的結(jié)構(gòu),而另一些小組則通過實驗確定它。然后,組織者將計算預測結(jié)果與實驗室結(jié)果進行比較,并為預測結(jié)果提供全球距離測試(GDT)分數(shù)。
研究小組有數(shù)周的時間來提交其結(jié)構(gòu)預測。然后,一組獨立的科學家使用度量標準來評估預測的蛋白質(zhì)與實驗確定的結(jié)構(gòu)的相似程度,以此評估各個研究小組的預測結(jié)果。研究小組的名稱為匿名。
在今年的比賽中,AlphaFold的稱號是“427組”。其預測的許多條目具有驚人的準確性,將近三分之二的預測與實驗所得的結(jié)構(gòu)相當。
針對各種目標蛋白,AlphaFold的GDT中位數(shù)得分為92.4。在難度中等的蛋白質(zhì)上,其他團隊的最佳表現(xiàn)通常在預測準確度上得分75(滿分100),而在AlphaFold則得分大約90,中位數(shù)為87,比下一個最佳預測高25分。
AlphaFold甚至擅長解決楔入細胞膜中的蛋白質(zhì)結(jié)構(gòu),這是許多人類疾病的核心,但眾所周知,這個問題用X射線晶體學都很難解決。醫(yī)學研究理事會分子生物學實驗室的結(jié)構(gòu)生物學家Venki Ramakrishnan稱該結(jié)果“在蛋白質(zhì)折疊問題上取得了驚人的進步。”
Moult介紹,90分以上得分的預測結(jié)果與實驗方法相當。
不過,AlphaFold并非完美勝任所有的預測。在一種由52個小重復片段組成、組裝時會扭曲彼此位置的蛋白質(zhì)上,AlphaFold的預測與實驗結(jié)果之間存在部分差異。
CASP的負責人Moult介紹,無法確定是因為AlphaFold的預測誤差,還是因為實驗的偽像。
此外,AlphaFold的預測與通過核磁共振成像技術(shù)確定的實驗結(jié)構(gòu)的匹配度差,可能是因為AlphaFold將原始數(shù)據(jù)轉(zhuǎn)換為模型的方法需要改進。
再如,AlphaFold的網(wǎng)絡嘗試為蛋白質(zhì)復合物或組中的單個結(jié)構(gòu)建模,因此,與其他蛋白質(zhì)的相互作用扭曲了它們的形狀。
應用
AlphaFold的預測有助于確定Lupas實驗室多年來試圖破解的細菌蛋白質(zhì)的結(jié)構(gòu)
Lupas的研究小組以前曾收集過原始的X射線衍射數(shù)據(jù),但要將這些類似Rorschach的圖案轉(zhuǎn)換為結(jié)構(gòu),則需要了解蛋白質(zhì)的結(jié)構(gòu)信息。Lupas介紹:“在我們花了十年時間嘗試一切之后,427組的模型在半小時內(nèi)為我們提供了結(jié)構(gòu)。”
DeepMind的聯(lián)合創(chuàng)始人兼首席執(zhí)行官Demis Hassabis介紹,AlphaFold可能需要幾天的時間才能預測出蛋白質(zhì)的結(jié)構(gòu),包括對蛋白質(zhì)不同區(qū)域的可靠性估計。但AlphaFold將開放給科學家使用。
Hassabis認為,AlphaFold有望應用于藥物發(fā)現(xiàn)和蛋白質(zhì)設計。
借助AlphaFold,藥物設計人員能夠快速確定危險的新病原體(如SARS-CoV-2)中各種蛋白質(zhì)的結(jié)構(gòu),這是尋找分子以阻止疾病產(chǎn)生的關(guān)鍵步驟。
加州大學伯克利分校的分子神經(jīng)生物學家Stephen Brohawn說,DeepMind對一種叫做Orf3a的蛋白質(zhì)的預測最終與后來通過cryo-EM確定的蛋白質(zhì)非常相似。
AlphaFold的出現(xiàn),可能意味著獲得良好的蛋白質(zhì)結(jié)構(gòu),不再局限于實驗室,而只需要低質(zhì)量的、易于收集的實驗數(shù)據(jù)。比方說,類似蛋白質(zhì)的進化分析等方向之所以能蓬勃發(fā)展,便是因為有大量的基因組數(shù)據(jù)能夠被轉(zhuǎn)化為結(jié)構(gòu)。
科學家評論,AlphaFold能夠幫助人類了解生命基因組中數(shù)千種未溶解蛋白質(zhì)的功能,了解人與人之間因為疾病而產(chǎn)生的基因變異。
AlphaFold的出現(xiàn)也改寫了外界對DeepMind的印象。此前,大家知道DeepMind,一般是因為該團隊使用AI來玩游戲,比如AlphaGo。但如今,AlphaFold涉足生物學領域,例如進行蛋白質(zhì)結(jié)構(gòu)預測,DeepMind也因此向外界傳達了自己的另一種聲音:
不僅能玩圍棋,還能使用AI幫助生命科學的長遠發(fā)展。
責任編輯:lq
-
算法
+關(guān)注
關(guān)注
23文章
4626瀏覽量
93155 -
數(shù)據(jù)庫
+關(guān)注
關(guān)注
7文章
3842瀏覽量
64567 -
DeepMind
+關(guān)注
關(guān)注
0文章
131瀏覽量
10901
原文標題:劃時代的進步!DeepMind第二代AlphaFold破解生物學“五十年難題”,可精準預測蛋白質(zhì)3D結(jié)構(gòu)
文章出處:【微信號:IoT_talk,微信公眾號:醫(yī)健AI掘金志】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論