任何人工智能的成功實(shí)施都依賴于以正確的方式提出正確的問(wèn)題。這就是英國(guó)人工智能公司DeepMind(Alphabet的子公司)在利用其神經(jīng)網(wǎng)絡(luò)解決生物學(xué)的重大挑戰(zhàn)之一蛋白質(zhì)折疊(protein-folding)問(wèn)題時(shí)所取得的成就。它的神經(jīng)網(wǎng)絡(luò)被稱(chēng)為AlphaFold,能夠根據(jù)蛋白質(zhì)的氨基酸序列以前所未有的準(zhǔn)確度預(yù)測(cè)蛋白質(zhì)的三維結(jié)構(gòu)。
AlphaFold在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的第14個(gè)臨界評(píng)估(14th Critical Assessment of protein Structure Prediction,CASP14)中的預(yù)測(cè)對(duì)于大多數(shù)蛋白質(zhì)來(lái)說(shuō)都精確到一個(gè)原子的寬度之內(nèi)。競(jìng)爭(zhēng)包括盲目地預(yù)測(cè)蛋白質(zhì)的結(jié)構(gòu),這些蛋白質(zhì)是最近才被實(shí)驗(yàn)確定的,還有一些尚待確定。
蛋白質(zhì)被稱(chēng)為生命的組成部分,由20種不同的氨基酸以不同的組合和序列組成。蛋白質(zhì)的生物學(xué)功能與其三維結(jié)構(gòu)密切相關(guān)。因此,對(duì)最終折疊形狀的了解對(duì)于理解特定蛋白質(zhì)是如何工作的至關(guān)重要,例如它們?nèi)绾闻c其他生物分子相互作用,如何控制或調(diào)整,等等。歐洲生物信息學(xué)研究所(European Bioinformatics Institute)榮譽(yù)主任Janet M. Thornton說(shuō):“能夠根據(jù)序列預(yù)測(cè)結(jié)構(gòu)是蛋白質(zhì)設(shè)計(jì)真正邁出的第一步?!彼诹私庵虏〔≡w方面也有巨大的益處。
預(yù)測(cè)蛋白質(zhì)的三維結(jié)構(gòu)是一場(chǎng)計(jì)算噩夢(mèng)(computational nightmare)。1969年,Cyrus Levinthal估計(jì),一種蛋白質(zhì)有10300種可能的構(gòu)象組合,這將需要比已知宇宙的年齡更長(zhǎng)的時(shí)間來(lái)用蠻力計(jì)算進(jìn)行評(píng)估。而AlphaFold則可以在幾天內(nèi)就完成。
隨著科學(xué)的發(fā)展進(jìn)步,AlphaFold的發(fā)現(xiàn)與James Watson和Francis Crick的DNA雙螺旋模型(DNA double helix model),或者最近Jennifer Doudna和Emmanuelle Charpentier的CRISPR-Cas9基因組編輯技術(shù)一樣,在科學(xué)上取得了突破。
幾年前,曾有一個(gè)團(tuán)隊(duì)試圖教人工智能去掌握一個(gè)有3000年歷史的游戲,但最終如何訓(xùn)練人工智能來(lái)回答困擾生物學(xué)家50年的問(wèn)題呢?數(shù)據(jù)科學(xué)家、人工智能公司PureStrategy的創(chuàng)始人Briana Brownell說(shuō),這就是人工智能的妙處:同樣的算法可以用于非常不同的事情。
“每當(dāng)你遇到問(wèn)題,你想用人工智能來(lái)解決時(shí),”她說(shuō),“你需要弄清楚如何將正確的數(shù)據(jù)輸入模型,然后將正確的輸出類(lèi)型轉(zhuǎn)換回現(xiàn)實(shí)世界。”
她說(shuō),DeepMind的成功與其說(shuō)是挑選正確的神經(jīng)網(wǎng)絡(luò)的功能,不如說(shuō)是“它們選擇了如何以足夠復(fù)雜的方式設(shè)置問(wèn)題,以神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的建模能夠真正回答問(wèn)題?!?/p>
2018年,當(dāng)DeepMind在CASP13上發(fā)現(xiàn)了他們的人工智能的一次迭代時(shí) -- AlphaFold顯示出了希望 -- 在所有參與者中實(shí)現(xiàn)了最高的精確度。該團(tuán)隊(duì)訓(xùn)練它從頭開(kāi)始模擬目標(biāo)形狀,而不使用先前已解決的蛋白質(zhì)作為模板。
到2020年,他們?cè)谌斯ぶ悄苤胁渴鹆诵碌?a target="_blank">深度學(xué)習(xí)架構(gòu),使用了一種經(jīng)過(guò)端到端培訓(xùn)的注意力模型。深度學(xué)習(xí)網(wǎng)絡(luò)中的注意力指的是管理和量化輸入和輸出元素之間以及輸入元素之間相互依賴關(guān)系的組件。
除了具有未知結(jié)構(gòu)的蛋白質(zhì)序列的數(shù)據(jù)庫(kù)外,該系統(tǒng)還接受了大約170000個(gè)已知實(shí)驗(yàn)蛋白質(zhì)結(jié)構(gòu)的公共數(shù)據(jù)集的訓(xùn)練。
Brownell說(shuō):“如果你看看他們兩年前,和這次不同的是,人工智能系統(tǒng)的結(jié)構(gòu)是不同的。這一次,他們發(fā)現(xiàn)了如何將真實(shí)世界轉(zhuǎn)化為數(shù)據(jù)……并創(chuàng)建了一個(gè)可以轉(zhuǎn)換回現(xiàn)實(shí)世界的輸出?!?/p>
像任何人工智能系統(tǒng)一樣,AlphaFold可能需要處理訓(xùn)練數(shù)據(jù)中的偏差。例如,Brownell說(shuō),AlphaFold使用的是蛋白質(zhì)結(jié)構(gòu)的可用信息,這些信息已經(jīng)通過(guò)其他方式進(jìn)行了測(cè)量。然而,也有許多蛋白質(zhì)具有未知的三維結(jié)構(gòu)。因此,她說(shuō),可以想象,一種偏見(jiàn)可能會(huì)蔓延到那些我們有更多結(jié)構(gòu)數(shù)據(jù)的蛋白質(zhì)。
Thornton說(shuō),很難預(yù)測(cè)AlphaFold的突破要花多長(zhǎng)時(shí)間才能轉(zhuǎn)化為實(shí)際應(yīng)用。她說(shuō):“我們只有人體20000種蛋白質(zhì)中約10%的實(shí)驗(yàn)結(jié)構(gòu)。一個(gè)強(qiáng)大的人工智能模型可以揭示其他90%的結(jié)構(gòu)?!?/p>
除了增加我們對(duì)人類(lèi)生物學(xué)和健康的了解,她補(bǔ)充道:“這是朝著……構(gòu)建實(shí)現(xiàn)特定功能的蛋白質(zhì)邁出的真正的第一步。從蛋白質(zhì)療法到生物燃料或食用塑料的酶,可能性是無(wú)窮的?!?/p>
責(zé)任編輯:haq
-
AI
+關(guān)注
關(guān)注
87文章
30998瀏覽量
269303 -
人工智能
+關(guān)注
關(guān)注
1791文章
47352瀏覽量
238771
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論