蛋白質(zhì)晶體通常沒有寶石那般迷人的光澤和魅力,但無論顏值如何每一個(gè)晶體對(duì)科學(xué)家都彌足珍貴。
并非所有的蛋白質(zhì)晶體都像這些在太空中結(jié)晶的晶體一樣帶有彩虹色。但是不管它們是美是丑,科學(xué)家們都視若珍寶
杜克大學(xué)化學(xué)和物理學(xué)教授Patrick Charbonneau和一群來自世界各地的科學(xué)家,與谷歌大腦的研究人員合作,使用最先進(jìn)的機(jī)器學(xué)習(xí)算法來發(fā)現(xiàn)這些珍貴的晶體。他們的工作可以使研究人員更容易地繪制出蛋白質(zhì)結(jié)構(gòu)圖,從而加速藥物的發(fā)現(xiàn)。
Charbonneau說:“每當(dāng)你錯(cuò)過一個(gè)蛋白質(zhì)晶體,因?yàn)樗鼈兎浅:币?,你就有可能錯(cuò)過了一個(gè)重要的生物醫(yī)學(xué)發(fā)現(xiàn)。”
了解蛋白質(zhì)的結(jié)構(gòu)是了解其功能以及設(shè)計(jì)出適合其特定形狀的藥物的關(guān)鍵。但是傳統(tǒng)的確定這些結(jié)構(gòu)的方法,稱為X射線結(jié)晶學(xué),要求先對(duì)蛋白質(zhì)進(jìn)行結(jié)晶。然而結(jié)晶蛋白質(zhì)不是困難,是非常困難。與構(gòu)成鹽和糖等普通晶體的簡單原子和分子不同,蛋白質(zhì)是異常龐大的分子,每個(gè)分子可以包含數(shù)萬個(gè)原子,它們很難排列成構(gòu)成晶體基礎(chǔ)的有序陣列。讓蛋白質(zhì)這樣的物體自己組裝成晶體像極了一個(gè)變魔法的過程。
即使經(jīng)過數(shù)十年的實(shí)踐,科學(xué)家也不得不部分依靠反復(fù)試驗(yàn)試錯(cuò)來獲得蛋白質(zhì)晶體。分離出一種蛋白質(zhì)后,他們將它與數(shù)百種不同類型的液體溶液混合,希望找到正確的配方,使蛋白質(zhì)結(jié)晶。然后,科學(xué)家在顯微鏡下觀察每種混合物的液滴,希望能夠發(fā)現(xiàn)正在生長的最小的晶芽。
“你必須親自去顯微鏡下尋找發(fā)現(xiàn)晶體,那里有一個(gè),這里沒有,那里有一顆,而通常的結(jié)果都是沒有,沒有,沒有?!癈harbonneau說,“不僅雇人做這個(gè)工作花費(fèi)很高,而且人是容易失失誤的。人會(huì)感到疲勞,會(huì)變得粗心,而且會(huì)影響他們其他的工作。”
機(jī)器學(xué)習(xí)軟件搜索點(diǎn)和邊(左),以識(shí)別圖像中溶液液滴的結(jié)晶。它還可以識(shí)別非結(jié)晶固體(中間)和非固體(右邊)。
Charbonneau認(rèn)為,深度學(xué)習(xí)軟件現(xiàn)在能夠識(shí)別照片中人的面孔,即使面孔是模糊的或從側(cè)面抓拍的,那么深度學(xué)習(xí)軟件也許能夠識(shí)別溶液中構(gòu)成晶體的點(diǎn)和邊。
基于這樣的想法,來自學(xué)術(shù)界和工業(yè)界的科學(xué)家聚集在一起,將五十萬張蛋白質(zhì)結(jié)晶實(shí)驗(yàn)圖像收集到一個(gè)名為MARCO的數(shù)據(jù)庫中。根據(jù)人類的評(píng)估,這些數(shù)據(jù)具體說明了溶液中的哪一種物質(zhì)導(dǎo)致了結(jié)晶。
該小組隨后與Google Brain的Vincent Vanhoucke領(lǐng)導(dǎo)的小組合作,應(yīng)用最新的人工智能幫助識(shí)別圖像中的晶體。
用于晶體識(shí)別的深度卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network, CNN),通過不同層的卷積抽取出圖像中的特征,并在最后的輸出中得到不同種類晶體的輸出結(jié)果,以區(qū)分晶體和沉淀,干凈的還是含有雜質(zhì)的。網(wǎng)絡(luò)的輸出為299*299的圖像,通過七層的結(jié)構(gòu)最終得到了輸出結(jié)果。
在數(shù)據(jù)子集上對(duì)深度學(xué)習(xí)軟件進(jìn)行“訓(xùn)練”后,將深度學(xué)習(xí)軟件應(yīng)用到整個(gè)數(shù)據(jù)庫中。人工智能準(zhǔn)確識(shí)別晶體的幾率大約95 %,據(jù)估計(jì),人類發(fā)現(xiàn)晶體的正確率只有85 %。
研究人員對(duì)于取得的結(jié)果十分滿意,他們成功的將卷積網(wǎng)絡(luò)對(duì)于物體的識(shí)別能力遷移到了晶體這樣基于幾何特征的分類任務(wù)中去。
上圖為訓(xùn)練結(jié)果,可以看到實(shí)現(xiàn)了接近94%的測(cè)試準(zhǔn)確率。
其他研究小組已經(jīng)被要求使用人工智能模型和MARCO數(shù)據(jù)集來訓(xùn)練他們自己的機(jī)器學(xué)習(xí)算法,以便在蛋白質(zhì)結(jié)晶實(shí)驗(yàn)中識(shí)別晶體。Charbonneau 表示這些進(jìn)展應(yīng)該會(huì)讓研究人員把更多的時(shí)間放在生物醫(yī)學(xué)發(fā)現(xiàn)上,而不是在觀察樣品找晶體上消耗時(shí)間。?
研究人員們?cè)谖磥碛?jì)劃利用這些數(shù)據(jù)來了解蛋白質(zhì)是如何自己組裝成晶體的,這樣就可以更少的依賴偶然性來實(shí)現(xiàn)蛋白質(zhì)結(jié)晶的“魔法”,從而真正了解其內(nèi)在的物理化學(xué)過程和動(dòng)力學(xué)機(jī)制。
-
人工智能
+關(guān)注
關(guān)注
1791文章
47282瀏覽量
238534 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8418瀏覽量
132655
原文標(biāo)題:還在顯微鏡里大海撈針?機(jī)器學(xué)習(xí)助力高效準(zhǔn)確尋找全新蛋白質(zhì)結(jié)晶
文章出處:【微信號(hào):thejiangmen,微信公眾號(hào):將門創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論