01
研究動(dòng)機(jī)
藥物設(shè)計(jì)(Drug Design)旨在針對(duì)給定的生物靶點(diǎn)(通常為蛋白質(zhì)口袋)提供符合設(shè)計(jì)要求的候選分子。傳統(tǒng)藥物設(shè)計(jì)方法,使用虛擬篩選技術(shù)從大規(guī)模藥物庫中檢索符合要求的候選,但由于需要篩選的分子數(shù)目十分龐大(大約為1033),這些方法既耗時(shí)也無法提供除分子庫之外的新候選分子。
近年來,由于深度生成模型具有設(shè)計(jì)速度快且能提供新穎分子的特點(diǎn),有一系列工作嘗試使用深度生成模型進(jìn)行藥物設(shè)計(jì),展現(xiàn)出具有潛力的性能。根據(jù)分子表示的維度,它們主要可分為兩類:基于一維/二維的分子設(shè)計(jì)以及基于三維的分子設(shè)計(jì)。對(duì)于前者,它們將分子表示為一維SMILES序列或二維分子圖,忽視了生物靶點(diǎn)與藥物發(fā)生在三維空間的交互信息。此外,這些方法還依賴于昂貴且稀少的濕實(shí)驗(yàn)數(shù)據(jù),這嚴(yán)重地限制了它們的應(yīng)用范圍與設(shè)計(jì)性能;對(duì)于后者,它們直接建模三維的藥物分子,因此具有利用交互信息設(shè)計(jì)分子的能力,然而它們,或同樣需要實(shí)驗(yàn)數(shù)據(jù),或依賴耗時(shí)的分子對(duì)接模擬(Molecule Docking)提供監(jiān)督信號(hào),使得它們需要在設(shè)計(jì)性能與設(shè)計(jì)效率上進(jìn)行取舍??偟膩碚f,藥物設(shè)計(jì)面臨著“擺脫實(shí)驗(yàn)數(shù)據(jù)依賴”以及“在保證設(shè)計(jì)性能的前提下,提高設(shè)計(jì)效率”兩個(gè)挑戰(zhàn)。
圖1:DESERT為指定蛋白質(zhì)口袋設(shè)計(jì)藥物的示意圖
面對(duì)這兩個(gè)挑戰(zhàn),我們基于“結(jié)構(gòu)決定性質(zhì)”的生物學(xué)原理提出了DESERT(Drug Design by Sketching and Generating)——零樣本三維藥物設(shè)計(jì)方法。具體來說,根據(jù)該生物學(xué)原理,我們假設(shè)當(dāng)分子形狀與給定的蛋白質(zhì)口袋互補(bǔ)時(shí),對(duì)應(yīng)的分子與蛋白將具有令人滿意的生物活性。基于這樣的先驗(yàn)知識(shí),DESERT采用“先描繪再生成”的策略將藥物設(shè)計(jì)分為兩個(gè)過程(如圖1所示):對(duì)于“描繪”過程,我們使用啟發(fā)式方法通過采樣獲得合理的分子形狀,對(duì)于“生成”過程,我們利用預(yù)訓(xùn)練的生成模型來生成填充分子形狀的三維分子。值得注意地是,在預(yù)訓(xùn)練過程中,我們只利用了大規(guī)模的非實(shí)驗(yàn)數(shù)據(jù)庫,因此DESERT可以擺脫對(duì)實(shí)驗(yàn)數(shù)據(jù)的依賴。同時(shí),DESERT不需要使用對(duì)接模擬提供模型訓(xùn)練的監(jiān)督信號(hào),因此在設(shè)計(jì)效率上也具有優(yōu)勢(shì)。
02
貢獻(xiàn)
1.我們提出了DESERT——一種新穎的零樣本三維分子設(shè)計(jì)方法
2.方法利用海量的非實(shí)驗(yàn)數(shù)據(jù)進(jìn)行訓(xùn)練擺脫了對(duì)昂貴且稀少的實(shí)驗(yàn)數(shù)據(jù)的依賴
3.達(dá)到了目前最先進(jìn)的藥物設(shè)計(jì)水平,并比之前的先進(jìn)方法在設(shè)計(jì)效率上快了20倍
03
解決方法
圖2:DESERT藥物設(shè)計(jì)方法總覽
圖2是DESERT方法的總覽圖,正如之前提到,DESERT將藥物設(shè)計(jì)分為了“描繪”(Sketching)與“生成”(Generating)兩步:對(duì)于“描繪”步驟,它負(fù)責(zé)獲取合理的分子形狀。根據(jù)獲取形狀的來源,DESERT可以復(fù)用已有的藥物的形狀,稱為“基于配體的描繪”(Ligand-based Sketching,如圖2(b)所示),同樣也可以不使用已有藥物,直接根據(jù)蛋白質(zhì)口袋進(jìn)行“描繪”,稱為“基于口袋的描繪”(Pocket-based Sketching,如圖2(c)所示)。而在“生成”步驟中,DESERT利用Shape2Mol模型,根據(jù)“描繪”得到的分子形狀,進(jìn)一步生成填充形狀的三維分子(如圖2(b)(c)所示),其中Shape2Mol模型使用海量的非實(shí)驗(yàn)數(shù)據(jù)進(jìn)行訓(xùn)練(如圖2(a)所示)。
圖3:“基于口袋的描繪”的二維示意圖
具體介紹“描繪”步驟。對(duì)于"基于配體的描繪",由于給定了已知藥物,我們可以簡(jiǎn)單地復(fù)用已有藥物的分子形狀作為“描繪”的結(jié)果。對(duì)于“基于口袋的描繪”,情況相對(duì)復(fù)雜,因?yàn)榈鞍踪|(zhì)口袋通常要比可能的藥物分子大得多,直接利用蛋白質(zhì)口袋的形狀作為“描述”結(jié)果并不合理,但我們也觀察到,藥物分子在蛋白口袋中的分布集中于接近口袋表面的區(qū)域(只有這樣分子才能和蛋白質(zhì)形成化學(xué)作用),基于以上結(jié)論,我們提出使用啟發(fā)式方法從蛋白質(zhì)口袋中采樣合理的分子形狀。具體來說,如圖3所示,我們使用一個(gè)“種子形狀”逐漸與“蛋白口袋”進(jìn)行相交,當(dāng)相交部分的體積達(dá)到閾值后(已有藥物的體積均值),我們將相交的部分作為“描繪”的結(jié)果。通過這樣的方法,獲得的偽分子形狀可以具有合適的體積大小同時(shí)也滿足分布在靠近口袋表面區(qū)域的要求。
圖4:Shape2Mol的模型架構(gòu)圖
在“生成”階段,DESERT借助預(yù)訓(xùn)練模型Shape2Mol將分子形狀“翻譯”為高質(zhì)量分子。圖4為模型Shape2Mol的架構(gòu),其由“形狀編碼器”(Shape Encoder)和“三維分子解碼器”(3D Molecule Decoder)組成,輸入為分子形狀的三維圖像,輸出為契合該形狀的三維分子。訓(xùn)練Shape2Mol時(shí),我們從ZINC數(shù)據(jù)庫(包含十億非實(shí)驗(yàn)獲得的三維分子)中采樣了一億類藥分子作為訓(xùn)練集。
圖5:獲取分子形狀的體素化表示
對(duì)于Shape2Mol中的“形狀編碼器”,我們的輸入為分子形狀的三維圖像,即體素化(體素類似于二維圖像中的像素,不同的是體素對(duì)應(yīng)于三維物體)后的分子形狀,圖5展示了獲取三維圖像的流程。對(duì)于模型的結(jié)構(gòu),我們基于廣泛被用于二維圖像處理的ViT模型進(jìn)行了擴(kuò)展,具體地,將該模型的二維圖像補(bǔ)丁升級(jí)為了三維圖像補(bǔ)丁,以用于處理三維物體。
圖6:將分子轉(zhuǎn)換為目標(biāo)序列
對(duì)于Shape2Mol的“三維分子解碼器”,我們將分子轉(zhuǎn)換為序列的形式(轉(zhuǎn)換成序列,是因?yàn)槟芊奖愕剡M(jìn)行概率建模,此外我們還發(fā)現(xiàn)在“令牌化”后,許多分子本身就已經(jīng)是序列了)對(duì)模型進(jìn)行訓(xùn)練。轉(zhuǎn)換過程分為“令牌化”(Tokenization)和“線性化”(Linearization)兩步:對(duì)于“令牌化”,我們結(jié)合分子切分規(guī)則BRICS,將分子拆解成多個(gè)片段,如圖6所示,經(jīng)過“令牌化”后,分子從圖狀結(jié)構(gòu)被轉(zhuǎn)化成了樹狀結(jié)構(gòu)。為了進(jìn)一步降低建模難度,我們通過“線性化”將樹狀結(jié)構(gòu)最終轉(zhuǎn)換成序列結(jié)構(gòu),具體地,我們依照深度優(yōu)先的原則對(duì)樹進(jìn)行遍歷,每當(dāng)進(jìn)入/離開子樹時(shí),分別加入特殊符號(hào)[BOB]和[EOB]到返回序列中。
模型訓(xùn)練的目標(biāo)函數(shù)為交叉熵?fù)p失。編碼器與解碼器都具有12層Transformer層,模型維度為1024維,模型的參數(shù)大小為6億5千萬。在訓(xùn)練Shape2Mol時(shí),使用0.1的Dropout,2048的批大小,最大訓(xùn)練步數(shù)為30萬步,優(yōu)化器為AdamW以5e-4的學(xué)習(xí)率、1e-2的權(quán)重衰減以及4000步的warmup設(shè)置。訓(xùn)練使用了32塊V100 GPU,訓(xùn)練時(shí)長(zhǎng)為2周。
04
實(shí)驗(yàn)
依照前人工作,我們選取了12個(gè)具有代表性的蛋白口袋作為設(shè)計(jì)靶點(diǎn),并選取了多個(gè)一維/二維以及三維的先進(jìn)模型作為比較對(duì)象。對(duì)于前者,由于需要使用濕實(shí)驗(yàn)測(cè)定的生物活性數(shù)據(jù),我們只在2個(gè)能找到活性數(shù)據(jù)的靶點(diǎn)上進(jìn)行了測(cè)試。關(guān)于量化指標(biāo),我們使用了6個(gè)被廣泛應(yīng)用的評(píng)價(jià)指數(shù),從多個(gè)方面衡量模型設(shè)計(jì)的候選分子的質(zhì)量。
表1:藥物設(shè)計(jì)模型的性能比較?!硎驹礁咴胶?,↓表示約低越好
表1展示了我們的方法DESERT在分子設(shè)計(jì)質(zhì)量上已經(jīng)超越了之前的最佳水平,達(dá)到了目前最先進(jìn)的性能。特別是與基于監(jiān)督學(xué)習(xí)的三維分子設(shè)計(jì)模型liGAN以及3D SBDD相比,我們的無監(jiān)督方法取得了更優(yōu)秀的性能,這表明當(dāng)前稀少的實(shí)驗(yàn)數(shù)據(jù)限制了模型設(shè)計(jì)藥物分子的質(zhì)量,利用海量的非實(shí)驗(yàn)數(shù)據(jù)可以帶來可觀的提升。
圖7:不同設(shè)計(jì)方法設(shè)計(jì)質(zhì)量與設(shè)計(jì)速度的對(duì)比(以蛋白3FI2的靶點(diǎn)為例)
在設(shè)計(jì)速度上,如圖7所示,DESERT不使用耗時(shí)的分子對(duì)接模擬提供模型監(jiān)督信號(hào),并且只需要經(jīng)過一次預(yù)訓(xùn)練過程,與之對(duì)比,之前最先進(jìn)的方法GEKO則需要頻繁地調(diào)用對(duì)接模擬進(jìn)行模型訓(xùn)練,且對(duì)于不同的口袋靶點(diǎn)需要訓(xùn)練特定的模型參數(shù),因此DESERT顯著地加快了藥物設(shè)計(jì)的速度,同時(shí)還取得了當(dāng)前最佳的分子設(shè)計(jì)質(zhì)量。
圖8:不同預(yù)訓(xùn)練配置的比較
針對(duì)預(yù)訓(xùn)練生成模型Shape2Mol,我們比較了不同預(yù)訓(xùn)練配置對(duì)于模型質(zhì)量的影響,主要包括訓(xùn)練數(shù)據(jù)集大小以及模型參數(shù)量的影響。如圖8所示,增大模型參數(shù)量顯著地提升模型的質(zhì)量,而增大訓(xùn)練數(shù)據(jù)集,在數(shù)據(jù)集達(dá)到中等規(guī)模后出現(xiàn)了性能飽和現(xiàn)象,我們認(rèn)為可能的原因?yàn)楫?dāng)前從形狀到分子的任務(wù)相對(duì)容易,模型在使用中等規(guī)模的數(shù)據(jù)后就能捕獲兩者的映射關(guān)系。
圖9:“描繪”分子形狀數(shù)量對(duì)設(shè)計(jì)質(zhì)量影響
針對(duì)“描繪”分子形狀的步驟,我們探索了采樣的分子形狀數(shù)量對(duì)分子設(shè)計(jì)質(zhì)量的影響。如圖9所示,當(dāng)形狀數(shù)量增多時(shí),DESERT能提供更為優(yōu)質(zhì)的候選分子,這是因?yàn)椴蓸痈嗟胤肿有螤钅芨鼮槌浞值靥剿髡麄€(gè)蛋白質(zhì)口袋,找到更多合理的偽分子形狀。
除了以上實(shí)驗(yàn),我們還對(duì)DESERT的“描繪”以及“生成”步驟做了更多的探索分析實(shí)驗(yàn),包括:訓(xùn)練時(shí)是否使用噪聲對(duì)抗訓(xùn)練,是否需要將連續(xù)的模型預(yù)測(cè)目標(biāo)離散化,結(jié)合蛋白質(zhì)的化學(xué)信息帶來的影響等,此外我們還將DESERT應(yīng)用到了一個(gè)更大的測(cè)試數(shù)據(jù)集上,獲得了與表1相近的結(jié)果。具體的實(shí)驗(yàn)圖表及分析參見正式的會(huì)議文章。
圖10:對(duì)比之前模型的生成樣例,可以看到DESERT設(shè)計(jì)的分子結(jié)構(gòu)更合理。
05
總結(jié)
針對(duì)藥物設(shè)計(jì)中“擺脫實(shí)驗(yàn)數(shù)據(jù)依賴”以及“提升設(shè)計(jì)效率”的挑戰(zhàn),我們提出了一種新穎的零樣本藥物設(shè)計(jì)方法DESERT,它將藥物設(shè)計(jì)分為“描繪”與“生成”兩個(gè)階段,并使用分子形狀進(jìn)行橋接。由于方法只需要大規(guī)模的非實(shí)驗(yàn)數(shù)據(jù)進(jìn)行訓(xùn)練,DESERT擺脫了對(duì)實(shí)驗(yàn)數(shù)據(jù)的依賴,同時(shí)因?yàn)椴恍枰獙?duì)接模擬提供監(jiān)督信號(hào),方法的設(shè)計(jì)效率也有明顯地優(yōu)勢(shì)。通過實(shí)驗(yàn),我們展示了DESERT在分子設(shè)計(jì)質(zhì)量上達(dá)到了先進(jìn)水平,同時(shí)對(duì)比之前的先進(jìn)模型,在設(shè)計(jì)速度上也有明顯提升。
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7029瀏覽量
89034 -
模型
+關(guān)注
關(guān)注
1文章
3243瀏覽量
48840 -
三維圖像
+關(guān)注
關(guān)注
2文章
19瀏覽量
9793
原文標(biāo)題:NIPS'22 | 南大提出:通過“描繪”和“生成”的零樣本藥物設(shè)計(jì)
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論