寫在開頭
近期,我有幸參加了多場既包括學(xué)術(shù)研討又涵蓋業(yè)界實踐的會議,這些會議都集中討論了人工智能與科學(xué)的結(jié)合。而通過這些深入的交流讓我深刻體會到,在科學(xué)技術(shù)領(lǐng)域中,尤其是‘AI for Science(AI4S)’和‘Science for AI(S4AI)’這兩個方向,人工智能的重要性正日益凸顯,并且發(fā)展勢頭迅猛。為了更深入地理解這一領(lǐng)域的最新動態(tài)和應(yīng)用,我投入了大量的時間和精力進(jìn)行了學(xué)習(xí)和研究。在這個過程中,我意外發(fā)現(xiàn)了一篇名為《How to do impactful research in artificialintelligencefor chemistry and materials science》[1]的綜述文章,它不僅提供了一個關(guān)于人工智能在化學(xué)和材料科學(xué)領(lǐng)域應(yīng)用的全面的視角,而且還涵蓋了當(dāng)前的研究進(jìn)展、面臨的挑戰(zhàn)以及未來的發(fā)展方向等內(nèi)容。
文章首先深入探討了人工智能在化學(xué)和材料科學(xué)領(lǐng)域中的應(yīng)用現(xiàn)狀及未來發(fā)展趨勢。然后列舉了機器學(xué)習(xí)在化學(xué)領(lǐng)域的多種應(yīng)用,包括從預(yù)測分子性質(zhì)到設(shè)計合成路線,再到模擬和分析,覆蓋了化學(xué)研究的諸多方面。此外,論文還分析了機器學(xué)習(xí)研究者如何看待和解決具體的化學(xué)問題,其中將這些問題轉(zhuǎn)化為機器學(xué)習(xí)的經(jīng)典問題,如回歸、分類、生成模型和智能體等,并探討了基準(zhǔn)測試、跨學(xué)科合作以及深度學(xué)習(xí)中的“慘痛的教訓(xùn)”等關(guān)鍵主題。
更重要的是,論文指出了選擇有影響力的機器學(xué)習(xí)研究問題的標(biāo)準(zhǔn),以及進(jìn)行有效研究所需的步驟——包括數(shù)據(jù)收集、問題框架制定、方法選擇和結(jié)果評估。文章強調(diào)機器學(xué)習(xí)在化學(xué)領(lǐng)域發(fā)展的三個關(guān)鍵方向:廣度、深度和規(guī)模,并呼吁化學(xué)家與機器學(xué)習(xí)研究者之間的緊密合作,以解決更復(fù)雜和具挑戰(zhàn)性的科學(xué)問題。
接下來,我將逐步分享這篇綜述文獻(xiàn)的內(nèi)容。由于編譯后的內(nèi)容篇幅較長,因此我計劃將其分為三個部分來逐一呈現(xiàn)。首先是第一部分編譯的內(nèi)容,如下:
第一部分編譯后的內(nèi)容:
摘要:機器學(xué)習(xí)已經(jīng)廣泛地影響了多個科學(xué)領(lǐng)域,包括化學(xué)和材料科學(xué)。盡管機器學(xué)習(xí)已經(jīng)產(chǎn)生了顯著的影響,但其潛力和成熟度尚未完全發(fā)揮出來。在這篇文章中,我們首先概述了機器學(xué)習(xí)在化學(xué)領(lǐng)域中各種問題在當(dāng)前的應(yīng)用情況。然后,我們討論了機器學(xué)習(xí)研究者應(yīng)該如何看待和處理該領(lǐng)域的問題。最后,我們提出了在化學(xué)研究中最大化機器學(xué)習(xí)影響的一些思考和看法。
1.引言
機器學(xué)習(xí)已經(jīng)在化學(xué)領(lǐng)域得到了廣泛的應(yīng)用,并且這種應(yīng)用正迅速增長。盡管如此,我們認(rèn)為ML仍有更大的發(fā)展空間和應(yīng)用潛力。目前的工作尚未充分發(fā)揮機器學(xué)習(xí)在推動化學(xué)理論和應(yīng)用方面的廣度、深度和規(guī)模潛力。此外,ML能夠解決的實際問題類型,如假設(shè)生成或促進(jìn)科學(xué)理解的內(nèi)化,依然是活躍的研究領(lǐng)域或未解決的問題。
為了全面地了解這一領(lǐng)域,我們首先需要對化學(xué)問題進(jìn)行分類,這些問題涵蓋了預(yù)測、生成、合成、力場、光譜學(xué)、反應(yīng)優(yōu)化和基礎(chǔ)模型等多個領(lǐng)域。接著,我們介紹了機器學(xué)習(xí)中涉及的問題類型,并展示了化學(xué)問題如何被重新構(gòu)思為機器學(xué)習(xí)問題的實例。通過這些標(biāo)準(zhǔn)問題,有助于整理出機器學(xué)習(xí)提供的算法和理論工具。在深入探討這一視角的基礎(chǔ)上,我們還研究了機器學(xué)習(xí)和化學(xué)社區(qū)在實踐和價值觀上的差異,強調(diào)了合作和交叉啟發(fā)的觀點如何推動這兩個領(lǐng)域的發(fā)展。有了這些基礎(chǔ),我們可以討論如何選擇在化學(xué)中應(yīng)用機器學(xué)習(xí)的有影響力的應(yīng)用,并推薦了我們在這一領(lǐng)域研究的良好實踐。
2.數(shù)據(jù)驅(qū)動的化學(xué):問題分類
對于化學(xué),以及科學(xué)總體而言,都涉及以某種形式存在的數(shù)據(jù)。因此,可以毫不奇怪地認(rèn)為,數(shù)據(jù)科學(xué)對化學(xué)是至關(guān)重要的。作為數(shù)據(jù)科學(xué)的一個子領(lǐng)域,機器學(xué)習(xí)已經(jīng)成為我們學(xué)科領(lǐng)域不可或缺的工具。因此,對迄今為止的重要工作進(jìn)行分類和組織變得尤其重要了。
我們提出了一種關(guān)于機器學(xué)習(xí)在化學(xué)問題中的應(yīng)用分類法。如圖1所示,機器學(xué)習(xí)被用于通過對化學(xué)結(jié)構(gòu)、性質(zhì)、3D結(jié)構(gòu)與動力學(xué)以及實驗數(shù)據(jù)進(jìn)行編碼和解碼,從而解決各種化學(xué)問題。由于篇幅、時間和重點的限制,這并不是一篇全面的綜述,而是一個強調(diào)機器學(xué)習(xí)在化學(xué)領(lǐng)域多樣化應(yīng)用的機會。我們不會詳細(xì)介紹機器學(xué)習(xí)算法。如需詳盡的評估,請參見其他文獻(xiàn)。
圖1:與機器學(xué)習(xí)相關(guān)的化學(xué)問題分類法。每個箭頭表示機器學(xué)習(xí)的應(yīng)用,并展示這些內(nèi)容之間的關(guān)系。基礎(chǔ)模型和自動化實驗室涵蓋所有這些領(lǐng)域。
2.1 從結(jié)構(gòu)到性質(zhì):性質(zhì)預(yù)測
2.1.1 化學(xué)信息學(xué)與定量構(gòu)效關(guān)系。
化學(xué)領(lǐng)域在“機器學(xué)習(xí)”這一術(shù)語廣泛使用之前,就已經(jīng)開始利用數(shù)據(jù)來預(yù)測化學(xué)結(jié)構(gòu)的性質(zhì)。這個領(lǐng)域最初被稱為化學(xué)信息學(xué)。這些工具旨在存儲、檢索和建?;瘜W(xué)結(jié)構(gòu)。早期的例子可以追溯到1957年,當(dāng)時進(jìn)行的是數(shù)據(jù)庫中的子結(jié)構(gòu)搜索,隨后便是簡單的多元回歸,用于學(xué)習(xí)定量結(jié)構(gòu)-活性關(guān)系(QSAR),即分子描述符(如哈米特(Hammett)常數(shù)和分配系數(shù))與生物活性之間的關(guān)系。這些研究主要集中在性質(zhì)與活性之間的關(guān)系上——最早的結(jié)構(gòu)-活性關(guān)系涉及局部解釋,分析了環(huán)上的取代基如何影響活性,這種分析可以通過子結(jié)構(gòu)分析推廣到許多不同的骨架。最終,計算機自動將分子結(jié)構(gòu)編碼為指紋——一種位向量,用于存儲分子中存在或缺失的多種子結(jié)構(gòu)。這些指紋在編碼分子結(jié)構(gòu)以預(yù)測簡單模型(如支持向量機)中的分子活性方面非常有用。
2.1.2 使用專家描述符表示分子
盡管化學(xué)家對官能團(tuán)對分子性質(zhì)的影響有一定的概念理解,但將這些信息有效傳達(dá)給模型是確保模型具備預(yù)測能力的關(guān)鍵。專家描述符將來自實驗或理論知識的化學(xué)信息注入到模型特征中,并在數(shù)據(jù)量較少的情況下取得了良好的預(yù)測性能。這些專家描述符在模型訓(xùn)練集之外也具有很好的泛化能力,因為這些特征蘊含了豐富的化學(xué)知識。早在1937年,哈米特(Hammett)就擬合了σ參數(shù),以預(yù)測化學(xué)取代基對反應(yīng)性的影響。此外,組分貢獻(xiàn)方法假設(shè)結(jié)構(gòu)組件或功能化在許多不同分子中表現(xiàn)相同,將這些組件參數(shù)化為可用于預(yù)測分子性質(zhì)的數(shù)值特征。自那時起,該領(lǐng)域發(fā)展出了涉及分子指紋識別技術(shù)以及用于預(yù)測的二維和三維的信息。近年來,由于均相過渡金屬催化劑的性質(zhì)受到其附加配體強烈影響,因此對這些膦配體的結(jié)構(gòu)特征和電子特征進(jìn)行參數(shù)化也在催化劑性質(zhì)預(yù)測方面取得了成功?;仡櫄v史模型,最近的研究還成功地利用密度泛函理論(DFT)和機器學(xué)習(xí)來學(xué)習(xí)哈米特(Hammett)參數(shù)。
2.1.3 學(xué)習(xí)化學(xué)表示
隨著計算硬件的進(jìn)步,模型變得愈加復(fù)雜,從簡單的線性回歸模型發(fā)展到諸如自編碼器、生成對抗網(wǎng)絡(luò)、圖神經(jīng)網(wǎng)絡(luò)和變換器等復(fù)雜架構(gòu)。我們不再依賴化學(xué)家直觀判斷分子的最佳表示方式,而是可以利用模型自動學(xué)習(xí)并挖掘大量數(shù)據(jù)中的復(fù)雜模式,以進(jìn)行性質(zhì)預(yù)測。在一定程度的抽象下,這種方法往往忽視三維信息或波函數(shù)特性,分子可以自然地表示為圖,其中原子是節(jié)點,鍵是邊。通過將指紋的概念從離散比特向量擴展到連續(xù)特征向量,我們提出了圖神經(jīng)網(wǎng)絡(luò),以自動學(xué)習(xí)重要子結(jié)構(gòu)的連續(xù)表征,并在分子性質(zhì)預(yù)測任務(wù)中取得了最先進(jìn)的性能。這些表征已廣泛應(yīng)用于多個領(lǐng)域,例如用于分子的嗅覺性質(zhì)的機器學(xué)習(xí),以及在催化中預(yù)測吸附物的吸附性質(zhì)。
雖然構(gòu)建圖所需的簡單原子特征和鍵特征可以迅速生成,但要進(jìn)行預(yù)測的性質(zhì)卻更難以獲取,尤其是在高質(zhì)量和高準(zhǔn)確度方面。由于學(xué)習(xí)到的表示通常需要大量的數(shù)據(jù),因此復(fù)雜的架構(gòu)在從典型實驗設(shè)置中收集到的少量數(shù)據(jù)上表現(xiàn)并不理想。為了填補這一空白,研究人員創(chuàng)建了分子基準(zhǔn),以便能夠正確評估這些學(xué)習(xí)到的表示的質(zhì)量。這些基準(zhǔn)包含了來自文獻(xiàn)的數(shù)據(jù)任務(wù),涉及預(yù)測生物行為以及物理化學(xué)性質(zhì)或量子化學(xué)性質(zhì),并提供了一個共同的平臺,使不同的機器學(xué)習(xí)架構(gòu)能夠以多種方式利用相同的數(shù)據(jù)進(jìn)行性質(zhì)預(yù)測。
為了提升圖嵌入的性能,如果我們對如何調(diào)整嵌入空間以更好地反映輸入之間的距離有一些直觀理解,就可以進(jìn)一步優(yōu)化這些嵌入。這可以包括一些策略,例如使嵌入意識到化學(xué)反應(yīng)如何轉(zhuǎn)化這些嵌入,或者采用對比學(xué)習(xí)等方法。最后,對于那些對分子在三維空間中構(gòu)象敏感的任務(wù),將三維表示與固有不足的二維圖結(jié)合起來,已被證明在預(yù)測分子性質(zhì)方面是有效的。
2.1.4 限制和未解決的問題
盡管分子機器學(xué)習(xí)取得了巨大進(jìn)展,但是機器學(xué)習(xí)模型在超出其訓(xùn)練數(shù)據(jù)范圍時的泛化能力仍然有限,這給在新型化學(xué)領(lǐng)域應(yīng)用帶來了困難。有幾種方法可能有助于彌補這些差距。例如,可以使用物理信息模型,這些模型能夠包含一些基本表示,從而幫助模型更好地概括自身的表示,以滿足與自然物理法則相關(guān)的一些對稱性或特性。主動學(xué)習(xí)也是一種強大的工具,它可以通過捕獲計算或?qū)嶒灁?shù)據(jù)來動態(tài)擴展數(shù)據(jù)集,以實現(xiàn)外推。此外,雖然模型在性質(zhì)預(yù)測基準(zhǔn)任務(wù)中的表現(xiàn)逐漸改善,但這些基準(zhǔn)僅代表了化學(xué)任務(wù)的一個小子集,因此它們在其他具體任務(wù)上的表現(xiàn)仍不明確。盡管我們嘗試創(chuàng)建更具代表性的基準(zhǔn),但這仍然不是社區(qū)的主要關(guān)注點。
結(jié)構(gòu)-性質(zhì)模型已被廣泛應(yīng)用于篩選項目中,并實現(xiàn)了一些經(jīng)過實驗驗證的預(yù)測。我們將在第2.2.1節(jié)中討論幾個精選案例研
2.2 從性質(zhì)到結(jié)構(gòu):設(shè)計分子的化學(xué)空間
理性設(shè)計范式分析了結(jié)構(gòu)與性質(zhì)之間的關(guān)系,以便設(shè)計出有前景的分子。而另一種范式提出的問題是:有哪些分子能夠滿足給定的性質(zhì)?解決這個問題被稱為逆向設(shè)計問題。
化學(xué)空間是所有可合成分子的集合,通常認(rèn)為其規(guī)模龐大,至少有10^33到10^60個分子。在這片廣闊的空間中,潛在藥物可能治愈當(dāng)前疾病,而某些假設(shè)材料則可能為實現(xiàn)可持續(xù)的未來提供支持。
2.2.1 虛擬篩選
在導(dǎo)航化學(xué)空間的過程中,一種簡單的方法是首先列出一系列可行的選擇,然后逐步縮減至最佳解決方案。為實現(xiàn)這種轉(zhuǎn)變,實驗上采用了高通量篩選和合成化學(xué)庫中化合物的組合化學(xué)等策略。考慮到化學(xué)空間的巨大規(guī)模,隨意搜索化合物只會產(chǎn)生少量有希望的結(jié)果,導(dǎo)致效率低下,因為廣泛的化學(xué)合成活動的成本往往是高昂的或受限的。這促使了虛擬篩選和計算搜索漏斗作為一種方法,以過濾出不太有可能的化合物,僅留下最佳的候選化合物進(jìn)行合成和測試。在藥物發(fā)現(xiàn)中,計算機輔助的簡單篩選可以排除高分子量或帶有問題官能團(tuán)的化合物,然后再進(jìn)行更為計算密集的對接,以估計結(jié)合親和力,最終縮小到少數(shù)先導(dǎo)化合物。隨著虛擬庫規(guī)模的擴大增加了有希望結(jié)果出現(xiàn)的可能性,這推動了越來越大規(guī)模的篩選活動,同時也需要越來越多的計算資源。例如,在哈佛清潔能源項目中,我們通過分布式志愿者計算進(jìn)行了量子化學(xué)計算,搜索了10^7^個候選分子以尋找高效的有機光伏材料。
類似地,VirtualFlow通過高效利用數(shù)千個CPU核心對超過10億個分子進(jìn)行了對接。隨著化學(xué)庫規(guī)模的增長,所需的計算資源呈線性增加,而評估個別合成構(gòu)件適應(yīng)性的分層方法為突破線性擴展提供了一種途徑。
2.2.2 生成模型的逆向設(shè)計
隨著化學(xué)庫的規(guī)模超過10^15個分子,篩選這些分子在計算上變得極為困難,機器學(xué)習(xí)(ML, Machine Learning)提供了一種在不模擬所有分子的情況下考慮大搜索空間的方法。例如,在一個化學(xué)庫中,許多分子應(yīng)該具有相似的結(jié)構(gòu)和性質(zhì),因此對每個分子進(jìn)行模擬是不必要的。處理這一問題的一種正式方法是先模擬庫中的一部分,然后在這個子集上訓(xùn)練性質(zhì)預(yù)測模型,這些模型應(yīng)能夠推廣到整個庫。由于這些性質(zhì)預(yù)測模型的計算成本低于模擬,因此可以對整個庫進(jìn)行評估,并用于優(yōu)先選擇候選分子進(jìn)行模擬。我們利用這一方法設(shè)計了經(jīng)過實驗驗證的有機發(fā)光二極管(OLEDs)。
然而,機器學(xué)習(xí)的另一種方法則提供了一種考慮所有(或大部分)化學(xué)空間的方式。給定一個以SMILES字符串表示的分子數(shù)據(jù)集,生成模型學(xué)習(xí)生成與該數(shù)據(jù)集相似的字符串。由于生成模型可以考慮任意字符串,它們有潛力生成化學(xué)空間中的任何分子。同時,它們也可以被條件化,以生成具有所需性質(zhì)的分子——本質(zhì)上是逆轉(zhuǎn)性質(zhì)預(yù)測過程。分子生成模型已應(yīng)用于多種模型類別,我們率先使用變分自編碼器(VAEs)來實現(xiàn)這一目的。其他例子包括自回歸模型、生成對抗網(wǎng)絡(luò)(GANs)和強化學(xué)習(xí)等眾多采樣策略。此外,生成模型還擴展到各種表示形式,如SMILES、SELFIES,以及分子圖和片段等。盡管遺傳算法和貝葉斯優(yōu)化等分子優(yōu)化方法有時也被稱為生成模型,但它們并不直接學(xué)習(xí)分子的分布。關(guān)于不同生成模型類別和表示形式的最新綜述可見于Gao等人的研究[2],盡管這一領(lǐng)域正在迅速地發(fā)展。
隨著越來越多的生成模型被提出,基準(zhǔn)測試如GuacaMol和MOSES開始根據(jù)有效性、新穎性、獨特性以及目標(biāo)導(dǎo)向優(yōu)化來評估和比較不同的生成模型。優(yōu)化已成為主要焦點,因此可以將分子設(shè)計視為在分子圖空間內(nèi)對其性質(zhì)進(jìn)行組合優(yōu)化。在這種背景下,一個新的基準(zhǔn)強調(diào)樣本效率,即達(dá)到最佳分子所需進(jìn)行性質(zhì)評估的數(shù)量。此外,我們最近在Tartarus基準(zhǔn)集中提出了更現(xiàn)實的基準(zhǔn)任務(wù),這些任務(wù)依賴于模擬,更加貼近計算資源和實驗資源受限的實際場景。
然而,當(dāng)生成模型超越化學(xué)庫覆蓋整個化學(xué)空間時,它們放寬了合成性的關(guān)鍵約束。這意味著這些生成模型可能會產(chǎn)生一些難以合成和評估的分子。為了克服這個問題,可合成的生成模型在產(chǎn)生新分子時會考慮化學(xué)合成路徑,從而確保所產(chǎn)生的新型分子不僅理論上有效,而且在實踐中也是可合成的。另外,一些方法結(jié)合虛擬庫與生成技術(shù),以確保提出的新型分子始終來自于已有庫。這些方法對于高通量陣列和自動化實驗室尤其重要,因為如果預(yù)測出的新型分子無法在現(xiàn)有平臺上合成,將可能延緩閉環(huán)方法的發(fā)展。
關(guān)于這些進(jìn)展及當(dāng)前領(lǐng)域內(nèi)最新動態(tài),Du等人提供了出色綜述,總結(jié)了該領(lǐng)域最新的發(fā)展與方法。[3]
近年來,生成模型已證明其價值。其中值得注意的是InSilico Medicine公司利用這些模型成功開發(fā)了幾種正在進(jìn)行臨床試驗的新藥。在2019年,我們與InSilico及中國無錫藥明康德公司的研究人員共同展示了利用生成模型在約45天內(nèi)開發(fā)出領(lǐng)先藥物候選者的能力。從那時起,許多研究人員繼續(xù)展示其他使用生成模型進(jìn)行藥物發(fā)現(xiàn)的新案例。例如,Barzilay及其同事采用類似的方法開發(fā)了抗生素。
2.2.3 限制和未解決的問題
雖然這樣的模型能夠輕松生成候選者,但候選者的質(zhì)量取決于能否開發(fā)出一個表現(xiàn)良好且可擴展的成本函數(shù),以對生成模型進(jìn)行條件設(shè)置。此外,這些模型是基于近似度量進(jìn)行訓(xùn)練的,這意味著它們在實際應(yīng)用中的表現(xiàn)仍需評估。因此,評估候選者的可合成性或提供生成候選者的具體步驟至關(guān)重要(見下一節(jié))。
大多數(shù)生成模型的開發(fā)通常以簡單的基準(zhǔn)為目標(biāo),比如預(yù)測log P這樣簡單的性質(zhì)。然而,使用合適的基準(zhǔn)(如Tartarus)進(jìn)行開發(fā),或?qū)⑵湎拗圃诳珊铣傻姆肿蛹戏秶鷥?nèi),比如那些可以通過自動化實驗室合成的分子(參見第2.7節(jié)),仍然是一個挑戰(zhàn)。
2.3 從結(jié)構(gòu)到結(jié)構(gòu):合成規(guī)劃和反應(yīng)條件預(yù)測
合成規(guī)劃——即尋找能夠生成理想目標(biāo)分子的合成途徑——是化學(xué)家們在過去一個多世紀(jì)中面臨的一個持續(xù)挑戰(zhàn),尤其是在藥物發(fā)現(xiàn)、農(nóng)業(yè)化學(xué)或分子材料化學(xué)等“分子世界”領(lǐng)域。這個問題在兩個方面都非常復(fù)雜:首先,給定所有反應(yīng)物、試劑和反應(yīng)條件,預(yù)測特定未見反應(yīng)的結(jié)果至今仍然是一個未解決的問題。其次,即使擁有這樣的“反應(yīng)預(yù)測”工具,尋找可行的多步驟反應(yīng)序列,以便最終從廉價且可商業(yè)獲得的前體合成目標(biāo)分子,還需要在龐大的可能途徑網(wǎng)絡(luò)中進(jìn)行搜索。此外,合成規(guī)劃問題還面臨來自實際需求的額外挑戰(zhàn):效率、成本、廢物產(chǎn)生、可持續(xù)性、安全性和毒性等都是在工業(yè)環(huán)境中特別需要關(guān)注的重要問題。
2.3.1 合成規(guī)劃
合成規(guī)劃通常采用逆合成的方法進(jìn)行,這一方法由諾貝爾獎獲得者E.J. 科里首創(chuàng)。通過利用化學(xué)反應(yīng)性的知識,將目標(biāo)分子逐漸被分解為越來越簡單的前體,最終得到在市場上可購買的起始材料。形式上,這相當(dāng)于一個樹搜索問題。早在1960年代,科里就意識到這種方法非常適合以計算方式進(jìn)行處理。從那時起,已經(jīng)開發(fā)了多種專家系統(tǒng)來指導(dǎo)這一樹搜索過程。
在過去十年里,利用機器學(xué)習(xí)工具箱應(yīng)對這一挑戰(zhàn)取得了顯著進(jìn)展。在這種情況下,關(guān)鍵的“決策策略”通常被視為一個多任務(wù)回歸問題:給定目標(biāo)分子的結(jié)構(gòu),訓(xùn)練一個機器學(xué)習(xí)模型以預(yù)測從反應(yīng)目錄中適用的反應(yīng)。然而,這種符號化的方法需要一個預(yù)定義的包含所有反應(yīng)類型的目錄,通常被稱為反應(yīng)“規(guī)則”或“模板”,這本身又帶來了新的障礙。關(guān)于“反應(yīng)規(guī)則”這一術(shù)語,并沒有一個普遍接受的定義,也沒有明確的程序來從數(shù)據(jù)中提取反應(yīng)規(guī)則。另一方面,“無模板”的方法針對一步反應(yīng)預(yù)測問題,將反應(yīng)預(yù)測視為起始材料圖中的圖編輯,或者解決一個序列到序列的“產(chǎn)品到起始材料”的翻譯任務(wù)。值得注意的是,這些模型(無論是有模板還是無模板)可以在正向方向上進(jìn)行類似的訓(xùn)練,即從起始材料預(yù)測反應(yīng)產(chǎn)物。
這些單步預(yù)測模型用于構(gòu)建樹搜索模型,以解決綜合規(guī)劃問題。在這種情況下,蒙特卡洛樹搜索(Monte-Carlo tree search)通常是首選方法。繼Segler等人的開創(chuàng)性工作和Coley等人的研究之后,就已經(jīng)發(fā)布了多個開源的系統(tǒng)。
2.3.2 反應(yīng)條件的預(yù)測和優(yōu)化
在合成規(guī)劃中,常常被忽視的一點是,僅僅了解一種可能適用的反應(yīng)類型,并不能保證所設(shè)想的中間體或目標(biāo)產(chǎn)品能夠從提議的起始材料中成功合成。產(chǎn)品是否能夠獲得(理想情況下是高產(chǎn)率),在很大程度上取決于通常所稱的反應(yīng)條件:試劑、催化劑、添加劑和溶劑的選擇,連續(xù)參數(shù)(如計量比、溫度和反應(yīng)時間)的具體數(shù)值,以及實驗室中進(jìn)行反應(yīng)時的實際操作細(xì)節(jié)。在理想情況下,一個人工智能輔助工具可以接收一個新的“起始材料到產(chǎn)品”的轉(zhuǎn)化,并輸出所需的反應(yīng)條件。然而,這一目標(biāo)尚未實現(xiàn),主要原因在于反應(yīng)條件涉及廣泛的組合參數(shù)空間,并且通常受到難以模擬的基本物理原理的影響。在實際操作中,反應(yīng)條件往往通過基于文獻(xiàn)先例的“最近鄰?fù)评怼眮磉x擇,這一過程可以是自動化完成,也可能依賴于人類專家的經(jīng)驗。
機器學(xué)習(xí)方法在反應(yīng)條件優(yōu)化方面主要集中于將反應(yīng)產(chǎn)率作為反應(yīng)條件的函數(shù)進(jìn)行回歸建模。在這一背景下,數(shù)據(jù)驅(qū)動方法與物理有機化學(xué)中的回歸技術(shù)相結(jié)合,試圖基于機理考慮來建模反應(yīng)結(jié)果。在高度受限的條件空間中,利用高通量實驗系統(tǒng)生成的數(shù)據(jù)進(jìn)行的純數(shù)據(jù)驅(qū)動監(jiān)督學(xué)習(xí)在產(chǎn)物產(chǎn)率方面顯示出了良好的效果。例如,我們在優(yōu)化與制藥工藝化學(xué)相關(guān)的反應(yīng)E/Z比率的研究中發(fā)現(xiàn),僅通過約100次實驗,我們便超越了人類優(yōu)化這一過程時所達(dá)到的先進(jìn)水平。同時,利用文獻(xiàn)數(shù)據(jù)進(jìn)行相同目的的研究通常存在嚴(yán)重缺陷,這往往需要對每個案例進(jìn)行單獨的反應(yīng)優(yōu)化(更詳細(xì)的討論見下文)。在過去十年中,黑箱優(yōu)化算法,尤其是貝葉斯優(yōu)化(Bayesian Optimization, BO),變得越來越重要。在貝葉斯優(yōu)化中,通過對現(xiàn)有數(shù)據(jù)進(jìn)行貝葉斯推斷來構(gòu)建用于預(yù)測反應(yīng)產(chǎn)率的概率模型。這些模型在整個優(yōu)化過程中以迭代方式指導(dǎo)決策。而基于機器學(xué)習(xí)的替代模型進(jìn)行迭代閉環(huán)優(yōu)化的方法將在第2.7節(jié)中進(jìn)一步討論。對于條件優(yōu)化,這些迭代方法在日益復(fù)雜的合成反應(yīng)場景中表現(xiàn)出顯著的效果。同時,化學(xué)領(lǐng)域的特定挑戰(zhàn),例如識別對多種底物“普遍適用”的條件,而不僅僅是針對一兩個模型底物的條件,也推動了該領(lǐng)域算法的發(fā)展。值得注意的是,我們在鈴木反應(yīng)方面的研究使得條件具有普遍適用性,并且其產(chǎn)率是該領(lǐng)域之前先進(jìn)水平的兩倍。
2.3.3 限制和未解決的問題
盡管在過去十年中,基于機器學(xué)習(xí)的合成規(guī)劃領(lǐng)域取得了顯著的算法進(jìn)展,但其實際應(yīng)用仍然局限于開發(fā)相對簡單的目標(biāo)分子和短的合成路線。事實上,目前專家系統(tǒng)(即手動編碼反應(yīng)類型和適用規(guī)則的系統(tǒng))仍然是計算機輔助合成規(guī)劃的最先進(jìn)水平。特別是,Grzybowski 的 Chematica 系統(tǒng)(現(xiàn)已商業(yè)化為 Synthia)在復(fù)雜自然產(chǎn)品合成或供應(yīng)鏈意識的合成規(guī)劃中展現(xiàn)了令人矚目的實驗應(yīng)用。原則上,基于機器學(xué)習(xí)的算法應(yīng)該能夠提供與這些專家系統(tǒng)相似或更優(yōu)的合成路線,但目前存在的問題主要歸因于可用合成數(shù)據(jù)質(zhì)量和數(shù)量上的不足,以及從數(shù)據(jù)中提取結(jié)構(gòu)化知識時所面臨的算法限制。我們和其他研究者最近對此進(jìn)行了廣泛討論。
在反應(yīng)結(jié)果和反應(yīng)條件預(yù)測的背景下,類似的數(shù)據(jù)限制問題也被討論過。專利數(shù)據(jù)以及商業(yè)數(shù)據(jù)庫在數(shù)據(jù)報告的準(zhǔn)確性、一致性或結(jié)構(gòu)化方面存在嚴(yán)重問題,這不僅是由于錯誤數(shù)據(jù)、不一致數(shù)據(jù)或非結(jié)構(gòu)化數(shù)據(jù)的存在,還因為在報告的實驗中,人類偏見的影響,特別是對顯著條件的偏重和對低產(chǎn)率記錄的忽視,這些因素阻礙了從文獻(xiàn)數(shù)據(jù)中進(jìn)行反應(yīng)產(chǎn)率預(yù)測建模。社區(qū)驅(qū)動的開源數(shù)據(jù)庫,例如開放反應(yīng)數(shù)據(jù)庫(Open Reaction Database),代表了朝著更少偏見和更全面的數(shù)據(jù)收集邁出的重要一步——但這樣的倡議需要在合成有機化學(xué)實驗室中采用更為數(shù)字化的思維方式,以便更好地生成、收集和報告數(shù)據(jù)。
數(shù)據(jù)不足的另一個后果是缺少具有代表性的基準(zhǔn)問題集。這種情況尤其適用于多步驟合成規(guī)劃領(lǐng)域,在該領(lǐng)域中,迫切需要基準(zhǔn)來進(jìn)行合成規(guī)劃性能的更為定量的評估。同樣,化學(xué)反應(yīng)性優(yōu)化算法也需要具有代表性的基準(zhǔn),以評估標(biāo)準(zhǔn)貝葉斯優(yōu)化算法如何適應(yīng)化學(xué)反應(yīng)性的復(fù)雜性。最重要的是,這些基準(zhǔn)必須反映專家化學(xué)家所識別的現(xiàn)實問題,以激勵和推動算法機器學(xué)習(xí)的進(jìn)展,從而應(yīng)對計算機輔助有機合成中的挑戰(zhàn)。
2.4 物理結(jié)構(gòu):模擬和三維結(jié)構(gòu)
機器學(xué)習(xí)使得數(shù)據(jù)驅(qū)動的解決方案能夠應(yīng)用于實驗問題和計算問題。在有機化學(xué)中,分子的2D分子圖結(jié)構(gòu)是重點,而通過薛定諤方程,分子又建立在3D物理現(xiàn)實之上,這為預(yù)測分子性質(zhì)和相互作用提供了豐富的量子力學(xué)和統(tǒng)計力學(xué)理論。模擬方法如密度泛函理論(DFT)和分子動力學(xué)(MD)可以利用這些理論來計算并預(yù)測分子的性質(zhì)和相互作用。然而,盡管計算能力不斷提升,這些模擬仍然計算成本高,這限制了它們只能在小系統(tǒng)和短時間尺度下進(jìn)行。而通過從眾多模擬結(jié)果中學(xué)習(xí),機器學(xué)習(xí)提供了一個獨特的機會來加速分子模擬。
2.4.1 神經(jīng)網(wǎng)絡(luò)勢
量子化學(xué)中的一個基本問題是:對于給定一個分子,其在三維空間中表示為一組核點,如何求解薛定諤方程,并預(yù)測總能量及每個原子所受的力。力的計算使我們能夠利用牛頓方程進(jìn)行向前推進(jìn)的動態(tài)模擬。然而,對于分子系統(tǒng)而言,求解薛定諤方程既復(fù)雜又計算成本高昂,而模擬牛頓方程則需要在每個模擬幀上計算力。因此,科學(xué)家們通過將簡單函數(shù)擬合到實驗數(shù)據(jù)來近似這些力,從而產(chǎn)生了第一個參數(shù)化力場,例如倫納德-瓊斯勢。半經(jīng)驗?zāi)P徒Y(jié)合了更多實驗擬合參數(shù),以便更準(zhǔn)確地預(yù)測能量和力。這些經(jīng)驗力場使得經(jīng)典分子動力學(xué)模擬成為可能,從而可以研究簡單的蛋白質(zhì)。然而,要捕捉像化學(xué)反應(yīng)性這樣的行為,則需要考慮量子效應(yīng)。隨著計算能力的提升以及更快的模擬方法(如密度泛函理論(DFT))的出現(xiàn),最終使得在每個時間步上使用從頭分子動力學(xué)求解薛定諤方程成為可能,但這需要付出巨大的計算成本。
神經(jīng)力場的引入帶來了顯著變化。通過對密度泛函理論(DFT)數(shù)據(jù)進(jìn)行訓(xùn)練,神經(jīng)網(wǎng)絡(luò)能夠直接從三維核坐標(biāo)預(yù)測能量和分子力,這使得分子動力學(xué)可以以從頭計算的精度進(jìn)行模擬,同時大幅降低了計算成本。由于分子力必須對分子的旋轉(zhuǎn)保持等變性——也就是說,如果分子被旋轉(zhuǎn),分子力也必須“隨之旋轉(zhuǎn)”——這促使了保持這種對稱性的等變神經(jīng)架構(gòu)的發(fā)展。在機器學(xué)習(xí)領(lǐng)域,神經(jīng)力場經(jīng)過了競爭性的基準(zhǔn)測試,不斷比較不同的架構(gòu)和方法。Duval等人提供了這些等變架構(gòu)發(fā)展的詳細(xì)時間線。[4]隨著能量和力的數(shù)據(jù)集不斷增長,例如開放催化基準(zhǔn),神經(jīng)力場也開始追求普適性了。
2.4.2 預(yù)測波函數(shù)和電子密度
相較于使用力場來預(yù)測能量,另一種預(yù)測能量的方法是直接預(yù)測波函數(shù)或電子密度。這種方法的優(yōu)勢在于,波函數(shù)和電子密度不僅包含了能量信息,還涵蓋了系統(tǒng)的其他物理可觀測量。例如,可以訓(xùn)練神經(jīng)網(wǎng)絡(luò)直接根據(jù)核坐標(biāo)來預(yù)測哈密頓矩陣。對哈密頓矩陣進(jìn)行對角化可以得到分子軌道,而這些分子軌道則構(gòu)成了波函數(shù)。此外,可以利用預(yù)測的波函數(shù)來初始化自洽場迭代,從而加快量子化學(xué)計算的收斂速度。最近的研究表明,神經(jīng)網(wǎng)絡(luò)可以被訓(xùn)練,使其輸出滿足自洽性方程,這樣就不再需要哈密頓矩陣的標(biāo)簽了。
此外,神經(jīng)網(wǎng)絡(luò)還可以作為假設(shè)形式,直接表示波函數(shù)。在這種情況下,網(wǎng)絡(luò)以電子坐標(biāo)為輸入,并輸出波函數(shù)幅度。采用相同的隨機優(yōu)化算法,神經(jīng)波函數(shù)可以被訓(xùn)練以最小化變分能量并滿足薛定諤方程。這種方法最近也擴展到了激發(fā)態(tài)。
另一方面,在密度泛函理論中,也可以訓(xùn)練神經(jīng)網(wǎng)絡(luò)直接根據(jù)給定的核坐標(biāo)來預(yù)測電荷密度。同時,機器學(xué)習(xí)也被應(yīng)用于學(xué)習(xí)密度泛函。
2.4.3 預(yù)測和生成3D結(jié)構(gòu)
即使存在快速準(zhǔn)確的力場,許多問題仍然依賴于找到分子的能量優(yōu)先構(gòu)象。然而,構(gòu)象空間依然非常龐大,特別是對于大型體系如蛋白質(zhì)而言,實際上是無法窮盡的。同樣,在建?;瘜W(xué)反應(yīng)時,龐大的構(gòu)象搜索空間使得識別過渡態(tài)變得具有挑戰(zhàn)。為解決這些問題,機器學(xué)習(xí)方法可以直接預(yù)測和生成3D結(jié)構(gòu)。
大規(guī)模構(gòu)象搜索空間的復(fù)雜性促使生成模型用于引導(dǎo)這一空間的探索。無條件生成模型,如等變擴散模型,能夠同時生成3D原子位置和原子類型。在解決尋找給定分子穩(wěn)定的3D構(gòu)象問題時,原子類型可能保持不變,生成則是基于2D分子圖的條件。一些方法可自由生成原子位置,而其他方法則生成可旋轉(zhuǎn)鍵的扭轉(zhuǎn)角度。最近的研究顯示,放棄扭轉(zhuǎn)和旋轉(zhuǎn)對稱約束可能帶來更好的結(jié)果,盡管成本更高。有一個相關(guān)的任務(wù)被稱為對接,即在蛋白質(zhì)口袋內(nèi)進(jìn)行配體的構(gòu)象搜索,以評估結(jié)合親和力。這一過程也已經(jīng)使用擴散模型來來研究了。
在晶體結(jié)構(gòu)預(yù)測問題中,目標(biāo)是找到給定組成的最穩(wěn)定周期性原子排列方式。傳統(tǒng)方法是通過搜索所有穩(wěn)定的原子坐標(biāo)和晶格矢量的排列組合來找到能量最低的結(jié)構(gòu)。而等變擴散模型則為這一問題提供了自然的解決方案,它可以同時擴散坐標(biāo)和晶格參數(shù),并強加空間群約束以進(jìn)一步提升性能。實際上,將這種擴散方法擴展到大型數(shù)據(jù)集,使逆向設(shè)計能夠同時滿足多個期望的性質(zhì)。
在與生物分子模擬相關(guān)的領(lǐng)域中,三維結(jié)構(gòu)預(yù)測問題普遍存在。長期以來,從蛋白質(zhì)序列預(yù)測折疊的三維蛋白質(zhì)結(jié)構(gòu)這一難題在一定程度上已通過AlphaFold及相關(guān)模型得到了有效解決。在此基礎(chǔ)上,擴散模型生成了以剛性殘基序列表示的蛋白質(zhì)骨架。這些模型取得了顯著成功,甚至被用于設(shè)計滿足結(jié)構(gòu)約束的蛋白質(zhì),并經(jīng)過了實驗驗證。這些擴散模型的應(yīng)用范圍已擴展到所有生物分子,其方法能夠預(yù)測蛋白質(zhì)、RNA、DNA和配體如何在三維原子細(xì)節(jié)中的組裝方式,從而涵蓋了對接任務(wù),因此有望在未來成為藥物發(fā)現(xiàn)的重要工具。
2.4.4 增強采樣和粗粒化模擬
尋找最穩(wěn)定的幾何形狀固然有其價值,但要真正模擬分子之間的熱力學(xué)相互作用,則需要對三維結(jié)構(gòu)的平衡分布進(jìn)行采樣。平衡態(tài)遵循與能量相關(guān)的Boltzmann分布,而學(xué)習(xí)這種平衡分布的生成模型被稱為Boltzmann生成器。深度生成模型開始通過流匹配這一擴散模型的變體來解決這個問題,并且已經(jīng)在多種不同類型的肽中證明了其可轉(zhuǎn)移性。另一種方法則是利用??栓C普朗克方程來學(xué)習(xí)如何采樣平衡分布。
在粗?;^程中,通常將原子聚集成所謂的珠子,這樣就可以降低計算成本,并且能夠捕捉到長時間尺度的事件。然而,這些粗?;樽拥牧π枰c全原子力進(jìn)行擬合。為了解決這個問題,可以應(yīng)用神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)粗?;?,通過預(yù)測自由能的梯度,而不是能量,并將這些預(yù)測的力與全原子力進(jìn)行匹配。而使用流匹配方法則消除了對全原子力的需求,僅需粗?;樽拥钠胶鈽颖炯纯?。此外,擴散模型可以同時學(xué)習(xí)生成模型和粗?;觥?/p>
雖然粗?;龅脑u估速度明顯快于原子級力場,但分子動力學(xué)模擬仍然受到必須使用飛秒級積分時間步長的限制。為了解決這一問題,平衡方法的替代方案主要集中在加速分子動力學(xué),以實現(xiàn)更長的時間尺度。
這可以通過“時間粗粒化”來實現(xiàn),即訓(xùn)練生成模型以預(yù)測在較大時間步長下的結(jié)果。此外,研究還致力于將模型擴展到多個熱力學(xué)性質(zhì)范圍,如溫度和壓力。這使得能夠模擬不同環(huán)境,并對之前不適合的數(shù)據(jù)進(jìn)行訓(xùn)練。通過在模型輸入中添加溫度等額外參數(shù),可以將相應(yīng)的粗?;杂赡芎瘮?shù)的導(dǎo)數(shù)納入損失函數(shù)中。而自由能的高階導(dǎo)數(shù)作為響應(yīng)性質(zhì),可以通過多次反向傳播計算得到。因此整合熱力學(xué)參數(shù)可能是整體模擬生物或工業(yè)環(huán)境的重要因素之一。
對于稀有事件采樣,例如化學(xué)反應(yīng)和過渡態(tài)搜索,已經(jīng)出現(xiàn)了無反應(yīng)坐標(biāo)的過渡路徑采樣方法。另一方面,當(dāng)反應(yīng)物、產(chǎn)物和過渡態(tài)的數(shù)據(jù)集可用時,可以直接訓(xùn)練生成模型,進(jìn)而可以基于反應(yīng)物和產(chǎn)物生成過渡態(tài)。
2.4.5 限制和未解決的問題
雖然神經(jīng)力場可以達(dá)到很高的準(zhǔn)確性,但它們?nèi)匀恍枰銐虻挠?xùn)練數(shù)據(jù)來覆蓋整個相空間。如果沒有完全覆蓋,神經(jīng)力場可能會陷入不穩(wěn)定的動力學(xué)狀態(tài)。一項基準(zhǔn)測試強調(diào),評估力場的標(biāo)準(zhǔn)應(yīng)基于其動力學(xué)表現(xiàn),而非力的誤差。
然而,隨著神經(jīng)力在越來越大數(shù)據(jù)集上的訓(xùn)練,這些問題可能會逐漸得到解決,從而推動通用力場的發(fā)展。盡管機器學(xué)習(xí)模型受限于數(shù)據(jù)質(zhì)量,但新數(shù)據(jù)可以通過模擬生成,這為數(shù)據(jù)可用性和大型模型的發(fā)展帶來了樂觀前景。
與此同時,要在大長度和時間尺度上進(jìn)行有效模擬仍需大量工作。在亞穩(wěn)態(tài)條件下進(jìn)行適當(dāng)平衡采樣面臨著重大挑戰(zhàn),相關(guān)的稀有事件采樣問題也依然是亟待改進(jìn)的領(lǐng)域,因此成為了近期眾多研究工作的重點。
2.5 結(jié)構(gòu)和分析:光譜學(xué)和結(jié)構(gòu)解析
在化學(xué)領(lǐng)域,一個自然而又未被充分利用的機遇是利用機器學(xué)習(xí)來進(jìn)行結(jié)構(gòu)解析,它旨在通過光譜或其他分析數(shù)據(jù)預(yù)測二維或三維分子結(jié)構(gòu)。就像計算機視覺使得計算機能夠感知自然界一樣,計算光譜學(xué)也可以讓機器通過分析儀器感知分子世界。隨著實驗自動化技術(shù)的進(jìn)步,預(yù)計將合成越來越多的從頭合成和未知的化合物,這推動了對更快且準(zhǔn)確的結(jié)構(gòu)解析需求,以充分支持這些自主分子發(fā)現(xiàn)和反應(yīng)發(fā)現(xiàn)平臺。
2.5.1 正向光譜預(yù)測
數(shù)據(jù)驅(qū)動的結(jié)構(gòu)闡明最直接的方式是存儲一個光譜庫,針對給定的光譜在庫中搜索匹配項,然后檢索相應(yīng)的結(jié)構(gòu)。為了擴大光譜庫的覆蓋范圍,可以使用前向光譜預(yù)測來為特定化學(xué)結(jié)構(gòu)預(yù)測其光譜。盡管物理模擬提供了一種有根據(jù)的方法來預(yù)測光譜,但其過程往往復(fù)雜且計算成本高昂。另一種方法則是利用機器學(xué)習(xí)從結(jié)構(gòu)出發(fā)預(yù)測各種類型的光譜,包括質(zhì)譜(MS)、核磁共振(NMR)和紫外-可見光譜(UV-vis)。一些研究將前向預(yù)測問題視為公式預(yù)測,采用自回歸模型或固定的公式詞匯;而另一些研究則專注于子圖預(yù)測,利用遞歸分解、自回歸生成和深度概率模型,或結(jié)合三維結(jié)構(gòu)信息。在質(zhì)譜的背景下,一些方法將光譜近似為具有相應(yīng)峰強度的離散區(qū)間,從而簡化問題,將其轉(zhuǎn)化為直接從結(jié)構(gòu)回歸質(zhì)譜的任務(wù)。除了結(jié)構(gòu)到光譜的預(yù)測外,另一種方法涉及通過估計各種分子描述符來預(yù)測結(jié)構(gòu)-性質(zhì)關(guān)系——這些描述符可以是標(biāo)量(例如能量、部分電荷)、向量(例如電偶極子、原子力)以及高階張量(例如Hessian矩陣、極化率、八極矩)——然后利用這些描述符來預(yù)測不同類型的光譜,包括紅外光譜、拉曼光譜、紫外-可見光譜和核磁共振。
2.5.2 結(jié)構(gòu)解析
直接從給定光譜預(yù)測化學(xué)結(jié)構(gòu)的過程被稱為逆問題。DENDRAL是第一個用于從質(zhì)譜推斷化學(xué)結(jié)構(gòu)的專家系統(tǒng),誕生于1969年。化學(xué)家們還利用機器學(xué)習(xí)(ML)分析紅外光譜(IR)、核磁共振(NMR)和質(zhì)譜,以識別有限的官能團(tuán)。雖然這些方法提供了有用的結(jié)構(gòu)見解,但它們無法完全解析分子結(jié)構(gòu)。
結(jié)合多個推斷出的官能團(tuán)的信息,使得結(jié)構(gòu)解析成為可能。對于NMR數(shù)據(jù),分子結(jié)構(gòu)可以通過首先識別分子亞結(jié)構(gòu)和官能團(tuán)來進(jìn)行解析,然后通過波束搜索在可能的配置中進(jìn)行最優(yōu)組合,或者逐個原子構(gòu)建,這與化學(xué)家在解釋NMR光譜時采取的方法相似。類似的“亞結(jié)構(gòu)重建”策略也在紅外光譜和表面增強拉曼光譜(SERS)中以不同程度的細(xì)節(jié)應(yīng)用。然而,隨著原子數(shù)量的增加,這種方法很快會遇到組合規(guī)模問題。
分子結(jié)構(gòu)解析可以從深度學(xué)習(xí)的角度將其視作為一個端到端的問題。在這種方法中,光譜被標(biāo)記為字符串,并預(yù)測SMILES字符串;這可以視為一種機器翻譯任務(wù)。這種方法已經(jīng)應(yīng)用于核磁共振(NMR)、紅外光譜(IR)和串聯(lián)質(zhì)譜(MS/MS)數(shù)據(jù)中了,顯示出來在擴展到更大化學(xué)系統(tǒng)和從頭結(jié)構(gòu)解析方面具有更顯著的潛力。此外,結(jié)構(gòu)預(yù)測問題也可以被表述為一個優(yōu)化任務(wù),例如,可以將其形式化為馬爾可夫決策過程。如果我們考慮一些關(guān)于當(dāng)前化學(xué)系統(tǒng)的先驗信息,如化學(xué)式、已知的起始材料和反應(yīng)條件,將這些信息作為約束條件應(yīng)用,就可以幫助模型更有效地收斂到一個解決方案。
隨著研究的深入,從分子到晶體的轉(zhuǎn)變,解決粉末X射線衍射(PXRD)和X射線吸收近邊結(jié)構(gòu)(XANES)等X射線光譜數(shù)據(jù)的逆問題,為機器學(xué)習(xí)領(lǐng)域帶來了新的挑戰(zhàn)。這為不同深度學(xué)習(xí)模型在晶體系統(tǒng)和空間群識別中的應(yīng)用提供了獨特且尚未充分開發(fā)的機會。特別是,擴散模型展現(xiàn)出了良好的前景,尤其是在文本到圖像生成這一對應(yīng)逆問題中的成功應(yīng)用。在這個背景下,我們可以在文本與光譜之間,以及圖像生成與晶體結(jié)構(gòu)預(yù)測之間建立類比。
在旋轉(zhuǎn)光譜學(xué)領(lǐng)域,光譜分配的挑戰(zhàn)——即從密集的旋轉(zhuǎn)光譜中推導(dǎo)旋轉(zhuǎn)常數(shù)——代表了機器學(xué)習(xí)在這一領(lǐng)域早期應(yīng)用之一。由于光譜密集且易于模擬,這個問題特別適合深度學(xué)習(xí)技術(shù)。然而,僅依靠旋轉(zhuǎn)常數(shù)無法確定分子的三維結(jié)構(gòu)。我們最近提出的方法通過推斷三維結(jié)構(gòu)來解決這一問題,所需的信息包括分子式、旋轉(zhuǎn)常數(shù)以及稱為替代坐標(biāo)的無符號原子笛卡爾坐標(biāo)。
在結(jié)構(gòu)生物學(xué)領(lǐng)域,蛋白質(zhì)結(jié)構(gòu)預(yù)測的進(jìn)展與冷凍電子顯微鏡技術(shù)的發(fā)展相輔相成。利用冷凍電子顯微鏡重建蛋白質(zhì)結(jié)構(gòu)的過程已經(jīng)采用了深度生成模型。這些方法已發(fā)展到能夠從冷凍電子斷層成像(cryo-ET)中重建生物分子動態(tài)的程度。利用冷凍電子顯微鏡進(jìn)行的結(jié)構(gòu)解析工作也在不斷取得日新月異的進(jìn)展。此外,數(shù)據(jù)處理方面的進(jìn)步使得分辨率得到了顯著提升,而這些改進(jìn)都可以通過使用機器學(xué)習(xí)方法進(jìn)一步增強。
2.5.3 限制和未解決的問題
與所有需要大量數(shù)據(jù)的方法一樣,一個關(guān)鍵問題始終存在:雖然可以獲得大量的模擬光譜,但考慮模型在實驗光譜上的表現(xiàn)是否令人滿意至關(guān)重要,因為實驗光譜往往表現(xiàn)出更大的變異性和不一致性。一個值得思考的問題是:科學(xué)界是否應(yīng)該更加努力推動將原始光譜文件存放在開放數(shù)據(jù)庫中,以促進(jìn)深度學(xué)習(xí)在從自動化光譜到結(jié)構(gòu)解析中的應(yīng)用?
對于逆向光譜到結(jié)構(gòu)解析的工作中,雖然純樣品的自主分子結(jié)構(gòu)確定無疑對高通量反應(yīng)優(yōu)化和發(fā)現(xiàn)活動至關(guān)重要,但同樣重要的是解決來自復(fù)雜混合物的光譜結(jié)構(gòu)的注釋問題,這包括對特定目標(biāo)化合物的定向識別和非定向代謝組學(xué)。這類混合物在實際樣本矩陣中是常見配置,對于生物診斷、法醫(yī)學(xué)等多個領(lǐng)域都是不可或缺的。這些任務(wù)的成功在很大程度上依賴于模型從復(fù)雜的數(shù)據(jù)中解開并分離出單個分子光譜特征的能力。機器學(xué)習(xí)擅長處理復(fù)雜、高維數(shù)據(jù),因此非常適合處理這些具有挑戰(zhàn)性的任務(wù)。此外,利用機器學(xué)習(xí)方法集成來自多個光譜輸入的信息,可以進(jìn)一步提高結(jié)構(gòu)解析的準(zhǔn)確性和完整性。
2.6 利用基礎(chǔ)化學(xué)模型實現(xiàn)規(guī)模效益
隨著計算能力的提升,機器學(xué)習(xí)模型已經(jīng)在越來越大規(guī)模的數(shù)據(jù)集上進(jìn)行了訓(xùn)練。在大規(guī)模應(yīng)用中,機器學(xué)習(xí)展現(xiàn)出不同層次的能力。而基礎(chǔ)模型是經(jīng)過廣泛數(shù)據(jù)訓(xùn)練的大規(guī)模模型,能夠應(yīng)用于多種下游任務(wù)。一些通用基礎(chǔ)模型,如ChatGPT、Gemini和Llama,通常用于語言生成和圖像生成;其中許多模型僅針對語言進(jìn)行訓(xùn)練,或者是在多模態(tài)上進(jìn)行訓(xùn)練。然而,在化學(xué)領(lǐng)域使用這些模型面臨著獨特的挑戰(zhàn),因此許多研究者選擇從頭開始在化學(xué)數(shù)據(jù)上訓(xùn)練他們的模型,但這并非易事。在本節(jié)中,我們將探討化學(xué)領(lǐng)域基礎(chǔ)模型的現(xiàn)狀,并提出對尚未解決問題的看法。
2.6.1 通過大型語言模型和智能體進(jìn)行知識轉(zhuǎn)換
一些最早將生成模型應(yīng)用于化學(xué)的研究是通過語言實現(xiàn)的,這得益于分子可以使用SMILES表示法以字符串形式進(jìn)行表示。早期的化學(xué)語言模型是通過無監(jiān)督學(xué)習(xí)對SMILES表示進(jìn)行訓(xùn)練的,它學(xué)習(xí)了分子子片段之間的依賴關(guān)系。最近,這些模型也開始同時在其他以文本標(biāo)記表示的分子形式上進(jìn)行訓(xùn)練,例如文本描述、科學(xué)論文和合成程序,它們通常采用自回歸損失,以便在推理時能夠生成分子的描述或結(jié)構(gòu)。Ramos等人撰寫了一篇綜合性綜述[5],詳細(xì)介紹了迄今為止80個化學(xué)/生物化學(xué)語言模型,以供讀者進(jìn)一步了解。將文本描述納入模型的一個動機是,它們包含有關(guān)分子功能性質(zhì)的信息,這對于改善結(jié)構(gòu)相似但功能不同的分子的嵌入表示非常有幫助,反之亦然。這些文本描述還讓用戶能夠使用自然語言與模型互動,這比起僵硬的查詢方式對許多用戶來說更加直觀。此外,大型語言模型(LLMs)還被用于科學(xué)文獻(xiàn)解析,促進(jìn)從現(xiàn)有文獻(xiàn)中提取化學(xué)信息并構(gòu)建知識數(shù)據(jù)庫。這些數(shù)據(jù)庫可用于對LLMs進(jìn)行微調(diào),有潛力提升自動化實驗室在生成和篩選方面的能力。
然而,使用這些模型進(jìn)行開箱即用的發(fā)現(xiàn)任務(wù)或特定領(lǐng)域的化學(xué)應(yīng)用仍存在一定差距(至少根據(jù)我們的了解)。造成這種情況的原因之一是,缺乏足夠的數(shù)據(jù)來以與GPT-4等模型在網(wǎng)絡(luò)規(guī)模文本和圖像上訓(xùn)練相同的方式對這些模型進(jìn)行訓(xùn)練。利用這些具備化學(xué)知識的語言模型的一種方法是對其進(jìn)行微調(diào),以適應(yīng)下游任務(wù),或者將其嵌入到優(yōu)化框架或搜索框架中,從而提供良好的先驗知識。其他研究也開始了探索模型和數(shù)據(jù)的擴展。
化學(xué)感知基礎(chǔ)模型的一個有趣應(yīng)用是開發(fā)化學(xué)智能體,這些智能體能夠利用解決化學(xué)問題所需的工具,或規(guī)劃化學(xué)實驗。一些顯著的例子包括ChemCrow、Coscientist、我們自己的ORGANA和ChemReasoner。這些智能體可以訪問各種與化學(xué)相關(guān)的工具,如模擬器或機器人,以執(zhí)行化學(xué)實驗,并使用大語言模型(例如GPT-4)作為中央?yún)f(xié)調(diào)者,決定何時以及如何使用這些工具來實現(xiàn)用戶指定的目標(biāo)。此類智能體的一個長期目標(biāo)是開發(fā)科學(xué)助手,幫助進(jìn)行更復(fù)雜的推理和規(guī)劃,通過自主生成和完善假設(shè),超越單純的計算和執(zhí)行。AI科學(xué)家將這一理念擴展到了其他研究領(lǐng)域,展示了通過執(zhí)行實驗和撰寫研究論文進(jìn)行自主機器學(xué)習(xí)研究的能力。
這些研究領(lǐng)域仍處于起步階段,因此存在幾個未解的問題,包括:(1)我們?nèi)绾斡行У卦u估化學(xué)感知大語言模型(chemistry-aware LLMs)/智能體(agents)?(2)這些模型在化學(xué)家實際工作中的使用案例是什么?有效的模型評估主要依賴于開發(fā)有意義的任務(wù),而這在數(shù)據(jù)集的規(guī)模和廣度上目前仍然是一個開放性問題。雖然在這一領(lǐng)域已經(jīng)存在幾個基準(zhǔn)測試,這為我們提供了一個良好的起點,但在數(shù)據(jù)質(zhì)量和任務(wù)目標(biāo)方面仍有改進(jìn)空間。最近發(fā)布的一些基準(zhǔn)測試更接近實際應(yīng)用,同時,像Polaris這樣的平臺使研究人員能夠更快速地訪問各種數(shù)據(jù)集。然而,在這一領(lǐng)域使用次優(yōu)基準(zhǔn)測試的問題因當(dāng)前機器學(xué)習(xí)環(huán)境而加劇,因為基準(zhǔn)測試主要用于展示新方法相較于現(xiàn)有最優(yōu)技術(shù)所取得的更好表現(xiàn),但人們并不理解其改進(jìn)的原因。這也為化學(xué)家與機器學(xué)習(xí)領(lǐng)域?qū)<疑鐓^(qū)之間合作的提供了一個絕佳機會。
基于語言的基礎(chǔ)模型也被應(yīng)用于其他領(lǐng)域,包括知識圖譜生成和從化學(xué)文獻(xiàn)中進(jìn)行知識提取,其中還包括我們在反應(yīng)圖解析方面的工作,這是一項具有挑戰(zhàn)性的任務(wù)。這些努力對于創(chuàng)建結(jié)構(gòu)化的實驗程序數(shù)據(jù)庫是至關(guān)重要的,這些數(shù)據(jù)庫可以為現(xiàn)有的資源庫做出貢獻(xiàn),例如之前提到的開放反應(yīng)數(shù)據(jù)庫。
2.6.2 基礎(chǔ)物理模型
雖然僅語言基礎(chǔ)模型在化學(xué)領(lǐng)域受到廣泛關(guān)注,但研究表明,語言可能并不是唯一有效的手段,特別是在三維幾何結(jié)構(gòu)至關(guān)重要的情況下。例如,Alampara等人顯示,僅依靠語言模型無法編碼表示特定材料屬性所需的結(jié)構(gòu)信息。
然而,在生物化學(xué)科學(xué)中,語言模型并不是唯一開發(fā)的基礎(chǔ)模型。在已經(jīng)構(gòu)建了幾種模型中,這些模型能夠?qū)α鲞M(jìn)行普遍近似,并預(yù)測任何分子、材料或蛋白質(zhì)的結(jié)構(gòu)。或許最著名的例子是用于蛋白質(zhì)結(jié)構(gòu)預(yù)測的AlphaFold2,以及最近推出的AlphaFold3,該模型能夠根據(jù)任何一組二維生物分子預(yù)測它們在三維中的組裝方式。據(jù)我們了解,這些模型在許多結(jié)構(gòu)和功能任務(wù)中仍然優(yōu)于任何基于序列的蛋白質(zhì)預(yù)測模型,尤其是在輸入序列在訓(xùn)練數(shù)據(jù)中沒有同源物的情況下。
另一個引人注目的例子是最近推出的基礎(chǔ)模型MACE-MP-0,該模型采用了MACE等變架構(gòu)。其MACE-MP-0模型在150,000個無機晶體上進(jìn)行了訓(xùn)練。在經(jīng)過少量特定任務(wù)示例的微調(diào)后,它可以作為力場用于多種任務(wù)的模擬,甚至包括一些看似毫不相關(guān)的小蛋白質(zhì)模擬。值得注意的是,MACE-MP-0中的分子間相互作用似乎存在一定的不明確性。例如,在前面提到的蛋白質(zhì)模擬中,該模型能夠成功捕捉氫轉(zhuǎn)移,這是一項顯著的成就。然而,作者也選擇加入了源自經(jīng)典計算化學(xué)的D3色散,這表明該模型在預(yù)測長程相互作用方面仍然需要一些幫助。值得一提的是,基礎(chǔ)力場的研究也正在持續(xù)擴展,如工業(yè)研究實驗室正在越來越大的數(shù)據(jù)集上訓(xùn)練神經(jīng)力場,例如GNoME和MatterSim。
從這些模型中得出的一個關(guān)鍵結(jié)論是,結(jié)構(gòu)信息不應(yīng)被忽視,這取決于模型所應(yīng)用的下游任務(wù)。同時,在廣泛的大規(guī)模數(shù)據(jù)集上訓(xùn)練模型(即超越僅在單一預(yù)測任務(wù)上訓(xùn)練簡單模型的傳統(tǒng),這在幾年前仍然是常態(tài))可以更好地推廣到更多的下游設(shè)置中。我們認(rèn)為,同時在多個模態(tài)上進(jìn)行擴展對于構(gòu)建化學(xué)領(lǐng)域中最佳的基礎(chǔ)模型至關(guān)重要——即盡可能多地在各種模態(tài)上訓(xùn)練模型,例如三維結(jié)構(gòu)信息、文本和光譜信息。
2.6.3 限制和未解決的問題
在領(lǐng)域科學(xué)的研究中,我們在數(shù)據(jù)條件上并不如自然語言或圖像領(lǐng)域那樣優(yōu)越,因為后者已經(jīng)擁有了網(wǎng)絡(luò)級的數(shù)據(jù)可供利用。而科學(xué)數(shù)據(jù)則相對稀缺;每一個數(shù)據(jù)點必須通過實驗獲得,或者是通過高質(zhì)量的模擬得出的。如果采用模擬方法,模型必須找到將其結(jié)果轉(zhuǎn)化為特定實驗條件的方法。我們懷疑,跨化學(xué)領(lǐng)域的通用模型仍然需要十年的時間才能實現(xiàn),并且隨著人類對這些模型需求的不斷增加,這一目標(biāo)可能會變得更加難以捉摸。這就像擴寬高速公路的問題一樣,許多分析師已經(jīng)表明,一旦道路被擴寬,由于其可用性而產(chǎn)生的額外需求會立即導(dǎo)致高速公路交通擁堵。
2.7 閉環(huán)優(yōu)化和自動化實驗室
2.7.1 自動化實驗室
隨著機器學(xué)習(xí)應(yīng)用的不斷發(fā)展,高質(zhì)量數(shù)據(jù)的必要性和稀缺性變得愈加明顯?;瘜W(xué)數(shù)字化的興起以及機器學(xué)習(xí)的進(jìn)步,為將機器學(xué)習(xí)與通過機器人實驗進(jìn)行自動數(shù)據(jù)生成相結(jié)合奠定了基礎(chǔ)。這種協(xié)同作用催生了自動化實驗室(SDL)的概念。自驅(qū)動實驗室主要由兩個關(guān)鍵組成部分構(gòu)成:自動化實驗室設(shè)備和實驗規(guī)劃者,這兩者都利用機器學(xué)習(xí)技術(shù)來提升其功能。最終目標(biāo)是自主執(zhí)行科學(xué)方法,包括假設(shè)生成(機器學(xué)習(xí))、假設(shè)測試(實驗)和假設(shè)細(xì)化(機器學(xué)習(xí)),從而以數(shù)據(jù)高效的方式探索廣闊的設(shè)計空間。
通過將機器學(xué)習(xí)與計算機視覺相結(jié)合,自動化實驗室設(shè)備取得了顯著進(jìn)展,形成了“通用化學(xué)機器人”的概念。這些經(jīng)過機器學(xué)習(xí)訓(xùn)練的機器人能夠基于外部反饋做出決策,從而實現(xiàn)傳統(tǒng)上由人類化學(xué)家執(zhí)行的化學(xué)操作的動態(tài)自動化。鑒于在基于外部反饋進(jìn)行主動決策的機器人設(shè)備訓(xùn)練中固有的挑戰(zhàn),該領(lǐng)域的一個顯著創(chuàng)新是利用數(shù)字孿生體——實驗室設(shè)置的虛擬復(fù)制品——為加速機器人機器學(xué)習(xí)模型的訓(xùn)練提供了堅實的框架。這些數(shù)字孿生技術(shù)通過高精度模擬化學(xué)場景,建立了一個真實的反饋機制,加速了模型的學(xué)習(xí)過程。
在實驗規(guī)劃方面,啟發(fā)式技術(shù)正在逐步被機器學(xué)習(xí)優(yōu)化算法所取代。當(dāng)這些優(yōu)化技術(shù)與化學(xué)數(shù)字化相結(jié)合時,它們能夠識別目標(biāo)化學(xué)物質(zhì)并優(yōu)化反應(yīng)條件,同時顯著減少所需的實驗步驟。在各種機器學(xué)習(xí)優(yōu)化技術(shù)中,貝葉斯優(yōu)化因其在化學(xué)應(yīng)用中的成功而在實驗化學(xué)領(lǐng)域尤為突出?;跈C器學(xué)習(xí)的代理模型能夠預(yù)測化學(xué)物質(zhì)和反應(yīng)的性質(zhì),這在過程優(yōu)化和材料發(fā)現(xiàn)中發(fā)揮了重要作用,并且已有許多成功案例記錄。
此外,大型語言模型(LLMs)的興起進(jìn)一步增強了自動化實驗室(SDLs)的輔助組件。而大型語言模型被有效地用于創(chuàng)建無需傳統(tǒng)編碼的人機界面,使得化學(xué)家與實驗室系統(tǒng)之間的交流更加自然。這對于那些不太擅長編碼或數(shù)據(jù)處理的用戶來說,是一個顯著的優(yōu)勢。
2.7.2 限制和未解決的問題
正如我們最近討論的那樣,自動化實驗室系統(tǒng)面臨的挑戰(zhàn)大致可分為兩大類:自動化(硬件相關(guān))和智能化(人工智能相關(guān))。
自動化挑戰(zhàn)。主要的硬件挑戰(zhàn)源于化學(xué)儀器設(shè)計時更偏向人性化設(shè)計,并未考慮自動化需求,以及與現(xiàn)有自動化模塊之間缺乏無縫連接。因此,大多數(shù)自動化實驗室系統(tǒng)是以半自動方式運行的,需要人工干預(yù)進(jìn)行諸如樣品轉(zhuǎn)移、維護(hù)和故障排除等任務(wù)。已經(jīng)提出了各種解決方案來解決這些問題,包括部署移動機器人進(jìn)行樣品轉(zhuǎn)移,以及調(diào)整通用機器人來執(zhí)行化學(xué)任務(wù)或操作最初設(shè)計用于人類使用的儀器。然而,這些方法大都依賴于傳統(tǒng)算法,需要靜態(tài)校準(zhǔn),因此并不太適合自動化實驗室系統(tǒng)的動態(tài)特性。雖然已經(jīng)提出了將計算機視覺和人工智能相結(jié)合作為解決方案,但實驗室設(shè)備,特別是玻璃器皿,仍然面臨顯著的挑戰(zhàn),不過這些挑戰(zhàn)正在逐漸得到解決。
認(rèn)知挑戰(zhàn)。認(rèn)知挑戰(zhàn)主要在于開發(fā)能夠準(zhǔn)確估計系統(tǒng)輸出的模型,這一困難限制了更通用生成模型的應(yīng)用,有效地降低了實驗規(guī)劃者在化學(xué)領(lǐng)域中所能探索的空間。結(jié)合前面提到的挑戰(zhàn),一個明顯的問題就是:SDLs通常在數(shù)據(jù)匱乏情況下運行。而預(yù)測和生成的機器學(xué)習(xí)模型通常需要大規(guī)模的數(shù)據(jù)集才能做出有意義的預(yù)測。雖然生成模型可以在現(xiàn)有數(shù)據(jù)上進(jìn)行訓(xùn)練,但在這種低數(shù)據(jù)情境中部署預(yù)測算法仍然是一個重大挑戰(zhàn)。
輔助組件的挑戰(zhàn)。在關(guān)于自動化實驗室系統(tǒng)的輔助組件方面,LLM的整合顯示出在自動化工作流程創(chuàng)建和改善人機交互方面具有潛力。然而,需要進(jìn)一步研究以確保這些過程的安全性和可靠性。此外,雖然將文獻(xiàn)提取整合到自動化實驗室中可以增強模型開發(fā),但其與預(yù)測模型的有效整合仍然是一個未解決的問題。
在自動化實驗室領(lǐng)域,需要解決的最后一個挑戰(zhàn)是發(fā)展規(guī)模經(jīng)濟的問題。隨著社區(qū)建立的自動化實驗室數(shù)量的增多,建立下一個自動化實驗室的難度將會大大降低。因此,實現(xiàn)低成本自動化實驗室的民主化對該領(lǐng)域的發(fā)展來說至關(guān)重要的。
寫在最后
在讀完這篇文獻(xiàn)后,我深刻意識到,個人在追求最大化影響力的過程中,有兩個關(guān)鍵能力至關(guān)重要。首先是會發(fā)現(xiàn)問題,以及能判斷出哪些問題值得解決的能力;其次是具備高質(zhì)量解決特定領(lǐng)域問題的技術(shù)水準(zhǔn)。
在學(xué)術(shù)研究中,發(fā)現(xiàn)問題的能力體現(xiàn)在研究者能夠敏銳地識別出關(guān)鍵的科學(xué)問題,并判斷其研究價值如是否能引領(lǐng)新領(lǐng)域的探索。而具備高質(zhì)量解決問題的技術(shù)水準(zhǔn),則體現(xiàn)在研究者能夠運用先進(jìn)的實驗設(shè)計、數(shù)據(jù)分析和建模技術(shù),去有效應(yīng)對復(fù)雜的科學(xué)挑戰(zhàn)。結(jié)合這兩種能力,研究者不僅能夠提出創(chuàng)新的理論,還能夠產(chǎn)生具有實用意義的科研成果,促進(jìn)知識的快速積累與傳播。
在技術(shù)開發(fā)方面,發(fā)現(xiàn)問題的能力體現(xiàn)在開發(fā)者能夠識別出行業(yè)內(nèi)最迫切需要解決的技術(shù)問題或瓶頸,判斷其對產(chǎn)品和服務(wù)的影響。而具備高質(zhì)量解決特定領(lǐng)域問題的技術(shù)水準(zhǔn),則表現(xiàn)在開發(fā)者能夠運用工程原理、編碼能力和系統(tǒng)設(shè)計知識,去創(chuàng)建和優(yōu)化技術(shù)解決方案。有效的技術(shù)開發(fā)需要兩者的結(jié)合,以確保所開發(fā)的技術(shù)不僅具有實用性,還能夠在市場上產(chǎn)生積極的反響。
在產(chǎn)品開發(fā)方面,發(fā)現(xiàn)問題的能力體現(xiàn)在團(tuán)隊能夠識別用戶需求、市場趨勢以及潛在的痛點,判斷哪些問題最值得優(yōu)先解決,以增強產(chǎn)品的競爭力。而具備高質(zhì)量解決問題的技術(shù)水準(zhǔn),則體現(xiàn)在團(tuán)隊能夠?qū)?chuàng)新的技術(shù)和設(shè)計理念轉(zhuǎn)化為可行的產(chǎn)品特性,從而有效滿足用戶需求并實現(xiàn)商業(yè)價值。只有結(jié)合這兩項能力,團(tuán)隊才能夠更好地開發(fā)出符合市場需求和技術(shù)標(biāo)準(zhǔn)的產(chǎn)品,從而推動業(yè)務(wù)增長。
雖然具備高水平技術(shù)解決問題的人數(shù)遠(yuǎn)遠(yuǎn)多于那些能夠識別真正有價值問題的人,但真正能夠在各個領(lǐng)域產(chǎn)生深遠(yuǎn)影響的,通常是那些同時具備這兩項能力的人。因此,每個從業(yè)者都應(yīng)時刻思考“什么才是值得解決的問題”,而這一思考將成為我們在學(xué)術(shù)、技術(shù)或產(chǎn)品發(fā)展中追求創(chuàng)新與影響力的核心驅(qū)動力。
參考文獻(xiàn):[1]
Spiers Memorial Lecture: How to do impactful research in artificialintelligencefor chemistry and materials science:https://doi.org/10.1039/D4FD00153B
[2]
Sample EfficiencyMatters: A Benchmark for Practical Molecular Optimization:https://proceedings.neurips.cc/paper_files/paper/2022/file/8644353f7d307baaf29bc1e56fe8e0ec-Paper-Datasets_and_Benchmarks.pdf
[3]
Du, Y., Jamasb, A.R., Guo, J. et al. Machine learning-aided generative molecular design. Nat Mach Intell6, 589–604 (2024): https://doi.org/10.1038/s42256-024-00843-5
[4]
A. Duval, S. V. Mathis, C. K. Joshi, V. Schmidt, S. Miret, F. D. Malliaros, T. Cohen, P. Lio, Y. Bengio and M. Bronstein, arXiv, 2023, preprint,arXiv https://arxiv.org/abs/2312.07511
[5]
M. C. Ramos, C. J. Collison and A. D. White, arXiv, 2024, preprint,arXiv https://arxiv.org/abs/2407.01603
-
人工智能
+關(guān)注
關(guān)注
1791文章
47274瀏覽量
238462 -
機器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8418瀏覽量
132627 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5503瀏覽量
121157
發(fā)布評論請先 登錄
相關(guān)推薦
評論