乱子伦av无码中文字,中文字幕无码乱aⅴ免费

寫在開頭

近期，我有幸參加了多場既包括學(xué)術(shù)研討又涵蓋業(yè)界實踐的會議，這些會議都集中討論了人工智能與科學(xué)的結(jié)合。而通過這些深入的交流讓我深刻體會到，在科學(xué)技術(shù)領(lǐng)域中，尤其是‘AI for Science（AI4S）’和‘Science for AI（S4AI）’這兩個方向，人工智能的重要性正日益凸顯，并且發(fā)展勢頭迅猛。為了更深入地理解這一領(lǐng)域的最新動態(tài)和應(yīng)用，我投入了大量的時間和精力進(jìn)行了學(xué)習(xí)和研究。在這個過程中，我意外發(fā)現(xiàn)了一篇名為《How to do impactful research in artificialintelligencefor chemistry and materials science》[1]的綜述文章，它不僅提供了一個關(guān)于人工智能在化學(xué)和材料科學(xué)領(lǐng)域應(yīng)用的全面的視角，而且還涵蓋了當(dāng)前的研究進(jìn)展、面臨的挑戰(zhàn)以及未來的發(fā)展方向等內(nèi)容。

文章首先深入探討了人工智能在化學(xué)和材料科學(xué)領(lǐng)域中的應(yīng)用現(xiàn)狀及未來發(fā)展趨勢。然后列舉了機器學(xué)習(xí)在化學(xué)領(lǐng)域的多種應(yīng)用，包括從預(yù)測分子性質(zhì)到設(shè)計合成路線，再到模擬和分析，覆蓋了化學(xué)研究的諸多方面。此外，論文還分析了機器學(xué)習(xí)研究者如何看待和解決具體的化學(xué)問題，其中將這些問題轉(zhuǎn)化為機器學(xué)習(xí)的經(jīng)典問題，如回歸、分類、生成模型和智能體等，并探討了基準(zhǔn)測試、跨學(xué)科合作以及深度學(xué)習(xí)中的“慘痛的教訓(xùn)”等關(guān)鍵主題。

更重要的是，論文指出了選擇有影響力的機器學(xué)習(xí)研究問題的標(biāo)準(zhǔn)，以及進(jìn)行有效研究所需的步驟——包括數(shù)據(jù)收集、問題框架制定、方法選擇和結(jié)果評估。文章強調(diào)機器學(xué)習(xí)在化學(xué)領(lǐng)域發(fā)展的三個關(guān)鍵方向：廣度、深度和規(guī)模，并呼吁化學(xué)家與機器學(xué)習(xí)研究者之間的緊密合作，以解決更復(fù)雜和具挑戰(zhàn)性的科學(xué)問題。

接下來，我將逐步分享這篇綜述文獻(xiàn)的內(nèi)容。由于編譯后的內(nèi)容篇幅較長，因此我計劃將其分為三個部分來逐一呈現(xiàn)。首先是第一部分編譯的內(nèi)容，如下：

第一部分編譯后的內(nèi)容：

摘要：機器學(xué)習(xí)已經(jīng)廣泛地影響了多個科學(xué)領(lǐng)域，包括化學(xué)和材料科學(xué)。盡管機器學(xué)習(xí)已經(jīng)產(chǎn)生了顯著的影響，但其潛力和成熟度尚未完全發(fā)揮出來。在這篇文章中，我們首先概述了機器學(xué)習(xí)在化學(xué)領(lǐng)域中各種問題在當(dāng)前的應(yīng)用情況。然后，我們討論了機器學(xué)習(xí)研究者應(yīng)該如何看待和處理該領(lǐng)域的問題。最后，我們提出了在化學(xué)研究中最大化機器學(xué)習(xí)影響的一些思考和看法。

1.引言

機器學(xué)習(xí)已經(jīng)在化學(xué)領(lǐng)域得到了廣泛的應(yīng)用，并且這種應(yīng)用正迅速增長。盡管如此，我們認(rèn)為ML仍有更大的發(fā)展空間和應(yīng)用潛力。目前的工作尚未充分發(fā)揮機器學(xué)習(xí)在推動化學(xué)理論和應(yīng)用方面的廣度、深度和規(guī)模潛力。此外，ML能夠解決的實際問題類型，如假設(shè)生成或促進(jìn)科學(xué)理解的內(nèi)化，依然是活躍的研究領(lǐng)域或未解決的問題。

為了全面地了解這一領(lǐng)域，我們首先需要對化學(xué)問題進(jìn)行分類，這些問題涵蓋了預(yù)測、生成、合成、力場、光譜學(xué)、反應(yīng)優(yōu)化和基礎(chǔ)模型等多個領(lǐng)域。接著，我們介紹了機器學(xué)習(xí)中涉及的問題類型，并展示了化學(xué)問題如何被重新構(gòu)思為機器學(xué)習(xí)問題的實例。通過這些標(biāo)準(zhǔn)問題，有助于整理出機器學(xué)習(xí)提供的算法和理論工具。在深入探討這一視角的基礎(chǔ)上，我們還研究了機器學(xué)習(xí)和化學(xué)社區(qū)在實踐和價值觀上的差異，強調(diào)了合作和交叉啟發(fā)的觀點如何推動這兩個領(lǐng)域的發(fā)展。有了這些基礎(chǔ)，我們可以討論如何選擇在化學(xué)中應(yīng)用機器學(xué)習(xí)的有影響力的應(yīng)用，并推薦了我們在這一領(lǐng)域研究的良好實踐。

2.數(shù)據(jù)驅(qū)動的化學(xué)：問題分類

對于化學(xué)，以及科學(xué)總體而言，都涉及以某種形式存在的數(shù)據(jù)。因此，可以毫不奇怪地認(rèn)為，數(shù)據(jù)科學(xué)對化學(xué)是至關(guān)重要的。作為數(shù)據(jù)科學(xué)的一個子領(lǐng)域，機器學(xué)習(xí)已經(jīng)成為我們學(xué)科領(lǐng)域不可或缺的工具。因此，對迄今為止的重要工作進(jìn)行分類和組織變得尤其重要了。

我們提出了一種關(guān)于機器學(xué)習(xí)在化學(xué)問題中的應(yīng)用分類法。如圖1所示，機器學(xué)習(xí)被用于通過對化學(xué)結(jié)構(gòu)、性質(zhì)、3D結(jié)構(gòu)與動力學(xué)以及實驗數(shù)據(jù)進(jìn)行編碼和解碼，從而解決各種化學(xué)問題。由于篇幅、時間和重點的限制，這并不是一篇全面的綜述，而是一個強調(diào)機器學(xué)習(xí)在化學(xué)領(lǐng)域多樣化應(yīng)用的機會。我們不會詳細(xì)介紹機器學(xué)習(xí)算法。如需詳盡的評估，請參見其他文獻(xiàn)。

圖1：與機器學(xué)習(xí)相關(guān)的化學(xué)問題分類法。每個箭頭表示機器學(xué)習(xí)的應(yīng)用，并展示這些內(nèi)容之間的關(guān)系。基礎(chǔ)模型和自動化實驗室涵蓋所有這些領(lǐng)域。

2.1 從結(jié)構(gòu)到性質(zhì)：性質(zhì)預(yù)測

2.1.1 化學(xué)信息學(xué)與定量構(gòu)效關(guān)系。

化學(xué)領(lǐng)域在“機器學(xué)習(xí)”這一術(shù)語廣泛使用之前，就已經(jīng)開始利用數(shù)據(jù)來預(yù)測化學(xué)結(jié)構(gòu)的性質(zhì)。這個領(lǐng)域最初被稱為化學(xué)信息學(xué)。這些工具旨在存儲、檢索和建?；瘜W(xué)結(jié)構(gòu)。早期的例子可以追溯到1957年，當(dāng)時進(jìn)行的是數(shù)據(jù)庫中的子結(jié)構(gòu)搜索，隨后便是簡單的多元回歸，用于學(xué)習(xí)定量結(jié)構(gòu)-活性關(guān)系（QSAR），即分子描述符（如哈米特(Hammett)常數(shù)和分配系數(shù)）與生物活性之間的關(guān)系。這些研究主要集中在性質(zhì)與活性之間的關(guān)系上——最早的結(jié)構(gòu)-活性關(guān)系涉及局部解釋，分析了環(huán)上的取代基如何影響活性，這種分析可以通過子結(jié)構(gòu)分析推廣到許多不同的骨架。最終，計算機自動將分子結(jié)構(gòu)編碼為指紋——一種位向量，用于存儲分子中存在或缺失的多種子結(jié)構(gòu)。這些指紋在編碼分子結(jié)構(gòu)以預(yù)測簡單模型（如支持向量機）中的分子活性方面非常有用。

2.1.2 使用專家描述符表示分子

盡管化學(xué)家對官能團(tuán)對分子性質(zhì)的影響有一定的概念理解，但將這些信息有效傳達(dá)給模型是確保模型具備預(yù)測能力的關(guān)鍵。專家描述符將來自實驗或理論知識的化學(xué)信息注入到模型特征中，并在數(shù)據(jù)量較少的情況下取得了良好的預(yù)測性能。這些專家描述符在模型訓(xùn)練集之外也具有很好的泛化能力，因為這些特征蘊含了豐富的化學(xué)知識。早在1937年，哈米特（Hammett）就擬合了σ參數(shù)，以預(yù)測化學(xué)取代基對反應(yīng)性的影響。此外，組分貢獻(xiàn)方法假設(shè)結(jié)構(gòu)組件或功能化在許多不同分子中表現(xiàn)相同，將這些組件參數(shù)化為可用于預(yù)測分子性質(zhì)的數(shù)值特征。自那時起，該領(lǐng)域發(fā)展出了涉及分子指紋識別技術(shù)以及用于預(yù)測的二維和三維的信息。近年來，由于均相過渡金屬催化劑的性質(zhì)受到其附加配體強烈影響，因此對這些膦配體的結(jié)構(gòu)特征和電子特征進(jìn)行參數(shù)化也在催化劑性質(zhì)預(yù)測方面取得了成功?；仡櫄v史模型，最近的研究還成功地利用密度泛函理論（DFT）和機器學(xué)習(xí)來學(xué)習(xí)哈米特（Hammett）參數(shù)。

2.1.3 學(xué)習(xí)化學(xué)表示

隨著計算硬件的進(jìn)步，模型變得愈加復(fù)雜，從簡單的線性回歸模型發(fā)展到諸如自編碼器、生成對抗網(wǎng)絡(luò)、圖神經(jīng)網(wǎng)絡(luò)和變換器等復(fù)雜架構(gòu)。我們不再依賴化學(xué)家直觀判斷分子的最佳表示方式，而是可以利用模型自動學(xué)習(xí)并挖掘大量數(shù)據(jù)中的復(fù)雜模式，以進(jìn)行性質(zhì)預(yù)測。在一定程度的抽象下，這種方法往往忽視三維信息或波函數(shù)特性，分子可以自然地表示為圖，其中原子是節(jié)點，鍵是邊。通過將指紋的概念從離散比特向量擴展到連續(xù)特征向量，我們提出了圖神經(jīng)網(wǎng)絡(luò)，以自動學(xué)習(xí)重要子結(jié)構(gòu)的連續(xù)表征，并在分子性質(zhì)預(yù)測任務(wù)中取得了最先進(jìn)的性能。這些表征已廣泛應(yīng)用于多個領(lǐng)域，例如用于分子的嗅覺性質(zhì)的機器學(xué)習(xí)，以及在催化中預(yù)測吸附物的吸附性質(zhì)。

雖然構(gòu)建圖所需的簡單原子特征和鍵特征可以迅速生成，但要進(jìn)行預(yù)測的性質(zhì)卻更難以獲取，尤其是在高質(zhì)量和高準(zhǔn)確度方面。由于學(xué)習(xí)到的表示通常需要大量的數(shù)據(jù)，因此復(fù)雜的架構(gòu)在從典型實驗設(shè)置中收集到的少量數(shù)據(jù)上表現(xiàn)并不理想。為了填補這一空白，研究人員創(chuàng)建了分子基準(zhǔn)，以便能夠正確評估這些學(xué)習(xí)到的表示的質(zhì)量。這些基準(zhǔn)包含了來自文獻(xiàn)的數(shù)據(jù)任務(wù)，涉及預(yù)測生物行為以及物理化學(xué)性質(zhì)或量子化學(xué)性質(zhì)，并提供了一個共同的平臺，使不同的機器學(xué)習(xí)架構(gòu)能夠以多種方式利用相同的數(shù)據(jù)進(jìn)行性質(zhì)預(yù)測。

為了提升圖嵌入的性能，如果我們對如何調(diào)整嵌入空間以更好地反映輸入之間的距離有一些直觀理解，就可以進(jìn)一步優(yōu)化這些嵌入。這可以包括一些策略，例如使嵌入意識到化學(xué)反應(yīng)如何轉(zhuǎn)化這些嵌入，或者采用對比學(xué)習(xí)等方法。最后，對于那些對分子在三維空間中構(gòu)象敏感的任務(wù)，將三維表示與固有不足的二維圖結(jié)合起來，已被證明在預(yù)測分子性質(zhì)方面是有效的。

2.1.4 限制和未解決的問題

盡管分子機器學(xué)習(xí)取得了巨大進(jìn)展，但是機器學(xué)習(xí)模型在超出其訓(xùn)練數(shù)據(jù)范圍時的泛化能力仍然有限，這給在新型化學(xué)領(lǐng)域應(yīng)用帶來了困難。有幾種方法可能有助于彌補這些差距。例如，可以使用物理信息模型，這些模型能夠包含一些基本表示，從而幫助模型更好地概括自身的表示，以滿足與自然物理法則相關(guān)的一些對稱性或特性。主動學(xué)習(xí)也是一種強大的工具，它可以通過捕獲計算或?qū)嶒灁?shù)據(jù)來動態(tài)擴展數(shù)據(jù)集，以實現(xiàn)外推。此外，雖然模型在性質(zhì)預(yù)測基準(zhǔn)任務(wù)中的表現(xiàn)逐漸改善，但這些基準(zhǔn)僅代表了化學(xué)任務(wù)的一個小子集，因此它們在其他具體任務(wù)上的表現(xiàn)仍不明確。盡管我們嘗試創(chuàng)建更具代表性的基準(zhǔn)，但這仍然不是社區(qū)的主要關(guān)注點。

結(jié)構(gòu)-性質(zhì)模型已被廣泛應(yīng)用于篩選項目中，并實現(xiàn)了一些經(jīng)過實驗驗證的預(yù)測。我們將在第2.2.1節(jié)中討論幾個精選案例研

2.2 從性質(zhì)到結(jié)構(gòu)：設(shè)計分子的化學(xué)空間

理性設(shè)計范式分析了結(jié)構(gòu)與性質(zhì)之間的關(guān)系，以便設(shè)計出有前景的分子。而另一種范式提出的問題是：有哪些分子能夠滿足給定的性質(zhì)？解決這個問題被稱為逆向設(shè)計問題。

化學(xué)空間是所有可合成分子的集合，通常認(rèn)為其規(guī)模龐大，至少有10^33到10^60個分子。在這片廣闊的空間中，潛在藥物可能治愈當(dāng)前疾病，而某些假設(shè)材料則可能為實現(xiàn)可持續(xù)的未來提供支持。

2.2.1 虛擬篩選

在導(dǎo)航化學(xué)空間的過程中，一種簡單的方法是首先列出一系列可行的選擇，然后逐步縮減至最佳解決方案。為實現(xiàn)這種轉(zhuǎn)變，實驗上采用了高通量篩選和合成化學(xué)庫中化合物的組合化學(xué)等策略。考慮到化學(xué)空間的巨大規(guī)模，隨意搜索化合物只會產(chǎn)生少量有希望的結(jié)果，導(dǎo)致效率低下，因為廣泛的化學(xué)合成活動的成本往往是高昂的或受限的。這促使了虛擬篩選和計算搜索漏斗作為一種方法，以過濾出不太有可能的化合物，僅留下最佳的候選化合物進(jìn)行合成和測試。在藥物發(fā)現(xiàn)中，計算機輔助的簡單篩選可以排除高分子量或帶有問題官能團(tuán)的化合物，然后再進(jìn)行更為計算密集的對接，以估計結(jié)合親和力，最終縮小到少數(shù)先導(dǎo)化合物。隨著虛擬庫規(guī)模的擴大增加了有希望結(jié)果出現(xiàn)的可能性，這推動了越來越大規(guī)模的篩選活動，同時也需要越來越多的計算資源。例如，在哈佛清潔能源項目中，我們通過分布式志愿者計算進(jìn)行了量子化學(xué)計算，搜索了10^7^個候選分子以尋找高效的有機光伏材料。

類似地，VirtualFlow通過高效利用數(shù)千個CPU核心對超過10億個分子進(jìn)行了對接。隨著化學(xué)庫規(guī)模的增長，所需的計算資源呈線性增加，而評估個別合成構(gòu)件適應(yīng)性的分層方法為突破線性擴展提供了一種途徑。

2.2.2 生成模型的逆向設(shè)計

隨著化學(xué)庫的規(guī)模超過10^15個分子，篩選這些分子在計算上變得極為困難，機器學(xué)習(xí)（ML, Machine Learning）提供了一種在不模擬所有分子的情況下考慮大搜索空間的方法。例如，在一個化學(xué)庫中，許多分子應(yīng)該具有相似的結(jié)構(gòu)和性質(zhì)，因此對每個分子進(jìn)行模擬是不必要的。處理這一問題的一種正式方法是先模擬庫中的一部分，然后在這個子集上訓(xùn)練性質(zhì)預(yù)測模型，這些模型應(yīng)能夠推廣到整個庫。由于這些性質(zhì)預(yù)測模型的計算成本低于模擬，因此可以對整個庫進(jìn)行評估，并用于優(yōu)先選擇候選分子進(jìn)行模擬。我們利用這一方法設(shè)計了經(jīng)過實驗驗證的有機發(fā)光二極管（OLEDs）。

然而，機器學(xué)習(xí)的另一種方法則提供了一種考慮所有（或大部分）化學(xué)空間的方式。給定一個以SMILES字符串表示的分子數(shù)據(jù)集，生成模型學(xué)習(xí)生成與該數(shù)據(jù)集相似的字符串。由于生成模型可以考慮任意字符串，它們有潛力生成化學(xué)空間中的任何分子。同時，它們也可以被條件化，以生成具有所需性質(zhì)的分子——本質(zhì)上是逆轉(zhuǎn)性質(zhì)預(yù)測過程。分子生成模型已應(yīng)用于多種模型類別，我們率先使用變分自編碼器（VAEs）來實現(xiàn)這一目的。其他例子包括自回歸模型、生成對抗網(wǎng)絡(luò)（GANs）和強化學(xué)習(xí)等眾多采樣策略。此外，生成模型還擴展到各種表示形式，如SMILES、SELFIES，以及分子圖和片段等。盡管遺傳算法和貝葉斯優(yōu)化等分子優(yōu)化方法有時也被稱為生成模型，但它們并不直接學(xué)習(xí)分子的分布。關(guān)于不同生成模型類別和表示形式的最新綜述可見于Gao等人的研究[2]，盡管這一領(lǐng)域正在迅速地發(fā)展。

隨著越來越多的生成模型被提出，基準(zhǔn)測試如GuacaMol和MOSES開始根據(jù)有效性、新穎性、獨特性以及目標(biāo)導(dǎo)向優(yōu)化來評估和比較不同的生成模型。優(yōu)化已成為主要焦點，因此可以將分子設(shè)計視為在分子圖空間內(nèi)對其性質(zhì)進(jìn)行組合優(yōu)化。在這種背景下，一個新的基準(zhǔn)強調(diào)樣本效率，即達(dá)到最佳分子所需進(jìn)行性質(zhì)評估的數(shù)量。此外，我們最近在Tartarus基準(zhǔn)集中提出了更現(xiàn)實的基準(zhǔn)任務(wù)，這些任務(wù)依賴于模擬，更加貼近計算資源和實驗資源受限的實際場景。

然而，當(dāng)生成模型超越化學(xué)庫覆蓋整個化學(xué)空間時，它們放寬了合成性的關(guān)鍵約束。這意味著這些生成模型可能會產(chǎn)生一些難以合成和評估的分子。為了克服這個問題，可合成的生成模型在產(chǎn)生新分子時會考慮化學(xué)合成路徑，從而確保所產(chǎn)生的新型分子不僅理論上有效，而且在實踐中也是可合成的。另外，一些方法結(jié)合虛擬庫與生成技術(shù)，以確保提出的新型分子始終來自于已有庫。這些方法對于高通量陣列和自動化實驗室尤其重要，因為如果預(yù)測出的新型分子無法在現(xiàn)有平臺上合成，將可能延緩閉環(huán)方法的發(fā)展。

關(guān)于這些進(jìn)展及當(dāng)前領(lǐng)域內(nèi)最新動態(tài)，Du等人提供了出色綜述，總結(jié)了該領(lǐng)域最新的發(fā)展與方法。[3]

近年來，生成模型已證明其價值。其中值得注意的是InSilico Medicine公司利用這些模型成功開發(fā)了幾種正在進(jìn)行臨床試驗的新藥。在2019年，我們與InSilico及中國無錫藥明康德公司的研究人員共同展示了利用生成模型在約45天內(nèi)開發(fā)出領(lǐng)先藥物候選者的能力。從那時起，許多研究人員繼續(xù)展示其他使用生成模型進(jìn)行藥物發(fā)現(xiàn)的新案例。例如，Barzilay及其同事采用類似的方法開發(fā)了抗生素。

2.2.3 限制和未解決的問題

雖然這樣的模型能夠輕松生成候選者，但候選者的質(zhì)量取決于能否開發(fā)出一個表現(xiàn)良好且可擴展的成本函數(shù)，以對生成模型進(jìn)行條件設(shè)置。此外，這些模型是基于近似度量進(jìn)行訓(xùn)練的，這意味著它們在實際應(yīng)用中的表現(xiàn)仍需評估。因此，評估候選者的可合成性或提供生成候選者的具體步驟至關(guān)重要（見下一節(jié)）。

大多數(shù)生成模型的開發(fā)通常以簡單的基準(zhǔn)為目標(biāo)，比如預(yù)測log P這樣簡單的性質(zhì)。然而，使用合適的基準(zhǔn)（如Tartarus）進(jìn)行開發(fā)，或?qū)⑵湎拗圃诳珊铣傻姆肿蛹戏秶鷥?nèi)，比如那些可以通過自動化實驗室合成的分子（參見第2.7節(jié)），仍然是一個挑戰(zhàn)。

2.3 從結(jié)構(gòu)到結(jié)構(gòu)：合成規(guī)劃和反應(yīng)條件預(yù)測

合成規(guī)劃——即尋找能夠生成理想目標(biāo)分子的合成途徑——是化學(xué)家們在過去一個多世紀(jì)中面臨的一個持續(xù)挑戰(zhàn)，尤其是在藥物發(fā)現(xiàn)、農(nóng)業(yè)化學(xué)或分子材料化學(xué)等“分子世界”領(lǐng)域。這個問題在兩個方面都非常復(fù)雜：首先，給定所有反應(yīng)物、試劑和反應(yīng)條件，預(yù)測特定未見反應(yīng)的結(jié)果至今仍然是一個未解決的問題。其次，即使擁有這樣的“反應(yīng)預(yù)測”工具，尋找可行的多步驟反應(yīng)序列，以便最終從廉價且可商業(yè)獲得的前體合成目標(biāo)分子，還需要在龐大的可能途徑網(wǎng)絡(luò)中進(jìn)行搜索。此外，合成規(guī)劃問題還面臨來自實際需求的額外挑戰(zhàn)：效率、成本、廢物產(chǎn)生、可持續(xù)性、安全性和毒性等都是在工業(yè)環(huán)境中特別需要關(guān)注的重要問題。

2.3.1 合成規(guī)劃

合成規(guī)劃通常采用逆合成的方法進(jìn)行，這一方法由諾貝爾獎獲得者E.J. 科里首創(chuàng)。通過利用化學(xué)反應(yīng)性的知識，將目標(biāo)分子逐漸被分解為越來越簡單的前體，最終得到在市場上可購買的起始材料。形式上，這相當(dāng)于一個樹搜索問題。早在1960年代，科里就意識到這種方法非常適合以計算方式進(jìn)行處理。從那時起，已經(jīng)開發(fā)了多種專家系統(tǒng)來指導(dǎo)這一樹搜索過程。

在過去十年里，利用機器學(xué)習(xí)工具箱應(yīng)對這一挑戰(zhàn)取得了顯著進(jìn)展。在這種情況下，關(guān)鍵的“決策策略”通常被視為一個多任務(wù)回歸問題：給定目標(biāo)分子的結(jié)構(gòu)，訓(xùn)練一個機器學(xué)習(xí)模型以預(yù)測從反應(yīng)目錄中適用的反應(yīng)。然而，這種符號化的方法需要一個預(yù)定義的包含所有反應(yīng)類型的目錄，通常被稱為反應(yīng)“規(guī)則”或“模板”，這本身又帶來了新的障礙。關(guān)于“反應(yīng)規(guī)則”這一術(shù)語，并沒有一個普遍接受的定義，也沒有明確的程序來從數(shù)據(jù)中提取反應(yīng)規(guī)則。另一方面，“無模板”的方法針對一步反應(yīng)預(yù)測問題，將反應(yīng)預(yù)測視為起始材料圖中的圖編輯，或者解決一個序列到序列的“產(chǎn)品到起始材料”的翻譯任務(wù)。值得注意的是，這些模型（無論是有模板還是無模板）可以在正向方向上進(jìn)行類似的訓(xùn)練，即從起始材料預(yù)測反應(yīng)產(chǎn)物。

這些單步預(yù)測模型用于構(gòu)建樹搜索模型，以解決綜合規(guī)劃問題。在這種情況下，蒙特卡洛樹搜索（Monte-Carlo tree search）通常是首選方法。繼Segler等人的開創(chuàng)性工作和Coley等人的研究之后，就已經(jīng)發(fā)布了多個開源的系統(tǒng)。

2.3.2 反應(yīng)條件的預(yù)測和優(yōu)化

在合成規(guī)劃中，常常被忽視的一點是，僅僅了解一種可能適用的反應(yīng)類型，并不能保證所設(shè)想的中間體或目標(biāo)產(chǎn)品能夠從提議的起始材料中成功合成。產(chǎn)品是否能夠獲得（理想情況下是高產(chǎn)率），在很大程度上取決于通常所稱的反應(yīng)條件：試劑、催化劑、添加劑和溶劑的選擇，連續(xù)參數(shù)（如計量比、溫度和反應(yīng)時間）的具體數(shù)值，以及實驗室中進(jìn)行反應(yīng)時的實際操作細(xì)節(jié)。在理想情況下，一個人工智能輔助工具可以接收一個新的“起始材料到產(chǎn)品”的轉(zhuǎn)化，并輸出所需的反應(yīng)條件。然而，這一目標(biāo)尚未實現(xiàn)，主要原因在于反應(yīng)條件涉及廣泛的組合參數(shù)空間，并且通常受到難以模擬的基本物理原理的影響。在實際操作中，反應(yīng)條件往往通過基于文獻(xiàn)先例的“最近鄰?fù)评怼眮磉x擇，這一過程可以是自動化完成，也可能依賴于人類專家的經(jīng)驗。

機器學(xué)習(xí)方法在反應(yīng)條件優(yōu)化方面主要集中于將反應(yīng)產(chǎn)率作為反應(yīng)條件的函數(shù)進(jìn)行回歸建模。在這一背景下，數(shù)據(jù)驅(qū)動方法與物理有機化學(xué)中的回歸技術(shù)相結(jié)合，試圖基于機理考慮來建模反應(yīng)結(jié)果。在高度受限的條件空間中，利用高通量實驗系統(tǒng)生成的數(shù)據(jù)進(jìn)行的純數(shù)據(jù)驅(qū)動監(jiān)督學(xué)習(xí)在產(chǎn)物產(chǎn)率方面顯示出了良好的效果。例如，我們在優(yōu)化與制藥工藝化學(xué)相關(guān)的反應(yīng)E/Z比率的研究中發(fā)現(xiàn)，僅通過約100次實驗，我們便超越了人類優(yōu)化這一過程時所達(dá)到的先進(jìn)水平。同時，利用文獻(xiàn)數(shù)據(jù)進(jìn)行相同目的的研究通常存在嚴(yán)重缺陷，這往往需要對每個案例進(jìn)行單獨的反應(yīng)優(yōu)化（更詳細(xì)的討論見下文）。在過去十年中，黑箱優(yōu)化算法，尤其是貝葉斯優(yōu)化（Bayesian Optimization, BO），變得越來越重要。在貝葉斯優(yōu)化中，通過對現(xiàn)有數(shù)據(jù)進(jìn)行貝葉斯推斷來構(gòu)建用于預(yù)測反應(yīng)產(chǎn)率的概率模型。這些模型在整個優(yōu)化過程中以迭代方式指導(dǎo)決策。而基于機器學(xué)習(xí)的替代模型進(jìn)行迭代閉環(huán)優(yōu)化的方法將在第2.7節(jié)中進(jìn)一步討論。對于條件優(yōu)化，這些迭代方法在日益復(fù)雜的合成反應(yīng)場景中表現(xiàn)出顯著的效果。同時，化學(xué)領(lǐng)域的特定挑戰(zhàn)，例如識別對多種底物“普遍適用”的條件，而不僅僅是針對一兩個模型底物的條件，也推動了該領(lǐng)域算法的發(fā)展。值得注意的是，我們在鈴木反應(yīng)方面的研究使得條件具有普遍適用性，并且其產(chǎn)率是該領(lǐng)域之前先進(jìn)水平的兩倍。

2.3.3 限制和未解決的問題

盡管在過去十年中，基于機器學(xué)習(xí)的合成規(guī)劃領(lǐng)域取得了顯著的算法進(jìn)展，但其實際應(yīng)用仍然局限于開發(fā)相對簡單的目標(biāo)分子和短的合成路線。事實上，目前專家系統(tǒng)（即手動編碼反應(yīng)類型和適用規(guī)則的系統(tǒng)）仍然是計算機輔助合成規(guī)劃的最先進(jìn)水平。特別是，Grzybowski 的 Chematica 系統(tǒng)（現(xiàn)已商業(yè)化為 Synthia）在復(fù)雜自然產(chǎn)品合成或供應(yīng)鏈意識的合成規(guī)劃中展現(xiàn)了令人矚目的實驗應(yīng)用。原則上，基于機器學(xué)習(xí)的算法應(yīng)該能夠提供與這些專家系統(tǒng)相似或更優(yōu)的合成路線，但目前存在的問題主要歸因于可用合成數(shù)據(jù)質(zhì)量和數(shù)量上的不足，以及從數(shù)據(jù)中提取結(jié)構(gòu)化知識時所面臨的算法限制。我們和其他研究者最近對此進(jìn)行了廣泛討論。

在反應(yīng)結(jié)果和反應(yīng)條件預(yù)測的背景下，類似的數(shù)據(jù)限制問題也被討論過。專利數(shù)據(jù)以及商業(yè)數(shù)據(jù)庫在數(shù)據(jù)報告的準(zhǔn)確性、一致性或結(jié)構(gòu)化方面存在嚴(yán)重問題，這不僅是由于錯誤數(shù)據(jù)、不一致數(shù)據(jù)或非結(jié)構(gòu)化數(shù)據(jù)的存在，還因為在報告的實驗中，人類偏見的影響，特別是對顯著條件的偏重和對低產(chǎn)率記錄的忽視，這些因素阻礙了從文獻(xiàn)數(shù)據(jù)中進(jìn)行反應(yīng)產(chǎn)率預(yù)測建模。社區(qū)驅(qū)動的開源數(shù)據(jù)庫，例如開放反應(yīng)數(shù)據(jù)庫(Open Reaction Database)，代表了朝著更少偏見和更全面的數(shù)據(jù)收集邁出的重要一步——但這樣的倡議需要在合成有機化學(xué)實驗室中采用更為數(shù)字化的思維方式，以便更好地生成、收集和報告數(shù)據(jù)。

數(shù)據(jù)不足的另一個后果是缺少具有代表性的基準(zhǔn)問題集。這種情況尤其適用于多步驟合成規(guī)劃領(lǐng)域，在該領(lǐng)域中，迫切需要基準(zhǔn)來進(jìn)行合成規(guī)劃性能的更為定量的評估。同樣，化學(xué)反應(yīng)性優(yōu)化算法也需要具有代表性的基準(zhǔn)，以評估標(biāo)準(zhǔn)貝葉斯優(yōu)化算法如何適應(yīng)化學(xué)反應(yīng)性的復(fù)雜性。最重要的是，這些基準(zhǔn)必須反映專家化學(xué)家所識別的現(xiàn)實問題，以激勵和推動算法機器學(xué)習(xí)的進(jìn)展，從而應(yīng)對計算機輔助有機合成中的挑戰(zhàn)。

2.4 物理結(jié)構(gòu)：模擬和三維結(jié)構(gòu)

機器學(xué)習(xí)使得數(shù)據(jù)驅(qū)動的解決方案能夠應(yīng)用于實驗問題和計算問題。在有機化學(xué)中，分子的2D分子圖結(jié)構(gòu)是重點，而通過薛定諤方程，分子又建立在3D物理現(xiàn)實之上，這為預(yù)測分子性質(zhì)和相互作用提供了豐富的量子力學(xué)和統(tǒng)計力學(xué)理論。模擬方法如密度泛函理論（DFT）和分子動力學(xué)（MD）可以利用這些理論來計算并預(yù)測分子的性質(zhì)和相互作用。然而，盡管計算能力不斷提升，這些模擬仍然計算成本高，這限制了它們只能在小系統(tǒng)和短時間尺度下進(jìn)行。而通過從眾多模擬結(jié)果中學(xué)習(xí)，機器學(xué)習(xí)提供了一個獨特的機會來加速分子模擬。

2.4.1 神經(jīng)網(wǎng)絡(luò)勢

量子化學(xué)中的一個基本問題是：對于給定一個分子，其在三維空間中表示為一組核點，如何求解薛定諤方程，并預(yù)測總能量及每個原子所受的力。力的計算使我們能夠利用牛頓方程進(jìn)行向前推進(jìn)的動態(tài)模擬。然而，對于分子系統(tǒng)而言，求解薛定諤方程既復(fù)雜又計算成本高昂，而模擬牛頓方程則需要在每個模擬幀上計算力。因此，科學(xué)家們通過將簡單函數(shù)擬合到實驗數(shù)據(jù)來近似這些力，從而產(chǎn)生了第一個參數(shù)化力場，例如倫納德-瓊斯勢。半經(jīng)驗?zāi)Ｐ徒Y(jié)合了更多實驗擬合參數(shù)，以便更準(zhǔn)確地預(yù)測能量和力。這些經(jīng)驗力場使得經(jīng)典分子動力學(xué)模擬成為可能，從而可以研究簡單的蛋白質(zhì)。然而，要捕捉像化學(xué)反應(yīng)性這樣的行為，則需要考慮量子效應(yīng)。隨著計算能力的提升以及更快的模擬方法（如密度泛函理論（DFT））的出現(xiàn)，最終使得在每個時間步上使用從頭分子動力學(xué)求解薛定諤方程成為可能，但這需要付出巨大的計算成本。

神經(jīng)力場的引入帶來了顯著變化。通過對密度泛函理論（DFT）數(shù)據(jù)進(jìn)行訓(xùn)練，神經(jīng)網(wǎng)絡(luò)能夠直接從三維核坐標(biāo)預(yù)測能量和分子力，這使得分子動力學(xué)可以以從頭計算的精度進(jìn)行模擬，同時大幅降低了計算成本。由于分子力必須對分子的旋轉(zhuǎn)保持等變性——也就是說，如果分子被旋轉(zhuǎn)，分子力也必須“隨之旋轉(zhuǎn)”——這促使了保持這種對稱性的等變神經(jīng)架構(gòu)的發(fā)展。在機器學(xué)習(xí)領(lǐng)域，神經(jīng)力場經(jīng)過了競爭性的基準(zhǔn)測試，不斷比較不同的架構(gòu)和方法。Duval等人提供了這些等變架構(gòu)發(fā)展的詳細(xì)時間線。[4]隨著能量和力的數(shù)據(jù)集不斷增長，例如開放催化基準(zhǔn)，神經(jīng)力場也開始追求普適性了。

2.4.2 預(yù)測波函數(shù)和電子密度

相較于使用力場來預(yù)測能量，另一種預(yù)測能量的方法是直接預(yù)測波函數(shù)或電子密度。這種方法的優(yōu)勢在于，波函數(shù)和電子密度不僅包含了能量信息，還涵蓋了系統(tǒng)的其他物理可觀測量。例如，可以訓(xùn)練神經(jīng)網(wǎng)絡(luò)直接根據(jù)核坐標(biāo)來預(yù)測哈密頓矩陣。對哈密頓矩陣進(jìn)行對角化可以得到分子軌道，而這些分子軌道則構(gòu)成了波函數(shù)。此外，可以利用預(yù)測的波函數(shù)來初始化自洽場迭代，從而加快量子化學(xué)計算的收斂速度。最近的研究表明，神經(jīng)網(wǎng)絡(luò)可以被訓(xùn)練，使其輸出滿足自洽性方程，這樣就不再需要哈密頓矩陣的標(biāo)簽了。

此外，神經(jīng)網(wǎng)絡(luò)還可以作為假設(shè)形式，直接表示波函數(shù)。在這種情況下，網(wǎng)絡(luò)以電子坐標(biāo)為輸入，并輸出波函數(shù)幅度。采用相同的隨機優(yōu)化算法，神經(jīng)波函數(shù)可以被訓(xùn)練以最小化變分能量并滿足薛定諤方程。這種方法最近也擴展到了激發(fā)態(tài)。

另一方面，在密度泛函理論中，也可以訓(xùn)練神經(jīng)網(wǎng)絡(luò)直接根據(jù)給定的核坐標(biāo)來預(yù)測電荷密度。同時，機器學(xué)習(xí)也被應(yīng)用于學(xué)習(xí)密度泛函。

2.4.3 預(yù)測和生成3D結(jié)構(gòu)

即使存在快速準(zhǔn)確的力場，許多問題仍然依賴于找到分子的能量優(yōu)先構(gòu)象。然而，構(gòu)象空間依然非常龐大，特別是對于大型體系如蛋白質(zhì)而言，實際上是無法窮盡的。同樣，在建?；瘜W(xué)反應(yīng)時，龐大的構(gòu)象搜索空間使得識別過渡態(tài)變得具有挑戰(zhàn)。為解決這些問題，機器學(xué)習(xí)方法可以直接預(yù)測和生成3D結(jié)構(gòu)。

大規(guī)模構(gòu)象搜索空間的復(fù)雜性促使生成模型用于引導(dǎo)這一空間的探索。無條件生成模型，如等變擴散模型，能夠同時生成3D原子位置和原子類型。在解決尋找給定分子穩(wěn)定的3D構(gòu)象問題時，原子類型可能保持不變，生成則是基于2D分子圖的條件。一些方法可自由生成原子位置，而其他方法則生成可旋轉(zhuǎn)鍵的扭轉(zhuǎn)角度。最近的研究顯示，放棄扭轉(zhuǎn)和旋轉(zhuǎn)對稱約束可能帶來更好的結(jié)果，盡管成本更高。有一個相關(guān)的任務(wù)被稱為對接，即在蛋白質(zhì)口袋內(nèi)進(jìn)行配體的構(gòu)象搜索，以評估結(jié)合親和力。這一過程也已經(jīng)使用擴散模型來來研究了。

在晶體結(jié)構(gòu)預(yù)測問題中，目標(biāo)是找到給定組成的最穩(wěn)定周期性原子排列方式。傳統(tǒng)方法是通過搜索所有穩(wěn)定的原子坐標(biāo)和晶格矢量的排列組合來找到能量最低的結(jié)構(gòu)。而等變擴散模型則為這一問題提供了自然的解決方案，它可以同時擴散坐標(biāo)和晶格參數(shù)，并強加空間群約束以進(jìn)一步提升性能。實際上，將這種擴散方法擴展到大型數(shù)據(jù)集，使逆向設(shè)計能夠同時滿足多個期望的性質(zhì)。

在與生物分子模擬相關(guān)的領(lǐng)域中，三維結(jié)構(gòu)預(yù)測問題普遍存在。長期以來，從蛋白質(zhì)序列預(yù)測折疊的三維蛋白質(zhì)結(jié)構(gòu)這一難題在一定程度上已通過AlphaFold及相關(guān)模型得到了有效解決。在此基礎(chǔ)上，擴散模型生成了以剛性殘基序列表示的蛋白質(zhì)骨架。這些模型取得了顯著成功，甚至被用于設(shè)計滿足結(jié)構(gòu)約束的蛋白質(zhì)，并經(jīng)過了實驗驗證。這些擴散模型的應(yīng)用范圍已擴展到所有生物分子，其方法能夠預(yù)測蛋白質(zhì)、RNA、DNA和配體如何在三維原子細(xì)節(jié)中的組裝方式，從而涵蓋了對接任務(wù)，因此有望在未來成為藥物發(fā)現(xiàn)的重要工具。

2.4.4 增強采樣和粗粒化模擬

尋找最穩(wěn)定的幾何形狀固然有其價值，但要真正模擬分子之間的熱力學(xué)相互作用，則需要對三維結(jié)構(gòu)的平衡分布進(jìn)行采樣。平衡態(tài)遵循與能量相關(guān)的Boltzmann分布，而學(xué)習(xí)這種平衡分布的生成模型被稱為Boltzmann生成器。深度生成模型開始通過流匹配這一擴散模型的變體來解決這個問題，并且已經(jīng)在多種不同類型的肽中證明了其可轉(zhuǎn)移性。另一種方法則是利用?？栓C普朗克方程來學(xué)習(xí)如何采樣平衡分布。

在粗?；^程中，通常將原子聚集成所謂的珠子，這樣就可以降低計算成本，并且能夠捕捉到長時間尺度的事件。然而，這些粗?；樽拥牧π枰c全原子力進(jìn)行擬合。為了解決這個問題，可以應(yīng)用神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)粗?；?，通過預(yù)測自由能的梯度，而不是能量，并將這些預(yù)測的力與全原子力進(jìn)行匹配。而使用流匹配方法則消除了對全原子力的需求，僅需粗?；樽拥钠胶鈽颖炯纯?。此外，擴散模型可以同時學(xué)習(xí)生成模型和粗?；觥?/p>

雖然粗?；龅脑u估速度明顯快于原子級力場，但分子動力學(xué)模擬仍然受到必須使用飛秒級積分時間步長的限制。為了解決這一問題，平衡方法的替代方案主要集中在加速分子動力學(xué)，以實現(xiàn)更長的時間尺度。

這可以通過“時間粗粒化”來實現(xiàn)，即訓(xùn)練生成模型以預(yù)測在較大時間步長下的結(jié)果。此外，研究還致力于將模型擴展到多個熱力學(xué)性質(zhì)范圍，如溫度和壓力。這使得能夠模擬不同環(huán)境，并對之前不適合的數(shù)據(jù)進(jìn)行訓(xùn)練。通過在模型輸入中添加溫度等額外參數(shù)，可以將相應(yīng)的粗?；杂赡芎瘮?shù)的導(dǎo)數(shù)納入損失函數(shù)中。而自由能的高階導(dǎo)數(shù)作為響應(yīng)性質(zhì)，可以通過多次反向傳播計算得到。因此整合熱力學(xué)參數(shù)可能是整體模擬生物或工業(yè)環(huán)境的重要因素之一。

對于稀有事件采樣，例如化學(xué)反應(yīng)和過渡態(tài)搜索，已經(jīng)出現(xiàn)了無反應(yīng)坐標(biāo)的過渡路徑采樣方法。另一方面，當(dāng)反應(yīng)物、產(chǎn)物和過渡態(tài)的數(shù)據(jù)集可用時，可以直接訓(xùn)練生成模型，進(jìn)而可以基于反應(yīng)物和產(chǎn)物生成過渡態(tài)。

2.4.5 限制和未解決的問題

雖然神經(jīng)力場可以達(dá)到很高的準(zhǔn)確性，但它們?nèi)匀恍枰銐虻挠?xùn)練數(shù)據(jù)來覆蓋整個相空間。如果沒有完全覆蓋，神經(jīng)力場可能會陷入不穩(wěn)定的動力學(xué)狀態(tài)。一項基準(zhǔn)測試強調(diào)，評估力場的標(biāo)準(zhǔn)應(yīng)基于其動力學(xué)表現(xiàn)，而非力的誤差。

然而，隨著神經(jīng)力在越來越大數(shù)據(jù)集上的訓(xùn)練，這些問題可能會逐漸得到解決，從而推動通用力場的發(fā)展。盡管機器學(xué)習(xí)模型受限于數(shù)據(jù)質(zhì)量，但新數(shù)據(jù)可以通過模擬生成，這為數(shù)據(jù)可用性和大型模型的發(fā)展帶來了樂觀前景。

與此同時，要在大長度和時間尺度上進(jìn)行有效模擬仍需大量工作。在亞穩(wěn)態(tài)條件下進(jìn)行適當(dāng)平衡采樣面臨著重大挑戰(zhàn)，相關(guān)的稀有事件采樣問題也依然是亟待改進(jìn)的領(lǐng)域，因此成為了近期眾多研究工作的重點。

2.5 結(jié)構(gòu)和分析：光譜學(xué)和結(jié)構(gòu)解析

在化學(xué)領(lǐng)域，一個自然而又未被充分利用的機遇是利用機器學(xué)習(xí)來進(jìn)行結(jié)構(gòu)解析，它旨在通過光譜或其他分析數(shù)據(jù)預(yù)測二維或三維分子結(jié)構(gòu)。就像計算機視覺使得計算機能夠感知自然界一樣，計算光譜學(xué)也可以讓機器通過分析儀器感知分子世界。隨著實驗自動化技術(shù)的進(jìn)步，預(yù)計將合成越來越多的從頭合成和未知的化合物，這推動了對更快且準(zhǔn)確的結(jié)構(gòu)解析需求，以充分支持這些自主分子發(fā)現(xiàn)和反應(yīng)發(fā)現(xiàn)平臺。

2.5.1 正向光譜預(yù)測

數(shù)據(jù)驅(qū)動的結(jié)構(gòu)闡明最直接的方式是存儲一個光譜庫，針對給定的光譜在庫中搜索匹配項，然后檢索相應(yīng)的結(jié)構(gòu)。為了擴大光譜庫的覆蓋范圍，可以使用前向光譜預(yù)測來為特定化學(xué)結(jié)構(gòu)預(yù)測其光譜。盡管物理模擬提供了一種有根據(jù)的方法來預(yù)測光譜，但其過程往往復(fù)雜且計算成本高昂。另一種方法則是利用機器學(xué)習(xí)從結(jié)構(gòu)出發(fā)預(yù)測各種類型的光譜，包括質(zhì)譜（MS）、核磁共振（NMR）和紫外-可見光譜（UV-vis）。一些研究將前向預(yù)測問題視為公式預(yù)測，采用自回歸模型或固定的公式詞匯；而另一些研究則專注于子圖預(yù)測，利用遞歸分解、自回歸生成和深度概率模型，或結(jié)合三維結(jié)構(gòu)信息。在質(zhì)譜的背景下，一些方法將光譜近似為具有相應(yīng)峰強度的離散區(qū)間，從而簡化問題，將其轉(zhuǎn)化為直接從結(jié)構(gòu)回歸質(zhì)譜的任務(wù)。除了結(jié)構(gòu)到光譜的預(yù)測外，另一種方法涉及通過估計各種分子描述符來預(yù)測結(jié)構(gòu)-性質(zhì)關(guān)系——這些描述符可以是標(biāo)量（例如能量、部分電荷）、向量（例如電偶極子、原子力）以及高階張量（例如Hessian矩陣、極化率、八極矩）——然后利用這些描述符來預(yù)測不同類型的光譜，包括紅外光譜、拉曼光譜、紫外-可見光譜和核磁共振。

2.5.2 結(jié)構(gòu)解析

直接從給定光譜預(yù)測化學(xué)結(jié)構(gòu)的過程被稱為逆問題。DENDRAL是第一個用于從質(zhì)譜推斷化學(xué)結(jié)構(gòu)的專家系統(tǒng)，誕生于1969年。化學(xué)家們還利用機器學(xué)習(xí)（ML）分析紅外光譜（IR）、核磁共振（NMR）和質(zhì)譜，以識別有限的官能團(tuán)。雖然這些方法提供了有用的結(jié)構(gòu)見解，但它們無法完全解析分子結(jié)構(gòu)。

結(jié)合多個推斷出的官能團(tuán)的信息，使得結(jié)構(gòu)解析成為可能。對于NMR數(shù)據(jù)，分子結(jié)構(gòu)可以通過首先識別分子亞結(jié)構(gòu)和官能團(tuán)來進(jìn)行解析，然后通過波束搜索在可能的配置中進(jìn)行最優(yōu)組合，或者逐個原子構(gòu)建，這與化學(xué)家在解釋NMR光譜時采取的方法相似。類似的“亞結(jié)構(gòu)重建”策略也在紅外光譜和表面增強拉曼光譜（SERS）中以不同程度的細(xì)節(jié)應(yīng)用。然而，隨著原子數(shù)量的增加，這種方法很快會遇到組合規(guī)模問題。

分子結(jié)構(gòu)解析可以從深度學(xué)習(xí)的角度將其視作為一個端到端的問題。在這種方法中，光譜被標(biāo)記為字符串，并預(yù)測SMILES字符串；這可以視為一種機器翻譯任務(wù)。這種方法已經(jīng)應(yīng)用于核磁共振（NMR）、紅外光譜（IR）和串聯(lián)質(zhì)譜（MS/MS）數(shù)據(jù)中了，顯示出來在擴展到更大化學(xué)系統(tǒng)和從頭結(jié)構(gòu)解析方面具有更顯著的潛力。此外，結(jié)構(gòu)預(yù)測問題也可以被表述為一個優(yōu)化任務(wù)，例如，可以將其形式化為馬爾可夫決策過程。如果我們考慮一些關(guān)于當(dāng)前化學(xué)系統(tǒng)的先驗信息，如化學(xué)式、已知的起始材料和反應(yīng)條件，將這些信息作為約束條件應(yīng)用，就可以幫助模型更有效地收斂到一個解決方案。

隨著研究的深入，從分子到晶體的轉(zhuǎn)變，解決粉末X射線衍射（PXRD）和X射線吸收近邊結(jié)構(gòu)（XANES）等X射線光譜數(shù)據(jù)的逆問題，為機器學(xué)習(xí)領(lǐng)域帶來了新的挑戰(zhàn)。這為不同深度學(xué)習(xí)模型在晶體系統(tǒng)和空間群識別中的應(yīng)用提供了獨特且尚未充分開發(fā)的機會。特別是，擴散模型展現(xiàn)出了良好的前景，尤其是在文本到圖像生成這一對應(yīng)逆問題中的成功應(yīng)用。在這個背景下，我們可以在文本與光譜之間，以及圖像生成與晶體結(jié)構(gòu)預(yù)測之間建立類比。

在旋轉(zhuǎn)光譜學(xué)領(lǐng)域，光譜分配的挑戰(zhàn)——即從密集的旋轉(zhuǎn)光譜中推導(dǎo)旋轉(zhuǎn)常數(shù)——代表了機器學(xué)習(xí)在這一領(lǐng)域早期應(yīng)用之一。由于光譜密集且易于模擬，這個問題特別適合深度學(xué)習(xí)技術(shù)。然而，僅依靠旋轉(zhuǎn)常數(shù)無法確定分子的三維結(jié)構(gòu)。我們最近提出的方法通過推斷三維結(jié)構(gòu)來解決這一問題，所需的信息包括分子式、旋轉(zhuǎn)常數(shù)以及稱為替代坐標(biāo)的無符號原子笛卡爾坐標(biāo)。

在結(jié)構(gòu)生物學(xué)領(lǐng)域，蛋白質(zhì)結(jié)構(gòu)預(yù)測的進(jìn)展與冷凍電子顯微鏡技術(shù)的發(fā)展相輔相成。利用冷凍電子顯微鏡重建蛋白質(zhì)結(jié)構(gòu)的過程已經(jīng)采用了深度生成模型。這些方法已發(fā)展到能夠從冷凍電子斷層成像（cryo-ET）中重建生物分子動態(tài)的程度。利用冷凍電子顯微鏡進(jìn)行的結(jié)構(gòu)解析工作也在不斷取得日新月異的進(jìn)展。此外，數(shù)據(jù)處理方面的進(jìn)步使得分辨率得到了顯著提升，而這些改進(jìn)都可以通過使用機器學(xué)習(xí)方法進(jìn)一步增強。

2.5.3 限制和未解決的問題

與所有需要大量數(shù)據(jù)的方法一樣，一個關(guān)鍵問題始終存在：雖然可以獲得大量的模擬光譜，但考慮模型在實驗光譜上的表現(xiàn)是否令人滿意至關(guān)重要，因為實驗光譜往往表現(xiàn)出更大的變異性和不一致性。一個值得思考的問題是：科學(xué)界是否應(yīng)該更加努力推動將原始光譜文件存放在開放數(shù)據(jù)庫中，以促進(jìn)深度學(xué)習(xí)在從自動化光譜到結(jié)構(gòu)解析中的應(yīng)用？

對于逆向光譜到結(jié)構(gòu)解析的工作中，雖然純樣品的自主分子結(jié)構(gòu)確定無疑對高通量反應(yīng)優(yōu)化和發(fā)現(xiàn)活動至關(guān)重要，但同樣重要的是解決來自復(fù)雜混合物的光譜結(jié)構(gòu)的注釋問題，這包括對特定目標(biāo)化合物的定向識別和非定向代謝組學(xué)。這類混合物在實際樣本矩陣中是常見配置，對于生物診斷、法醫(yī)學(xué)等多個領(lǐng)域都是不可或缺的。這些任務(wù)的成功在很大程度上依賴于模型從復(fù)雜的數(shù)據(jù)中解開并分離出單個分子光譜特征的能力。機器學(xué)習(xí)擅長處理復(fù)雜、高維數(shù)據(jù)，因此非常適合處理這些具有挑戰(zhàn)性的任務(wù)。此外，利用機器學(xué)習(xí)方法集成來自多個光譜輸入的信息，可以進(jìn)一步提高結(jié)構(gòu)解析的準(zhǔn)確性和完整性。

2.6 利用基礎(chǔ)化學(xué)模型實現(xiàn)規(guī)模效益

隨著計算能力的提升，機器學(xué)習(xí)模型已經(jīng)在越來越大規(guī)模的數(shù)據(jù)集上進(jìn)行了訓(xùn)練。在大規(guī)模應(yīng)用中，機器學(xué)習(xí)展現(xiàn)出不同層次的能力。而基礎(chǔ)模型是經(jīng)過廣泛數(shù)據(jù)訓(xùn)練的大規(guī)模模型，能夠應(yīng)用于多種下游任務(wù)。一些通用基礎(chǔ)模型，如ChatGPT、Gemini和Llama，通常用于語言生成和圖像生成；其中許多模型僅針對語言進(jìn)行訓(xùn)練，或者是在多模態(tài)上進(jìn)行訓(xùn)練。然而，在化學(xué)領(lǐng)域使用這些模型面臨著獨特的挑戰(zhàn)，因此許多研究者選擇從頭開始在化學(xué)數(shù)據(jù)上訓(xùn)練他們的模型，但這并非易事。在本節(jié)中，我們將探討化學(xué)領(lǐng)域基礎(chǔ)模型的現(xiàn)狀，并提出對尚未解決問題的看法。

2.6.1 通過大型語言模型和智能體進(jìn)行知識轉(zhuǎn)換

一些最早將生成模型應(yīng)用于化學(xué)的研究是通過語言實現(xiàn)的，這得益于分子可以使用SMILES表示法以字符串形式進(jìn)行表示。早期的化學(xué)語言模型是通過無監(jiān)督學(xué)習(xí)對SMILES表示進(jìn)行訓(xùn)練的，它學(xué)習(xí)了分子子片段之間的依賴關(guān)系。最近，這些模型也開始同時在其他以文本標(biāo)記表示的分子形式上進(jìn)行訓(xùn)練，例如文本描述、科學(xué)論文和合成程序，它們通常采用自回歸損失，以便在推理時能夠生成分子的描述或結(jié)構(gòu)。Ramos等人撰寫了一篇綜合性綜述[5]，詳細(xì)介紹了迄今為止80個化學(xué)/生物化學(xué)語言模型，以供讀者進(jìn)一步了解。將文本描述納入模型的一個動機是，它們包含有關(guān)分子功能性質(zhì)的信息，這對于改善結(jié)構(gòu)相似但功能不同的分子的嵌入表示非常有幫助，反之亦然。這些文本描述還讓用戶能夠使用自然語言與模型互動，這比起僵硬的查詢方式對許多用戶來說更加直觀。此外，大型語言模型（LLMs）還被用于科學(xué)文獻(xiàn)解析，促進(jìn)從現(xiàn)有文獻(xiàn)中提取化學(xué)信息并構(gòu)建知識數(shù)據(jù)庫。這些數(shù)據(jù)庫可用于對LLMs進(jìn)行微調(diào)，有潛力提升自動化實驗室在生成和篩選方面的能力。

然而，使用這些模型進(jìn)行開箱即用的發(fā)現(xiàn)任務(wù)或特定領(lǐng)域的化學(xué)應(yīng)用仍存在一定差距（至少根據(jù)我們的了解）。造成這種情況的原因之一是，缺乏足夠的數(shù)據(jù)來以與GPT-4等模型在網(wǎng)絡(luò)規(guī)模文本和圖像上訓(xùn)練相同的方式對這些模型進(jìn)行訓(xùn)練。利用這些具備化學(xué)知識的語言模型的一種方法是對其進(jìn)行微調(diào)，以適應(yīng)下游任務(wù)，或者將其嵌入到優(yōu)化框架或搜索框架中，從而提供良好的先驗知識。其他研究也開始了探索模型和數(shù)據(jù)的擴展。

化學(xué)感知基礎(chǔ)模型的一個有趣應(yīng)用是開發(fā)化學(xué)智能體，這些智能體能夠利用解決化學(xué)問題所需的工具，或規(guī)劃化學(xué)實驗。一些顯著的例子包括ChemCrow、Coscientist、我們自己的ORGANA和ChemReasoner。這些智能體可以訪問各種與化學(xué)相關(guān)的工具，如模擬器或機器人，以執(zhí)行化學(xué)實驗，并使用大語言模型（例如GPT-4）作為中央?yún)f(xié)調(diào)者，決定何時以及如何使用這些工具來實現(xiàn)用戶指定的目標(biāo)。此類智能體的一個長期目標(biāo)是開發(fā)科學(xué)助手，幫助進(jìn)行更復(fù)雜的推理和規(guī)劃，通過自主生成和完善假設(shè)，超越單純的計算和執(zhí)行。AI科學(xué)家將這一理念擴展到了其他研究領(lǐng)域，展示了通過執(zhí)行實驗和撰寫研究論文進(jìn)行自主機器學(xué)習(xí)研究的能力。

這些研究領(lǐng)域仍處于起步階段，因此存在幾個未解的問題，包括：（1）我們?nèi)绾斡行У卦u估化學(xué)感知大語言模型（chemistry-aware LLMs）/智能體（agents）？（2）這些模型在化學(xué)家實際工作中的使用案例是什么？有效的模型評估主要依賴于開發(fā)有意義的任務(wù)，而這在數(shù)據(jù)集的規(guī)模和廣度上目前仍然是一個開放性問題。雖然在這一領(lǐng)域已經(jīng)存在幾個基準(zhǔn)測試，這為我們提供了一個良好的起點，但在數(shù)據(jù)質(zhì)量和任務(wù)目標(biāo)方面仍有改進(jìn)空間。最近發(fā)布的一些基準(zhǔn)測試更接近實際應(yīng)用，同時，像Polaris這樣的平臺使研究人員能夠更快速地訪問各種數(shù)據(jù)集。然而，在這一領(lǐng)域使用次優(yōu)基準(zhǔn)測試的問題因當(dāng)前機器學(xué)習(xí)環(huán)境而加劇，因為基準(zhǔn)測試主要用于展示新方法相較于現(xiàn)有最優(yōu)技術(shù)所取得的更好表現(xiàn)，但人們并不理解其改進(jìn)的原因。這也為化學(xué)家與機器學(xué)習(xí)領(lǐng)域?qū)＜疑鐓^(qū)之間合作的提供了一個絕佳機會。

基于語言的基礎(chǔ)模型也被應(yīng)用于其他領(lǐng)域，包括知識圖譜生成和從化學(xué)文獻(xiàn)中進(jìn)行知識提取，其中還包括我們在反應(yīng)圖解析方面的工作，這是一項具有挑戰(zhàn)性的任務(wù)。這些努力對于創(chuàng)建結(jié)構(gòu)化的實驗程序數(shù)據(jù)庫是至關(guān)重要的，這些數(shù)據(jù)庫可以為現(xiàn)有的資源庫做出貢獻(xiàn)，例如之前提到的開放反應(yīng)數(shù)據(jù)庫。

2.6.2 基礎(chǔ)物理模型

雖然僅語言基礎(chǔ)模型在化學(xué)領(lǐng)域受到廣泛關(guān)注，但研究表明，語言可能并不是唯一有效的手段，特別是在三維幾何結(jié)構(gòu)至關(guān)重要的情況下。例如，Alampara等人顯示，僅依靠語言模型無法編碼表示特定材料屬性所需的結(jié)構(gòu)信息。

然而，在生物化學(xué)科學(xué)中，語言模型并不是唯一開發(fā)的基礎(chǔ)模型。在已經(jīng)構(gòu)建了幾種模型中，這些模型能夠?qū)α鲞M(jìn)行普遍近似，并預(yù)測任何分子、材料或蛋白質(zhì)的結(jié)構(gòu)。或許最著名的例子是用于蛋白質(zhì)結(jié)構(gòu)預(yù)測的AlphaFold2，以及最近推出的AlphaFold3，該模型能夠根據(jù)任何一組二維生物分子預(yù)測它們在三維中的組裝方式。據(jù)我們了解，這些模型在許多結(jié)構(gòu)和功能任務(wù)中仍然優(yōu)于任何基于序列的蛋白質(zhì)預(yù)測模型，尤其是在輸入序列在訓(xùn)練數(shù)據(jù)中沒有同源物的情況下。

另一個引人注目的例子是最近推出的基礎(chǔ)模型MACE-MP-0，該模型采用了MACE等變架構(gòu)。其MACE-MP-0模型在150,000個無機晶體上進(jìn)行了訓(xùn)練。在經(jīng)過少量特定任務(wù)示例的微調(diào)后，它可以作為力場用于多種任務(wù)的模擬，甚至包括一些看似毫不相關(guān)的小蛋白質(zhì)模擬。值得注意的是，MACE-MP-0中的分子間相互作用似乎存在一定的不明確性。例如，在前面提到的蛋白質(zhì)模擬中，該模型能夠成功捕捉氫轉(zhuǎn)移，這是一項顯著的成就。然而，作者也選擇加入了源自經(jīng)典計算化學(xué)的D3色散，這表明該模型在預(yù)測長程相互作用方面仍然需要一些幫助。值得一提的是，基礎(chǔ)力場的研究也正在持續(xù)擴展，如工業(yè)研究實驗室正在越來越大的數(shù)據(jù)集上訓(xùn)練神經(jīng)力場，例如GNoME和MatterSim。

從這些模型中得出的一個關(guān)鍵結(jié)論是，結(jié)構(gòu)信息不應(yīng)被忽視，這取決于模型所應(yīng)用的下游任務(wù)。同時，在廣泛的大規(guī)模數(shù)據(jù)集上訓(xùn)練模型（即超越僅在單一預(yù)測任務(wù)上訓(xùn)練簡單模型的傳統(tǒng)，這在幾年前仍然是常態(tài)）可以更好地推廣到更多的下游設(shè)置中。我們認(rèn)為，同時在多個模態(tài)上進(jìn)行擴展對于構(gòu)建化學(xué)領(lǐng)域中最佳的基礎(chǔ)模型至關(guān)重要——即盡可能多地在各種模態(tài)上訓(xùn)練模型，例如三維結(jié)構(gòu)信息、文本和光譜信息。

2.6.3 限制和未解決的問題

在領(lǐng)域科學(xué)的研究中，我們在數(shù)據(jù)條件上并不如自然語言或圖像領(lǐng)域那樣優(yōu)越，因為后者已經(jīng)擁有了網(wǎng)絡(luò)級的數(shù)據(jù)可供利用。而科學(xué)數(shù)據(jù)則相對稀缺；每一個數(shù)據(jù)點必須通過實驗獲得，或者是通過高質(zhì)量的模擬得出的。如果采用模擬方法，模型必須找到將其結(jié)果轉(zhuǎn)化為特定實驗條件的方法。我們懷疑，跨化學(xué)領(lǐng)域的通用模型仍然需要十年的時間才能實現(xiàn)，并且隨著人類對這些模型需求的不斷增加，這一目標(biāo)可能會變得更加難以捉摸。這就像擴寬高速公路的問題一樣，許多分析師已經(jīng)表明，一旦道路被擴寬，由于其可用性而產(chǎn)生的額外需求會立即導(dǎo)致高速公路交通擁堵。

2.7 閉環(huán)優(yōu)化和自動化實驗室

2.7.1 自動化實驗室

隨著機器學(xué)習(xí)應(yīng)用的不斷發(fā)展，高質(zhì)量數(shù)據(jù)的必要性和稀缺性變得愈加明顯?；瘜W(xué)數(shù)字化的興起以及機器學(xué)習(xí)的進(jìn)步，為將機器學(xué)習(xí)與通過機器人實驗進(jìn)行自動數(shù)據(jù)生成相結(jié)合奠定了基礎(chǔ)。這種協(xié)同作用催生了自動化實驗室（SDL）的概念。自驅(qū)動實驗室主要由兩個關(guān)鍵組成部分構(gòu)成：自動化實驗室設(shè)備和實驗規(guī)劃者，這兩者都利用機器學(xué)習(xí)技術(shù)來提升其功能。最終目標(biāo)是自主執(zhí)行科學(xué)方法，包括假設(shè)生成（機器學(xué)習(xí)）、假設(shè)測試（實驗）和假設(shè)細(xì)化（機器學(xué)習(xí)），從而以數(shù)據(jù)高效的方式探索廣闊的設(shè)計空間。

通過將機器學(xué)習(xí)與計算機視覺相結(jié)合，自動化實驗室設(shè)備取得了顯著進(jìn)展，形成了“通用化學(xué)機器人”的概念。這些經(jīng)過機器學(xué)習(xí)訓(xùn)練的機器人能夠基于外部反饋做出決策，從而實現(xiàn)傳統(tǒng)上由人類化學(xué)家執(zhí)行的化學(xué)操作的動態(tài)自動化。鑒于在基于外部反饋進(jìn)行主動決策的機器人設(shè)備訓(xùn)練中固有的挑戰(zhàn)，該領(lǐng)域的一個顯著創(chuàng)新是利用數(shù)字孿生體——實驗室設(shè)置的虛擬復(fù)制品——為加速機器人機器學(xué)習(xí)模型的訓(xùn)練提供了堅實的框架。這些數(shù)字孿生技術(shù)通過高精度模擬化學(xué)場景，建立了一個真實的反饋機制，加速了模型的學(xué)習(xí)過程。

在實驗規(guī)劃方面，啟發(fā)式技術(shù)正在逐步被機器學(xué)習(xí)優(yōu)化算法所取代。當(dāng)這些優(yōu)化技術(shù)與化學(xué)數(shù)字化相結(jié)合時，它們能夠識別目標(biāo)化學(xué)物質(zhì)并優(yōu)化反應(yīng)條件，同時顯著減少所需的實驗步驟。在各種機器學(xué)習(xí)優(yōu)化技術(shù)中，貝葉斯優(yōu)化因其在化學(xué)應(yīng)用中的成功而在實驗化學(xué)領(lǐng)域尤為突出?；跈C器學(xué)習(xí)的代理模型能夠預(yù)測化學(xué)物質(zhì)和反應(yīng)的性質(zhì)，這在過程優(yōu)化和材料發(fā)現(xiàn)中發(fā)揮了重要作用，并且已有許多成功案例記錄。

此外，大型語言模型（LLMs）的興起進(jìn)一步增強了自動化實驗室（SDLs）的輔助組件。而大型語言模型被有效地用于創(chuàng)建無需傳統(tǒng)編碼的人機界面，使得化學(xué)家與實驗室系統(tǒng)之間的交流更加自然。這對于那些不太擅長編碼或數(shù)據(jù)處理的用戶來說，是一個顯著的優(yōu)勢。

2.7.2 限制和未解決的問題

正如我們最近討論的那樣，自動化實驗室系統(tǒng)面臨的挑戰(zhàn)大致可分為兩大類：自動化（硬件相關(guān)）和智能化（人工智能相關(guān)）。

自動化挑戰(zhàn)。主要的硬件挑戰(zhàn)源于化學(xué)儀器設(shè)計時更偏向人性化設(shè)計，并未考慮自動化需求，以及與現(xiàn)有自動化模塊之間缺乏無縫連接。因此，大多數(shù)自動化實驗室系統(tǒng)是以半自動方式運行的，需要人工干預(yù)進(jìn)行諸如樣品轉(zhuǎn)移、維護(hù)和故障排除等任務(wù)。已經(jīng)提出了各種解決方案來解決這些問題，包括部署移動機器人進(jìn)行樣品轉(zhuǎn)移，以及調(diào)整通用機器人來執(zhí)行化學(xué)任務(wù)或操作最初設(shè)計用于人類使用的儀器。然而，這些方法大都依賴于傳統(tǒng)算法，需要靜態(tài)校準(zhǔn)，因此并不太適合自動化實驗室系統(tǒng)的動態(tài)特性。雖然已經(jīng)提出了將計算機視覺和人工智能相結(jié)合作為解決方案，但實驗室設(shè)備，特別是玻璃器皿，仍然面臨顯著的挑戰(zhàn)，不過這些挑戰(zhàn)正在逐漸得到解決。

認(rèn)知挑戰(zhàn)。認(rèn)知挑戰(zhàn)主要在于開發(fā)能夠準(zhǔn)確估計系統(tǒng)輸出的模型，這一困難限制了更通用生成模型的應(yīng)用，有效地降低了實驗規(guī)劃者在化學(xué)領(lǐng)域中所能探索的空間。結(jié)合前面提到的挑戰(zhàn)，一個明顯的問題就是：SDLs通常在數(shù)據(jù)匱乏情況下運行。而預(yù)測和生成的機器學(xué)習(xí)模型通常需要大規(guī)模的數(shù)據(jù)集才能做出有意義的預(yù)測。雖然生成模型可以在現(xiàn)有數(shù)據(jù)上進(jìn)行訓(xùn)練，但在這種低數(shù)據(jù)情境中部署預(yù)測算法仍然是一個重大挑戰(zhàn)。

輔助組件的挑戰(zhàn)。在關(guān)于自動化實驗室系統(tǒng)的輔助組件方面，LLM的整合顯示出在自動化工作流程創(chuàng)建和改善人機交互方面具有潛力。然而，需要進(jìn)一步研究以確保這些過程的安全性和可靠性。此外，雖然將文獻(xiàn)提取整合到自動化實驗室中可以增強模型開發(fā)，但其與預(yù)測模型的有效整合仍然是一個未解決的問題。

在自動化實驗室領(lǐng)域，需要解決的最后一個挑戰(zhàn)是發(fā)展規(guī)模經(jīng)濟的問題。隨著社區(qū)建立的自動化實驗室數(shù)量的增多，建立下一個自動化實驗室的難度將會大大降低。因此，實現(xiàn)低成本自動化實驗室的民主化對該領(lǐng)域的發(fā)展來說至關(guān)重要的。

寫在最后

在讀完這篇文獻(xiàn)后，我深刻意識到，個人在追求最大化影響力的過程中，有兩個關(guān)鍵能力至關(guān)重要。首先是會發(fā)現(xiàn)問題，以及能判斷出哪些問題值得解決的能力；其次是具備高質(zhì)量解決特定領(lǐng)域問題的技術(shù)水準(zhǔn)。

在學(xué)術(shù)研究中，發(fā)現(xiàn)問題的能力體現(xiàn)在研究者能夠敏銳地識別出關(guān)鍵的科學(xué)問題，并判斷其研究價值如是否能引領(lǐng)新領(lǐng)域的探索。而具備高質(zhì)量解決問題的技術(shù)水準(zhǔn)，則體現(xiàn)在研究者能夠運用先進(jìn)的實驗設(shè)計、數(shù)據(jù)分析和建模技術(shù)，去有效應(yīng)對復(fù)雜的科學(xué)挑戰(zhàn)。結(jié)合這兩種能力，研究者不僅能夠提出創(chuàng)新的理論，還能夠產(chǎn)生具有實用意義的科研成果，促進(jìn)知識的快速積累與傳播。

在技術(shù)開發(fā)方面，發(fā)現(xiàn)問題的能力體現(xiàn)在開發(fā)者能夠識別出行業(yè)內(nèi)最迫切需要解決的技術(shù)問題或瓶頸，判斷其對產(chǎn)品和服務(wù)的影響。而具備高質(zhì)量解決特定領(lǐng)域問題的技術(shù)水準(zhǔn)，則表現(xiàn)在開發(fā)者能夠運用工程原理、編碼能力和系統(tǒng)設(shè)計知識，去創(chuàng)建和優(yōu)化技術(shù)解決方案。有效的技術(shù)開發(fā)需要兩者的結(jié)合，以確保所開發(fā)的技術(shù)不僅具有實用性，還能夠在市場上產(chǎn)生積極的反響。

在產(chǎn)品開發(fā)方面，發(fā)現(xiàn)問題的能力體現(xiàn)在團(tuán)隊能夠識別用戶需求、市場趨勢以及潛在的痛點，判斷哪些問題最值得優(yōu)先解決，以增強產(chǎn)品的競爭力。而具備高質(zhì)量解決問題的技術(shù)水準(zhǔn)，則體現(xiàn)在團(tuán)隊能夠?qū)?chuàng)新的技術(shù)和設(shè)計理念轉(zhuǎn)化為可行的產(chǎn)品特性，從而有效滿足用戶需求并實現(xiàn)商業(yè)價值。只有結(jié)合這兩項能力，團(tuán)隊才能夠更好地開發(fā)出符合市場需求和技術(shù)標(biāo)準(zhǔn)的產(chǎn)品，從而推動業(yè)務(wù)增長。

雖然具備高水平技術(shù)解決問題的人數(shù)遠(yuǎn)遠(yuǎn)多于那些能夠識別真正有價值問題的人，但真正能夠在各個領(lǐng)域產(chǎn)生深遠(yuǎn)影響的，通常是那些同時具備這兩項能力的人。因此，每個從業(yè)者都應(yīng)時刻思考“什么才是值得解決的問題”，而這一思考將成為我們在學(xué)術(shù)、技術(shù)或產(chǎn)品發(fā)展中追求創(chuàng)新與影響力的核心驅(qū)動力。

參考文獻(xiàn)：[1]

Spiers Memorial Lecture: How to do impactful research in artificialintelligencefor chemistry and materials science:https://doi.org/10.1039/D4FD00153B

[2]

Sample EfficiencyMatters: A Benchmark for Practical Molecular Optimization:https://proceedings.neurips.cc/paper_files/paper/2022/file/8644353f7d307baaf29bc1e56fe8e0ec-Paper-Datasets_and_Benchmarks.pdf

[3]

Du, Y., Jamasb, A.R., Guo, J. et al. Machine learning-aided generative molecular design. Nat Mach Intell6, 589–604 (2024): https://doi.org/10.1038/s42256-024-00843-5

[4]

A. Duval, S. V. Mathis, C. K. Joshi, V. Schmidt, S. Miret, F. D. Malliaros, T. Cohen, P. Lio, Y. Bengio and M. Bronstein, arXiv, 2023, preprint,arXiv https://arxiv.org/abs/2312.07511

[5]

M. C. Ramos, C. J. Collison and A. D. White, arXiv, 2024, preprint,arXiv https://arxiv.org/abs/2407.01603

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

人工智能

人工智能

+關(guān)注

關(guān)注
1791

文章
47274

瀏覽量
238462
機器學(xué)習(xí)

機器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8418

瀏覽量
132627
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5503

瀏覽量
121157

熱像儀助力材料科學(xué)與工程研究（三）

巨哥科技從事精準(zhǔn)測溫?zé)嵯駜x研發(fā)十余年，助力各領(lǐng)域科研人員從事前沿科學(xué)研究，以下列舉材料科學(xué)與工程研究的部分論文。

發(fā)表于 08-16 14:51 ?1308次閱讀

名單公布！【書籍評測活動NO.44】AI for Science：人工智能驅(qū)動科學(xué)創(chuàng)新

材料基因組工程的推動下，人工智能如何與材料科學(xué)結(jié)合，加快傳統(tǒng)材料和新型材料的開發(fā)過程。第4章介紹了人工

發(fā)表于 09-09 13:54

《AI for Science：人工智能驅(qū)動科學(xué)創(chuàng)新》第一章人工智能驅(qū)動的科學(xué)創(chuàng)新學(xué)習(xí)心得

的效率，還為科學(xué)研究提供了前所未有的洞察力和精確度。例如，在生物學(xué)領(lǐng)域，AI能夠幫助科學(xué)家快速識別基因序列中的關(guān)鍵變異，加速新藥研發(fā)進(jìn)程。 2. 跨學(xué)科融合的新范式書中強調(diào)，

發(fā)表于 10-14 09:12

從入門到研究，人工智能領(lǐng)域最值得一讀的10本資料（附下載）

Artificial Intelligence（穩(wěn)健有益的人工智能的優(yōu)先研究項）來自：加州大學(xué)伯克利分校此份白皮書是在人工智能研究的主題上你最應(yīng)該閱讀的白皮書之

發(fā)表于 10-12 11:38

中國人工智能的現(xiàn)狀與未來

中國人工智能的現(xiàn)狀與未來，人工智能是目前最火熱的技術(shù)領(lǐng)域，也是一門極富挑戰(zhàn)性的科學(xué)，從事這項工作的人

發(fā)表于 07-27 06:40

中國在人工智能領(lǐng)域的影響力怎樣

中國在人工智能研究領(lǐng)域已處于重要地位，中國的研究人員近年來在該領(lǐng)域的影響力顯著提升。

發(fā)表于 11-20 15:00 ?1088次閱讀

材料科學(xué)在醫(yī)療器械研發(fā)中的應(yīng)用

材料科學(xué)是一個相對比較新鮮的領(lǐng)域，也是物理學(xué)，化學(xué)和工程學(xué)交叉的部分。材料科學(xué)分析應(yīng)用領(lǐng)域中所使

發(fā)表于 04-14 20:48 ?5893次閱讀

熱像儀助力材料科學(xué)與工程研究（一）

巨哥科技從事精準(zhǔn)測溫?zé)嵯駜x研發(fā)十余年，助力各領(lǐng)域科研人員從事前沿科學(xué)研究，以下列舉材料科學(xué)與工程研究的部分論文。

發(fā)表于 07-22 13:51 ?979次閱讀

熱像儀助力材料科學(xué)與工程研究（二）

巨哥科技從事精準(zhǔn)測溫?zé)嵯駜x研發(fā)十余年，助力各領(lǐng)域科研人員從事前沿科學(xué)研究，以下列舉材料科學(xué)與工程研究的部分論文。

發(fā)表于 08-02 14:42 ?914次閱讀

熱像儀助力材料科學(xué)與工程研究（四）

巨哥科技從事精準(zhǔn)測溫?zé)嵯駜x研發(fā)十余年，助力各領(lǐng)域科研人員從事前沿科學(xué)研究，以下列舉材料科學(xué)與工程研究的部分論文。

發(fā)表于 08-18 09:21 ?779次閱讀

中科曙光異構(gòu)智能算力技術(shù)加速計算材料科學(xué)創(chuàng)新變革

材料科學(xué)是現(xiàn)代工業(yè)的基石，新材料是支撐工業(yè)高質(zhì)量發(fā)展的關(guān)鍵。伴隨人工智能等技術(shù)地不斷發(fā)展，材料科學(xué)的研究方式與效率也正在發(fā)生深刻變革。中科

發(fā)表于 08-01 10:15 ?951次閱讀

科研進(jìn)階！EPR在材料科學(xué)中的應(yīng)用交流會即將開幕

，與國儀量子應(yīng)用工程師共同分享EPR在超分子仿酶功能材料、分子基磁體、光催化等材料科學(xué)領(lǐng)域的最新研究進(jìn)展與應(yīng)用策略，助力相關(guān)領(lǐng)域

發(fā)表于 11-21 08:24 ?534次閱讀

如何在化學(xué)和材料科學(xué)領(lǐng)域開展有影響力的人工智能研究？（二）

研究人員和社區(qū)的高層視角出發(fā)，探討他們?nèi)绾慰创徒鉀Q問題。首先，我們將重新分類前文提到的各種化學(xué)問題，將其作為已確認(rèn)的機器學(xué)習(xí)問題實例。然后，再通過梳理機器學(xué)習(xí)社區(qū)共

發(fā)表于 12-03 01:02 ?221次閱讀

如何在化學(xué)和材料科學(xué)領(lǐng)域開展有影響力的人工智能研究？（三）

第三部分編譯后的內(nèi)容：4.如何解決科學(xué)問題？在掌握了上述的工具和視角后，我們將提出一些建議，幫助您在化學(xué)領(lǐng)域選擇具有影響力的

發(fā)表于 12-03 01:02 ?214次閱讀

安泰高電壓功率放大器：材料科學(xué)與工程學(xué)科研究的重要推手！

材料科學(xué)與工程是一門涵蓋廣泛領(lǐng)域的學(xué)科，涉及固體物理學(xué)、化學(xué)、工程學(xué)等多個學(xué)科的交叉領(lǐng)域。高壓功率放大器作為

發(fā)表于 12-23 11:02 ?69次閱讀

搜索歷史

如何在化學(xué)和材料科學(xué)領(lǐng)域開展有影響力的人工智能研究？（一）