化學反應的發現不僅受到獲得實驗數據的速度的影響,還受到化學家理解這些數據的難易程度的影響。揭示新的催化反應的機制基礎是一個特別複雜的問題,通常需要計算和物理有機化學的專業知識。然而,研究催化反應很重要,因為它們代表了最有效的化學過程。
近日,來自英國曼徹斯特大學(UoM)化學系的Burés 和Larrosa 報告了一種機器學習模型,展示了可以訓練深度神經網路模型來分析普通動力學數據並自動闡明相應的機制類別,而無需任何額外的用戶輸入。該模型以出色的精度識別各種類型的機制。
研究結果表明,人工智慧引導的機理分類是一種強大的新工具,可以簡化和自動化機制闡明。預計這項工作將進一步推動全自動有機反應發現和開發的發展。
研究以「Organic reaction mechanism classification using machine learning」為題,於2023 年1 月25 日發佈在《Nature 》上。
論文連結:https://www.nature.com/articles/s41586 -022-05639-4
##確定將底物轉化為產品所涉及的基本步驟的確切順序,對於合理改進合成方法、設計新催化劑和安全擴大工業過程至關重要。為了闡明反應機理,需要收集多個動力學曲線,人類專家必須對數據進行動力學分析。儘管反應監測技術在過去幾十年中有了顯著改進,以至於動力學數據收集可以完全自動化,但機制闡明的基礎理論框架並沒有以同樣的速度發展。
目前的動力學分析流程包括三個主要步驟:從實驗數據中提取動力學特性,預測所有可能機制的動力學特性,以及將實驗提取的特性與預測的特性進行比較。
一個多世紀以來,化學家們一直在從反應速率中提取機制資訊。今天仍在使用的一種方法是評估反應的初始速率,重點關注最初百分之幾的起始物質的消耗。這種方法很受歡迎,因為在大多數情況下,反應物濃度隨時間的變化在反應開始時是線性的,因此分析起來很簡單。雖然很有見解,但這種技術忽略了在大部分時間過程中發生的反應速率和濃度的變化。
在過去的幾十年裡,已經發展出了更先進的方法來評估整個反應過程中反應組分的濃度。數學技術進一步促進了這些方法,這些技術從反應動力學圖中揭示了參與一個反應步驟的組分的數量(也稱為反應組分的順序)。這些技術肯定會繼續為化學反應性提供深刻的見解,但它們局限於分析反應組分的順序,而不是提供一個更全面的機制假設來描述催化系統的動力學行為。
#圖 1:動力學分析的相關性與最新技術。 (資料來源:論文)
機器學習正在徹底改變化學家解決問題的方式,從設計分子和路線到合成分子,再到理解反應機制。 Burés 和 Larrosa 現在透過機器學習模型,根據模擬的反應動力學特徵對反應進行分類,為動力學分析帶來了這場革命。
在這裡,研究人員證明了一個基於模擬動力學資料訓練的深度學習模型能夠正確地闡明來自時間濃度分佈的各種機制。機器學習模型消除了速率定律推導和動力學性質提取和預測的需要,從而簡化了動力學分析,大大促進了所有合成實驗室對反應機制的闡明。
由於對所有可用動力學數據進行了整體分析,該方法提高了詢問反應曲線的能力,消除了動力學分析過程中潛在的人為錯誤,並擴大了可分析的動力學範圍,包括非穩態(包括活化和失活過程)和可逆反應。這種方法將是目前可用的動力學分析方法的補充,並將在最具挑戰性的情況下特別有用。
研究人員定義了 20 類反應機理,並為每一類制定了速率定律。每種機理都由一組動力學常數(k1, … kn ) 和化學物質濃度的常微分方程(ODE)函數進行數學描述。然後,他們求解了這些方程式,產生了數百萬個描述反應物衰變和產物生成的模擬。這些模擬動力學資料用於訓練學習演算法以識別每個機理類別的特徵簽章。產生的分類模型使用動力學曲線作為輸入,包括初始和時間濃度數據,並輸出反應的機制類別。
#圖 2:機理範圍與資料組成。 (資料來源:論文)
深度學習模型的訓練通常需要大量數據,當必須透過實驗收集這些數據時,這可能會帶來相當大的挑戰。
Burés 和 Larrosa 訓練演算法的方法避免了產生大量實驗動力學資料的瓶頸。在案例中,研究人員能夠透過數值求解 ODE 集來產生 500 萬個動力學樣本用於模型的訓練和驗證,而無需使用穩態近似。
模型包含576,000 個可訓練參數,並結合使用兩種類型的神經網路:(1) 長短期記憶神經網絡,一種用於處理時間資料序列(即時間濃度數據)的循環神經網絡;(2) 全連接神經網絡,用於處理非時間數據(即每次動力學運行中催化劑的初始濃度和長短期記憶提取的特徵)。此模型輸出每種機理的機率,機率總和等於 1。
研究人員使用模擬動力學曲線的測試集評估了訓練模型,並證明它正確地將這些曲線分配給機理類,準確率為 92.6%。
圖3:機器學習模型在測試集上的表現,每個動力學曲線有六個時間點。 (資料來源:論文)
即使有意引入「雜訊」數據,該模型也表現良好,這意味著它可用於對實驗數據進行分類。
圖 4:誤差與資料點數對機器學習模型效能的影響。 (來源:論文)
#最後,研究人員使用先前報導的幾個實驗動力學曲線對他們的模型進行了基準測試。預測的機制與早期動力學研究的結論非常吻合。在某些情況下,該模型還識別了在原始工作中沒有檢測到的機制細節。對於一個具有挑戰性的反應,模型提出了三個非常相似的機制類別。然而,作者正確地說,這個結果不是錯誤,而是他們模型的特徵,因為它表明需要進一步的具體實驗來探索機制。
#圖 5:具有實驗動力學資料的案例研究。 (資料來源:論文)
總之,Burés 和Larrosa 開發了一種方法,不僅可以自動執行從動力學研究中推導出機理假設的漫長過程,還可以對具有挑戰性的反應機制進行動力學分析。與數據分析中的任何技術進步一樣,由此產生的機制分類應被視為需要進一步實驗支持的假設。誤解動力學數據的風險始終存在,但演算法能夠在少量實驗的基礎上以高精度識別正確的反應路徑,可以說服更多研究人員嘗試動力學分析。
因此,這種方法可以普及並推動動力學分析納入反應開發流程,尤其是當化學家對機器學習演算法越來越熟悉時。
以上是機器學習模型以出色的精度進行有機反應機制分類的詳細內容。更多資訊請關注PHP中文網其他相關文章!