化學反應的發現不僅受到獲得實驗數據的速度的影響,還受到化學家理解這些數據的難易程度的影響。揭示新的催化反應的機制基礎是一個特別複雜的問題,通常需要計算和物理有機化學的專業知識。然而,研究催化反應很重要,因為它們代表了最有效的化學過程。
近日,來自英國曼徹斯特大學(UoM)化學系的Burés 和Larrosa 報告了一種機器學習模型,展示了可以訓練深度神經網路模型來分析普通動力學數據並自動闡明相應的機制類別,而無需任何額外的用戶輸入。該模型以出色的精度識別各種類型的機制。
研究結果表明,人工智慧引導的機理分類是一種強大的新工具,可以簡化和自動化機制闡明。預計這項工作將進一步推動全自動有機反應發現和開發的發展。
研究以「Organic reaction mechanism classification using machine learning」為題,於2023 年1 月25 日發佈在《Nature 》上。
論文連結:https://www.nature.com/articles/s41586 -022-05639-4
化學反應機制的傳統闡明方式
##確定將底物轉化為產品所涉及的基本步驟的確切順序,對於合理改進合成方法、設計新催化劑和安全擴大工業過程至關重要。為了闡明反應機理,需要收集多個動力學曲線,人類專家必須對數據進行動力學分析。儘管反應監測技術在過去幾十年中有了顯著改進,以至於動力學數據收集可以完全自動化,但機制闡明的基礎理論框架並沒有以同樣的速度發展。
目前的動力學分析流程包括三個主要步驟:從實驗數據中提取動力學特性,預測所有可能機制的動力學特性,以及將實驗提取的特性與預測的特性進行比較。
一個多世紀以來,化學家們一直在從反應速率中提取機制資訊。今天仍在使用的一種方法是評估反應的初始速率,重點關注最初百分之幾的起始物質的消耗。這種方法很受歡迎,因為在大多數情況下,反應物濃度隨時間的變化在反應開始時是線性的,因此分析起來很簡單。雖然很有見解,但這種技術忽略了在大部分時間過程中發生的反應速率和濃度的變化。
在過去的幾十年裡,已經發展出了更先進的方法來評估整個反應過程中反應組分的濃度。數學技術進一步促進了這些方法,這些技術從反應動力學圖中揭示了參與一個反應步驟的組分的數量(也稱為反應組分的順序)。這些技術肯定會繼續為化學反應性提供深刻的見解,但它們局限於分析反應組分的順序,而不是提供一個更全面的機制假設來描述催化系統的動力學行為。
#圖 1:動力學分析的相關性與最新技術。 (資料來源:論文)
AI 改變動力學分析領域
機器學習正在徹底改變化學家解決問題的方式,從設計分子和路線到合成分子,再到理解反應機制。 Burés 和 Larrosa 現在透過機器學習模型,根據模擬的反應動力學特徵對反應進行分類,為動力學分析帶來了這場革命。
在這裡,研究人員證明了一個基於模擬動力學資料訓練的深度學習模型能夠正確地闡明來自時間濃度分佈的各種機制。機器學習模型消除了速率定律推導和動力學性質提取和預測的需要,從而簡化了動力學分析,大大促進了所有合成實驗室對反應機制的闡明。
由於對所有可用動力學數據進行了整體分析,該方法提高了詢問反應曲線的能力,消除了動力學分析過程中潛在的人為錯誤,並擴大了可分析的動力學範圍,包括非穩態(包括活化和失活過程)和可逆反應。這種方法將是目前可用的動力學分析方法的補充,並將在最具挑戰性的情況下特別有用。
特定研究
研究人員定義了 20 類反應機理,並為每一類制定了速率定律。每種機理都由一組動力學常數(k1, … kn ) 和化學物質濃度的常微分方程(ODE)函數進行數學描述。然後,他們求解了這些方程式,產生了數百萬個描述反應物衰變和產物生成的模擬。這些模擬動力學資料用於訓練學習演算法以識別每個機理類別的特徵簽章。產生的分類模型使用動力學曲線作為輸入,包括初始和時間濃度數據,並輸出反應的機制類別。
#圖 2:機理範圍與資料組成。 (資料來源:論文)
深度學習模型的訓練通常需要大量數據,當必須透過實驗收集這些數據時,這可能會帶來相當大的挑戰。
Burés 和 Larrosa 訓練演算法的方法避免了產生大量實驗動力學資料的瓶頸。在案例中,研究人員能夠透過數值求解 ODE 集來產生 500 萬個動力學樣本用於模型的訓練和驗證,而無需使用穩態近似。
模型包含576,000 個可訓練參數,並結合使用兩種類型的神經網路:(1) 長短期記憶神經網絡,一種用於處理時間資料序列(即時間濃度數據)的循環神經網絡;(2) 全連接神經網絡,用於處理非時間數據(即每次動力學運行中催化劑的初始濃度和長短期記憶提取的特徵)。此模型輸出每種機理的機率,機率總和等於 1。
研究人員使用模擬動力學曲線的測試集評估了訓練模型,並證明它正確地將這些曲線分配給機理類,準確率為 92.6%。
圖3:機器學習模型在測試集上的表現,每個動力學曲線有六個時間點。 (資料來源:論文)
即使有意引入「雜訊」數據,該模型也表現良好,這意味著它可用於對實驗數據進行分類。
圖 4:誤差與資料點數對機器學習模型效能的影響。 (來源:論文)
#最後,研究人員使用先前報導的幾個實驗動力學曲線對他們的模型進行了基準測試。預測的機制與早期動力學研究的結論非常吻合。在某些情況下,該模型還識別了在原始工作中沒有檢測到的機制細節。對於一個具有挑戰性的反應,模型提出了三個非常相似的機制類別。然而,作者正確地說,這個結果不是錯誤,而是他們模型的特徵,因為它表明需要進一步的具體實驗來探索機制。
#圖 5:具有實驗動力學資料的案例研究。 (資料來源:論文)
總之,Burés 和Larrosa 開發了一種方法,不僅可以自動執行從動力學研究中推導出機理假設的漫長過程,還可以對具有挑戰性的反應機制進行動力學分析。與數據分析中的任何技術進步一樣,由此產生的機制分類應被視為需要進一步實驗支持的假設。誤解動力學數據的風險始終存在,但演算法能夠在少量實驗的基礎上以高精度識別正確的反應路徑,可以說服更多研究人員嘗試動力學分析。
因此,這種方法可以普及並推動動力學分析納入反應開發流程,尤其是當化學家對機器學習演算法越來越熟悉時。
以上是機器學習模型以出色的精度進行有機反應機制分類的詳細內容。更多資訊請關注PHP中文網其他相關文章!

1 前言在发布DALL·E的15个月后,OpenAI在今年春天带了续作DALL·E 2,以其更加惊艳的效果和丰富的可玩性迅速占领了各大AI社区的头条。近年来,随着生成对抗网络(GAN)、变分自编码器(VAE)、扩散模型(Diffusion models)的出现,深度学习已向世人展现其强大的图像生成能力;加上GPT-3、BERT等NLP模型的成功,人类正逐步打破文本和图像的信息界限。在DALL·E 2中,只需输入简单的文本(prompt),它就可以生成多张1024*1024的高清图像。这些图像甚至

“Making large models smaller”这是很多语言模型研究人员的学术追求,针对大模型昂贵的环境和训练成本,陈丹琦在智源大会青源学术年会上做了题为“Making large models smaller”的特邀报告。报告中重点提及了基于记忆增强的TRIME算法和基于粗细粒度联合剪枝和逐层蒸馏的CofiPruning算法。前者能够在不改变模型结构的基础上兼顾语言模型困惑度和检索速度方面的优势;而后者可以在保证下游任务准确度的同时实现更快的处理速度,具有更小的模型结构。陈丹琦 普

Wav2vec 2.0 [1],HuBERT [2] 和 WavLM [3] 等语音预训练模型,通过在多达上万小时的无标注语音数据(如 Libri-light )上的自监督学习,显著提升了自动语音识别(Automatic Speech Recognition, ASR),语音合成(Text-to-speech, TTS)和语音转换(Voice Conversation,VC)等语音下游任务的性能。然而这些模型都没有公开的中文版本,不便于应用在中文语音研究场景。 WenetSpeech [4] 是

由于复杂的注意力机制和模型设计,大多数现有的视觉 Transformer(ViT)在现实的工业部署场景中不能像卷积神经网络(CNN)那样高效地执行。这就带来了一个问题:视觉神经网络能否像 CNN 一样快速推断并像 ViT 一样强大?近期一些工作试图设计 CNN-Transformer 混合架构来解决这个问题,但这些工作的整体性能远不能令人满意。基于此,来自字节跳动的研究者提出了一种能在现实工业场景中有效部署的下一代视觉 Transformer——Next-ViT。从延迟 / 准确性权衡的角度看,

3月27号,Stability AI的创始人兼首席执行官Emad Mostaque在一条推文中宣布,Stable Diffusion XL 现已可用于公开测试。以下是一些事项:“XL”不是这个新的AI模型的官方名称。一旦发布稳定性AI公司的官方公告,名称将会更改。与先前版本相比,图像质量有所提高与先前版本相比,图像生成速度大大加快。示例图像让我们看看新旧AI模型在结果上的差异。Prompt: Luxury sports car with aerodynamic curves, shot in a

人工智能就是一个「拼财力」的行业,如果没有高性能计算设备,别说开发基础模型,就连微调模型都做不到。但如果只靠拼硬件,单靠当前计算性能的发展速度,迟早有一天无法满足日益膨胀的需求,所以还需要配套的软件来协调统筹计算能力,这时候就需要用到「智能计算」技术。最近,来自之江实验室、中国工程院、国防科技大学、浙江大学等多达十二个国内外研究机构共同发表了一篇论文,首次对智能计算领域进行了全面的调研,涵盖了理论基础、智能与计算的技术融合、重要应用、挑战和未来前景。论文链接:https://spj.scien

译者 | 李睿审校 | 孙淑娟近年来, Transformer 机器学习模型已经成为深度学习和深度神经网络技术进步的主要亮点之一。它主要用于自然语言处理中的高级应用。谷歌正在使用它来增强其搜索引擎结果。OpenAI 使用 Transformer 创建了著名的 GPT-2和 GPT-3模型。自从2017年首次亮相以来,Transformer 架构不断发展并扩展到多种不同的变体,从语言任务扩展到其他领域。它们已被用于时间序列预测。它们是 DeepMind 的蛋白质结构预测模型 AlphaFold

说起2010年南非世界杯的最大网红,一定非「章鱼保罗」莫属!这只位于德国海洋生物中心的神奇章鱼,不仅成功预测了德国队全部七场比赛的结果,还顺利地选出了最终的总冠军西班牙队。不幸的是,保罗已经永远地离开了我们,但它的「遗产」却在人们预测足球比赛结果的尝试中持续存在。在艾伦图灵研究所(The Alan Turing Institute),随着2022年卡塔尔世界杯的持续进行,三位研究员Nick Barlow、Jack Roberts和Ryan Chan决定用一种AI算法预测今年的冠军归属。预测模型图


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器

SublimeText3 Linux新版
SublimeText3 Linux最新版

記事本++7.3.1
好用且免費的程式碼編輯器

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能

禪工作室 13.0.1
強大的PHP整合開發環境