Maison >Périphériques technologiques >IA >Le modèle d'apprentissage automatique classe les mécanismes de réaction organiques avec une précision exceptionnelle
La découverte des réactions chimiques dépend non seulement de la rapidité avec laquelle les données expérimentales peuvent être obtenues, mais également de la facilité avec laquelle les chimistes comprennent ces données. Découvrir les bases mécanistiques de nouvelles réactions catalytiques est un problème particulièrement complexe qui nécessite souvent une expertise en chimie organique informatique et physique. Cependant, il est important d’étudier les réactions catalytiques car elles représentent les processus chimiques les plus efficaces.
Récemment, Burés et Larrosa du Département de chimie de l'Université de Manchester (UoM), Royaume-Uni, ont rapporté un modèle d'apprentissage automatique, démontrant que des modèles de réseaux neuronaux profonds peuvent être entraînés pour analyser des données cinétiques communes et élucider automatiquement les données correspondantes. catégories de mécanismes, sans aucune intervention utilisateur supplémentaire. Le modèle identifie différents types de mécanismes avec une excellente précision.
Les résultats démontrent que la classification des mécanismes guidée par l'IA est un nouvel outil puissant qui peut simplifier et automatiser l'élucidation des mécanismes. Ces travaux devraient faire progresser la découverte et le développement de réactions organiques entièrement automatisées.
La recherche s'intitulait « Classification des mécanismes de réaction organiques à l'aide de l'apprentissage automatique » et a été publiée dans « Nature » le 25 janvier 2023.
Lien papier : https://www.nature.com/articles/s41586-022-05639-4
Déterminer la séquence exacte des étapes de base impliquées dans la conversion des substrats en produits est essentiel pour améliorer rationnellement les méthodes de synthèse, concevoir de nouveaux catalyseurs et étendre en toute sécurité les processus industriels. Pour élucider le mécanisme de réaction, plusieurs courbes cinétiques doivent être collectées et les experts humains doivent effectuer une analyse cinétique des données. Bien que la technologie de surveillance des réactions se soit considérablement améliorée au cours des dernières décennies, au point où la collecte de données cinétiques peut être entièrement automatisée, le cadre théorique qui sous-tend l’élucidation mécaniste n’a pas évolué au même rythme.
Le pipeline d'analyse cinétique actuel comprend trois étapes principales : extraire les propriétés cinétiques des données expérimentales, prédire les propriétés cinétiques de tous les mécanismes possibles et comparer les propriétés extraites expérimentalement avec les propriétés prédites.
Depuis plus d'un siècle, les chimistes extraient des informations mécanistes à partir des taux de réaction. Une méthode encore utilisée aujourd’hui consiste à évaluer la vitesse initiale d’une réaction, en se concentrant sur la consommation des premiers pour cent de la matière première. Cette méthode est populaire car dans la plupart des cas, la variation de la concentration du réactif au fil du temps est linéaire au début de la réaction et est donc simple à analyser. Bien que perspicace, cette technique ignore les changements dans les taux de réaction et les concentrations qui se produisent sur une grande partie du temps.
Au cours des dernières décennies, des méthodes plus avancées ont été développées pour évaluer les concentrations des composants de réaction tout au long du processus de réaction. Ces méthodes sont en outre facilitées par des techniques mathématiques qui révèlent le nombre de composants participant à une étape de réaction (également appelé ordre des composants de réaction) à partir de diagrammes cinétiques de réaction. Ces techniques continueront certainement à fournir des informations sur la réactivité chimique, mais elles se limitent à analyser l'ordre des composants de la réaction plutôt qu'à fournir une hypothèse mécanistique plus complète décrivant le comportement cinétique d'un système catalytique.
Figure 1 : Pertinence et techniques de pointe pour l'analyse cinétique. (Source : article)
L'apprentissage automatique révolutionne la façon dont les chimistes résolvent les problèmes, de la conception de molécules et d'itinéraires à la synthèse de molécules en passant par la compréhension des mécanismes de réaction. Burés et Larrosa apportent désormais cette révolution à l'analyse cinétique en utilisant des modèles d'apprentissage automatique pour classer les réactions en fonction de leurs caractéristiques cinétiques simulées.
Ici, les chercheurs démontrent qu'un modèle d'apprentissage profond formé sur des données cinétiques simulées est capable d'élucider correctement divers mécanismes à partir des distributions temporelles de concentrations. Les modèles d'apprentissage automatique simplifient l'analyse cinétique en éliminant le besoin de dérivation de lois de vitesse ainsi que d'extraction et de prédiction de propriétés cinétiques, facilitant ainsi grandement l'élucidation des mécanismes de réaction dans tous les laboratoires de synthèse.
Grâce à l'analyse holistique de toutes les données cinétiques disponibles, cette méthode améliore la capacité d'interroger les courbes de réaction, élimine les erreurs humaines potentielles lors de l'analyse cinétique et élargit la plage de cinétiques analysables pour inclure l'état non stable (y compris l'activation et processus de désactivation) et les réactions réversibles. Cette approche compléterait les méthodes d’analyse cinétique actuellement disponibles et serait particulièrement utile dans les situations les plus difficiles.
Les chercheurs ont défini 20 types de mécanismes de réaction et développé des lois de vitesse pour chaque type. Chaque mécanisme est mathématiquement décrit par un ensemble de constantes cinétiques (k1, … kn) et une équation différentielle ordinaire (ODE) fonction de la concentration de l'espèce chimique. Ils ont ensuite résolu ces équations, générant des millions de simulations décrivant la désintégration des réactifs et la production de produits. Ces données cinétiques simulées sont utilisées pour entraîner des algorithmes d'apprentissage afin d'identifier les signatures caractéristiques de chaque classe mécanistique. Le modèle de classification résultant utilise des courbes cinétiques comme entrée, y compris des données de concentration initiales et temporelles, et génère la classe mécanistique de la réaction.
Figure 2 : Portée mécanistique et composition des données. (Source : article)
La formation de modèles d'apprentissage profond nécessite souvent de grandes quantités de données, ce qui peut poser des défis considérables lorsque ces données doivent être collectées expérimentalement.
La méthode de formation de l'algorithme de Burés et Larrosa évite le goulot d'étranglement lié à la génération de grandes quantités de données cinétiques expérimentales. Dans ce cas, les chercheurs ont pu résoudre numériquement un ensemble d’EDO pour générer 5 millions d’échantillons dynamiques pour la formation et la validation du modèle sans utiliser d’approximations en régime permanent.
Le modèle contient 576 000 paramètres entraînables et utilise une combinaison de deux types de réseaux neuronaux : (1) un réseau neuronal à mémoire longue et à court terme, un réseau neuronal récurrent utilisé pour traiter des séries de données temporelles (c'est-à-dire des données de concentration temporelle) ; (2) Réseau neuronal entièrement connecté pour le traitement des données non temporelles (c'est-à-dire la concentration initiale du catalyseur et les caractéristiques extraites de la mémoire à long terme à chaque exécution cinétique). Le modèle génère une probabilité pour chaque mécanisme dont la somme est égale à 1.
Les chercheurs ont évalué le modèle entraîné à l'aide d'un ensemble de tests de courbes cinétiques simulées et ont démontré qu'il attribuait correctement ces courbes aux classes de mécanismes avec une précision de 92,6 %.
Figure 3 : Performances du modèle d'apprentissage automatique sur l'ensemble de test, avec six points temporels pour chaque courbe cinétique. (Source : article)
Le modèle fonctionne bien même lorsque des données « bruyantes » sont intentionnellement introduites, ce qui signifie qu'il peut être utilisé pour classer des données expérimentales.
Figure 4 : L'impact de l'erreur et du nombre de points de données sur les performances du modèle d'apprentissage automatique. (Source : Papier)
Enfin, les chercheurs ont comparé leur modèle à l’aide de plusieurs courbes cinétiques expérimentales précédemment rapportées. Le mécanisme prédit est en bon accord avec les conclusions d’études cinétiques antérieures. Dans certains cas, le modèle a également identifié des détails mécanistes qui n'avaient pas été détectés dans le travail original. Pour une réaction difficile, le modèle propose trois catégories mécanistiques très similaires. Cependant, les auteurs affirment à juste titre que ce résultat n’est pas un bug mais une caractéristique de leur modèle, car il suggère que d’autres expériences spécifiques sont nécessaires pour explorer le mécanisme.
Figure 5 : Étude de cas avec des données cinétiques expérimentales. (Source : article)
En résumé, Burés et Larrosa ont développé une méthode qui automatise non seulement le long processus de dérivation d'hypothèses mécanistes à partir d'études cinétiques, mais effectue également une analyse cinétique de mécanismes de réaction difficiles. Comme pour toute avancée technologique dans l’analyse des données, les classifications mécanistes qui en résultent doivent être considérées comme des hypothèses nécessitant un soutien expérimental supplémentaire. Il existe toujours un risque d'interprétation erronée des données cinétiques, mais la capacité de l'algorithme à identifier le chemin de réaction correct avec une grande précision sur la base d'un petit nombre d'expériences pourrait convaincre davantage de chercheurs d'essayer l'analyse cinétique.
Par conséquent, cette approche pourrait populariser et favoriser l’intégration de l’analyse cinétique dans le pipeline de développement de réactions, d’autant plus que les chimistes se familiarisent davantage avec les algorithmes d’apprentissage automatique.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!