Maison >Périphériques technologiques >IA >La précision de la prédiction atteint 0,98. L'Université Tsinghua, Shenzhen Technology et d'autres ont proposé un cadre de prédiction multifonctionnel pour les matériaux MOF basé sur Transformer.
Éditeur |
Les méthodes de simulation traditionnelles, telles que la dynamique moléculaire, bien que complexes et exigeantes en termes de calcul, sont très précises pour simuler le comportement du système. En revanche, les méthodes d’apprentissage automatique basées sur l’ingénierie des fonctionnalités fonctionnent mieux lorsqu’il s’agit de systèmes complexes. Cependant, en raison de la rareté des données étiquetées, elles peuvent facilement entraîner des problèmes de surajustement. De plus, ces méthodes d’apprentissage automatique sont généralement conçues pour résoudre une seule tâche et ne prennent pas en charge l’apprentissage multitâche. Par conséquent, lors du choix d’une méthode appropriée, des facteurs tels que l’exactitude, les exigences en matière de données et la complexité de la tâche doivent être pris en compte pour trouver la solution la mieux adaptée au problème spécifique.
Afin de relever ces défis, une équipe multi-institutionnelle composée de l'Université Tsinghua, de l'Université de Californie, de l'Université Sun Yat-sen, de l'Université de Suzhou, de Shenzhen Technology et de l'AI for Science Institute (Pékin, AISI) a proposé conjointement Uni-MOF, un cadre innovant pour l'apprentissage de la représentation MOF 3D à grande échelle, est conçu pour la prévision de gaz polyvalente. Les Uni-MOF conviennent à la fois à la recherche scientifique et aux applications pratiques.
Uni-MOF peut être considéré comme un prédicteur d'adsorption de gaz multifonctionnel pour les matériaux MOF, montrant une excellente précision de prédiction dans les données de simulation, marquant une application importante de l'apprentissage automatique dans la recherche sur l'adsorption de gaz.
L'étude s'intitulait « Une approche globale basée sur un transformateur pour des prévisions d'adsorption de gaz de haute précision dans des cadres métallo-organiques » et a été publiée dans « Nature Communications » le 1 mars 2024.
Lien papier : https://www.nature.com/articles/s41467-024-46276-x
Un cadre d'adsorption unifié est nécessaire
Les cadres métallo-organiques (MOF) en raison de leurs propriétés structurelles réglables et les composants chimiques sont largement utilisés dans des domaines tels que la séparation des gaz.
Bien que les MOF aient un grand potentiel d’adsorption de gaz, prédire avec précision leur capacité d’adsorption reste un défi.
Les méthodes informatiques telles que la dynamique moléculaire et Monte Carlo (MC) ont des coûts de calcul élevés et une mise en œuvre complexe, ce qui limite leur utilisation dans les calculs à grande échelle, multi-gaz et à haut débit. De plus, l’adsorption des gaz fonctionne dans un large éventail de conditions, ce qui rend les prévisions plus complexes. Il a été démontré que les réseaux de neurones graphiques et les transformateurs prédisent avec succès les propriétés du MOF.
Bien que les modèles existants pour prédire les propriétés d'adsorption aient des performances élevées et de fortes capacités prédictives, ils sont généralement conçus pour une seule tâche, prédisant spécifiquement le taux d'absorption par adsorption d'un gaz spécifique dans des conditions spécifiques. Cependant, les ensembles de données disponibles pour ces prédictions de tâches uniques sont souvent limités, ce qui entrave la généralisabilité des modèles.
D'autre part, la combinaison de données étiquetées provenant de divers gaz adsorbés dans différents environnements de température et de pression peut créer un vaste ensemble de données adapté à la formation dans l'ensemble des conditions de fonctionnement. La quantité accrue de données peut également améliorer les capacités de généralisation du modèle et améliorer son utilisation industrielle pratique. Par conséquent, un cadre d’adsorption unifié est nécessaire pour faire progresser ces modèles.
De plus, l'apprentissage de la représentation d'ensemble, ou la pré-formation, pour les structures MOF non étiquetées à grande échelle peut encore améliorer les performances du modèle et les capacités de représentation.
Cadre Uni-MOF : adapté à la fois à la recherche scientifique et aux applications pratiques
Inspirée par cela, l'équipe de recherche a proposé le cadre Uni-MOF comme solution polyvalente qui utilise l'apprentissage de la représentation structurelle pour prédire l'adsorption de gaz des MOF dans différentes conditions.
Comparé à d'autres modèles basés sur Transformer (tels que MOFormer et MOFTransformer), Uni-MOF, en tant que cadre basé sur Transformer, peut non seulement identifier et restaurer la structure tridimensionnelle des matériaux nanoporeux en pré-formation, améliorant ainsi considérablement les performances des matériaux nanoporeux. Et la tâche de réglage fin prend en outre en compte les conditions de fonctionnement telles que la température, la pression et les différentes molécules de gaz, ce qui rend l'Uni-MOF adapté à la fois à la recherche scientifique et aux applications pratiques.
Uni-MOF, en tant qu'estimateur complet d'adsorption de gaz pour les matériaux MOF, nécessite uniquement le fichier d'informations cristallines (CIF) du MOF et les paramètres de gaz, de température et de pression associés pour prédire les caractéristiques d'adsorption de gaz des matériaux nanoporeux dans une large gamme de des conditions de fonctionnement. . Le framework Uni-MOF est facile à utiliser et permet la sélection de modules.
De plus, le problème du surapprentissage est résolu efficacement en combinant diverses données étiquetées d'absorption inter-systèmes avec l'apprentissage de la représentation d'une grande quantité de données structurelles non étiquetées. Cela compense à la fois les données de haute qualité et leurs lacunes, améliorant ainsi la précision des prévisions d’adsorption de gaz.
Le cadre Uni-MOF permet une identification précise des matériaux au niveau atomique, tandis que les modèles intégrés rendent Uni-MOF plus applicable aux problèmes d'ingénierie. Il ne fait aucun doute que la réalisation de modèles véritablement unifiés constitue l’orientation future du domaine des matériaux, plutôt que de se concentrer uniquement sur des domaines spécialisés. Uni-MOF est une pratique pionnière de l'apprentissage automatique dans le domaine de l'adsorption de gaz.
Présentation du framework Uni-MOF
Le framework Uni-MOF comprend un pré-entraînement de cristaux nanoporeux tridimensionnels et un réglage fin des prédictions multitâches dans les applications en aval.
Figure 1 : Diagramme schématique du framework Uni-MOF. (Source : article)
La pré-formation sur les matériaux cristallins 3D améliore considérablement les performances de prédiction des tâches en aval, en particulier pour les données non étiquetées à grande échelle.
Pour résoudre le problème de la supervision insuffisante des ensembles de données de formation, les chercheurs ont collecté un grand nombre d'ensembles de données de structure MOF et généré plus de 300 000 MOF à l'aide de ToBaCCo.3.0. La construction à haut débit de COF basée sur les stratégies de génome des matériaux et l'algorithme d'assemblage quasi-réactif (QReaxAA) est réalisable pour établir une bibliothèque COF complète. Grâce à la configuration spatiale du matériau, Uni-MOF est capable de bien connaître les propriétés structurelles du matériau, et le plus important est l'information sur la liaison chimique.
Afin de permettre à Uni-MOF d'apprendre une gamme plus diversifiée de matériaux et ainsi d'améliorer la capacité de généralisation à une plus large gamme de matériaux, MOF et COF ont été introduits virtuellement et expérimentalement pendant le processus de pré-formation. Semblable à la tâche d'étiquetage masqué dans BERT et Uni-Mol, Uni-MOF adopte la tâche de prédiction des atomes masqués, facilitant ainsi les modèles pré-entraînés pour acquérir une compréhension approfondie de la structure spatiale du matériau.
Pour améliorer la robustesse du pré-entraînement et généraliser les représentations apprises, les chercheurs ont introduit du bruit dans les coordonnées originales des MOF. Dans la phase de pré-formation, deux tâches sont conçues. (1) Reconstruire les positions 3D originales à partir de données bruitées et (2) prédire les atomes protégés. Ces tâches peuvent améliorer la robustesse du modèle et les performances prédictives en aval.
En plus des diverses configurations spatiales, un ensemble complet de points de données sur les propriétés des matériaux est également crucial pour la formation du modèle. Pour enrichir l'ensemble de données, les chercheurs ont établi un processus de génération de données personnalisé (illustré à la figure 1b).
La mise au point d'Uni-MOF repose sur l'extraction de représentations obtenues grâce à la pré-formation et sur l'utilisation de workflows faits maison pour générer et collecter de grands ensembles de données. Au cours du processus de réglage fin, environ 3 000 000 de points de données étiquetés dans diverses conditions d’adsorption pour les MOF et les COF ont été utilisés pour entraîner le modèle, permettant ainsi une prédiction précise de la capacité d’adsorption.
Grâce à une base de données diversifiée de données cibles inter-systèmes, Uni-MOF affiné peut prédire les propriétés d'adsorption multi-systèmes des MOF dans n'importe quel état. Par conséquent, Uni-MOF est un cadre unifié et facile à utiliser pour prédire les performances d’adsorption des adsorbants MOF.
Mieux encore, Uni-MOF ne nécessite aucun travail supplémentaire pour identifier les caractéristiques structurelles définies par l'homme. Au lieu de cela, le CIF du MOF et les paramètres de gaz, de température et de pression associés sont suffisants. La stratégie d'apprentissage auto-supervisée et la riche base de données garantissent qu'Uni-MOF est capable de prédire les propriétés d'adsorption de gaz des matériaux nanoporeux sous divers paramètres de fonctionnement, ce qui en fait un estimateur efficace de l'adsorption de gaz pour les matériaux MOF.
Précision de prédiction jusqu'à 0,98, prédit sur tous les systèmes
Cette étude a effectué un apprentissage auto-supervisé sur une base de données de plus de 631 000 MOF et COF, avec une précision de prédiction jusqu'à 0,98. Cela montre que le cadre d'apprentissage des représentations basé sur la pré-formation 3D apprend efficacement les informations structurelles complexes du MOF tout en évitant le surajustement.
Utilisation d'Uni-MOF pour prédire les performances d'adsorption de gaz de trois bases de données majeures (hMOF_MOFX-DB, CoRE_MOFX-DB et CoRE_MAP_DB), obtenant une précision de prédiction allant jusqu'à 0,98 dans les bases de données avec suffisamment de données.
Figure 2 : Performance globale d'Uni-MOF dans des bases de données à grande échelle. (Source : article)
Lorsque l'ensemble de données est entièrement échantillonné, Uni-MOF maintient non seulement une précision de prédiction supérieure à 0,83, mais peut également sélectionner avec précision des adsorbants haute performance sous haute pression uniquement en prédisant l'adsorption à basse pression. les résultats du dépistage expérimental sont cohérents. Uni-MOF représente donc une avancée majeure dans l’application des techniques d’apprentissage automatique dans le domaine de la science des matériaux.
Figure 3 : Isothermes d'adsorption basées sur des prédictions de basse pression et des valeurs expérimentales de haute pression, chaque courbe représente un ajustement de Langmuir. (Source : article)
De plus, par rapport aux tâches mono-système, le framework Uni-MOF montre des performances supérieures sur les ensembles de données inter-systèmes et peut prédire avec précision les caractéristiques d'adsorption de gaz inconnus avec une précision de prédiction aussi élevée que 0,85, démontrant sa puissance prédictive et sa polyvalence.
Figure 4 : Cas de prédiction inter-systèmes Uni-MOF. (Source : article)
La recherche montre que les stratégies d'apprentissage auto-supervisées pré-entraînées peuvent améliorer efficacement la robustesse et les performances de prédiction en aval d'Uni-MOF.
Figure 5 : Comparaison d'Uni-MOF et d'Uni-MOF sans pré-formation. (Source : article)
Grâce à une pré-formation approfondie sur les structures tridimensionnelles, Uni-MOF apprend efficacement les caractéristiques structurelles des MOF, atteignant un coefficient de détermination élevé de 0,99 pour les hMOF.
Figure 6 : Prédiction et analyse des caractéristiques structurelles. (Source : article)
De plus, l'analyse t-SNE (intégration de voisins stochastiques distribués par t) a confirmé que l'étape de réglage fin peut apprendre davantage les caractéristiques structurelles et peut bien identifier les structures avec différents comportements d'adsorption, indiquant que la représentation apprise Il y a une forte corrélation avec les cibles d’adsorption de gaz.
Figure 7 : Visualisation de la représentation structurelle MOF dans les ensembles de données hMOF et CoRE_MOF, intégrations de faible dimension calculées par la méthode t-SNE. (Source : article)
En résumé, le cadre Uni-MOF sert de plate-forme de prédiction multifonctionnelle pour les matériaux MOF et agit comme un estimateur d'adsorption de gaz pour les MOF avec une grande précision dans la prévision de l'adsorption de gaz dans différentes conditions de fonctionnement, sur le terrain. de la science des matériaux. Il a de larges perspectives d’application.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!