Maison >Périphériques technologiques >IA >En battant 25 algorithmes de conception moléculaire, Georgia Tech, l'Université de Toronto et Cornell ont proposé un grand modèle de langage MOLLEO

En battant 25 algorithmes de conception moléculaire, Georgia Tech, l'Université de Toronto et Cornell ont proposé un grand modèle de langage MOLLEO

WBOY
WBOYoriginal
2024-07-02 01:07:361255parcourir

En battant 25 algorithmes de conception moléculaire, Georgia Tech, lUniversité de Toronto et Cornell ont proposé un grand modèle de langage MOLLEO

Auteur | Wang Haorui, Georgia Institute of Technology

Éditeur | ScienceAI

La découverte moléculaire en tant que problème d'optimisation pose des défis informatiques importants car l'objectif d'optimisation peut ne pas être différenciable. Les algorithmes évolutionnaires (EA) sont couramment utilisés pour optimiser les cibles de la boîte noire dans la découverte moléculaire en traversant l'espace chimique par mutation aléatoire et croisement, mais cela entraîne une évaluation de cible étendue et coûteuse.

Dans ce travail, des chercheurs du Georgia Institute of Technology, de l'Université de Toronto et de l'Université Cornell ont collaboré pour proposer l'optimisation évolutive améliorée du langage moléculaire (MOLLEO), qui intègre de grands modèles de langage (LLM) pré-entraînés avec des connaissances chimiques dans l'évolution. optimisation.Dans l'algorithme, la capacité d'optimisation moléculaire de l'algorithme évolutif a été considérablement améliorée.

L'étude, intitulée "Efficient Evolutionary Search Over Chemical Space with Large Language Models", a été publiée sur la plateforme de prépublication arXix le 23 juin.

En battant 25 algorithmes de conception moléculaire, Georgia Tech, lUniversité de Toronto et Cornell ont proposé un grand modèle de langage MOLLEO

Lien papier : https://arxiv.org/abs/2406.16976

L'énorme défi informatique de la découverte moléculaire

La découverte moléculaire est un processus itératif complexe impliquant la conception, la synthèse, l'évaluation et L'amélioration a un large éventail d'applications concrètes, notamment la conception de médicaments, la conception de matériaux, l'amélioration de l'énergie, les problèmes de maladie, etc. Ce processus est souvent lent et laborieux, et même les évaluations informatiques approximatives nécessitent des ressources importantes en raison de conditions de conception complexes et de l'évaluation des propriétés moléculaires qui nécessitent souvent des évaluations coûteuses (telles que des expériences humides, des essais biologiques et des simulations informatiques).

Par conséquent, le développement d’algorithmes efficaces de recherche, de prédiction et de génération moléculaires est devenu un point chaud de la recherche dans le domaine de la chimie pour accélérer le processus de découverte. En particulier, les méthodes basées sur l’apprentissage automatique ont joué un rôle important dans l’identification et la proposition rapides de candidats moléculaires prometteurs.

En raison de l'importance du problème, l'optimisation moléculaire a reçu une grande attention, y compris plus de 20 algorithmes de conception moléculaire qui ont été développés et testés (parmi eux, les méthodes d'optimisation combinatoire telles que les algorithmes génétiques et l'apprentissage par renforcement sont en avance sur les autres modèles génératifs. et algorithmes d'optimisation continue), Veuillez vous référer à l'article de revue récent du sous-journal Nature pour plus de détails. L'une des méthodes les plus efficaces est celle des algorithmes évolutionnaires (EA). La caractéristique de ces algorithmes est qu'ils ne nécessitent pas d'évaluation de gradient, ils sont donc très adaptés à l'optimisation objective de la boîte noire dans la découverte moléculaire.

Cependant, un inconvénient majeur de ces algorithmes est qu'ils génèrent de manière aléatoire des structures candidates sans exploiter les informations spécifiques à la tâche, ce qui nécessite une évaluation approfondie des fonctions objectives. Parce que l'évaluation des attributs coûte cher, l'optimisation moléculaire trouve non seulement la structure moléculaire avec les meilleurs attributs attendus, mais minimise également le nombre d'évaluations de la fonction objectif (ce qui équivaut également à améliorer l'efficacité de la recherche).

Récemment, LLM a démontré certaines capacités de base dans plusieurs tâches liées à la chimie, telles que la prédiction des propriétés moléculaires, la récupération de molécules optimales, l'automatisation d'expériences chimiques et la génération de molécules avec des propriétés cibles. Étant donné que les LLM sont formés sur des corpus de textes à grande échelle couvrant un large éventail de tâches, ils démontrent des capacités générales de compréhension du langage et des connaissances chimiques de base, ce qui en fait un outil intéressant pour les tâches de découverte chimique.

Cependant, de nombreuses méthodes basées sur le LLM reposent sur l'apprentissage en contexte et l'ingénierie des signaux, ce qui peut être problématique lors de la conception de molécules avec des objectifs numériques stricts, car le LLM peut avoir des difficultés à répondre à des contraintes numériques précises ou à optimiser une cible numérique spécifique. De plus, les méthodes qui s'appuient uniquement sur des indices LLM peuvent générer des molécules avec une base physique médiocre ou générer des chaînes SMILES invalides qui ne peuvent pas être décodées en structures chimiques.

Optimisation évolutive améliorée du langage moléculaire

Dans cette étude, nous proposons l'optimisation évolutive améliorée du langage moléculaire (MOLLEO), qui intègre le LLM dans l'EA pour améliorer la qualité des candidats générés et accélérer le processus d'optimisation. MOLLEO utilise LLM comme opérateur génétique pour générer de nouveaux candidats par croisement ou mutation. Nous démontrons pour la première fois comment le LLM peut être intégré dans le cadre d'EA pour la génération de molécules.

Dans cette étude, nous avons considéré trois modèles de langage avec des capacités différentes : GPT-4, BioT5 et MoleculeSTM. Nous intégrons chaque LLM dans différentes procédures de croisement et de mutation et démontrons nos choix de conception à travers des études d'ablation.

Nous avons prouvé les performances supérieures de MOLLEO grâce à des expériences sur plusieurs tâches d'optimisation de boîte noire, y compris l'optimisation à objectif unique et multi-objectif. Pour toutes les tâches, y compris l'amarrage protéine-ligand plus difficile, MOLLEO surpasse l'EA de base et 25 autres méthodes de base solides. De plus, nous démontrons la capacité de MOLLEO à optimiser davantage les meilleures molécules d'inhibiteurs de JNK3 dans la base de données ZINC 250K.

Notre framework MOLLEO est basé sur un algorithme évolutif simple, l'algorithme Graph-GA, et améliore ses fonctionnalités en intégrant un LLM chimiquement conscient dans les opérations génétiques.

Nous décrivons d'abord l'énoncé du problème, en soulignant la nécessité de minimiser les évaluations objectives coûteuses dans l'optimisation boîte noire. MOLLEO utilise des LLM tels que GPT-4, BioT5 et MoleculeSTM pour générer de nouvelles molécules candidates guidées par des descriptions de cibles.

Plus précisément, lors de l'étape de croisement, au lieu de combiner aléatoirement deux molécules parents, nous utilisons LLM pour générer des molécules qui maximisent la fonction de fitness cible. Lors de l’étape de mutation, l’opérateur mute le membre le plus apte de la population actuelle selon la description cible. Cependant, nous avons remarqué que LLM ne générait pas toujours des candidats avec une forme physique supérieure à celle des molécules d'entrée. Nous avons donc construit des pressions de sélection pour filtrer les molécules modifiées en fonction de leur similarité structurelle.

Résultats expérimentaux

Nous avons évalué MOLLEO sur 18 tâches. Les tâches sont sélectionnées à partir des benchmarks et des bases de données PMO et TDC et peuvent être divisées dans les catégories suivantes :

  1. Optimisation basée sur la structure : Optimiser les molécules en fonction de la structure cible, y compris la génération d'isomères basée sur la formule de la molécule cible (isomers_c9h10n2o2pf2cl) et Deux tâches basées sur la correspondance ou l'évitement des motifs d'échafaudage et de sous-structure (deco_hop, scaffold_hop).
  2. Optimisation basée sur le nom : Comprend la recherche de composés similaires aux médicaments connus (mestranol_similarity, thiothixene_rediscovery) et trois tâches d'optimisation multi-attributs (MPO) qui redécouvrent des médicaments tout en les redécouvertes (par exemple, périndopril, ranolazine, sitagliptine) Optimiser d'autres propriétés telles que hydrophobie (LogP) et perméabilité (TPSA). Bien que ces tâches impliquaient principalement la redécouverte de médicaments existants plutôt que la conception de nouvelles molécules, elles ont démontré les capacités fondamentales d'optimisation chimique du LLM.
  3. Optimisation des propriétés : comprend la tâche simple d'optimisation des propriétés QED, qui mesure la similarité des molécules entre les médicaments. Nous nous sommes ensuite concentrés sur trois tâches au sein du PMO, mesurant l'activité des molécules contre les protéines suivantes : DRD2 (récepteur de la dopamine D2), GSK3β (glycogène synthase kinase-3β) et JNK3 (c-Jun N-terminal kinase-3). De plus, nous incluons trois tâches d’amarrage protéine-ligand dans le TDC (conception structurelle de médicaments) qui sont plus proches de la conception réelle de médicaments que de simples propriétés physicochimiques.

Pour évaluer notre méthode, nous suivons la méthode de référence PMO, en tenant compte de la valeur cible et du budget de calcul, et rapportons l'aire sous la courbe (AUC top-k) des k principales valeurs d'attribut moyennes et le nombre des appels de fonction cible.

À titre de référence de comparaison, nous avons utilisé les meilleurs modèles du benchmark PMO, notamment REINVENT basé sur l'apprentissage par renforcement, l'algorithme évolutif de base Graph-GA et le processus gaussien d'optimisation bayésienne GP BO.

En battant 25 algorithmes de conception moléculaire, Georgia Tech, lUniversité de Toronto et Cornell ont proposé un grand modèle de langage MOLLEO

Illustration : Top 10 des AUC des tâches à cible unique. (Source : article)

Nous avons mené des expériences d'optimisation à objectif unique sur 12 tâches du PMO. Les résultats sont présentés dans le tableau ci-dessus. Nous rapportons le top 10 de l'AUC de chaque tâche et le classement global de chaque modèle. Les résultats montrent que l'utilisation de n'importe quel grand modèle de langage (LLM) comme opérateur génétique peut améliorer les performances au-delà du Graph-GA par défaut et de tous les autres modèles de base.

GPT-4 a surpassé tous les modèles dans 9 tâches sur 12, démontrant son efficacité et ses perspectives en tant que grand modèle de langage général dans la génération de molécules. BioT5 a obtenu les deuxièmes meilleurs résultats parmi tous les modèles de test, avec un score total proche de GPT-4, ce qui indique que les petits modèles formés et affinés sur la connaissance du domaine ont également de bonnes perspectives d'application dans MOLLEO.

MOLSTM est un petit modèle basé sur le modèle CLIP qui est affiné sur la description en langage naturel de la molécule et la formule chimique de la molécule. Nous utilisons l'algorithme de descente de gradient dans l'algorithme évolutif pour générer différentes nouvelles molécules sur le. même description en langage naturel, et ses performances surpassent également les autres méthodes de base.

En battant 25 algorithmes de conception moléculaire, Georgia Tech, lUniversité de Toronto et Cornell ont proposé un grand modèle de langage MOLLEO

Illustration : JNK3 inhibe la fitness de la population qui se produit à mesure que le nombre d'itérations augmente. (Source : article)

Pour vérifier l'efficacité de l'intégration de LLM dans le cadre EA, nous montrons la distribution des scores du pool de molécules aléatoires initial sur la tâche JNK3. Par la suite, nous avons effectué une série d'éditions sur toutes les molécules du pool et tracé la distribution du score JNK3 des molécules éditées.

Les résultats montrent que les distributions éditées par LLM sont toutes légèrement décalées vers des scores plus élevés, indiquant que LLM apporte des modifications utiles. Cependant, le score cible global est encore faible, donc une édition en une seule étape n'est pas suffisante et une optimisation itérative à l'aide d'algorithmes évolutifs est ici nécessaire.

En battant 25 algorithmes de conception moléculaire, Georgia Tech, lUniversité de Toronto et Cornell ont proposé un grand modèle de langage MOLLEO

Illustration : Le score d'amarrage moyen des 10 principales molécules lorsqu'elles sont amarrées à la protéine du récepteur DRD3, EGFR ou à l'adénosine A2A. (Source : papier)

En plus des 12 tâches d'optimisation à objectif unique dans PMO, nous avons également testé MOLLEO sur des tâches d'amarrage protéine-ligand plus difficiles, qui sont plus proches des scénarios de génération de molécules du monde réel que des tâches à objectif unique. La figure ci-dessus est un graphique du score d'amarrage moyen des dix meilleures molécules de MOLLEO et Graph-GA par rapport au nombre d'appels de fonction cible.

Les résultats montrent que dans les trois protéines, les scores d'amarrage des molécules générées par notre méthode sont presque tous meilleurs que ceux du modèle de base et que la vitesse de convergence est plus rapide. Parmi les trois modèles de langage que nous avons utilisés, BioT5 a obtenu les meilleurs résultats. En réalité, de meilleurs scores d’amarrage et une convergence plus rapide peuvent réduire le nombre d’essais biologiques requis pour cribler les molécules, rendant ainsi le processus plus rentable et plus rapide.

En battant 25 algorithmes de conception moléculaire, Georgia Tech, lUniversité de Toronto et Cornell ont proposé un grand modèle de langage MOLLEO

Illustration : Somme et fraction hypervolume pour des tâches multi-objectifs. (Source : article)

En battant 25 algorithmes de conception moléculaire, Georgia Tech, lUniversité de Toronto et Cornell ont proposé un grand modèle de langage MOLLEO

Illustration : Visualisation Pareto optimale de Graph-GA et MOLLEO sur des tâches multi-objectifs. (Source : article)

Pour l'optimisation multi-objectifs, nous considérons deux métriques : l'AUC top-10 de la somme des scores de tous les objectifs d'optimisation et l'hypervolume de l'ensemble optimal de Pareto. Nous présentons les résultats de l'optimisation multi-objectifs sur trois tâches. Les tâches 1 et 2 s'inspirent des objectifs de découverte de médicaments et visent à optimiser trois objectifs simultanément : maximiser le QED d'une molécule, minimiser son score d'accessibilité synthétique (SA) (ce qui signifie plus facile à synthétiser) et maximiser sa contribution à JNK3 (Tâche 1) ou GSK3β. (Tâche 2) scores contraignants. La tâche 3 est plus difficile car elle nécessite une optimisation simultanée de cinq objectifs : maximiser les scores de liaison QED et JNK3 et minimiser les scores de liaison GSK3β, les scores de liaison DRD2 et les scores SA.

Nous constatons que MOLLEO (GPT-4) surpasse systématiquement le Graph-GA de base en hypervolume et en sommation dans les trois tâches. Sur la figure, nous visualisons les ensembles optimaux de Pareto (dans l'espace objectif) de notre méthode et de Graph-GA dans la tâche 1 et la tâche 2. Les performances des modèles de langage open source diminuent lorsque plusieurs cibles sont introduites. Nous pensons que cette dégradation des performances pourrait provenir de leur incapacité à capturer de grandes quantités de contexte riche en informations.

En battant 25 algorithmes de conception moléculaire, Georgia Tech, lUniversité de Toronto et Cornell ont proposé un grand modèle de langage MOLLEO

Illustration : Initialisation de MOLLEO en utilisant les meilleures molécules du ZINC 250K. (Source : article)

Le but ultime de l'algorithme évolutif est d'améliorer les propriétés du pool de molécules initial et de découvrir de nouvelles molécules Afin d'explorer la capacité de MOLLEO à explorer de nouvelles molécules, nous initialisons le pool de molécules avec les meilleures. molécules dans ZINC 250K, puis utilisez MOLLEO et Graph-GA pour l'optimisation. Les résultats expérimentaux sur la tâche JNK3 montrent que notre algorithme surpasse systématiquement le modèle de base Graph-GA et est capable d'améliorer les meilleures molécules trouvées dans les ensembles de données existants.

De plus, nous avons également remarqué que l'ensemble de formation de BioT5 est la base de données ZINC20 (contenant 1,4 milliard de composés), et que l'ensemble de formation de MoleculeSTM est la base de données PubChem (environ 250 000 molécules). Nous avons vérifié si les molécules finales générées par chaque modèle dans la tâche JNK3 apparaissaient dans l'ensemble de données correspondant. Il a été constaté que les molécules générées ne chevauchaient pas celles de l’ensemble de données. Cela montre que le modèle est capable de générer de nouvelles molécules qui n’étaient pas présentes dans l’ensemble d’apprentissage.

Peut être appliqué à la découverte de médicaments, aux matériaux, à la conception de biomolécules

La découverte et la conception moléculaires sont un domaine riche avec de nombreuses applications pratiques, dont beaucoup dépassent la portée de l'étude actuelle mais restent pertinentes pour le cadre proposé. MOLLEO combine le LLM avec les algorithmes EA pour fournir un cadre algorithmique flexible via du texte pur. À l'avenir, MOLLEO pourra être appliqué à des scénarios tels que la découverte de médicaments, des simulations informatiques coûteuses et la conception de matériaux ou de grandes biomolécules.

Travaux futurs Nous nous concentrerons davantage sur la manière d'améliorer la qualité des molécules générées, y compris leurs valeurs cibles et leur vitesse de découverte. À mesure que le LLM continue de progresser, nous prévoyons que les performances du cadre MOLLEO continueront également de s'améliorer, ce qui en fera un outil prometteur dans les applications de chimie générative.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn