Maison >Périphériques technologiques >IA >'Encyclopédie' de la découverte de médicaments à petites molécules d'IA, révisée par des chercheurs de Cornell, Cambridge, EPFL et d'autres, publiée dans la sous-journal Nature
Auteur | Cornell University Du Yuanqi
Éditeur | ScienceAI
Alors que l'IA pour la science reçoit de plus en plus d'attention, les gens sont de plus en plus préoccupés par la façon dont l'IA peut résoudre une série de problèmes scientifiques et peut être utilisée avec succès comme référence dans d'autres pays domaines similaires.
La découverte de médicaments par l'IA et les petites molécules est l'un des domaines les plus représentatifs et les plus précoces explorés. La découverte moléculaire est un problème d'optimisation combinatoire très difficile (en raison de la nature discrète de la structure moléculaire) et l'espace de recherche est très vaste et robuste. En même temps, il est généralement très difficile de vérifier les propriétés des molécules recherchées. nécessite des expériences coûteuses, au moins des calculs de simulation, des méthodes chimiques quantiques pour fournir un retour d'information.
Avec le développement rapide de l'apprentissage automatique et grâce à une exploration précoce (y compris la construction d'objectifs d'optimisation et de méthodes de mesure d'effets simples et utilisables), un grand nombre d'algorithmes ont été développés, notamment des algorithmes d'optimisation combinatoire, de recherche, d'échantillonnage (algorithmes génétiques , recherche arborescente de Monte Carlo, apprentissage par renforcement, modèle de flux génératif/GFlowNet, chaîne de Markov Monte Carlo, etc.), et algorithmes d'optimisation continue, optimisation bayésienne, optimisation basée sur le gradient, etc. Dans le même temps, les références de mesure d'algorithmes relativement complètes et les méthodes de comparaison relativement objectives et équitables existantes ont également ouvert un large espace pour le développement d'algorithmes d'apprentissage automatique.
Récemment, des chercheurs de l'Université Cornell, de l'Université de Cambridge et de l'Ecole Polytechnique Fédérale de Lausanne (EPFL) ont publié un article de synthèse intitulé "Conception moléculaire générative assistée par apprentissage automatique" dans "Nature Machine Intelligence".
Lien papier : https://www.nature.com/articles/s42256-024-00843-5
Cette revue passe en revue l'application de l'apprentissage automatique dans la conception moléculaire générative. La découverte et le développement de médicaments nécessitent d’optimiser les molécules pour répondre à des propriétés physicochimiques et à des activités biologiques spécifiques. Cependant, les méthodes traditionnelles sont coûteuses et sujettes à l’échec en raison de l’énorme espace de recherche et des fonctions d’optimisation discontinues. L’apprentissage automatique accélère le processus de découverte de médicaments à un stade précoce en combinant les étapes de génération de molécules et de criblage.
Illustration : Processus de conception moléculaire assistée par ML génératif.
Tâches de conception moléculaire générative
La conception moléculaire générative peut être divisée en deux paradigmes principaux : l'apprentissage distribué et la génération orientée vers un objectif, où la génération orientée vers un objectif peut être divisée en génération conditionnelle et optimisation moléculaire. La pertinence de chaque méthode dépend de la tâche spécifique et des données impliquées.
Apprentissage distribué (apprentissage distribué)
Génération conditionnelle (génération conditionnelle)
L'optimisation moléculaire joue un rôle clé dans la découverte de médicaments en affinant les propriétés des candidats médicaments pour améliorer leur sécurité, leur efficacité et leurs propriétés pharmacocinétiques. Implique d'apporter de petites modifications aux structures moléculaires candidates pour optimiser les propriétés du médicament telles que la solubilité, la biodisponibilité et l'affinité cible, améliorant ainsi le potentiel thérapeutique et augmentant le succès avec les paramètres cliniques.
Illustrations : Illustrations de tâches de génération, de stratégies de génération et de caractérisation moléculaire.
Processus de génération moléculaire
La génération moléculaire est un processus complexe qui comprend de nombreuses unités de combinaison différentes. Nous répertorions le travail représentatif dans la figure ci-dessous et présentons les unités représentatives de chaque partie.
Représentation moléculaire
Lors du développement d'architectures neuronales générées moléculairement, il est d'abord nécessaire de déterminer des représentations d'entrée et de sortie lisibles par machine de la structure moléculaire. La représentation d'entrée permet d'injecter des biais inductifs appropriés dans le modèle, tandis que la représentation de sortie détermine l'espace de recherche optimisé pour la molécule. Le type de représentation détermine l'applicabilité de la méthode de génération. Par exemple, les algorithmes de recherche discrets ne peuvent être appliqués qu'aux représentations combinatoires telles que les graphiques et les chaînes.
Bien que diverses représentations d'entrée aient été étudiées, les compromis entre les types de représentation et les architectures neuronales qui les codent ne sont pas encore clairs. Les transformations de représentation entre molécules ne sont pas nécessairement bijectives ; par exemple, les cartes de densité et les empreintes digitales ne peuvent pas identifier de manière unique les molécules, et des techniques supplémentaires sont nécessaires pour résoudre ce problème de cartographie non trivial. Les représentations moléculaires courantes incluent les chaînes, les graphiques topologiques bidimensionnels et les graphiques géométriques tridimensionnels.
La granularité de la représentation est une autre considération dans la conception de modèles génératifs. En règle générale, les méthodes utilisent des atomes ou des fragments moléculaires comme éléments de base lors de la génération. La représentation basée sur les fragments affine les structures moléculaires en unités plus grandes contenant des groupes d'atomes, transportant des informations hiérarchiques telles que l'identification des groupes fonctionnels, s'alignant ainsi sur les approches traditionnelles de conception de médicaments basées sur des fragments ou des pharmacophores.
Méthodes génératives
Les modèles génératifs profonds sont une classe de méthodes qui estiment la distribution de probabilité des données et des échantillons à partir d'une distribution d'apprentissage (également appelée apprentissage de distribution). Ceux-ci incluent des auto-encodeurs variationnels, des réseaux antagonistes génératifs, des flux de normalisation, des modèles autorégressifs et des modèles de diffusion. Chacune de ces méthodes de génération a ses cas d'utilisation, ses avantages et ses inconvénients, et le choix dépend de la tâche requise et des caractéristiques des données.
Stratégie de génération
La stratégie de génération fait référence à la manière dont le modèle génère la structure moléculaire, qui peut généralement être divisée en génération unique, génération séquentielle ou amélioration itérative.
Génération One-Shot : La génération One-Shot génère la structure moléculaire complète en un seul passage vers l'avant du modèle. Cette approche a souvent du mal à générer des structures moléculaires réalistes et raisonnables avec une grande précision. De plus, la génération ponctuelle ne peut souvent pas satisfaire des contraintes explicites, telles que les contraintes de valence, qui sont cruciales pour garantir l'exactitude et la validité de la structure générée.
Génération séquentielle : La génération séquentielle construit une structure moléculaire à travers une série d'étapes, généralement par atomes ou fragments. Les contraintes de Valence peuvent être facilement injectées dans la génération séquentielle, améliorant ainsi la qualité des molécules générées. Cependant, la principale limitation de la génération séquentielle est que l’ordre des trajectoires générées doit être défini lors de l’entraînement et que l’inférence est plus lente.
Amélioration itérative : L'amélioration itérative ajuste la prédiction en prédisant une série de mises à jour, contournant ainsi les difficultés des méthodes de génération ponctuelles. Par exemple, le module de structure cyclique d’AlphaFold2 a affiné avec succès le cadre principal, une approche qui a inspiré les stratégies de génération de molécules associées. La modélisation de diffusion est une technique courante qui génère de nouvelles données grâce à une série d'étapes de réduction du bruit. Actuellement, les modèles de diffusion ont été appliqués à divers problèmes de génération de molécules, notamment la génération conformationnelle, la conception de médicaments basée sur la structure et la conception de lieurs.
Stratégie d'optimisation
Optimisation de combinaison : Pour le codage combinatoire de molécules (images ou chaînes), la technologie dans le domaine de l'optimisation combinatoire peut être directement appliquée.
Optimisation continue : Les molécules peuvent être représentées ou codées dans des domaines continus, tels que des nuages de points et des cartes géométriques dans l'espace euclidien, ou des modèles génératifs profonds codant des données discrètes dans un espace latent continu.
Évaluation des modèles génératifs d'apprentissage automatique
L'évaluation des modèles génératifs nécessite une évaluation informatique et une vérification expérimentale. Les mesures standard incluent l'efficacité, l'unicité, la nouveauté, etc. Plusieurs métriques doivent être prises en compte lors de l’évaluation d’un modèle afin d’évaluer pleinement les performances de la construction.
Vérification expérimentale
Les molécules générées doivent être explicitement vérifiées par des expériences humides, contrairement aux recherches existantes qui se concentrent principalement sur les contributions informatiques. Même si les modèles génératifs ne sont pas sans faiblesses, le décalage entre les prédictions et les expériences est également dû à l’expertise, aux dépenses et aux longs cycles de tests nécessaires pour effectuer de telles validations.
Génération de lois modèles
La plupart des études rapportant une validation expérimentale utilisent RNN et/ou VAE, avec SMILES comme objet opérationnel. Nous résumons quatre observations principales :
Orientations futures
Bien que les algorithmes d'apprentissage automatique aient apporté de l'espoir dans la découverte de médicaments à petites molécules, il reste encore d'autres défis et opportunités à relever.
Challenge
Opportunité
Auteur : Du Yuanqi, doctorant en deuxième année au Département d'informatique de l'Université Cornell. Ses principaux intérêts de recherche comprennent l'apprentissage profond géométrique, les modèles probabilistes, l'échantillonnage, la recherche, les problèmes d'optimisation, l'interprétabilité et les applications dans ce domaine. d'exploration moléculaire. Pour des informations spécifiques, voir : https://yuanqidu.github.io/.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!