Maison >Périphériques technologiques >IA >'Encyclopédie' de la découverte de médicaments à petites molécules d'IA, révisée par des chercheurs de Cornell, Cambridge, EPFL et d'autres, publiée dans la sous-journal Nature

'Encyclopédie' de la découverte de médicaments à petites molécules d'IA, révisée par des chercheurs de Cornell, Cambridge, EPFL et d'autres, publiée dans la sous-journal Nature

PHPzoriginal: 2024-06-24 21:20:21601parcourir

Encyclopédie de la découverte de médicaments à petites molécules dIA, révisée par des chercheurs de Cornell, Cambridge, EPFL et dautres, publiée dans la sous-journal Nature

Auteur | Cornell University Du Yuanqi

Éditeur | ScienceAI

Alors que l'IA pour la science reçoit de plus en plus d'attention, les gens sont de plus en plus préoccupés par la façon dont l'IA peut résoudre une série de problèmes scientifiques et peut être utilisée avec succès comme référence dans d'autres pays domaines similaires.

La découverte de médicaments par l'IA et les petites molécules est l'un des domaines les plus représentatifs et les plus précoces explorés. La découverte moléculaire est un problème d'optimisation combinatoire très difficile (en raison de la nature discrète de la structure moléculaire) et l'espace de recherche est très vaste et robuste. En même temps, il est généralement très difficile de vérifier les propriétés des molécules recherchées. nécessite des expériences coûteuses, au moins des calculs de simulation, des méthodes chimiques quantiques pour fournir un retour d'information.

Avec le développement rapide de l'apprentissage automatique et grâce à une exploration précoce (y compris la construction d'objectifs d'optimisation et de méthodes de mesure d'effets simples et utilisables), un grand nombre d'algorithmes ont été développés, notamment des algorithmes d'optimisation combinatoire, de recherche, d'échantillonnage (algorithmes génétiques , recherche arborescente de Monte Carlo, apprentissage par renforcement, modèle de flux génératif/GFlowNet, chaîne de Markov Monte Carlo, etc.), et algorithmes d'optimisation continue, optimisation bayésienne, optimisation basée sur le gradient, etc. Dans le même temps, les références de mesure d'algorithmes relativement complètes et les méthodes de comparaison relativement objectives et équitables existantes ont également ouvert un large espace pour le développement d'algorithmes d'apprentissage automatique.

Récemment, des chercheurs de l'Université Cornell, de l'Université de Cambridge et de l'Ecole Polytechnique Fédérale de Lausanne (EPFL) ont publié un article de synthèse intitulé "Conception moléculaire générative assistée par apprentissage automatique" dans "Nature Machine Intelligence".

Encyclopédie de la découverte de médicaments à petites molécules dIA, révisée par des chercheurs de Cornell, Cambridge, EPFL et dautres, publiée dans la sous-journal Nature

Lien papier : https://www.nature.com/articles/s42256-024-00843-5

Cette revue passe en revue l'application de l'apprentissage automatique dans la conception moléculaire générative. La découverte et le développement de médicaments nécessitent d’optimiser les molécules pour répondre à des propriétés physicochimiques et à des activités biologiques spécifiques. Cependant, les méthodes traditionnelles sont coûteuses et sujettes à l’échec en raison de l’énorme espace de recherche et des fonctions d’optimisation discontinues. L’apprentissage automatique accélère le processus de découverte de médicaments à un stade précoce en combinant les étapes de génération de molécules et de criblage.

Encyclopédie de la découverte de médicaments à petites molécules dIA, révisée par des chercheurs de Cornell, Cambridge, EPFL et dautres, publiée dans la sous-journal Nature

Illustration : Processus de conception moléculaire assistée par ML génératif.

Tâches de conception moléculaire générative

La conception moléculaire générative peut être divisée en deux paradigmes principaux : l'apprentissage distribué et la génération orientée vers un objectif, où la génération orientée vers un objectif peut être divisée en génération conditionnelle et optimisation moléculaire. La pertinence de chaque méthode dépend de la tâche spécifique et des données impliquées.

Apprentissage distribué (apprentissage distribué)

L'apprentissage distribué vise à décrire la distribution des données en modélisant la distribution de probabilité des molécules dans un ensemble de données donné, échantillonnant ainsi de nouvelles molécules à partir de la distribution apprise.

Génération conditionnelle (génération conditionnelle)

Génération conditionnée par la propriété (génération conditionnée par la propriété) : Générez une structure avec des attributs spécifiques, qui peuvent être une description textuelle ou la valeur d'un attribut spécifique.
Génération conditionnée par (sous)structure moléculaire (génération conditionnée par (sous)structure moléculaire) : générer des molécules avec des contraintes structurelles spécifiques, telles que la conception de structures partielles, le saut d'échafaudage, la conception de lieurs, la refonte de la structure entière (optimisation pilote) ou l'ensemble de la génération conditionnelle de molécules (génération conformationnelle).
Target-conditioned Generation (target-conditioned Generation) : vise à générer des molécules avec une affinité de liaison élevée pour des cibles biomoléculaires spécifiques liées à une maladie. Contrairement à la génération de conditions d'attribut, la génération de conditions cibles utilise un accès explicite à la structure cible pour améliorer l'affinité de la molécule de ligand pour la cible en intégrant des interactions directes cible-ligand.
Génération conditionnée par le phénotype (génération conditionnée par le phénotype) : implique l'apprentissage d'empreintes phénotypiques à partir de la microscopie cellulaire ou d'autres lectures d'essais biologiques (telles que les données du transcriptome) pour fournir des signaux conditionnés qui guident la génération vers le numérateur résultant de la biologie souhaitée.

L'optimisation moléculaire joue un rôle clé dans la découverte de médicaments en affinant les propriétés des candidats médicaments pour améliorer leur sécurité, leur efficacité et leurs propriétés pharmacocinétiques. Implique d'apporter de petites modifications aux structures moléculaires candidates pour optimiser les propriétés du médicament telles que la solubilité, la biodisponibilité et l'affinité cible, améliorant ainsi le potentiel thérapeutique et augmentant le succès avec les paramètres cliniques.

Illustrations : Illustrations de tâches de génération, de stratégies de génération et de caractérisation moléculaire.

Processus de génération moléculaire

La génération moléculaire est un processus complexe qui comprend de nombreuses unités de combinaison différentes. Nous répertorions le travail représentatif dans la figure ci-dessous et présentons les unités représentatives de chaque partie.

Représentation moléculaire

Lors du développement d'architectures neuronales générées moléculairement, il est d'abord nécessaire de déterminer des représentations d'entrée et de sortie lisibles par machine de la structure moléculaire. La représentation d'entrée permet d'injecter des biais inductifs appropriés dans le modèle, tandis que la représentation de sortie détermine l'espace de recherche optimisé pour la molécule. Le type de représentation détermine l'applicabilité de la méthode de génération. Par exemple, les algorithmes de recherche discrets ne peuvent être appliqués qu'aux représentations combinatoires telles que les graphiques et les chaînes.

Bien que diverses représentations d'entrée aient été étudiées, les compromis entre les types de représentation et les architectures neuronales qui les codent ne sont pas encore clairs. Les transformations de représentation entre molécules ne sont pas nécessairement bijectives ; par exemple, les cartes de densité et les empreintes digitales ne peuvent pas identifier de manière unique les molécules, et des techniques supplémentaires sont nécessaires pour résoudre ce problème de cartographie non trivial. Les représentations moléculaires courantes incluent les chaînes, les graphiques topologiques bidimensionnels et les graphiques géométriques tridimensionnels.
- Structures moléculaires basées sur des chaînes : généralement codées sous forme de chaînes, telles que le système d'entrée de ligne d'entrée moléculaire simplifié (SMILES) ou les chaînes intégrées auto-référentielles (SELFIES). SMILES représente la molécule en utilisant des règles de syntaxe, mais la chaîne peut être invalide ; SELFIES détermine la validité de la molécule en modifiant ces règles. Les chaînes moléculaires sont généralement codées en données de séquence via des réseaux récurrents et des modèles Transformer.
- Atomes et liaisons basés sur des graphiques topologiques et géométriques : généralement représentés sous forme de nœuds et d'arêtes dans les graphiques topologiques. Les réseaux de neurones graphiques (GNN) sont souvent utilisés pour modéliser des données moléculaires structurées sous forme de graphiques, en mettant à jour les caractéristiques des nœuds et des bords en fonction des nœuds adjacents. Les GNN géométriques sont souvent utilisés pour capturer des symétries pertinentes pour l'application dans l'espace 3D, telles que l'invariance ou l'équivariance de translation et de rotation, lorsque les informations 3D sont disponibles et pertinentes.
La granularité de la représentation est une autre considération dans la conception de modèles génératifs. En règle générale, les méthodes utilisent des atomes ou des fragments moléculaires comme éléments de base lors de la génération. La représentation basée sur les fragments affine les structures moléculaires en unités plus grandes contenant des groupes d'atomes, transportant des informations hiérarchiques telles que l'identification des groupes fonctionnels, s'alignant ainsi sur les approches traditionnelles de conception de médicaments basées sur des fragments ou des pharmacophores.

Méthodes génératives

Les modèles génératifs profonds sont une classe de méthodes qui estiment la distribution de probabilité des données et des échantillons à partir d'une distribution d'apprentissage (également appelée apprentissage de distribution). Ceux-ci incluent des auto-encodeurs variationnels, des réseaux antagonistes génératifs, des flux de normalisation, des modèles autorégressifs et des modèles de diffusion. Chacune de ces méthodes de génération a ses cas d'utilisation, ses avantages et ses inconvénients, et le choix dépend de la tâche requise et des caractéristiques des données.

Stratégie de génération

La stratégie de génération fait référence à la manière dont le modèle génère la structure moléculaire, qui peut généralement être divisée en génération unique, génération séquentielle ou amélioration itérative.

Génération One-Shot : La génération One-Shot génère la structure moléculaire complète en un seul passage vers l'avant du modèle. Cette approche a souvent du mal à générer des structures moléculaires réalistes et raisonnables avec une grande précision. De plus, la génération ponctuelle ne peut souvent pas satisfaire des contraintes explicites, telles que les contraintes de valence, qui sont cruciales pour garantir l'exactitude et la validité de la structure générée.

Génération séquentielle : La génération séquentielle construit une structure moléculaire à travers une série d'étapes, généralement par atomes ou fragments. Les contraintes de Valence peuvent être facilement injectées dans la génération séquentielle, améliorant ainsi la qualité des molécules générées. Cependant, la principale limitation de la génération séquentielle est que l’ordre des trajectoires générées doit être défini lors de l’entraînement et que l’inférence est plus lente.

Amélioration itérative : L'amélioration itérative ajuste la prédiction en prédisant une série de mises à jour, contournant ainsi les difficultés des méthodes de génération ponctuelles. Par exemple, le module de structure cyclique d’AlphaFold2 a affiné avec succès le cadre principal, une approche qui a inspiré les stratégies de génération de molécules associées. La modélisation de diffusion est une technique courante qui génère de nouvelles données grâce à une série d'étapes de réduction du bruit. Actuellement, les modèles de diffusion ont été appliqués à divers problèmes de génération de molécules, notamment la génération conformationnelle, la conception de médicaments basée sur la structure et la conception de lieurs.

Stratégie d'optimisation

Optimisation de combinaison : Pour le codage combinatoire de molécules (images ou chaînes), la technologie dans le domaine de l'optimisation combinatoire peut être directement appliquée.

Optimisation continue : Les molécules peuvent être représentées ou codées dans des domaines continus, tels que des nuages de points et des cartes géométriques dans l'espace euclidien, ou des modèles génératifs profonds codant des données discrètes dans un espace latent continu.

Évaluation des modèles génératifs d'apprentissage automatique

L'évaluation des modèles génératifs nécessite une évaluation informatique et une vérification expérimentale. Les mesures standard incluent l'efficacité, l'unicité, la nouveauté, etc. Plusieurs métriques doivent être prises en compte lors de l’évaluation d’un modèle afin d’évaluer pleinement les performances de la construction.

Vérification expérimentale

Les molécules générées doivent être explicitement vérifiées par des expériences humides, contrairement aux recherches existantes qui se concentrent principalement sur les contributions informatiques. Même si les modèles génératifs ne sont pas sans faiblesses, le décalage entre les prédictions et les expériences est également dû à l’expertise, aux dépenses et aux longs cycles de tests nécessaires pour effectuer de telles validations.

Génération de lois modèles

La plupart des études rapportant une validation expérimentale utilisent RNN et/ou VAE, avec SMILES comme objet opérationnel. Nous résumons quatre observations principales :

SMILES, bien que capturant des informations 3D limitées, sert de représentation efficace adaptée à l'apprentissage distribué et au réglage fin de petits ensembles de données.
De nombreuses cibles de recherche validées expérimentalement sont des kinases, qui sont des cibles courantes dans les ensembles de données open source populaires tels que ChEMBL.
La grande majorité des méthodes orientées vers un objectif utilisent l'apprentissage par renforcement (seul ou en tant que composant) comme algorithmes d'optimisation, y compris la conception de médicaments basée sur le ligand et la structure.
Les structures prédites AlphaFold peuvent être utilisées avec succès pour la conception de médicaments générés par la structure.

Orientations futures

Bien que les algorithmes d'apprentissage automatique aient apporté de l'espoir dans la découverte de médicaments à petites molécules, il reste encore d'autres défis et opportunités à relever.

Challenge

Génération hors distribution : Les produits chimiques connus n'occupent qu'une petite partie de l'espace chimique. Bien que les modèles génératifs profonds puissent proposer des molécules en dehors de la distribution d’entraînement, il faut s’assurer qu’elles sont raisonnables.
Formulation irréaliste du problème : Une formulation précise du problème est essentielle au développement de modèles applicables à la découverte de médicaments dans le monde réel. Les aspects fondamentaux souvent négligés incluent la dynamique conformationnelle, le rôle de l’eau et les contributions entropiques, tandis que des hypothèses telles que l’accès illimité aux appels des oracles sont souvent considérées à tort comme acquises. Cela englobe la question de l’efficacité des échantillons, et des recherches récentes ont fait des progrès vers une génération efficace orientée vers un objectif avec des budgets Oracle limités.
Oracle basse fidélité : La conception efficace de scores sur les dimensions pertinentes pour la découverte de médicaments reste difficile, devenant un goulot d'étranglement dans le déploiement de modèles génératifs dans les environnements industriels. Par exemple, les prédictions d’affinité de liaison à haut débit sont souvent inexactes dans les flux de travail basés sur les données et la physique. Bien qu’il existe d’autres oracles de haute précision, leurs exigences informatiques limitent l’évolutivité. En outre, l’inaccessibilité des données annotées de haute qualité est également devenue un obstacle au développement d’oracles d’IA d’une grande précision et d’une grande facilité de gestion.
Manque de protocoles d'évaluation uniformes : Les protocoles d'évaluation utilisés pour évaluer la qualité des candidats médicaments sont étroitement liés à nos critères de définition de ce qu'est un bon médicament. Les descripteurs physicochimiques faciles à calculer couramment utilisés par la communauté ML sont discutables et ne reflètent certainement pas pleinement les performances. Les comparaisons rigoureuses entre la conception moléculaire générative et le criblage virtuel sont également moins courantes.
Manque de recherche et d'analyse comparative à grande échelle : De nombreuses méthodes de ML ont été développées, mais sans résultats d'analyse comparative équitables sur différents types de modèles dans de nombreuses tâches critiques. Par exemple, seule une fraction des données disponibles a été utilisée pour la formation, ce qui limite la compréhension de l'évolutivité du modèle. Les benchmarks récents constituent une contribution importante à la normalisation des protocoles d’évaluation informatique.
Manque d'interprétabilité : L'interprétabilité est un domaine important mais sous-exploré dans les modèles génératifs moléculaires. Par exemple, la compréhension de la manière dont un processus de génération ou d’optimisation construit des molécules peut produire des règles chimiques interprétables par les chimistes médicinaux. Ceci est particulièrement important dans le domaine des petites molécules, car les modèles génératifs sont souvent utilisés pour soumettre des idées aux chimistes médicinaux et les barrières de synthèse excluent la possibilité de tester toutes les conceptions génératives.

Opportunité

Applications au-delà de la conception de petites molécules : Les méthodes discutées ici peuvent avoir des applications plus larges dans la conception d'autres matériaux structurels complexes tels que les polysaccharides, les protéines (en particulier les anticorps), les acides nucléiques, les structures cristallines et les polymères.
Les grands modèles de langage démontrent le potentiel de révolutionner la conception moléculaire grâce à la découverte et à la prise de décision guidées par le texte en tant qu'agents, activées par les vastes quantités de données de formation disponibles, y compris la littérature scientifique. De plus, les modèles personnalisés ou affinés pour les structures moléculaires offrent aux chercheurs des opportunités supplémentaires pour tirer parti des avancées établies dans le traitement du langage naturel.
Étapes ultérieures du développement de médicaments : La conception/optimisation moléculaire occupe les premières étapes de la découverte de médicaments. Cependant, des échecs tardifs dus à une efficacité limitée, de mauvaises propriétés ADME/T (absorption, distribution, métabolisme, excrétion et toxicité) et des problèmes de sécurité constituent des points sensibles dans le pipeline de développement de médicaments. Bien que limitée, l’intégration des données cliniques dans les pipelines de conception constitue une voie prometteuse pour améliorer les taux de réussite en aval.
Objectif du modèle ciblé : Les pipelines de découverte de médicaments sont le résultat d'années d'expérience et de dures leçons apprises par les sociétés pharmaceutiques. Les chercheurs en ML devraient aller au-delà de la conception de modèles ab initio purs (en particulier lorsque les capacités de représentation approfondie font défaut) et plutôt concevoir des modèles axés sur l'amélioration à des étapes spécifiques au cours d'un processus pluriannuel, cohérents avec les contraintes du monde réel.
Laboratoires automatisés : Le besoin croissant d'expériences à haut débit pour fournir un retour d'information sur les molécules conçues pour le ML concentre de plus en plus d'attention sur les laboratoires automatisés pour accélérer le cycle de conception – fabrication – test – analyse.

Auteur : Du Yuanqi, doctorant en deuxième année au Département d'informatique de l'Université Cornell. Ses principaux intérêts de recherche comprennent l'apprentissage profond géométrique, les modèles probabilistes, l'échantillonnage, la recherche, les problèmes d'optimisation, l'interprétabilité et les applications dans ce domaine. d'exploration moléculaire. Pour des informations spécifiques, voir : https://yuanqidu.github.io/.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

架构 for 字符串递归循环 Conditional Property 对象 github 算法 oracle rnn transformer https 自动化

Déclaration：

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article précédent：Choisir l'IA la plus intelligente de l'Olympiade : Claude-3.5-Sonnet vs GPT-4o ?Article suivant：Choisir l'IA la plus intelligente de l'Olympiade : Claude-3.5-Sonnet vs GPT-4o ?

Articles Liés

Voir plus