Maison >Périphériques technologiques >IA >'Connaissances préalables en IA et en physique', méthode générale de notation des interactions protéine-ligand de l'Université du Zhejiang et de l'Académie chinoise des sciences, publiée dans la sous-journal Nature
Éditeur | Les scientifiques recherchent des moyens efficaces de prédire l’adéquation entre ces « clés » et ces « verrous », ou interactions protéine-ligand.
Cependant, les méthodes traditionnelles basées sur les données tombent souvent dans un « apprentissage par cœur », mémorisant les données d'entraînement des ligands et des protéines au lieu de véritablement apprendre les interactions entre eux.
Récemment, une équipe de recherche de l'Université du Zhejiang et de l'Académie chinoise des sciences a proposé une nouvelle méthode de notation appelée EquiScore, qui utilise des réseaux neuronaux de graphes hétérogènes pour intégrer les connaissances physiques préalables et caractériser les interactions protéine-ligand dans l'espace de transformation des équations.
EquiScore est formé sur un nouvel ensemble de données construit à l'aide de plusieurs stratégies d'augmentation des données et d'un schéma rigoureux d'élimination des redondances.
Sur deux grands ensembles de tests externes, EquiScore a commencé à s'imposer par rapport à 21 autres méthodes. Lorsqu'EquiScore est utilisé avec différentes méthodes d'accueil, il peut améliorer efficacement les capacités de filtrage de ces méthodes d'accueil. EquiScore a également bien performé dans la tâche de classement de l'activité d'une série de substances structurellement similaires, démontrant ainsi son potentiel pour guider l'optimisation des composés principaux.
Enfin, différents niveaux d'interprétabilité d'EquiScore ont été étudiés, ce qui pourrait fournir davantage d'informations sur la conception de médicaments basés sur la structure.
L'étude s'intitulait «
Générique de notation des interactions protéine-ligand en intégrant les connaissances physiques préalables et la modélisation de l'augmentation des données» et a été publiée dans « Nature Machine Intelligence » le 6 juin 2024.
Lien papier :
https://www.nature.com/articles/s42256-024-00849-zAvec l’explosion des données expérimentales sur les interactions protéine-ligand, les méthodes de notation basées sur l’apprentissage automatique ont fait des progrès substantiels.
La capacité croissante des modèles d'apprentissage automatique leur permet de mémoriser l'intégralité de l'ensemble des données d'entraînement. Dans le même temps, les problèmes de fuite de données entre les données d'entraînement et les données de test conduisent à des évaluations trop optimistes des capacités de ces modèles.
En plus de la qualité de l'ensemble de données, un autre facteur clé affectant les performances des méthodes de notation basées sur l'apprentissage automatique. est l’intégration efficace d’informations physiques préalables pertinentes sur les interactions ligand-protéine.
Architecture d'EquiScoreTout d’abord, les chercheurs ont construit un nouvel ensemble de données appelé PDBscreen en utilisant plusieurs stratégies d’augmentation des données. Par exemple, en utilisant des poses de liaison de ligands proches du natif pour amplifier la taille des échantillons positifs, et en utilisant des leurres hautement trompeurs générés pour amplifier la taille des échantillons négatifs.
Deuxièmement, en introduisant de nouveaux types de nœuds et d'arêtes et un mécanisme d'attention conscient de l'information, un graphe hétérogène capable d'intégrer des informations préalables sur les interactions intermoléculaires physiques est proposé.
Illustration : Pipeline pour la création d'un ensemble de données PDBscreen. (Source : article)
geometric) et des arêtes basées sur la structure via des liaisons chimiques (Estructural) sont établies entre les nœuds. Les chercheurs ont également ajouté une classe d'arêtes basées sur les composants d'interaction protéine-ligand (IFP) empiriques calculés par ProLIF à Estructural pour inclure des connaissances physiques a priori sur les interactions intermoléculaires. Dans la deuxième étape, une couche d'intégration est utilisée pour obtenir une représentation latente de chaque type d'arêtes et de nœuds sur le graphe hétérogène. Ce schéma peut introduire d’autres nouveaux nœuds et arêtes ayant une signification physique claire, et peut être intégré de manière transparente aux modules d’apprentissage de représentation ultérieurs. Afin d'utiliser pleinement le biais inductif des informations provenant de différents nœuds et bords tout en garantissant une variance égale du modèle, la couche EquiScore se compose de trois sous-modules : le module d'attention consciente des informations, le module de mise à jour des nœuds et le module de mise à jour des bords. Le module d'attention consciente des informations peut interpréter les interactions à partir de différentes informations, notamment (1) des informations géométriques équivariantes, (2) des informations sur la structure chimique et (3) des composants d'interaction empiriques protéine-ligand. Les chercheurs ont évalué les performances du modèle EquiScore généré. Dans le scénario de criblage virtuel (VS), EquiScore a systématiquement atteint les meilleurs classements par rapport à 21 méthodes de notation existantes pour les protéines invisibles sur deux ensembles de données externes, DEKOIS2.0 et DUD-E. Dans le scénario d'optimisation des leads, EquiScore n'a montré qu'une capacité de classement inférieure à celle de FEP+ parmi huit méthodes différentes. Considérant que les calculs FEP+ nécessitent des coûts de calcul nettement plus élevés, EquiScore démontre un avantage plus équilibré entre vitesse et précision. De plus, il a été constaté qu'EquiScore présente de fortes capacités de re-notation lorsqu'il est appliqué à des poses générées par différentes méthodes d'accueil, et que l'utilisation de la re-notation EquiScore peut améliorer les performances du VS pour toutes les méthodes d'évaluation. Enfin, les chercheurs ont analysé l'interprétabilité du modèle et ont découvert que le modèle pouvait capturer des interactions intermoléculaires clés, prouvant la rationalité du modèle et fournissant des indices utiles pour la conception rationnelle de médicaments. Des prédictions robustes des interactions protéine-ligand offriront des opportunités précieuses pour comprendre la biologie des protéines et déterminer leur impact sur les futures thérapies médicamenteuses. EquiScore contribuera à une meilleure compréhension de la santé humaine et des maladies et facilitera la découverte de nouveaux médicaments. Évaluation des performances du modèle
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!