Maison >Périphériques technologiques >IA >Avec une précision comparable à celle d'AlphaFold, la méthode d'IA de l'EPFL associe les interactions protéiques à partir de séquences
Les protéines sont la pierre angulaire de la vie et participent à presque tous les processus biologiques. Comprendre comment les protéines interagissent est essentiel pour expliquer la complexité de la fonction cellulaire.
2. Nouvelle méthode : appairage de séquences protéiques en interaction
L'équipe d'Anne-Florence Bitbol de l'Ecole Polytechnique Fédérale de Lausanne (EPFL) a proposé une méthode pour appairer des séquences protéiques en interaction. Cette méthode exploite la puissance des modèles de langage protéique formés sur plusieurs alignements de séquences.
3. Avantages de la méthode
Cette méthode fonctionne bien pour les petits ensembles de données et peut améliorer la prédiction de la structure des complexes protéiques grâce à des méthodes supervisées.
4. Résultats de la recherche publiés
La recherche était intitulée "Appairage de séquences protéiques interactives à l'aide de la modélisation du langage masqué" et a été publiée dans "PNAS" le 24 juin 2024.
Prédiction des interactions protéine-protéineLes interactions protéine-protéine sont cruciales pour le fonctionnement cellulaire, elles assurent la spécificité de la signalisation et la formation de complexes multi-protéiques tels que des moteurs moléculaires ou des récepteurs. La prédiction des interactions protéine-protéine et de leurs structures complexes est un sujet important en biologie computationnelle et en biophysique.
Bien que les méthodes d'apprentissage en profondeur telles qu'AlphaFold aient fait des progrès significatifs dans la prédiction de la structure des monomères protéiques, les performances de prédiction des structures complexes ne sont toujours pas aussi bonnes que la prédiction des monomères, et il existe une hétérogénéité. AlphaFold construit d'abord un alignement de séquences multiples (MSA) homologue de la séquence protéique requête, et la qualité du MSA est extrêmement critique pour la précision de la prédiction.
MSA apparié d'hétéropolymères
Pour les complexes protéiques (hétéromultimères) impliquant plusieurs chaînes, le MSA apparié peut fournir des informations coévolutives entre les partenaires d'interaction et aider à déduire des contacts inter-chaînes, mais la construction de MSA correctement apparié est un défi, en particulier chez les eucaryotes, où il existe des MSA correctement appariés. Il existe de nombreuses protéines homologues et ne dépendent pas de la proximité génomique.
Méthode de co-évolution
À l'heure actuelle, la proximité du génome, l'homologie approximative, les méthodes basées sur la phylogénie et les stratégies de co-évolution sont combinées pour relever ce défi. Parmi elles, bien que la méthode de co-évolution nécessite des données volumineuses, elle. est encore en optimisation. Montre un potentiel d'appariement et de prédiction de structures complexes, notamment en faisant correspondre des protéines homologues en maximisant le signal coévolutif.
DiffPALM : Une méthode d'appariement différenciable
L'équipe d'Anne-Florence Bitbol à l'EPFL a développé une méthode d'appariement de séquences protéiques en interaction qui utilise un langage protéique formé sur des alignements de séquences multiples (MSA) La puissance de modèles tels que MSA Transformer et Le module EvoFormer d'AlphaFold. Cela lui permet de comprendre et de prédire des interactions complexes entre protéines avec un haut degré de précision.
Sur cette base, les chercheurs ont proposé un appariement différentiable utilisant un modèle de langage basé sur l'alignement (DiffPALM), une méthode différenciable pour prédire les correspondances de mots apparentés à l'aide de MLM.
Graphique : performances DiffPALM sur un petit HK-RR MSA. (Source : article)DiffPALM surpasse largement les méthodes de coévolution existantes sur un benchmark difficile de MSA peu profondes extraites d'un ensemble de données de protéines procaryotes omniprésentes. Les performances de DiffPALM s'améliorent encore rapidement lorsque des paires d'interaction connues sont fournies à titre d'exemple.
Les méthodes d'appariement basées sur la coévolution se concentrent sur l'étude de la façon dont les séquences de protéines évoluent ensemble au fil du temps lorsqu'elles interagissent étroitement - des changements dans une protéine peuvent entraîner des changements dans ses molécules en interaction. Il s’agit d’un sujet extrêmement important en biologie moléculaire et cellulaire et est bien capturé par les modèles de langage protéique formés sur MSA.
Graphique : performances de l'AFM en utilisant différentes méthodes d'appariement. (Source : article)L'équipe a ensuite appliqué DiffPALM au puzzle de correspondance d'homologues de complexes protéiques eucaryotes. Pour ce faire, les chercheurs ont utilisé des séquences appariées DiffPALM comme entrée dans l'AFM. Dans les complexes testés, l’utilisation de DiffPALM a amélioré de manière significative les prédictions de structure de l’AFM dans certains cas. Il atteint également des performances comparables à l’utilisation d’un appariement basé sur les orthologues.
Illustration : Impact des exemples positifs, profondeur du MSA et expansion à une autre paire de familles de protéines. (Source : papier)Les applications de DiffPALM sont évidentes dans le domaine de la biologie fondamentale des protéines, mais ses applications s'étendent au-delà, car il a le potentiel de devenir un outil puissant dans la recherche médicale et le développement de médicaments. Par exemple, une prédiction précise des interactions protéiques peut aider à comprendre les mécanismes de la maladie et à développer des traitements ciblés.
Les chercheurs ont rendu DiffPALM disponible gratuitement et espèrent que son adoption généralisée par la communauté scientifique fera progresser davantage la biologie computationnelle et permettra aux chercheurs d'explorer la complexité des interactions protéiques.
DiffPALM combine des techniques avancées d'apprentissage automatique avec un traitement efficace de données biologiques complexes, marquant une avancée majeure dans la biologie computationnelle.
Cela améliore non seulement la compréhension des scientifiques sur les interactions protéiques, mais ouvre également de nouvelles voies de recherche médicale, conduisant potentiellement à des percées dans le traitement des maladies et le développement de médicaments.
Lien papier :
https://www.pnas.org/doi/10.1073/pnas.2311887121
Rapports associés :
https://phys.org/news/2024-06-ai-based-approach-protein -interaction.html
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!