Maison >Périphériques technologiques >IA >En générant 394 760 représentations de protéines, l'équipe de Harvard développe un modèle d'IA pour comprendre pleinement le contexte des protéines

En générant 394 760 représentations de protéines, l'équipe de Harvard développe un modèle d'IA pour comprendre pleinement le contexte des protéines

WBOY
WBOYoriginal
2024-07-26 20:20:141192parcourir

En générant 394 760 représentations de protéines, léquipe de Harvard développe un modèle dIA pour comprendre pleinement le contexte des protéines

Éditeur | Radis Skin

Comprendre la fonction des protéines et développer des thérapies moléculaires nécessite d'identifier les types de cellules dans lesquelles les protéines jouent un rôle et d'analyser les interactions entre protéines.

Cependant, la modélisation des interactions protéiques dans des contextes biologiques reste un défi pour les algorithmes existants.

Dans la dernière étude, des chercheurs de la Harvard Medical School ont développé PINNACLE, une méthode d'apprentissage profond géométrique permettant de générer des représentations protéiques contextuelles.

PINNACLE exploite des atlas multi-organes unicellulaires pour apprendre sur les réseaux d'interactions protéiques contextualisés, générant 394 760 représentations protéiques à partir de 156 contextes de types de cellules dans 24 tissus.

L'étude s'intitulait « Modèles d'IA contextuels pour la biologie des protéines unicellulaires » et a été publiée dans « Nature Methods » le 22 juillet 2024.

En générant 394 760 représentations de protéines, léquipe de Harvard développe un modèle dIA pour comprendre pleinement le contexte des protéines

Fonction et réseau des protéines
  1. Les protéines sont les unités fonctionnelles de base des cellules et remplissent des fonctions biologiques grâce à des interactions.
  2. Les technologies à haut débit ont permis la cartographie des réseaux d'interactions protéiques et une meilleure compréhension de la structure, de la fonction et de la conception des cibles des protéines grâce à des méthodes informatiques.
  3. Indique que la méthode d'apprentissage intègre des atlas de cellules moléculaires, peut analyser les réseaux d'interactions protéiques et élargit la compréhension des fonctions des protéines.

Fonction des protéines dépendante du contexte

  1. Les protéines jouent différents rôles dans différents contextes biologiques, et l'expression et la fonction des gènes varient en fonction de l'état de santé et de la maladie.
  2. Les protéines sans arrière-plan signifient que les changements fonctionnels entre les types de cellules ne peuvent pas être identifiés, ce qui affecte la précision des prédictions.

Réseau d'expression génique et de protéines unicellulaires

  1. La technologie de séquençage mesure l'expression génique unicellulaire, ouvrant la voie à la résolution de problèmes dépendants du contexte.
  2. L'apprentissage profond basé sur l'attention peut se concentrer sur des entrées importantes et apprendre des éléments importants dans le contexte.
  3. L'atlas unicellulaire peut améliorer la cartographie des réseaux de régulation génétique liés à la progression de la maladie et révéler des cibles.

PINNACLE MODEL

  1. Il reste encore des défis à relever dans l'intégration de l'expression des gènes codant pour les protéines dans les réseaux d'interactions protéiques. Le modèle
  2. PINNACLE fournit une compréhension contextuelle des protéines.
  3. PINNACLE est un modèle géométrique d'apprentissage profond qui génère des représentations protéiques en analysant les interactions protéiques dans les environnements cellulaires.

    En générant 394 760 représentations de protéines, léquipe de Harvard développe un modèle dIA pour comprendre pleinement le contexte des protéines

    1. Aperçu de PINNACLE

Illustration : Aperçu de PINNACLE. (Source : article)

2. Représentation contextuelle des protéines

PINNACLE est formé sur un réseau PPI contextuel intégré, complété par un réseau qui capture les interactions cellulaires et les hiérarchies tissulaires, pour générer des représentations protéiques personnalisées pour les types de cellules.

3. Représentation multi-échelle

Contrairement aux modèles sans contexte, PINNACLE génère plusieurs représentations pour chaque protéine, en fonction de son contexte de type cellulaire. De plus, PINNACLE génère un contexte de type cellulaire et des représentations au niveau des tissus.

4. Apprentissage multi-échelle

PINNACLE apprend la topologie des protéines, des types de cellules et des tissus en optimisant un espace de représentation latente unifié.

5. Modèles contextuels

PINNACLE intègre des données spécifiques au contexte dans un modèle unique et transfère les connaissances entre les données sur les protéines, les types de cellules et les tissus.

6. Espace d'intégration

Pour injecter des informations cellulaires et tissulaires dans l'espace d'intégration, PINNACLE emploie une attention particulière aux protéines, au type de cellule et au niveau des tissus.

7. Cartographie des interactions physiques

Les paires de protéines en interaction physique sont étroitement intégrées dans l'espace d'intégration.

8. Environnement de type cellulaire

Les protéines sont intégrées à proximité de leur environnement de type cellulaire.

9. Propagation du réseau neuronal graphique

PINNACLE propage les informations entre les protéines, les types de cellules et les tissus en utilisant un mécanisme d'attention personnalisé pour chaque nœud et type de bord.

En générant 394 760 représentations de protéines, léquipe de Harvard développe un modèle dIA pour comprendre pleinement le contexte des protéines

Illustration : Enrichissement des régions incorporées aux protéines PINNACLE. (Source : article) Les tâches de pré-entraînement au niveau des protéines prennent en compte la prédiction de lien auto-supervisée des interactions protéiques et la classification des types cellulaires des nœuds protéiques. Ces tâches permettent à PINNACLE de façonner un espace d'intégration qui encapsule la topologie des réseaux d'interaction protéique contextuels et l'identité du type cellulaire des protéines. Les tâches de pré-entraînement de type cellulaire et spécifiques aux tissus de
PINNACLE reposent entièrement sur la prédiction de liens auto-supervisées pour faciliter l'apprentissage de l'organisation cellulaire et tissulaire. La topologie des types cellulaires et des tissus est transmise à la représentation protéique via un mécanisme de pontage de l'attention, renforçant efficacement l'organisation des tissus et des cellules sur la représentation protéique. La représentation contextualisée des protéines de
PINNACLE capture la structure des réseaux d’interactions protéiques contextuelles. L'agencement régional de ces représentations protéiques contextualisées dans l'espace latent reflète l'organisation cellulaire et tissulaire représentée par le métagraphe. Cela conduira à une représentation complète et spécifique au contexte des protéines dans un type de cellule unifié et un cadre spécifique aux tissus.
Avec 394 760 représentations protéiques contextualisées générées par PINNACLE, chacune étant spécifique d'un type de cellule, les chercheurs démontrent la capacité de PINNACLE à combiner les interactions protéiques avec les transcriptomes génétiques sous-jacents codant pour les protéines de 156 contextes de types cellulaires. L'espace d'intégration de
PINNACLE reflète les structures cellulaires et tissulaires, permettant une récupération immédiate des hiérarchies tissulaires. Les représentations de protéines pré-entraînées peuvent être adaptées aux tâches en aval : améliorer les représentations basées sur la structure 3D pour résoudre les interactions protéiques en immuno-oncologie et étudier les effets des médicaments sur différents types de cellules.
PINNACLE surpasse les modèles de pointe en spécifiant des cibles thérapeutiques pour la polyarthrite rhumatoïde et les maladies inflammatoires de l'intestin, et possède un pouvoir prédictif plus élevé que les modèles sans contexte pour identifier le contexte du type de cellule. La capacité de PINNACLE à adapter ses résultats à l'environnement dans lequel il opère ouvre la voie à des prédictions contextuelles à grande échelle en biologie.
Lien papier : https://www.nature.com/articles/s41592-024-02341-3

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn