Maison >Périphériques technologiques >IA >Nouvelle méthode de glycoprotéomique, Fudan a développé un cadre hybride de bout en bout basé sur Transformer et GNN, publié dans la sous-journal Nature

Nouvelle méthode de glycoprotéomique, Fudan a développé un cadre hybride de bout en bout basé sur Transformer et GNN, publié dans la sous-journal Nature

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBoriginal: 2024-08-06 08:31:22542parcourir

Éditeur | Peau de radis

La glycosylation des protéines est une modification post-traductionnelle des protéines par des groupes sucre, qui joue un rôle important dans diverses fonctions physiologiques et pathologiques des cellules.

La glycoprotéomique est l'étude de la glycosylation des protéines au sein du protéome, en utilisant la chromatographie liquide couplée à la technologie de spectrométrie de masse tandem (MS/MS) pour obtenir des informations combinées sur les sites de glycosylation, les niveaux de glycosylation et les structures des sucres.

Cependant, les méthodes actuelles de recherche dans les bases de données pour la glycoprotéomique ont souvent des difficultés à déterminer les structures des glycanes en raison de l'apparition limitée d'ions déterminant la structure. Bien que les méthodes de recherche spectrale puissent exploiter l’intensité de la fragmentation pour faciliter l’identification structurelle des glycopeptides, les difficultés liées à la construction d’une bibliothèque spectrale entravent leur application.

Dans la dernière étude, des chercheurs de l'Université de Fudan ont proposé DeepGP, un cadre d'apprentissage profond hybride basé sur les réseaux neuronaux Transformer et graph, pour prédire les spectres MS/MS et les temps de rétention (RT) des glycopeptides.

Deux modules de réseau neuronal graphique sont utilisés pour capturer les structures de sucre ramifiées et prédire respectivement la force des ions sucre. De plus, une stratégie de pré-formation a été mise en œuvre pour pallier le manque de données glycoprotéomiques.

La recherche s'intitulait « La prédiction de l'apprentissage profond des spectres de masse en tandem des glycopeptides alimente la glycoprotéomique » et a été publiée dans « Nature Machine Intelligence » le 30 juillet 2024.

Nouvelle méthode de glycoprotéomique, Fudan a développé un cadre hybride de bout en bout basé sur Transformer et GNN, publié dans la sous-journal Nature

Les modifications post-traductionnelles protéiques (PTM) augmentent considérablement la complexité du protéome. En tant que PTM les plus importantes, la glycosylation affecte plus de 50 % des protéines des mammifères et joue un rôle clé dans de nombreux processus physiologiques et pathologiques.

Au cours du processus de glycosylation, les molécules de sucre sont attachées aux chaînes latérales de résidus d'acides aminés spécifiques, ce qui entraîne une hétérogénéité structurelle, entraînant la diversité des isomères des glycopeptides et augmentant la difficulté d'identification.

La spectrométrie de masse en tandem par chromatographie liquide (LC-MS/MS) est la principale technique pour identifier les glycopeptides par ions fragments et poids moléculaire combinés avec la RT. Le rapport masse/charge (m/z) seul ne suffit pas à déterminer la structure du sucre, c'est pourquoi les scientifiques utilisent des méthodes d'appariement spectral pour améliorer la sensibilité d'identification. Cependant, la construction de bibliothèques spectrales de glycopeptides MS/MS est coûteuse et complexe.

Ces dernières années, l’apprentissage profond a fait des progrès dans la prédiction du spectre peptidique MS/MS. Cependant, le nombre relativement faible d’ensembles de données glycopeptidomiques actuels et le manque de protocoles standardisés pour générer des données de spectrométrie de masse des glycopeptides limitent la disponibilité de données appropriées pour la formation de modèles d’apprentissage en profondeur.

À cette fin, des chercheurs de l'Université de Fudan proposent DeepGP, un cadre hybride de bout en bout basé sur l'apprentissage profond pour les spectres MS/MS complets des N-glycopeptides et la prédiction RT. Le cadre d'apprentissage en profondeur se compose d'un module Transformer pré-entraîné et de deux modules de réseau neuronal graphique (GNN).

Nouvelle méthode de glycoprotéomique, Fudan a développé un cadre hybride de bout en bout basé sur Transformer et GNN, publié dans la sous-journal Nature

Illustration : architecture du modèle et prédiction spectrale des glycopeptides MS/MS. Le modèle DeepGP accepte les glycopeptides en entrée État de charge du précurseur

Nœud : Monosaccharide
2. Deux modules GNN capturent la structure du sucre et prédisent l'intensité des ions sucre
3. GCN utilise des opérations de convolution pour obtenir des représentations de nœuds et implémente un protocole de transmission de messages pour agréger les représentations de nœuds adjacents ; GIN fonctionne bien dans les tests d'isomorphisme graphique GAT intègre un mécanisme d'attention pour permettre au modèle de se concentrer sur les parties les plus pertinentes de l'entrée ; .
5. Illustration : performances DeepGP en prédiction MS/MS. (Source : article)
Stratégie de pré-entraînement pour pallier la pénurie de données glycoprotéomiques
- DeepGP utilise une grande quantité de données en langage naturel non étiquetées pour le pré-entraînement, similaire à des modèles tels que BERT. La pré-formation permet au modèle de disposer d'une base de connaissances avant la formation formelle, améliorant ainsi ses performances dans le traitement de données annotées à petite échelle.
  Tests sur plusieurs ensembles de données biologiques
Les chercheurs ont démontré la grande précision de DeepGP dans les prédictions MS/MS et RT à l’aide d’ensembles de données d’échantillons de souris et d’humains.

Illustration : DeepGP combiné avec pGlyco3 (une méthode de recherche de glycopeptides) pour l'identification des glycopeptides. (Source : article)
Une analyse comparative complète de DeepGP sur des ensembles de données synthétiques et biologiques valide son efficacité à distinguer des glycanes similaires. DeepGP combiné aux recherches dans les bases de données améliore la sensibilité de la détection des glycopeptides.

Lien papier :
https://www.nature.com/articles/s42256-024-00875-x

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

架构 gin 数据库 transformer bert https

Déclaration：

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article précédent：Changeant les règles du jeu pour les futures expériences sur les collisionneurs, l'Académie chinoise des sciences et l'Université de Pékin développent une technologie d'identification des sources d'injection basée sur l'IAArticle suivant：Changeant les règles du jeu pour les futures expériences sur les collisionneurs, l'Académie chinoise des sciences et l'Université de Pékin développent une technologie d'identification des sources d'injection basée sur l'IA

Articles Liés

Voir plus