Maison  >  Article  >  Périphériques technologiques  >  Performance SOTA, l'Université de Washington a développé le modèle Transformer pour convertir les spectres de masse en séquences peptidiques, publié dans la sous-journal Nature

Performance SOTA, l'Université de Washington a développé le modèle Transformer pour convertir les spectres de masse en séquences peptidiques, publié dans la sous-journal Nature

王林
王林original
2024-08-12 16:06:201107parcourir

Performance SOTA, lUniversité de Washington a développé le modèle Transformer pour convertir les spectres de masse en séquences peptidiques, publié dans la sous-journal Nature

Éditeur | Radis Skin

Un défi fondamental en protéomique basée sur la spectrométrie de masse est l'identification des peptides générant chaque spectre de masse tandem (MS/MS). Les méthodes qui s'appuient sur des bases de données de séquences peptidiques connues sont incapables de détecter des peptides inattendus et peuvent s'avérer peu pratiques ou inapplicables dans certains cas.

Ainsi, la possibilité d'attribuer des séquences peptidiques dans MS/MS sans information préalable (c'est-à-dire le séquençage peptidique de novo) est extrêmement précieuse pour des tâches telles que le séquençage des anticorps, l'immunopeptidomique et la métaprotéomique.

Bien que de nombreuses méthodes aient été développées pour résoudre ce problème, cela reste un défi ouvert, en partie à cause de la difficulté de modéliser la structure irrégulière des données des MS/MS.

Ici, des chercheurs de l'Université de Washington décrivent Casanovo, un modèle d'apprentissage automatique qui utilise l'architecture de réseau neuronal Transformer pour convertir les séquences de pointe dans MS/MS en séquences d'acides aminés qui composent les peptides résultants.

L'équipe a formé le modèle Casanovo sur 30 millions de spectres étiquetés et a démontré que le modèle surpassait plusieurs méthodes de pointe sur des ensembles de données de référence inter-espèces.

L'équipe a également développé une version de Casanovo affinée pour les peptides non enzymatiques. Cet outil améliore l’analyse des expériences d’immunopeptidomique et de métaprotéomique et permet aux scientifiques d’approfondir le protéome sombre.

L'étude s'intitulait « Traduction séquence à séquence des spectres de masse en peptides avec un modèle de transformateur » et a été publiée dans « Nature Communications » le 31 juillet 2024.

Performance SOTA, lUniversité de Washington a développé le modèle Transformer pour convertir les spectres de masse en séquences peptidiques, publié dans la sous-journal Nature

1. La Spectrométrie de masse est une technologie d'analyse protéomique courante utilisée pour identifier et quantifier les protéines dans des systèmes biologiques complexes. La technologie de spectrométrie de masse en tandem (MS/MS) produit des données complexes, et la conversion de ces spectres en séquences d'acides aminés protéiques est un défi.
  1. Deep learning est devenu le premier choix pour le séquençage peptidique de novo, mais ses limites incluent : un petit nombre de spectres MS/MS annotés, une difficulté à coder des données MS/MS haute résolution, des réseaux neuronaux complexes et des étapes de post-traitement. .
  2. Casanovo recadre la tâche de séquençage peptidique de novo en un problème de traduction automatique, en utilisant l'
  3. architecture Transformer
  4. pour produire directement des séquences peptidiques prédites en utilisant des paires de valeurs m/z et d'intensité des spectres MS/MS. Dans les dernières recherches, Casanovo a apporté des améliorations, notamment :
  5. Ensemble de formation étendu utilisant 669 millions de spectres dans la

    Bibliothèque spectrale MassIVE-KB

    .
    • Contrôle strict du FDR, recherche les données à 1 % du FDR, ne conservant que 100 PSM pour chaque précurseur unique, pour un total de 30 millions de PSM de haute qualité. Décodeur de recherche de faisceau qui prédit le meilleur peptide pour chaque spectre MS/MS.
    • ## Casanovo : Séquençage peptidique de novo grâce à l'architecture Transformer
    • Performance SOTA, lUniversité de Washington a développé le modèle Transformer pour convertir les spectres de masse en séquences peptidiques, publié dans la sous-journal Nature

    Figure 1 :
  6. Casanovo réalise un séquençage peptidique de novo grâce à l'architecture Transformer. (Source : Paper)

Les performances exceptionnelles de Casanovo sont attribuées à deux aspects :

Disposer d'une grande quantité de données de formation de haute qualité

Utiliser l'architecture Transformer
  1. Architecture Transformer

L'architecture Transformer est particulièrement adaptée pour convertir des longueurs variables Les éléments d'une séquence sont placés dans leur contexte et ont donc un grand succès dans la modélisation du langage naturel. Par rapport aux réseaux neuronaux récurrents, l'architecture Transformer est capable d'apprendre les dépendances à longue distance entre les éléments de séquence et peut être parallélisée pour une formation efficace.

Applications de Casanovo

Casanovo code les pics spectraux de masse en séquences, profitant de l'architecture Transformer et du développement rapide de grands modèles de langage pour améliorer le séquençage peptidique de novo des spectres MS/MS.

Scénarios d'application :

Paléoprotéomique

Médecine légale
  • Astrobiologie
  • Détection de peptides non présents dans la base de données
  • En tant que post-processeur pour les recherches standard dans les bases de données
  • Séquençage des anticorps

Casanovo a pas encore exploré l’utilisation du séquençage des anticorps. Or, une étude du groupe de Denis Beslic au BAM en Allemagne a mené une comparaison systématique de six outils de séquençage de novo, dont Casanovo, sur la question du séquençage des anticorps.

Graphique : Rappel global et précision de

Performance SOTA, lUniversité de Washington a développé le modèle Transformer pour convertir les spectres de masse en séquences peptidiques, publié dans la sous-journal Nature

Novor, pNovo 3, DeepNovo, SMSNet, PointNovo et Casanovo pour différentes enzymes sur IgG1-Human-HC. Liens connexes :

https://academic.oup.com/bib/article/24/1/bbac542/6955273?login=false

Résultats :

Casanovo는 고려된 모든 측정 항목에서 경쟁 방법보다 훨씬 뛰어납니다. 이 비교에서는 Casanovo의 탐욕스러운 디코딩 버전을 사용했으며 200만 개의 스펙트럼에 대해서만 훈련되었다는 점은 주목할 가치가 있습니다.

평가:

카사노보 팀은 9종에 걸쳐 카사노보를 벤치마킹했습니다. 아래 그래프는 3천만 개의 스펙트럼으로 훈련된 업데이트된 버전의 Casanovo가 더 나은 항체 시퀀싱 성능을 생성한다는 것을 보여줍니다.

Performance SOTA, lUniversité de Washington a développé le modèle Transformer pour convertir les spectres de masse en séquences peptidiques, publié dans la sous-journal Nature

그래픽: Casanovo는 9종 벤치마크에서 PointNovo, DeepNovo, Novor와 같은 모델보다 성능이 뛰어납니다. (출처: 논문)

미래에는 특정 응용 분야에 맞게 Casanovo 모델을 미세 조정할 수 있는 많은 기회가 있을 것입니다. 비효소 모델에 대한 연구원의 분석은 Casanovo의 효소 편향이 상대적으로 적은 훈련 데이터를 사용하여 조정될 수 있음을 보여주었습니다.

그래서 팀은 단기적으로 다양한 용해 효소에 작용하는 Casanovo의 변종을 훈련할 계획입니다. Casanovo 소프트웨어를 사용하면 이러한 미세 조정이 쉬워지므로 특정 실험 설정에 모델을 적용하는 데 관심이 있는 사용자라면 누구나 그렇게 할 수 있어야 합니다.

장기적으로 이상적인 모델은 관련 메타데이터(예: 소화 효소, 충돌 에너지, 기기 유형)와 함께 입력 스펙트럼을 사용하여 다양한 유형의 실험 설정을 정확하게 예측합니다.

새로운 시퀀싱 기능을 향상시키는 딥 러닝 방법의 잠재력은 이제 널리 인식되고 있습니다. 이 논문이 검토되는 동안 GraphNovo, PepNet, Denovo-GCN, Spectralis, π-HelixNovo 및 NovoB를 포함하여 최소 6개의 다른 딥 러닝 de novo 시퀀싱 방법이 출판되었습니다. 분명히 이 분야는 성장하는 도구 분야에 대한 포괄적이고 엄격한 벤치마킹을 통해 이익을 얻을 것입니다.

관련하여 이 단계에서 현장의 주요 병목 현상 중 하나는 새로운 시퀀싱에 대한 엄격한 신뢰도 평가 방법이 부족하다는 것입니다.

메타단백질체학 분석에서 연구자들은 Casanovo 예측을 표적 및 해당 미끼 펩타이드 데이터베이스와 일치시켰지만, 이 접근법은 펩타이드를 이국적인 프로필에 할당하는 새로운 시퀀싱 능력을 무시했습니다.

따라서 열린 질문은 Casanovo가 주어진 데이터 종속 획득 데이터 세트에 대해 펩티드를 검출하는 통계적 능력 측면에서 표준 데이터베이스 검색 절차를 능가하는지 여부입니다.

연구원들은 충분히 큰 훈련 세트를 사용한 훈련이 DDA 탠덤 질량 분석 데이터 분석 분야에서 데이터베이스 검색의 지배력을 종식시킬 수 있다고 말합니다.

논문 링크: https://www.nature.com/articles/s41467-024-49731-x

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn