Heim >Technologie-Peripheriegeräte >KI >SOTA-Leistung, University of Washington entwickelte Transformer-Modell zur Umwandlung von Massenspektren in Peptidsequenzen, veröffentlicht im Nature-Unterjournal

SOTA-Leistung, University of Washington entwickelte Transformer-Modell zur Umwandlung von Massenspektren in Peptidsequenzen, veröffentlicht im Nature-Unterjournal

王林Original: 2024-08-12 16:06:201226Durchsuche

Herausgeber |. Rettichhaut

Eine grundlegende Herausforderung in der massenspektrometrischen Proteomik ist die Identifizierung der Peptide, die jedes Tandem-Massenspektrum (MS/MS) erzeugen. Methoden, die auf Datenbanken bekannter Peptidsequenzen basieren, können unerwartete Peptide nicht erkennen und können in einigen Fällen unpraktisch oder nicht anwendbar sein.

Daher ist die Möglichkeit, Peptidsequenzen ohne vorherige Informationen in MS/MS zuzuordnen (d. h. De-novo-Peptidsequenzierung), für Aufgaben wie Antikörpersequenzierung, Immunpeptidomik und Metaproteomik äußerst wertvoll.

Obwohl viele Methoden zur Lösung dieses Problems entwickelt wurden, bleibt es eine offene Herausforderung, teilweise aufgrund der Schwierigkeit, die unregelmäßige Datenstruktur von MS/MS zu modellieren.

Hier beschreiben Forscher der University of Washington Casanovo, ein maschinelles Lernmodell, das die neuronale Netzwerkarchitektur Transformer nutzt, um Peaksequenzen in MS/MS in die Aminosäuresequenzen umzuwandeln, aus denen die resultierenden Peptide bestehen.

Das Team trainierte das Casanovo-Modell anhand von 30 Millionen markierten Spektren und zeigte, dass das Modell mehrere hochmoderne Methoden an artenübergreifenden Benchmark-Datensätzen übertraf.

Das Team entwickelte außerdem eine Version von Casanovo, die speziell auf nicht-enzymatische Peptide abgestimmt ist. Dieses Tool verbessert die Analyse von Immunpeptidomics- und Metaproteomics-Experimenten und ermöglicht es Wissenschaftlern, tiefer in das dunkle Proteom einzutauchen.

Die Studie trug den Titel „Sequence-to-sequence translation from mass spectra topeptides with a transformator model“ und wurde am 31. Juli 2024 in „Nature Communications“ veröffentlicht.

SOTA-Leistung, University of Washington entwickelte Transformer-Modell zur Umwandlung von Massenspektren in Peptidsequenzen, veröffentlicht im Nature-Unterjournal

1. Massenspektrometrie ist eine gängige Proteomanalysetechnologie zur Identifizierung und Quantifizierung von Proteinen in komplexen biologischen Systemen. Die Technologie der

Tandem-Massenspektrometrie (MS/MS) erzeugt komplexe Daten und die Umwandlung dieser Spektren in Protein-Aminosäuresequenzen ist eine Herausforderung.
Deep Learning ist zur ersten Wahl für die De-novo-Peptidsequenzierung geworden, aber zu seinen Einschränkungen gehören: geringe Anzahl annotierter MS/MS-Spektren, Schwierigkeiten bei der Kodierung hochauflösender MS/MS-Daten, komplexe neuronale Netze und Nachbearbeitungsschritte .
Casanovo stellt die De-novo-Peptidsequenzierungsaufgabe als maschinelles Übersetzungsproblem dar und verwendet die Transformer-Architektur, um vorhergesagte Peptidsequenzen direkt unter Verwendung von m/z- und Intensitätswertpaaren von MS/MS-Spektren auszugeben.
In der neuesten Forschung hat Casanovo Verbesserungen vorgenommen, darunter:
- Erweiterter Trainingssatz mit 669 Millionen Spektren in der MassIVE-KB-Spektralbibliothek.
- Strenge FDR-Kontrolle, durchsucht Daten mit 1 % FDR und behält nur 100 PSMs für jeden einzelnen Vorläufer bei, also insgesamt 30 Millionen hochwertige PSMs.
- Strahlsuchdecoder, der das beste Peptid für jedes MS/MS-Spektrum vorhersagt.
  ## Casanovo: De-novo-Peptidsequenzierung mithilfe der Transformer-Architektur

Abbildung 1: Casanovo führt eine De-novo-Peptidsequenzierung mithilfe der Transformer-Architektur durch. (Quelle: Papier)

Casanovos herausragende Leistung wird auf zwei Aspekte zurückgeführt:

Verfügbarkeit einer großen Menge hochwertiger Trainingsdaten
Verwendung der Transformer-Architektur

Transformer-Architektur

Die Transformer-Architektur ist Besonders geeignet für die Konvertierung variabler Längen. Die Elemente einer Sequenz werden in einen Kontext gestellt und haben daher großen Erfolg bei der Modellierung natürlicher Sprache. Im Vergleich zu wiederkehrenden neuronalen Netzen ist die Transformer-Architektur in der Lage, Abhängigkeiten zwischen Sequenzelementen über große Entfernungen zu lernen und kann für ein effizientes Training parallelisiert werden.

Anwendungen von Casanovo

Casanovo kodiert Massenspektralpeaks in Sequenzen und nutzt dabei die Transformer-Architektur und die schnelle Entwicklung großer Sprachmodelle, um die De-novo-Peptidsequenzierung von MS/MS-Spektren zu verbessern.

Anwendungsszenarien:

Paläoproteomik
Forensische Medizin
Astrobiologie
Erkennung von Peptiden, die nicht in Datenbanken vorhanden sind
Als Postprozessor für Standard-Datenbanksuchen

Antikörpersequenzierung

Casanovo nicht noch den Einsatz der Antikörpersequenzierung erforscht. Allerdings führte eine Studie der Gruppe von Denis Beslic an der BAM in Deutschland einen systematischen Vergleich von sechs De-novo-Sequenzierungstools, darunter Casanovo, zum Thema Antikörpersequenzierung durch.

SOTA-Leistung, University of Washington entwickelte Transformer-Modell zur Umwandlung von Massenspektren in Peptidsequenzen, veröffentlicht im Nature-Unterjournal

Grafik: Gesamterinnerung und Präzision von

Novor, pNovo 3, DeepNovo, SMSNet, PointNovo und Casanovo für verschiedene Enzyme auf IgG1-Human-HC.

Verwandte Links:
https://academic.oup.com/bib/article/24/1/bbac542/6955273?login=false

Ergebnisse:

Casanovo übertrifft konkurrierende Methoden bei allen berücksichtigten Metriken deutlich. Es ist erwähnenswert, dass dieser Vergleich die Greedy-Dekodierungsversion von Casanovo verwendete und nur auf 2 Millionen Spektren trainiert wurde.

Bewertung:

Das Casanovo-Team hat Casanovo anhand von neun Arten verglichen. Die folgende Grafik zeigt, dass eine aktualisierte Version von Casanovo, die mit 30 Millionen Spektren trainiert wurde, eine bessere Antikörpersequenzierungsleistung liefert.

SOTA-Leistung, University of Washington entwickelte Transformer-Modell zur Umwandlung von Massenspektren in Peptidsequenzen, veröffentlicht im Nature-Unterjournal

Grafik: Casanovo übertrifft Modelle wie PointNovo, DeepNovo und Novor bei neun Arten-Benchmarks. (Quelle: Papier)

In Zukunft wird es viele Möglichkeiten geben, das Casanovo-Modell für bestimmte Anwendungen zu verfeinern. Die Analyse nicht-enzymatischer Modelle durch die Forscher zeigte, dass Casanovos enzymatische Tendenz durch die Verwendung relativ weniger Trainingsdaten angepasst werden konnte.

Kurzfristig plant das Team, Varianten von Casanovo zu trainieren, die auf eine Vielzahl unterschiedlicher lytischer Enzyme wirken. Die Software von Casanovo macht diese Feinabstimmung einfach, sodass jeder Benutzer, der daran interessiert ist, das Modell an einen bestimmten Versuchsaufbau anzupassen, dazu in der Lage sein sollte.

Langfristig betrachtet verwendet das ideale Modell als Eingabespektren zusammen mit zugehörigen Metadaten (wie Verdauungsenzyme, Kollisionsenergien und Instrumententyp) und sagt viele verschiedene Arten von Versuchsaufbauten genau voraus.

Das Potenzial von Deep-Learning-Methoden zur Verbesserung der De-novo-Sequenzierungsfähigkeiten ist mittlerweile allgemein anerkannt. Während der Begutachtung dieses Artikels wurden mindestens sechs weitere Deep-Learning-De-novo-Sequenzierungsmethoden veröffentlicht, darunter GraphNovo, PepNet, Denovo-GCN, Spectralis, π-HelixNovo und NovoB. Es ist klar, dass der Bereich von einem umfassenden und strengen Benchmarking dieses wachsenden Werkzeugbereichs profitieren würde.

In diesem Zusammenhang ist einer der größten Engpässe auf diesem Gebiet derzeit das Fehlen strenger Methoden zur Vertrauensbewertung für die De-novo-Sequenzierung.

In Metaproteomik-Analysen haben Forscher Casanovo-Vorhersagen mit einer Datenbank von Zielen und entsprechenden Täuschungspeptiden abgeglichen, aber dieser Ansatz ignorierte die Fähigkeit der De-novo-Sequenzierung, Peptide exotischen Profilen zuzuordnen.

Daher bleibt die Frage offen, ob Casanovo Standard-Datenbanksuchverfahren hinsichtlich der statistischen Aussagekraft zum Nachweis von Peptiden für einen bestimmten datenabhängigen Erfassungsdatensatz übertrifft.

Die Forscher sagen, dass das Training mit einem ausreichend großen Trainingssatz möglicherweise die Dominanz der Datenbanksuche im Bereich der DDA-Tandem-Massenspektrometrie-Datenanalyse beenden kann.

Link zum Papier: https://www.nature.com/articles/s41467-024-49731-x

Das obige ist der detaillierte Inhalt vonSOTA-Leistung, University of Washington entwickelte Transformer-Modell zur Umwandlung von Massenspektren in Peptidsequenzen, veröffentlicht im Nature-Unterjournal. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

架构循环数据结构数据库 transformer 数据分析 https

Stellungnahme：

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Vorheriger Artikel：Zum 25. Jahrestag seines Beitritts zu Google weckt Jeff Dean Erinnerungen: 16 Mal den Arbeitsplatz wechseln und mit ihm Kaffee kochen.Nächster Artikel：Zum 25. Jahrestag seines Beitritts zu Google weckt Jeff Dean Erinnerungen: 16 Mal den Arbeitsplatz wechseln und mit ihm Kaffee kochen.

In Verbindung stehende Artikel

Mehr sehen