Heim >Technologie-Peripheriegeräte >KI >SOTA-Leistung, University of Washington entwickelte Transformer-Modell zur Umwandlung von Massenspektren in Peptidsequenzen, veröffentlicht im Nature-Unterjournal
Eine grundlegende Herausforderung in der massenspektrometrischen Proteomik ist die Identifizierung der Peptide, die jedes Tandem-Massenspektrum (MS/MS) erzeugen. Methoden, die auf Datenbanken bekannter Peptidsequenzen basieren, können unerwartete Peptide nicht erkennen und können in einigen Fällen unpraktisch oder nicht anwendbar sein.
Daher ist die Möglichkeit, Peptidsequenzen ohne vorherige Informationen in MS/MS zuzuordnen (d. h. De-novo-Peptidsequenzierung), für Aufgaben wie Antikörpersequenzierung, Immunpeptidomik und Metaproteomik äußerst wertvoll.
Obwohl viele Methoden zur Lösung dieses Problems entwickelt wurden, bleibt es eine offene Herausforderung, teilweise aufgrund der Schwierigkeit, die unregelmäßige Datenstruktur von MS/MS zu modellieren.
Hier beschreiben Forscher der University of Washington Casanovo, ein maschinelles Lernmodell, das die neuronale Netzwerkarchitektur Transformer nutzt, um Peaksequenzen in MS/MS in die Aminosäuresequenzen umzuwandeln, aus denen die resultierenden Peptide bestehen.
Das Team trainierte das Casanovo-Modell anhand von 30 Millionen markierten Spektren und zeigte, dass das Modell mehrere hochmoderne Methoden an artenübergreifenden Benchmark-Datensätzen übertraf.
Das Team entwickelte außerdem eine Version von Casanovo, die speziell auf nicht-enzymatische Peptide abgestimmt ist. Dieses Tool verbessert die Analyse von Immunpeptidomics- und Metaproteomics-Experimenten und ermöglicht es Wissenschaftlern, tiefer in das dunkle Proteom einzutauchen.
Die Studie trug den Titel „Sequence-to-sequence translation from mass spectra topeptides with a transformator model“ und wurde am 31. Juli 2024 in „Nature Communications“ veröffentlicht.
1. Massenspektrometrie ist eine gängige Proteomanalysetechnologie zur Identifizierung und Quantifizierung von Proteinen in komplexen biologischen Systemen. Die Technologie derIn der neuesten Forschung hat Casanovo Verbesserungen vorgenommen, darunter:
Abbildung 1: Casanovo führt eine De-novo-Peptidsequenzierung mithilfe der Transformer-Architektur durch. (Quelle: Papier)
Casanovos herausragende Leistung wird auf zwei Aspekte zurückgeführt:
Transformer-Architektur
Die Transformer-Architektur ist Besonders geeignet für die Konvertierung variabler Längen. Die Elemente einer Sequenz werden in einen Kontext gestellt und haben daher großen Erfolg bei der Modellierung natürlicher Sprache. Im Vergleich zu wiederkehrenden neuronalen Netzen ist die Transformer-Architektur in der Lage, Abhängigkeiten zwischen Sequenzelementen über große Entfernungen zu lernen und kann für ein effizientes Training parallelisiert werden.
Anwendungen von Casanovo
Casanovo kodiert Massenspektralpeaks in Sequenzen und nutzt dabei die Transformer-Architektur und die schnelle Entwicklung großer Sprachmodelle, um die De-novo-Peptidsequenzierung von MS/MS-Spektren zu verbessern.
Anwendungsszenarien:
Antikörpersequenzierung
Casanovo nicht noch den Einsatz der Antikörpersequenzierung erforscht. Allerdings führte eine Studie der Gruppe von Denis Beslic an der BAM in Deutschland einen systematischen Vergleich von sechs De-novo-Sequenzierungstools, darunter Casanovo, zum Thema Antikörpersequenzierung durch.
Grafik: Gesamterinnerung und Präzision vonNovor, pNovo 3, DeepNovo, SMSNet, PointNovo und Casanovo für verschiedene Enzyme auf IgG1-Human-HC.
Verwandte Links:
https://academic.oup.com/bib/article/24/1/bbac542/6955273?login=false
Ergebnisse:
Casanovo übertrifft konkurrierende Methoden bei allen berücksichtigten Metriken deutlich. Es ist erwähnenswert, dass dieser Vergleich die Greedy-Dekodierungsversion von Casanovo verwendete und nur auf 2 Millionen Spektren trainiert wurde.
Bewertung:
Das Casanovo-Team hat Casanovo anhand von neun Arten verglichen. Die folgende Grafik zeigt, dass eine aktualisierte Version von Casanovo, die mit 30 Millionen Spektren trainiert wurde, eine bessere Antikörpersequenzierungsleistung liefert.
Grafik: Casanovo übertrifft Modelle wie PointNovo, DeepNovo und Novor bei neun Arten-Benchmarks. (Quelle: Papier)In Zukunft wird es viele Möglichkeiten geben, das Casanovo-Modell für bestimmte Anwendungen zu verfeinern. Die Analyse nicht-enzymatischer Modelle durch die Forscher zeigte, dass Casanovos enzymatische Tendenz durch die Verwendung relativ weniger Trainingsdaten angepasst werden konnte.
Kurzfristig plant das Team, Varianten von Casanovo zu trainieren, die auf eine Vielzahl unterschiedlicher lytischer Enzyme wirken. Die Software von Casanovo macht diese Feinabstimmung einfach, sodass jeder Benutzer, der daran interessiert ist, das Modell an einen bestimmten Versuchsaufbau anzupassen, dazu in der Lage sein sollte.
Langfristig betrachtet verwendet das ideale Modell als Eingabespektren zusammen mit zugehörigen Metadaten (wie Verdauungsenzyme, Kollisionsenergien und Instrumententyp) und sagt viele verschiedene Arten von Versuchsaufbauten genau voraus.
Das Potenzial von Deep-Learning-Methoden zur Verbesserung der De-novo-Sequenzierungsfähigkeiten ist mittlerweile allgemein anerkannt. Während der Begutachtung dieses Artikels wurden mindestens sechs weitere Deep-Learning-De-novo-Sequenzierungsmethoden veröffentlicht, darunter GraphNovo, PepNet, Denovo-GCN, Spectralis, π-HelixNovo und NovoB. Es ist klar, dass der Bereich von einem umfassenden und strengen Benchmarking dieses wachsenden Werkzeugbereichs profitieren würde.
In diesem Zusammenhang ist einer der größten Engpässe auf diesem Gebiet derzeit das Fehlen strenger Methoden zur Vertrauensbewertung für die De-novo-Sequenzierung.
In Metaproteomik-Analysen haben Forscher Casanovo-Vorhersagen mit einer Datenbank von Zielen und entsprechenden Täuschungspeptiden abgeglichen, aber dieser Ansatz ignorierte die Fähigkeit der De-novo-Sequenzierung, Peptide exotischen Profilen zuzuordnen.
Daher bleibt die Frage offen, ob Casanovo Standard-Datenbanksuchverfahren hinsichtlich der statistischen Aussagekraft zum Nachweis von Peptiden für einen bestimmten datenabhängigen Erfassungsdatensatz übertrifft.
Die Forscher sagen, dass das Training mit einem ausreichend großen Trainingssatz möglicherweise die Dominanz der Datenbanksuche im Bereich der DDA-Tandem-Massenspektrometrie-Datenanalyse beenden kann.
Link zum Papier: https://www.nature.com/articles/s41467-024-49731-x
Das obige ist der detaillierte Inhalt vonSOTA-Leistung, University of Washington entwickelte Transformer-Modell zur Umwandlung von Massenspektren in Peptidsequenzen, veröffentlicht im Nature-Unterjournal. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!