Heim >Technologie-Peripheriegeräte >KI >Die Erfolgsquote übertrifft die der RoseTTAFold-Reihe, da sie Sequenzinformationen nutzt, um die Struktur von Protein-Ligand-Komplexen direkt vorherzusagen.
Herausgeber |. Rettichschale
Protein ist ein bewährtes Mittel im Kampf des Körpers gegen Krankheitserreger und wird verwendet, um mögliche Behandlungen für experimentelle Tests einzugrenzen. Es ist eine hochwertige Proteinstruktur erforderlich, und Proteine werden oft als vollständig oder teilweise starr angesehen.
Hier haben Forscher der Freien Universität Berlin ein künstliches Intelligenzsystem entwickelt, das vollständig flexible Allatomstrukturen von Protein-Ligand-Komplexen direkt aus Sequenzinformationen vorhersagen kann.
Obwohl klassische Docking-Methoden immer noch überlegen sind, hängt dies auch von der Kristallstruktur des Zielproteins ab. Zusätzlich zur Vorhersage flexibler Allatomstrukturen kann die Vorhersagekonfidenzmetrik (plDDT) verwendet werden, um genaue Vorhersagen auszuwählen und zwischen starken und schwachen Bindemitteln zu unterscheiden.
Die Studie trug den Titel „Strukturvorhersage von Protein-Ligand-Komplexen aus Sequenzinformationen mit Umol“ und wurde am 28. Mai 2024 in „Nature Communications“ veröffentlicht.
Der Protein-Protein-Zielkontakt ist ein wichtiges Thema bei der Bewertung neuer Medikamente und der Neupositionierung bekannter Substanzen. Bestehende Kontaktmethoden weisen Einschränkungen auf: Sie erfordern qualitativ hochwertige Proteinstrukturen. Es ist schwierig, genaue Kontaktpositionen zu bestimmen. Sie basieren hauptsächlich auf der Bewertung der Bindungsfähigkeit (Affinität), die andere Faktoren wie die strukturelle Stabilität nur schwer widerspiegeln kann. Bestehende Kontaktmethoden sind jedoch durch die Notwendigkeit hochwertiger Proteinstrukturen, genauer Kontaktposen und einer mehrbasierten Affinitätsbewertung begrenzt. Daher ist die Erforschung neuer Liganden durch einen kombinierten Ansatz aus Proteinassemblierung und Strukturbewertung begrenzt.
Obwohl maschinelles Lernen in diesem Bereich eingesetzt wurde, übertrifft seine Leistung in bekannten Zielbereichen immer noch nicht die klassische Methode, die auf Bewertungsfunktionen basiert. Darüber hinaus ist die vorhergesagte Proteinstruktur häufig nicht für die direkte Verwendung beim Liganden-Docking geeignet.
Wenn außerdem die Strukturen im Bewertungssatz nach der Release-Zeit und nicht nach der Ähnlichkeit unterteilt werden, kommt es zu einer Verzerrung, insbesondere wenn man sich Rezeptorstrukturen gegenübersieht, die man im Training nicht sieht, wird die Leistung halbiert.
Die Proteinflexibilität ist entscheidend für das Erreichen des Bindungszustands und das erfolgreiche Andocken. Obwohl RoseTTAFold All-Atom bei der Vorhersage von Proteinen Liganden binden kann, beträgt seine Erfolgsquote beim PoseBusters-Testsatz nur 42 % und ist für unsichtbare Proteine sehr schwierig Das Proteinverhalten ist unbekannt, was darauf hindeutet, dass die Herausforderung der Vorhersage der Protein-Ligand-Komplexstruktur noch nicht vollständig gelöst ist.
Ein Team der Freien Universität Berlin hat durch die Erweiterung von EvoFormer in AlphaFold2 eine KI-Methode entwickelt, die die Struktur von Protein-Ligand-Komplexen anhand von Sequenzinformationen vorhersagen kann. Dieses Netzwerk ähnelt RFAA, außer dass 3D-Trajektorien nicht enthalten sind und Templatstrukturen oder zusätzliche kristallografische Ligandendaten als Eingabe oder während des Trainings verwendet werden.
Abbildung: Umol-Übersicht. (Quelle: Paper)
Ausgehend von einer Proteinsequenz, alternativen Proteinzielen (Taschen) und Liganden erstellt SMILES mehrere Sequenzalignments (MSA) und Bindungsmatrizen. Daraus werden Features innerhalb des Netzwerks generiert und 3D-Strukturen generiert. Da keine Strukturinformationen erforderlich sind, um die endgültige Struktur des Protein-Ligand-Komplexes zu erzeugen, gibt es keine Einschränkungen hinsichtlich der Protein- oder Ligandenflexibilität.
Umol erreicht eine höhere Erfolgsquote (SR, Ligand RMSD ≤ 2 Å), wenn Tascheninformationen in den PoseBusters-Testsatz einbezogen werden, 45 % bzw. 42 %, im Vergleich zu den nächstgelegenen RoseTTAFold All-Atom und NeuralPlexer1, 24 % Es ist die leistungsstärkste Methode zur Vorhersage der Protein-Ligand-Struktur.
Abbildung: Vorhersagegenauigkeit. (Quelle: Papier)
Beim Entfernen von Tascheninformationen aus Umol und Vorlageninformationen aus RFAA sinkt die SR auf 18 % bzw. 8 %. Bei Verwendung von DiffDock mit AF-Vorhersage beträgt die Genauigkeit 21 %, hängt jedoch von einer hochpräzisen Schnittstellenvorhersage ab (Taschen-RMSD
Viele Ligandenpositionen knapp über der Erfolgsschwelle von 2 Å sind wahrscheinlich vergleichbar, was darauf hindeutet, dass möglicherweise ein flexibleres Bewertungssystem erforderlich ist. Die Erfolgsquote von Umol übertrifft die von AutoDock Vina bei der 2,35 Å-Schwelle. Selbst kleine Ausrichtungsfehler können problematisch werden, wenn für die Bewertung keine nativen Proteinstrukturen verwendet werden.
Kogefaltete Protein-Ligand-Komplexe haben das Potenzial, die Neupositionierung von Arzneimitteln zu beschleunigen. Insbesondere fanden die Forscher heraus, dass der vorhergesagte lDDT des Liganden (plDDT) zur Auswahl genauer Andockpositionen verwendet werden kann, während der pIDDT der Proteintasche zur Auswahl genauer Schnittstellen geeignet ist.
Abbildung: Konfidenzmetriken und Genauigkeit. (Quelle: Papier)
Der Ligand plDDT trennt auch Liganden mit hoher Affinität von Liganden mit niedriger Affinität, was darauf hindeutet, dass einige der Vorhersagen für Umol- und Umol-Taschenunsicherheit schwache Bindungen sein könnten. Dies verdeutlicht die Leistungsfähigkeit von Umol und unterstreicht, dass wichtige Aspekte der Protein-Ligand-Wechselwirkungen offenbar verstanden sind.
Abbildung: BindingDB-Vorhersage. (Quelle: Papier)
Trotz der 18% Genauigkeit ohne Tascheninformationen kann das Netzwerk immer noch bis zu einem gewissen Grad zwischen starken und schwachen Bindemitteln unterscheiden. Dies ist besonders nützlich für die Annotation unbekannter Komplexe, und das Team präsentierte 336 Protein-Ligand-Strukturen mit sehr hoher Sicherheit (Ligand plDDT>85). Es ist zu beachten, dass diese Strukturen zwar sinnvoll erscheinen und ihre L-plDDT-Werte hoch sind, sie jedoch noch experimentell verifiziert werden müssen.
Abbildung: Verwendung von Umol-Pocket zur Analyse der Beziehung zwischen vorhergesagten verschiedenen Merkmalen und dem Liganden RMSD (LRMSD) im PoseBusters-Testsatz (n=428). (Quelle: Papier)
Die Forscher fanden keinen klaren Zusammenhang zwischen der Vorhersageleistung des Modells und „verschiedenen Merkmalen, die mit demselben Protein oder Liganden verbunden sind“.
Illustration: Die 5 schwierigsten Strukturen. (Quelle: Papier)
Allerdings war Umol-Pocket in 3 von 5 Fällen korrekt, in denen andere Methoden schwer vorherzusagen waren. Durch die Umkehrung des trainierten Netzwerks können neue Liganden-bindende Proteine oder Protein-bindende Liganden entworfen werden. Eine andere Möglichkeit besteht darin, mithilfe von Transferlernen ein generatives Diffusionsmodell für denselben Zweck zu erstellen. In diesem Fall kann der Ligand oder das Protein plDDT maximiert werden, um einen hochaffinen Binder zu erzeugen.
Die aktuelle Version von PDBbind enthält Daten, die 2019 aus der PDB verarbeitet wurden. Seitdem wurden weitere Protein-Ligand-Komplexe eingereicht, was darauf hindeutet, dass möglicherweise eine höhere Genauigkeit erreichbar ist.
Allerdings ist derzeit unklar, welche Präzision erforderlich ist, um aussagekräftige Protein-Ligand-Docking-Ergebnisse zu erhalten. Die hohe Genauigkeit der Proteinstrukturvorhersage ist bei Aufgaben, an denen andere Moleküle wie kleine Moleküle oder RNA beteiligt sind, nicht erreichbar.
Ohne Informationen zur Protein-Koevolution nimmt die Genauigkeit von Strukturvorhersagen rapide ab. Da es für kleine Moleküle oder RNA keine vergleichbaren Informationsquellen gibt, ist man auf atomare Darstellungen angewiesen.
Tabelle: Erfolgsrate (Prozentsatz der Liganden mit RMSD≤2Å) im PoseBuster-Benchmark-Set geteilt durch Sequenzidentität (seqid) für die PDBBind 2020-Version. (Quelle: Papier)
Forscher glauben, dass Tascheninformationen sehr effektiv sind. Ohne Tascheninformationen scheinen Deep-Learning-Methoden anfällig für Überanpassung zu sein. Dieser Befund untermauert die Beobachtung weiter, dass viele Moleküle im PoseBusters-Testsatz zwar sehr ähnliche Analoga im Trainingsdatensatz enthalten, diese Ähnlichkeit jedoch nicht mit dem Modellerfolg korreliert.
Illustration: Einige Tests. (Quelle: Papier)
Derselbe Grad an Überanpassung wird bei strukturbasierten Docking-Methoden wie Vina oder Gold nicht beobachtet. Dies ist zu erwarten, da sie auf atomaren Bewertungsfunktionen basieren und daher nicht in gleichem Maße auf Proteinhomologie angewiesen sind.
Die Deep-Learning-Methode weist eine deutlich höhere Leistung im Trainingssatz auf, was darauf hindeutet, dass die Proteinhomologie eine wichtige Rolle beim Protein-Liganden-Andocken spielt. Die Leistung von RFAA auf dem Testsatz ist höher als die auf dem Trainingssatz, was auf einen möglichen Datenverlust zwischen dem Trainings- und dem Testsatz hinweist.
Zusammenfassend lässt sich sagen, dass es noch ein langer Weg ist, um die Komplexität der Protein-Ligand-Wechselwirkungen vollständig zu erfassen, aber die Verwendung von Deep Learning zur Vorhersage der Struktur des gesamten Komplexes könnte Wissenschaftler einer Lösung näher bringen.
Umol: https://github.com/patrickbryant1/Umol
Papierlink: https://www.nature.com/articles/s41467-024-48837-6
Das obige ist der detaillierte Inhalt vonDie Erfolgsquote übertrifft die der RoseTTAFold-Reihe, da sie Sequenzinformationen nutzt, um die Struktur von Protein-Ligand-Komplexen direkt vorherzusagen.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!