Herausgeber |. KX
Generatives Deep Learning verändert das Arzneimitteldesign. Besonders wichtig für diesen Prozess sind chemische Sprachmodelle (CLMs), die Moleküle als Molekülketten erzeugen.
Kürzlich haben Forscher der Technischen Universität Eindhoven in den Niederlanden eine neueste Deep-Learning-Architektur (S4) in das De-novo-Arzneimitteldesign eingeführt.
Das Structured State Space Sequence (S4)-Modell weist eine hervorragende Leistung beim Erlernen der globalen Eigenschaften der Sequenz auf. Kann S4 also die von Grund auf entwickelte chemische Sprachmodellierung vorantreiben?
Um Antworten zu liefern, verglichen die Forscher S4 systematisch mit modernstem CLM bei einer Reihe von Arzneimittelforschungsaufgaben, wie der Identifizierung bioaktiver Verbindungen und dem Design arzneimittelähnlicher Moleküle und Naturprodukte. S4 verfügt über die überlegene Fähigkeit, eine Vielzahl von Gerüsten zu erforschen und gleichzeitig komplexe molekulare Eigenschaften zu erlernen.
Schließlich wurde durch molekulardynamische Simulationen vorhergesagt, dass 8 von 10 von S4 entwickelten Molekülen hochaktiv sind, wenn sie prospektiv auf Kinaseinhibitoren angewendet werden.
Zusammenfassend lässt sich sagen, dass S4 ein großes Potenzial für die Modellierung chemischer Sprache hat, insbesondere für die Erfassung biologischer Aktivitäten und komplexer molekularer Eigenschaften. Dies ist das erste Mal, dass ein Zustandsraummodell auf eine molekulare Aufgabe angewendet wird.
Relevante Forschung trug den Titel „Chemical language modeling with structure state space sequence models“ und wurde am 22. Juli in „Nature Communications“ veröffentlicht.
Link zum Papier: https://www.nature.com/articles/s41467-024-50469-9
Das Entwerfen von Molekülen mit gewünschten Eigenschaften von Grund auf ist ein „Nadel im Heuhaufen“-Problem. Das chemische Universum, das bis zu 10^60 kleine Moleküle enthält, ist noch weitgehend unbekannt.
Generatives Deep Learning kann die gewünschten Moleküle ohne von Hand entworfene Regeln erzeugen und ermöglicht so eine zeitsparende und kostengünstige Möglichkeit, das chemische Universum zu erkunden. CLM hat insbesondere experimentell validierte bioaktive Designs hervorgebracht und zeichnet sich als leistungsstarker molekularer Generator aus.
CLM nutzt für die Sequenzverarbeitung entwickelte Algorithmen, um die „Sprache der Chemie“ zu erlernen, also wie man Moleküle erzeugt, die chemisch gültig sind (Syntax) und die gewünschten Eigenschaften haben (Semantik). Dies wird erreicht, indem molekulare Strukturen als Zeichenfolgensymbole dargestellt werden, wie zum Beispiel das Simplified Molecular Input Line Entry System (SMILES). Diese Molekülketten werden dann für das Modelltraining und die anschließende Generierung von Molekülen in Textform verwendet.
Illustration: Schlüsselkonzepte von S4-Modellen (Structured State Space Sequence) für die chemische Sprachmodellierung. (Quelle: Papier)
CLM-Architektur:
- Long Short-Term Memory (LSTM)-Modell
- Transformer-Architektur
Structured State Space Sequence Model (S4):
Anwendungen:
Design von Arzneimittelähnliche Moleküle und Naturprodukte:
- Die Forscher verglichen S4 mit hochmodernem CLM
- , beispielsweise dem Design von Arzneimittelähnlichen Molekülen und Naturprodukten
- Zunächst analysierten sie die Fähigkeit von S4, Arzneimittel zu entwickeln -ähnliche kleine Moleküle (SMILES-Länge weniger als 100 Token), extrahiert aus der ChEMBL-Datenbank1. Alle CLMs erzeugten mehr als 91 % der gültigen Moleküle, 91 % der einzigartigen Moleküle und 81 % der neuen Moleküle.
- S4 entwirft die effizientesten, einzigartigsten und neuartigsten Moleküle, indem es mehr neue Moleküle als die Basislinie erzeugt (ungefähr 4.000 bis über 12.000) und zeigt gute Fähigkeiten, die „chemische Grammatik“ von SMILES-Strings zu erlernen.
- Das Potenzial von S4 im Vergleich zu bestehenden De-novo-Designmethoden wird auch durch den MOSES-Benchmark bestätigt, bei dem S4 durchweg zu den leistungsstärksten Deep-Learning-Methoden zählt.
- S4 wird auch weiter gegen anspruchsvollere molekulare Einheiten als arzneimittelähnliche Moleküle getestet.
- Zu diesem Zweck bewerteten Forscher seine Fähigkeit, Naturstoffe (NPs) zu entwickeln.
- Im Vergleich zu synthetischen kleinen Molekülen weisen NPs tendenziell komplexere Molekülstrukturen und Ringsysteme sowie einen größeren Anteil an sp3-hybridisierten Kohlenstoffatomen und chiralen Zentren auf.
- Diese Merkmale entsprechen im Durchschnitt längeren SMILES-Sequenzen mit mehr Fernabhängigkeiten und machen Naturprodukte zu anspruchsvollen Testfällen für CLM.
Alle CLMs können natürliche Produkte entwickeln, ihre Leistung ist jedoch im Vergleich zu arzneimittelähnlichen Molekülen geringer. S4-Designs weisen die höchste Anzahl wirksamer Moleküle auf, mit etwa 6.000 bis 12.000 Molekülen mehr als S4 (7–13 % besser), während LSTM mit etwa 2.000 Molekülen mehr (2 %) als S4 die höchste Neuheit aufweist.
Abschließend wurde auch die Trainings- und Generierungsgeschwindigkeit von CLM-Architekturen bei Erhöhung der SMILES-Länge analysiert, um ihre praktische Anwendbarkeit beim Design größerer Moleküle wie Naturprodukte zu testen. Die Analyse zeigt, dass S4 aufgrund seiner dualen Natur beim Training genauso schnell ist wie GPT (beide ~1,3x schneller als LSTM) und in Bezug auf die Generierung am schnellsten. Dies spricht weiter für die Einführung von S4 als effiziente Methode für das molekulare Design, die im Vergleich zu GPT und LSTM „das Beste aus beiden Welten“ bietet.
Prospektives De-novo-Design
Forscher führten mit S4 eine prospektive In-silico-Studie durch, die sich auf die Entwicklung von Inhibitoren der Mitogen-aktivierten Proteinkinase 1 (MAPK1) konzentrierte, einem relevanten Ziel für die Tumortherapie. Die mutmaßliche biologische Aktivität des Designs wurde dann durch Molekulardynamik (MD) bewertet. Abbildung: Prospektives De-novo-Design mutmaßlicher MAPK1-Inhibitoren unter Verwendung von S4. (Quelle: Papier) Das S4-Modell wurde verfeinert und dann wurden die letzten fünf Epochen des verfeinerten Modells verwendet, um 256K-Moleküle zu erzeugen. Die Designs wurden nach Log-Likelihood-Score und Gerüstähnlichkeit mit dem Trainingssatz eingestuft und gefiltert, und die 10 Moleküle mit der höchsten Bewertung wurden mithilfe von MD-Simulationen weiter charakterisiert.
8 von 10 Designs wurden von MD als bioaktiv gegen die beabsichtigten Ziele vorhergesagt, mit vorhergesagten Affinitäten, die mit den am nächsten abgestimmten Molekülen vergleichbar oder höher sind. Diese Ergebnisse bestätigen das Potenzial von S4 für das De-novo-Arzneimitteldesign.
Möglichkeiten für Moleküle S4 Zusammenfassend ist diese Studie die erste, die Zustandsraummodelle in die chemische Sprachmodellierung einführt und sich dabei auf strukturierte Zustandsräume (S4) konzentriert. Die einzigartige duale Natur von S4, einschließlich Faltung und Schleifengenerierung während des Trainings, macht es besonders geeignet für De-novo-Designs, die mit SMILES-Strings beginnen.
Forscher führten einen systematischen Vergleich mit GPT und LSTM bei verschiedenen Arzneimittelforschungsaufgaben durch und zeigten die Vorteile von S4 auf: Obwohl die Schleifenerzeugung (LSTM und S4) beim Erlernen der chemischen Grammatik und beim Erkunden verschiedener Gerüste überlegen ist, ist sie für das gesamte Ensemble-Lernen nicht effektiv von SMILES-Sequenzen (GPT und S4) eignet sich gut zur Erfassung bestimmter komplexer Eigenschaften wie der biologischen Aktivität.
S4 hat eine doppelte Natur, „das Beste aus beiden Welten“: Es schneidet bei der Entwicklung effizienter und vielfältiger Moleküle genauso gut oder besser ab als LSTMs und übertrifft bei der Erfassung komplexer molekularer Eigenschaften systematisch die Basislinien bei gleichzeitiger Beibehaltung der Recheneffizienz. Die Anwendung von
S4 bei der MAPK1-Hemmung wurde durch MD-Simulationen validiert, was sein Potenzial für die Entwicklung wirksamer bioaktiver Moleküle weiter demonstriert. Zukünftig werden Forscher S4 voraussichtlich mit Nasslaborexperimenten kombinieren, um die Wirkung vor Ort zu verstärken.
Viele Aspekte von S4 müssen in der Molekularwissenschaft noch erforscht werden, beispielsweise sein Potenzial für längere Sequenzen (z. B. makrozyklische Peptid- und Proteinsequenzen) und andere molekulare Aufgaben (z. B. Planung organischer Reaktionen und strukturbasiertes Arzneimitteldesign).
In Zukunft wird die Anwendung von S4 in der molekularen Entdeckung weiter zunehmen und möglicherweise weit verbreitete chemische Sprachmodelle wie LSTM und GPT ersetzen.
Das obige ist der detaillierte Inhalt von„Das Beste aus beiden Welten“, Moleküle von Grund auf entwerfen, Deep-Learning-Architektur S4 für chemische Sprachmodellierung. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!