Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Georgia Tech, die University of Toronto und Cornell besiegten 25 Algorithmen für das molekulare Design und schlugen das große Sprachmodell MOLLEO vor

Georgia Tech, die University of Toronto und Cornell besiegten 25 Algorithmen für das molekulare Design und schlugen das große Sprachmodell MOLLEO vor

WBOY
WBOYOriginal
2024-07-02 01:07:361120Durchsuche

Georgia Tech, die University of Toronto und Cornell besiegten 25 Algorithmen für das molekulare Design und schlugen das große Sprachmodell MOLLEO vor

Autor |. Wang Haorui, Georgia Institute of Technology

Herausgeber |. Die molekulare Entdeckung als Optimierungsproblem stellt erhebliche rechnerische Herausforderungen dar, da das Optimierungsziel möglicherweise nicht differenzierbar ist. Evolutionäre Algorithmen (EAs) werden häufig verwendet, um Black-Box-Ziele in der molekularen Entdeckung zu optimieren, indem sie den chemischen Raum durch zufällige Mutation und Crossover durchqueren. Dies führt jedoch zu einer umfangreichen und teuren Zielevaluierung.

In dieser Arbeit arbeiteten Forscher des Georgia Institute of Technology, der University of Toronto und der Cornell University zusammen, um die Molecular Language Enhanced Evolutionary Optimization (MOLLEO) vorzuschlagen, die vorab trainierte große Sprachmodelle (LLMs) mit chemischem Wissen in die Evolutionstheorie integriert Im Algorithmus wurde die molekulare Optimierungsfähigkeit des Evolutionsalgorithmus erheblich verbessert.

Die Studie mit dem Titel „

Efficient Evolutionary Search Over Chemical Space with Large Language Models

“ wurde am 23. Juni auf der Preprint-Plattform arXix veröffentlicht.

Georgia Tech, die University of Toronto und Cornell besiegten 25 Algorithmen für das molekulare Design und schlugen das große Sprachmodell MOLLEO vorLink zum Papier:

https://arxiv.org/abs/2406.16976

Die große rechnerische Herausforderung der molekularen Entdeckung

Die molekulare Entdeckung ist ein komplexer iterativer Prozess, der Design, Synthese und Bewertung umfasst Verbesserungen haben ein breites Spektrum an realen Anwendungen, darunter Arzneimitteldesign, Materialdesign, Verbesserung der Energie, Krankheitsprobleme usw. Dieser Prozess ist oft langsam und mühsam, und selbst ungefähre rechnerische Auswertungen erfordern erhebliche Ressourcen aufgrund komplexer Designbedingungen und der Bewertung molekularer Eigenschaften, die oft teure Auswertungen erfordern (wie Nassexperimente, Bioassays und rechnerische Simulationen).

Daher ist die Entwicklung effizienter Algorithmen für die molekulare Suche, Vorhersage und Generierung zu einem Forschungsschwerpunkt im Bereich der Chemie geworden, um den Entdeckungsprozess zu beschleunigen. Insbesondere auf maschinellem Lernen basierende Methoden haben eine wichtige Rolle dabei gespielt, vielversprechende molekulare Kandidaten schnell zu identifizieren und vorzuschlagen.

Aufgrund der Bedeutung des Problems hat die molekulare Optimierung große Aufmerksamkeit erhalten, darunter mehr als 20 molekulare Designalgorithmen, die entwickelt und getestet wurden (darunter sind kombinatorische Optimierungsmethoden wie genetische Algorithmen und Verstärkungslernen anderen generativen Modellen voraus). und kontinuierliche Optimierungsalgorithmen ),

Weitere Informationen finden Sie im aktuellen Übersichtsartikel

der Unterzeitschrift Nature. Eine der effektivsten Methoden sind evolutionäre Algorithmen (EAs). Das Merkmal dieser Algorithmen ist, dass sie keine Gradientenauswertung erfordern und sich daher sehr gut für die Black-Box-Zieloptimierung in der molekularen Entdeckung eignen. Ein großer Nachteil dieser Algorithmen besteht jedoch darin, dass sie Kandidatenstrukturen zufällig generieren, ohne aufgabenspezifische Informationen auszunutzen, was eine umfassende objektive Funktionsbewertung erforderlich macht. Da die Bewertung von Attributen teuer ist, findet die molekulare Optimierung nicht nur die Molekülstruktur mit den besten erwarteten Attributen, sondern minimiert auch die Anzahl der Bewertungen der Zielfunktion (was auch einer Verbesserung der Sucheffizienz gleichkommt).

Kürzlich hat LLM einige grundlegende Fähigkeiten bei mehreren chemiebezogenen Aufgaben unter Beweis gestellt, wie z. B. der Vorhersage molekularer Eigenschaften, dem Abrufen optimaler Moleküle, der Automatisierung chemischer Experimente und der Erzeugung von Molekülen mit Zieleigenschaften. Da LLMs an umfangreichen Textkorpora geschult werden, die ein breites Aufgabenspektrum abdecken, verfügen sie über allgemeine Sprachverständnisfähigkeiten und grundlegende chemische Kenntnisse, was sie zu einem interessanten Werkzeug für chemische Entdeckungsaufgaben macht.

Viele LLM-basierte Methoden basieren jedoch auf kontextbezogenem Lernen und Cue-Engineering, was beim Entwurf von Molekülen mit strengen numerischen Zielen problematisch sein kann, da LLM Schwierigkeiten haben kann, präzise numerische Einschränkungen zu erfüllen oder bestimmte numerische Ziele zu optimieren. Darüber hinaus können Methoden, die ausschließlich auf LLM-Hinweisen basieren, Moleküle mit schlechter physikalischer Grundlage oder ungültige SMILES-Strings erzeugen, die nicht in chemische Strukturen dekodiert werden können.

Molecular Language Enhanced Evolutionary Optimization

In dieser Studie schlagen wir Molecular Language Enhanced Evolutionary Optimization (MOLLEO) vor, das LLM in EA integriert, um die Qualität der generierten Kandidaten zu verbessern und den Optimierungsprozess zu beschleunigen. MOLLEO nutzt LLM als genetischen Operator, um durch Crossover oder Mutation neue Kandidaten zu generieren. Wir zeigen zum ersten Mal, wie LLM in das EA-Framework zur Molekülgenerierung integriert werden kann.

In dieser Studie haben wir drei Sprachmodelle mit unterschiedlichen Fähigkeiten betrachtet: GPT-4, BioT5 und MoleculeSTM. Wir integrieren jedes LLM in verschiedene Crossover- und Mutationsverfahren und demonstrieren unsere Designentscheidungen durch Ablationsstudien.

Wir haben die überlegene Leistung von MOLLEO durch Experimente zu mehreren Black-Box-Optimierungsaufgaben, einschließlich Einzelziel- und Mehrzieloptimierung, bewiesen. Bei allen Aufgaben, einschließlich des anspruchsvolleren Protein-Liganden-Andockens, übertrifft MOLLEO die Basislinien-EA und 25 andere starke Basismethoden. Darüber hinaus demonstrieren wir die Fähigkeit von MOLLEO, die besten JNK3-Inhibitormoleküle in der ZINC 250K-Datenbank weiter zu optimieren.

Unser MOLLEO-Framework basiert auf einem einfachen evolutionären Algorithmus, dem Graph-GA-Algorithmus, und erweitert seine Funktionalität durch die Integration von chemisch bewusstem LLM in genetische Operationen.

Wir skizzieren zunächst die Problemstellung und betonen die Notwendigkeit, teure objektive Bewertungen bei der Black-Box-Optimierung zu minimieren. MOLLEO nutzt LLMs wie GPT-4, BioT5 und MoleculeSTM, um anhand von Zielbeschreibungen neue Kandidatenmoleküle zu generieren.

Konkret verwenden wir im Crossover-Schritt LLM, um Moleküle zu erzeugen, die die Zielfitnessfunktion maximieren, anstatt zwei Elternmoleküle zufällig zu kombinieren. Im Mutationsschritt mutiert der Operator das stärkste Mitglied der aktuellen Population gemäß der Zielbeschreibung. Wir stellten jedoch fest, dass LLM nicht immer Kandidaten mit höherer Fitness als die Eingabemoleküle generierte, weshalb wir Selektionsdrücke konstruierten, um bearbeitete Moleküle basierend auf struktureller Ähnlichkeit zu filtern.

Experimentelle Ergebnisse

Wir haben MOLLEO anhand von 18 Aufgaben bewertet. Aufgaben werden aus PMO- und TDC-Benchmarks und Datenbanken ausgewählt und können in die folgenden Kategorien unterteilt werden:

  1. Strukturbasierte Optimierung: Moleküle entsprechend der Zielstruktur optimieren, einschließlich Isomerengenerierung basierend auf der Zielmolekülformel (isomers_c9h10n2o2pf2cl) und Zwei Aufgaben, die auf dem Anpassen oder Vermeiden von Gerüst- und Unterstrukturmotiven basieren (deco_hop, scaffold_hop). 🔜 Hydrophobie (LogP) und Permeabilität (TPSA). Obwohl es bei diesen Aufgaben in erster Linie um die Wiederentdeckung bestehender Medikamente und nicht um die Entwicklung neuer Moleküle ging, demonstrierten sie die grundlegenden Fähigkeiten von LLM zur chemischen Optimierung.
  2. Eigenschaftsoptimierung: Beinhaltet die einfache Eigenschaftsoptimierungsaufgabe QED, die die Arzneimittelähnlichkeit von Molekülen misst. Anschließend konzentrierten wir uns auf drei Aufgaben im PMO und maßen die Aktivität von Molekülen gegen die folgenden Proteine: DRD2 (Dopaminrezeptor D2), GSK3β (Glykogensynthasekinase-3β) und JNK3 (c-Jun N-terminale Kinase-3). Darüber hinaus beziehen wir in TDC (strukturelles Arzneimitteldesign) drei Protein-Ligand-Andockaufgaben ein, die näher am realen Arzneimitteldesign sind als einfache physikalisch-chemische Eigenschaften.
  3. Um unsere Methode zu bewerten, folgen wir der PMO-Benchmark-Methode unter Berücksichtigung des Zielwerts und des Rechenbudgets und geben die Fläche unter der Kurve (AUC top-k) der Top-k-Durchschnittsattributwerte und die Anzahl an der Zielfunktionsaufrufe.
  4. Als Vergleichsbenchmark haben wir die Topmodelle des PMO-Benchmarks verwendet, darunter REINVENT basierend auf Reinforcement Learning, den grundlegenden Evolutionsalgorithmus Graph-GA und den Gaußschen Prozess Bayesian Optimization GP BO.

Abbildung: Top-10-AUC von Einzelzielaufgaben. (Quelle: Papier)

Georgia Tech, die University of Toronto und Cornell besiegten 25 Algorithmen für das molekulare Design und schlugen das große Sprachmodell MOLLEO vorWir haben Einzelzieloptimierungsexperimente für 12 PMO-Aufgaben durchgeführt. Die Ergebnisse sind in der Tabelle oben aufgeführt. Wir geben die AUC-Top-10-Bewertung jeder Aufgabe und die Gesamtbewertung jedes Modells an. Die Ergebnisse zeigen, dass die Verwendung eines beliebigen großen Sprachmodells (LLM) als genetischer Operator die Leistung über das Standard-Graph-GA und alle anderen Basismodelle hinaus verbessern kann.

GPT-4 übertraf alle Modelle in 9 von 12 Aufgaben und demonstrierte damit seine Wirksamkeit und Aussichten als allgemeines großes Sprachmodell bei der Molekülgenerierung. BioT5 erzielte unter allen Testmodellen die zweitbesten Ergebnisse mit einer Gesamtpunktzahl nahe GPT-4, was darauf hindeutet, dass kleine Modelle, die auf Domänenwissen trainiert und verfeinert wurden, auch gute Anwendungsaussichten in MOLLEO haben.

MOLSTM ist ein kleines Modell, das auf dem CLIP-Modell basiert und auf die Beschreibung des Moleküls in natürlicher Sprache und die chemische Formel des Moleküls abgestimmt ist. Wir verwenden den Gradientenabstiegsalgorithmus im Evolutionsalgorithmus, um verschiedene neue Moleküle zu generieren dieselbe Beschreibung in natürlicher Sprache, und seine Leistung übertrifft auch andere Basismethoden.

Abbildung: JNK3 hemmt die Populationsfitness, die mit zunehmender Anzahl von Iterationen auftritt. (Quelle: Papier)

Georgia Tech, die University of Toronto und Cornell besiegten 25 Algorithmen für das molekulare Design und schlugen das große Sprachmodell MOLLEO vorUm die Wirksamkeit der Integration von LLM in das EA-Framework zu überprüfen, zeigen wir die Punkteverteilung des anfänglichen Zufallsmolekülpools für die JNK3-Aufgabe. Anschließend führten wir eine Bearbeitungsrunde für alle Moleküle im Pool durch und zeichneten die JNK3-Score-Verteilung der bearbeiteten Moleküle auf.

Die Ergebnisse zeigen, dass die von LLM bearbeiteten Verteilungen alle leicht in Richtung höherer Werte verschoben sind, was darauf hindeutet, dass LLM tatsächlich nützliche Modifikationen bereitstellt. Allerdings ist die Gesamtzielpunktzahl immer noch niedrig, sodass eine einstufige Bearbeitung nicht ausreicht und hier eine iterative Optimierung mithilfe evolutionärer Algorithmen erforderlich ist.

Abbildung: Der durchschnittliche Docking-Score der Top-10-Moleküle, wenn sie an DRD3-, EGFR- oder Adenosin-A2A-Rezeptorprotein angedockt sind. (Quelle: Papier)

Zusätzlich zu den 12 Einzelziel-Optimierungsaufgaben in PMO haben wir MOLLEO auch an anspruchsvolleren Protein-Ligand-Docking-Aufgaben getestet, die näher an realen Molekülgenerierungsszenarien sind als Einzelziel-Aufgaben. Die obige Abbildung ist ein Diagramm des durchschnittlichen Docking-Scores der zehn besten Moleküle von MOLLEO und Graph-GA im Vergleich zur Anzahl der Zielfunktionsaufrufe.

Die Ergebnisse zeigen, dass in allen drei Proteinen die Docking-Scores der mit unserer Methode erzeugten Moleküle fast alle besser sind als die des Basismodells und die Konvergenzgeschwindigkeit schneller ist. Unter den drei von uns verwendeten Sprachmodellen schnitt BioT5 am besten ab. Tatsächlich können bessere Docking-Scores und eine schnellere Konvergenz die Anzahl der zum Screening von Molekülen erforderlichen Bioassays reduzieren und so den Prozess kosten- und zeiteffizienter machen.

Georgia Tech, die University of Toronto und Cornell besiegten 25 Algorithmen für das molekulare Design und schlugen das große Sprachmodell MOLLEO vor

Abbildung: Summen- und Hypervolumenbruch für Aufgaben mit mehreren Zielen. (Quelle: Papier)

Georgia Tech, die University of Toronto und Cornell besiegten 25 Algorithmen für das molekulare Design und schlugen das große Sprachmodell MOLLEO vor

Abbildung: Pareto-optimale Visualisierung von Graph-GA und MOLLEO bei Aufgaben mit mehreren Zielen. (Quelle: Papier)

Für die Optimierung mit mehreren Zielen berücksichtigen wir zwei Metriken: AUC Top-10 der Summe der Bewertungen aller Optimierungsziele und das Hypervolumen des Pareto-Optimumsatzes. Wir präsentieren die Ergebnisse der Mehrzieloptimierung an drei Aufgaben. Die Aufgaben 1 und 2 sind von den Zielen der Arzneimittelforschung inspiriert und zielen darauf ab, drei Ziele gleichzeitig zu optimieren: die QED eines Moleküls zu maximieren, seinen synthetischen Zugänglichkeitswert (SA) zu minimieren (d. h. einfacher zu synthetisieren) und seinen Beitrag zu JNK3 (Aufgabe 1) oder GSK3β zu maximieren (Aufgabe 2) verbindliche Ergebnisse. Aufgabe 3 ist anspruchsvoller, da sie die gleichzeitige Optimierung von fünf Zielen erfordert: Maximierung der QED- und JNK3-Bindungswerte und Minimierung der GSK3β-Bindungswerte, DRD2-Bindungswerte und SA-Werte.

Wir stellen fest, dass MOLLEO (GPT-4) bei allen drei Aufgaben sowohl beim Hypervolumen als auch bei der Summierung durchweg die Basis-Graph-GA übertrifft. In der Abbildung visualisieren wir die Pareto-optimalen Mengen (im Zielraum) unserer Methode und Graph-GA in Aufgabe 1 und Aufgabe 2. Die Leistung von Open-Source-Sprachmodellen nimmt ab, wenn mehrere Ziele eingeführt werden. Wir spekulieren, dass dieser Leistungsabfall auf ihre Unfähigkeit zurückzuführen sein könnte, große Mengen an informationsreichem Kontext zu erfassen.

Georgia Tech, die University of Toronto und Cornell besiegten 25 Algorithmen für das molekulare Design und schlugen das große Sprachmodell MOLLEO vor

Abbildung: Initialisierung von MOLLEO mit den besten Molekülen in ZINC 250K. (Quelle: Papier)

Das ultimative Ziel des Evolutionsalgorithmus besteht darin, die Eigenschaften des anfänglichen Molekülpools zu verbessern und neue Moleküle zu entdecken. Um die Fähigkeit von MOLLEO zur Erforschung neuer Moleküle zu erkunden, initialisieren wir den Molekülpool mit den besten Moleküle in ZINC 250K und verwenden Sie dann MOLLEO und Graph-GA zur Optimierung. Experimentelle Ergebnisse zur JNK3-Aufgabe zeigen, dass unser Algorithmus das Basismodell Graph-GA durchweg übertrifft und in der Lage ist, die besten Moleküle in vorhandenen Datensätzen zu verbessern.

Darüber hinaus ist uns auch aufgefallen, dass der Trainingssatz von BioT5 die ZINC20-Datenbank (mit 1,4 Milliarden Verbindungen) und der Trainingssatz von MoleculeSTM die PubChem-Datenbank (ca. 250.000 Moleküle) ist. Wir haben überprüft, ob die endgültigen Moleküle, die von jedem Modell in der JNK3-Aufgabe generiert wurden, im entsprechenden Datensatz enthalten sind. Es wurde festgestellt, dass die erzeugten Moleküle nicht mit denen im Datensatz überlappten. Dies zeigt, dass das Modell in der Lage ist, neue Moleküle zu erzeugen, die im Trainingssatz nicht vorhanden waren.

Kann auf die Arzneimittelforschung, Materialien und das Design von Biomolekülen angewendet werden.

Molekulare Entdeckung und Design ist ein reichhaltiges Feld mit zahlreichen praktischen Anwendungen, von denen viele über den Rahmen der aktuellen Studie hinausgehen, aber dennoch für unseren vorgeschlagenen Rahmen relevant sind. MOLLEO kombiniert LLM mit EA-Algorithmen, um ein flexibles Algorithmus-Framework durch reinen Text bereitzustellen. In Zukunft kann MOLLEO auf Szenarien wie die Entdeckung von Arzneimitteln, teure Computersimulationen und das Design von Materialien oder großen Biomolekülen angewendet werden.

Zukünftige Arbeit Wir werden uns weiterhin darauf konzentrieren, wie die Qualität der erzeugten Moleküle verbessert werden kann, einschließlich ihrer Zielwerte und Entdeckungsgeschwindigkeit. Mit der weiteren Weiterentwicklung von LLM gehen wir davon aus, dass sich auch die Leistung des MOLLEO-Frameworks weiter verbessern wird, was es zu einem vielversprechenden Werkzeug für Anwendungen der generativen Chemie macht.

Das obige ist der detaillierte Inhalt vonGeorgia Tech, die University of Toronto und Cornell besiegten 25 Algorithmen für das molekulare Design und schlugen das große Sprachmodell MOLLEO vor. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn