Heim >web3.0 >MolE: Ein Transformatormodell für das Lernen molekularer Graphen

MolE: Ein Transformatormodell für das Lernen molekularer Graphen

Barbara Streisand
Barbara StreisandOriginal
2024-11-12 21:22:15812Durchsuche

Stellen Sie MolE vor, ein transformatorbasiertes Modell für das Lernen molekularer Graphen. MolE arbeitet direkt mit molekularen Graphen, indem es sowohl Atomidentifikatoren als auch Graphkonnektivität als Eingabetoken bereitstellt. Atomidentifikatoren werden durch Hashing verschiedener Atomeigenschaften in einer einzigen Ganzzahl berechnet, und die Diagrammkonnektivität wird als topologische Distanzmatrix angegeben. MolE verwendet einen Transformer als Basisarchitektur, der bereits zuvor auch auf Diagramme angewendet wurde. Die Leistung von Transformatoren kann zu einem großen Teil auf die umfassende Nutzung des Selbstaufmerksamkeitsmechanismus zurückgeführt werden. In Standardtransformatoren werden die Eingabetokens in Abfragen, Schlüssel und Werte (Q,K,Vin {R}^{Ntimes d}) eingebettet, die zur Berechnung der Selbstaufmerksamkeit wie folgt verwendet werden:

MolE: Ein Transformatormodell für das Lernen molekularer Graphen

MolE ist ein Transformatormodell, das speziell für molekulare Graphen entwickelt wurde. Es arbeitet direkt mit Diagrammen, indem es sowohl Atomkennungen als auch Diagrammkonnektivität als Eingabetoken bzw. relative Positionsinformationen bereitstellt. Atombezeichner werden berechnet, indem verschiedene Atomeigenschaften zu einer einzigen Ganzzahl gehasht werden. Insbesondere enthält dieser Hash die folgenden Informationen:

- Anzahl benachbarter schwerer Atome,

- Anzahl benachbarter Wasserstoffatome,

- Valenz minus die Anzahl der gebundenen Wasserstoffe,

- Atomladung,

- Atommasse,

- angehängte Anleihetypen,

- und Ringmitgliedschaft.

Atomidentifikatoren (auch bekannt als Atomumgebungen mit Radius 0) wurden mit dem Morgan-Algorithmus berechnet, wie er in RDKit implementiert ist.

Zusätzlich zu Tokens verwendet MolE auch Informationen zur Graphkonnektivität als Eingabe, was eine wichtige induktive Vorspannung darstellt, da es die relative Position von Atomen im molekularen Graphen kodiert. In diesem Fall wird die Graphkonnektivität als topologische Distanzmatrix d angegeben, wobei dij der Länge des kürzesten Pfades über Bindungen entspricht, der Atom i von Atom j trennt.

MolE verwendet einen Transformer als Basisarchitektur, der zuvor auch auf Diagramme angewendet wurde. Die Leistung von Transformatoren kann zu einem großen Teil auf die umfassende Nutzung des Selbstaufmerksamkeitsmechanismus zurückgeführt werden. In Standardtransformatoren werden die Eingabetokens in Abfragen, Schlüssel und Werte (Q,K,Vin {R}^{Ntimes d}) eingebettet, die zur Berechnung der Selbstaufmerksamkeit wie folgt verwendet werden:

wobei ({H}_{0}in {R}^{Ntimes d}) die ausgegebenen verborgenen Vektoren nach der Selbstaufmerksamkeit sind und (d) die Dimension des verborgenen Raums ist.

Um Positionsinformationen explizit durch jede Schicht des Transformators zu transportieren, nutzt MolE die entwirrte Selbstaufmerksamkeit von DeBERTa:

wobei ({Q}^{c},{K}^{c},{V}^{c}in {R}^{Ntimes d}) Kontextabfragen, Schlüssel und Werte sind, die Token-Informationen enthalten ( wird in der Standard-Selbstaufmerksamkeit verwendet) und ({Q}_{i,j}^{p},{K}_{i,j}^{p}in {R}^{Ntimes d}) sind die Position Abfragen und Schlüssel, die die kodieren relative Position des (i{{{rm{th}}}})-Atoms in Bezug auf das (j{{{rm{th}}}})-Atom. Die Verwendung der entwirrten Aufmerksamkeit macht MolE invariant in Bezug auf die Reihenfolge der eingegebenen Atome.

Wie bereits erwähnt, können durch selbstüberwachtes Vortraining Informationen effektiv von großen, unbeschrifteten Datensätzen auf kleinere Datensätze mit Beschriftungen übertragen werden. Hier stellen wir eine zweistufige Pretraining-Strategie vor. Der erste Schritt ist ein selbstüberwachter Ansatz zum Erlernen der Darstellung chemischer Strukturen. Hierzu verwenden wir einen BERT-ähnlichen Ansatz, bei dem jedes Atom mit einer Wahrscheinlichkeit von 15 % zufällig maskiert wird, wobei 80 % der ausgewählten Token durch einen Masken-Token, 10 % durch einen zufälligen Token aus dem Vokabular usw. ersetzt werden 10 % werden nicht verändert. Anders als bei BERT besteht die Vorhersageaufgabe nicht darin, die Identität des maskierten Tokens vorherzusagen, sondern die entsprechende Atomumgebung (oder funktionale Atomumgebung) mit Radius 2 vorherzusagen, d. h. alle Atome, die durch zwei oder weniger Bindungen vom maskierten Atom getrennt sind . Es ist wichtig zu bedenken, dass wir unterschiedliche Tokenisierungsstrategien für Eingaben (Radius 0) und Beschriftungen (Radius 2) verwendet haben und dass Eingabetokens keine überlappenden Daten benachbarter Atome enthalten, um Informationslecks zu vermeiden. Dies gibt dem Modell einen Anreiz, Informationen von benachbarten Atomen zu aggregieren und gleichzeitig lokale molekulare Merkmale zu lernen. MolE lernt über eine Klassifizierungsaufgabe, bei der jede Atomumgebung mit Radius 2 eine vordefinierte Bezeichnung hat, im Gegensatz zum Kontextvorhersage-Ansatz, bei dem die Aufgabe darin besteht, die Einbettung von Atomumgebungen mit Radius 4 mit der Einbettung von Kontextatomen (d. h. umgebenden Atomen darüber hinaus) abzugleichen Radius 4) durch Negativabtastung. Im zweiten Schritt wird ein überwachtes Vortraining auf Diagrammebene mit einem großen beschrifteten Datensatz verwendet. Wie von Hu et al. vorgeschlagen, hilft die Kombination von Vortraining auf Knoten- und Diagrammebene beim Erlernen lokaler und globaler Merkmale, die die endgültige Vorhersageleistung verbessern. Weitere Einzelheiten zu den Vortrainingsschritten finden Sie im Abschnitt „Methoden“.

MolE wurde unter Verwendung einer extrem großen Datenbank von ~842 Millionen Molekülen von ZINC und ExCAPE-DB vorab trainiert, wobei ein selbstüberwachtes Schema (mit einem Hilfsverlust) verwendet wurde, gefolgt von einem überwachten Vortraining mit ~456.000 Molekülen (siehe Abschnitt „Methoden“) weitere Einzelheiten). Wir bewerten die Qualität der molekularen Einbettung, indem wir MolE auf eine Reihe nachgelagerter Aufgaben abstimmen. In diesem Fall verwenden wir einen Satz von 22 ADMET-Aufgaben, die im Therapeutic Data Commons (TDC)-Benchmark enthalten sind. Dieser Benchmark besteht aus 9 Regressions- und 13 binären Klassifizierungsaufgaben für Datensätze, die von Hunderten (z. B. DILI mit 475 Verbindungen) bis Tausenden reichen von Verbindungen (z. B. CYP-Inhibitionsaufgaben mit ~13.000 Verbindungen). Ein Vorteil der Verwendung dieses Benchmarks ist

Das obige ist der detaillierte Inhalt vonMolE: Ein Transformatormodell für das Lernen molekularer Graphen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn