Heim > Artikel > Technologie-Peripheriegeräte > Es simuliert evolutionäre Informationen aus 500 Millionen Jahren und ist das erste groß angelegte biologische Modell, das gleichzeitig auf Proteinsequenz, -struktur und -funktion schließen kann.
Herausgeber |. Rettichhaut
In den **langen** drei Milliarden Jahren der natürlichen Evolution wurde die **Form** der **existierenden** Proteine gebildet und durchlief einen langen natürlichen Selektionsprozess. Evolution ist wie ein Parallelexperiment, das auf geologischen Zeitskalen durch zufällige Mutations- und Selektionsmechanismen durchgeführt wird und nach der Reihenfolge, Struktur und Funktion von Proteinen sortiert wird.
Hier zeigen Forscher von EvolutionaryScale, dass Sprachmodelle, die auf evolutionär generierten Markern trainiert wurden, als Evolutionssimulatoren für die Generierung von Funktionalitäten dienen können, die sich von bekannten Proteinsequenzen **Protein unterscheiden.
, Forscher schlagen **modernstes** ESM3 vor, ein **fortgeschrittenes** multimodales generatives Sprachmodell, das Rückschlüsse auf Proteinsequenz, -struktur und -funktion ziehen kann. ESM3 kann seine Modalitäten kombinieren, um komplexen Hinweisen zu folgen, und reagiert äußerst empfindlich auf biologische Ausrichtung.
Forscher nutzen ESM3, um **hochleistungsfähige** fluoreszierende Proteine zu erzeugen. Eines der **effizientesten** fluoreszierenden Proteine hat eine ganz andere Sequenz (58 % Homologie) als bekannte fluoreszierende Proteine.
Der Preprint-Artikel dieser Forschung „Simulating 500 million years of evolution with a language model“ wird in naher Zukunft auf der Preprint-Plattform bioRxiv veröffentlicht.
Wie hat die natürliche Evolution über mehr als drei Milliarden Jahre hinweg die heutige Vielfalt an Proteinen in der Natur hervorgebracht?
Dieser Prozess beinhaltet **viele** zufällige Mutationen und natürliche Selektionsereignisse. Jeder Link ist ein **strenger** Test der Sequenz, Struktur und biologischen Funktion des Proteins. Nur die verändertes Protein kann erhalten bleiben.
Daher enthalten die vorhandenen Proteinsequenzinformationen im Wesentlichen den Einfluss biologischer Variablen auf den langen Evolutionspfad von Milliarden Jahren.
Das EvolutionaryScale-Team hat eine innovative Methode vorgeschlagen, die diesen großen Evolutionsprozess mithilfe eines multimodalen generativen Sprachmodells namens ESM3 simulieren kann.
ESM3 kann nicht nur Proteinsequenzen verstehen und generieren, sondern auch die Struktur und Funktion von Proteinen umfassend berücksichtigen und wird so zu einem leistungsstarken Werkzeug für die Evolutionssimulation. Dieses Modell ist mit einem einzigartigen geometrischen Aufmerksamkeitsmechanismus ausgestattet, der die dreidimensionalen Strukturinformationen von Proteinen effizient verarbeiten kann, was für das Verständnis und die Vorhersage des Proteinverhaltens von entscheidender Bedeutung ist.
Sprachmodelle arbeiten mit diskreten Einheiten oder Token. Um ein Modell zu erstellen, das in der Lage ist, über die drei grundlegenden biologischen Eigenschaften eines Proteins – Sequenz, Struktur und Funktion – nachzudenken, mussten Forscher dreidimensionale Strukturen und Funktionen in ein diskretes Alphabet umwandeln und eine Möglichkeit entwickeln, jede dreidimensionale Struktur als zu schreiben eine Buchstabenfolge-Methode.
Dadurch kann ESM3 in großem Maßstab trainiert werden, wodurch neue generative Fähigkeiten freigeschaltet werden. Das Vokabular von ESM3 integriert Sequenz, Struktur und Funktion in dasselbe Sprachmodell.
Abbildung: ESM3 entwarf ein Gerüst für das aktive Zentrum der PETase durch multimodale Hinweise auf Sequenz, Struktur und Funktion. (Quelle: Papier)
Das Trainingsziel von ESM3 ist einfach. Für jedes Protein wurden seine Sequenz, Struktur und Funktion extrahiert, markiert und teilweise maskiert. ESM3 hat die Aufgabe, Maskierungsorte mithilfe eines Maskierungssprachenmodellierungsziels vorherzusagen, das von Modellen zur Verarbeitung natürlicher Sprache inspiriert ist.
Um diese Aufgabe zu erfüllen, muss ESM3 lernen, die Zusammenhänge zwischen Sequenz, Struktur und Funktion in Daten im Evolutionsmaßstab tiefgreifend zu verstehen. ESM3 lernt, die Evolution zu simulieren, wenn es auf Milliarden von Proteinen und Milliarden von Parametern skaliert wird.
ESM3 ist in der Lage, funktionelle Proteine zu erzeugen, die sich von bestehenden bekannten Proteinsequenzen unterscheiden. Dieses Modell zeichnet sich durch seine Fähigkeit aus, komplexe multimodale Signale zu verstehen und darauf zu reagieren, während es gleichzeitig sehr empfindlich auf biologische Ausrichtung reagiert.
ESM3 reagiert sehr empfindlich auf die biologische Ausrichtung, was bedeutet, dass es Muster im Zusammenhang mit der biologischen Evolution und Funktion genau identifizieren und verfolgen kann. Durch diese Ausrichtung können Modelle besser verstehen, wie sich Proteine basierend auf ihren biologischen Rollen und Umweltanforderungen entwickeln, und so die biologische Logik und evolutionären Einschränkungen der Natur bei der Entwicklung neuer Proteine genauer widerspiegeln.
Es kann je nach Aufforderung neue Proteine erzeugen. Die multimodalen Inferenzfähigkeiten von ESM3 ermöglichen es Wissenschaftlern, neue Proteine mit einem beispiellosen Maß an Kontrolle zu generieren. Beispielsweise können Modelle dazu veranlasst werden, Struktur, Sequenz und Funktion zu kombinieren, um potenzielle Gerüste für das aktive Zentrum von PETase vorzuschlagen, einem Enzym, das Polyethylenterephthalat (PET) abbaut, einem Proteiningenieur, der Forschungsziele im Bereich Plastikmüll aufschlüsselt.
Schwierigere Generationsprobleme lösen
Abbildung: ESM3-Modell evaluiert hinsichtlich der Aufgabe, Proteine zu erzeugen, die atomare Koordinationsmerkmale erfüllen. (Quelle: Papier)
ESM3s Fähigkeit, anspruchsvolle Proteindesignaufgaben zu lösen, wird mit zunehmender Proteinskala deutlich. Eine dieser Aufgaben ist die atomare Koordination, das Design von Proteinen auf der Grundlage von Hinweisen, die die Positionen von Aminosäureatomen angeben, die in der Reihenfolge entfernt, aber in der Struktur näher beieinander liegen.
Dies misst die Fähigkeit eines Modells, bei der Strukturgenerierung eine Genauigkeit auf atomarer Ebene zu erreichen, was für das Design funktioneller Proteine von entscheidender Bedeutung ist. Die Fähigkeit von ESM3, diese Aufgaben zu lösen, steigt mit der Skalierung, das heißt, ESM3 löst schwierigere Generationsprobleme als Funktion der Skalierung.
ESM3 wird durch Feedback weiter verbessert, indem eine Ausrichtungsmethode verwendet wird, die dem im LLM angewendeten Reinforcement Learning with Human Feedback (RLHF) ähnelt. Anstatt Feedback von Menschen zu erhalten, kann ESM3 sich selbst verbessern und Feedback zur Qualität seiner eigenen Generation geben. Rückmeldungen aus Nasslaborexperimenten oder vorhandenen experimentellen Daten können ebenfalls genutzt werden, um die Generierung von ESM3 mit der Biologie in Einklang zu bringen.
Umspannt 500 Millionen Jahre natürlichen Evolutionsabstands
Forscher nutzten ESM3, um ein neues fluoreszierendes Protein namens esmGFP zu entwerfen, das nur 58 % Sequenzhomologie mit dem ähnlichsten bekannten fluoreszierenden Protein aufweist, was bei früheren künstlichen Proteinen äußerst selten war Entwürfe.
Indem ESM3 angewiesen wurde, sich auf die Sequenz und Strukturmerkmale zu konzentrieren, die für die Bildung fluoreszierender Proteine und die Katalyse von Chromosomenreaktionen erforderlich sind, wurde das Modell durch eine Reihe von Iterationen entworfen, was letztendlich zu esmGFP mit hellen Fluoreszenzeffekten führte.
Dieses Protein unterscheidet sich nicht nur deutlich von bekannten Proteinen in der Sequenz, sondern zeigt in Experimenten auch eine ähnliche Fluoreszenzintensität wie herkömmliche fluoreszierende Proteine. Dies entspricht einer natürlichen Evolutionsdistanz von mehr als 500 Millionen Jahren.
EvolutionaryScale ist ein gemeinnütziges Unternehmen. Ihre Mission ist es, künstliche Intelligenz zu entwickeln, um die Biologie zu verstehen und so der menschlichen Gesundheit und der Gesellschaft durch Zusammenarbeit mit der wissenschaftlichen Gemeinschaft und offener, sicherer und verantwortungsvoller Forschung zu helfen. Seit seiner Gründung hat sich das ESM-Projekt der offenen Wissenschaft durch Code- und Modellveröffentlichungen verschrieben, und das Team ist bestrebt, dies auch weiterhin zu tun.
Das Unternehmen wurde im Juli 2023 gegründet, hat eine Seed-Finanzierungsrunde in Höhe von 142 Millionen US-Dollar abgeschlossen und eine Zusammenarbeit mit Amazon und NVIDIA geschlossen.
Das obige ist der detaillierte Inhalt vonEs simuliert evolutionäre Informationen aus 500 Millionen Jahren und ist das erste groß angelegte biologische Modell, das gleichzeitig auf Proteinsequenz, -struktur und -funktion schließen kann.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!