Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Es simuliert evolutionäre Informationen aus 500 Millionen Jahren und ist das erste groß angelegte biologische Modell, das gleichzeitig auf Proteinsequenz, -struktur und -funktion schließen kann.

Es simuliert evolutionäre Informationen aus 500 Millionen Jahren und ist das erste groß angelegte biologische Modell, das gleichzeitig auf Proteinsequenz, -struktur und -funktion schließen kann.

王林
王林Original
2024-06-26 20:40:11907Durchsuche

Es simuliert evolutionäre Informationen aus 500 Millionen Jahren und ist das erste groß angelegte biologische Modell, das gleichzeitig auf Proteinsequenz, -struktur und -funktion schließen kann.

Herausgeber |. Rettichhaut

In den **langen** drei Milliarden Jahren der natürlichen Evolution wurde die **Form** der **existierenden** Proteine ​​gebildet und durchlief einen langen natürlichen Selektionsprozess. Evolution ist wie ein Parallelexperiment, das auf geologischen Zeitskalen durch zufällige Mutations- und Selektionsmechanismen durchgeführt wird und nach der Reihenfolge, Struktur und Funktion von Proteinen sortiert wird.

Hier zeigen Forscher von EvolutionaryScale, dass Sprachmodelle, die auf evolutionär generierten Markern trainiert wurden, als Evolutionssimulatoren für die Generierung von Funktionalitäten dienen können, die sich von bekannten Proteinsequenzen **Protein unterscheiden.

, Forscher schlagen **modernstes** ESM3 vor, ein **fortgeschrittenes** multimodales generatives Sprachmodell, das Rückschlüsse auf Proteinsequenz, -struktur und -funktion ziehen kann. ESM3 kann seine Modalitäten kombinieren, um komplexen Hinweisen zu folgen, und reagiert äußerst empfindlich auf biologische Ausrichtung.

Forscher nutzen ESM3, um **hochleistungsfähige** fluoreszierende Proteine ​​zu erzeugen. Eines der **effizientesten** fluoreszierenden Proteine ​​hat eine ganz andere Sequenz (58 % Homologie) als bekannte fluoreszierende Proteine.

Der Preprint-Artikel dieser Forschung „Simulating 500 million years of evolution with a language model“ wird in naher Zukunft auf der Preprint-Plattform bioRxiv veröffentlicht.

Es simuliert evolutionäre Informationen aus 500 Millionen Jahren und ist das erste groß angelegte biologische Modell, das gleichzeitig auf Proteinsequenz, -struktur und -funktion schließen kann.

Wie hat die natürliche Evolution über mehr als drei Milliarden Jahre hinweg die heutige Vielfalt an Proteinen in der Natur hervorgebracht?

Dieser Prozess beinhaltet **viele** zufällige Mutationen und natürliche Selektionsereignisse. Jeder Link ist ein **strenger** Test der Sequenz, Struktur und biologischen Funktion des Proteins. Nur die verändertes Protein kann erhalten bleiben.

Daher enthalten die vorhandenen Proteinsequenzinformationen im Wesentlichen den Einfluss biologischer Variablen auf den langen Evolutionspfad von Milliarden Jahren.

Das EvolutionaryScale-Team hat eine innovative Methode vorgeschlagen, die diesen großen Evolutionsprozess mithilfe eines multimodalen generativen Sprachmodells namens ESM3 simulieren kann.

Es simuliert evolutionäre Informationen aus 500 Millionen Jahren und ist das erste groß angelegte biologische Modell, das gleichzeitig auf Proteinsequenz, -struktur und -funktion schließen kann.
Video-Link: https://www.php.cn/link/4b816bc18d998441c4cbc6058277c844
Video: ESM3-Übersicht. (Quelle: Offizielle Website des Unternehmens)

ESM3 kann nicht nur Proteinsequenzen verstehen und generieren, sondern auch die Struktur und Funktion von Proteinen umfassend berücksichtigen und wird so zu einem leistungsstarken Werkzeug für die Evolutionssimulation. Dieses Modell ist mit einem einzigartigen geometrischen Aufmerksamkeitsmechanismus ausgestattet, der die dreidimensionalen Strukturinformationen von Proteinen effizient verarbeiten kann, was für das Verständnis und die Vorhersage des Proteinverhaltens von entscheidender Bedeutung ist.

Es simuliert evolutionäre Informationen aus 500 Millionen Jahren und ist das erste groß angelegte biologische Modell, das gleichzeitig auf Proteinsequenz, -struktur und -funktion schließen kann.

Abbildung: ESM3 kann gleichzeitig auf Proteinsequenz, -struktur und -funktion schließen. (Quelle: Papier)

Sprachmodelle arbeiten mit diskreten Einheiten oder Token. Um ein Modell zu erstellen, das in der Lage ist, über die drei grundlegenden biologischen Eigenschaften eines Proteins – Sequenz, Struktur und Funktion – nachzudenken, mussten Forscher dreidimensionale Strukturen und Funktionen in ein diskretes Alphabet umwandeln und eine Möglichkeit entwickeln, jede dreidimensionale Struktur als zu schreiben eine Buchstabenfolge-Methode.

Dadurch kann ESM3 in großem Maßstab trainiert werden, wodurch neue generative Fähigkeiten freigeschaltet werden. Das Vokabular von ESM3 integriert Sequenz, Struktur und Funktion in dasselbe Sprachmodell.

Es simuliert evolutionäre Informationen aus 500 Millionen Jahren und ist das erste groß angelegte biologische Modell, das gleichzeitig auf Proteinsequenz, -struktur und -funktion schließen kann.

Abbildung: ESM3 entwarf ein Gerüst für das aktive Zentrum der PETase durch multimodale Hinweise auf Sequenz, Struktur und Funktion. (Quelle: Papier)

Das Trainingsziel von ESM3 ist einfach. Für jedes Protein wurden seine Sequenz, Struktur und Funktion extrahiert, markiert und teilweise maskiert. ESM3 hat die Aufgabe, Maskierungsorte mithilfe eines Maskierungssprachenmodellierungsziels vorherzusagen, das von Modellen zur Verarbeitung natürlicher Sprache inspiriert ist.

Um diese Aufgabe zu erfüllen, muss ESM3 lernen, die Zusammenhänge zwischen Sequenz, Struktur und Funktion in Daten im Evolutionsmaßstab tiefgreifend zu verstehen. ESM3 lernt, die Evolution zu simulieren, wenn es auf Milliarden von Proteinen und Milliarden von Parametern skaliert wird.

ESM3 ist in der Lage, funktionelle Proteine ​​zu erzeugen, die sich von bestehenden bekannten Proteinsequenzen unterscheiden. Dieses Modell zeichnet sich durch seine Fähigkeit aus, komplexe multimodale Signale zu verstehen und darauf zu reagieren, während es gleichzeitig sehr empfindlich auf biologische Ausrichtung reagiert.

ESM3 reagiert sehr empfindlich auf die biologische Ausrichtung, was bedeutet, dass es Muster im Zusammenhang mit der biologischen Evolution und Funktion genau identifizieren und verfolgen kann. Durch diese Ausrichtung können Modelle besser verstehen, wie sich Proteine ​​basierend auf ihren biologischen Rollen und Umweltanforderungen entwickeln, und so die biologische Logik und evolutionären Einschränkungen der Natur bei der Entwicklung neuer Proteine ​​genauer widerspiegeln.

Es kann je nach Aufforderung neue Proteine ​​erzeugen. Die multimodalen Inferenzfähigkeiten von ESM3 ermöglichen es Wissenschaftlern, neue Proteine ​​mit einem beispiellosen Maß an Kontrolle zu generieren. Beispielsweise können Modelle dazu veranlasst werden, Struktur, Sequenz und Funktion zu kombinieren, um potenzielle Gerüste für das aktive Zentrum von PETase vorzuschlagen, einem Enzym, das Polyethylenterephthalat (PET) abbaut, einem Proteiningenieur, der Forschungsziele im Bereich Plastikmüll aufschlüsselt.

Schwierigere Generationsprobleme lösen

Es simuliert evolutionäre Informationen aus 500 Millionen Jahren und ist das erste groß angelegte biologische Modell, das gleichzeitig auf Proteinsequenz, -struktur und -funktion schließen kann.

Abbildung: ESM3-Modell evaluiert hinsichtlich der Aufgabe, Proteine ​​zu erzeugen, die atomare Koordinationsmerkmale erfüllen. (Quelle: Papier)

ESM3s Fähigkeit, anspruchsvolle Proteindesignaufgaben zu lösen, wird mit zunehmender Proteinskala deutlich. Eine dieser Aufgaben ist die atomare Koordination, das Design von Proteinen auf der Grundlage von Hinweisen, die die Positionen von Aminosäureatomen angeben, die in der Reihenfolge entfernt, aber in der Struktur näher beieinander liegen.

Dies misst die Fähigkeit eines Modells, bei der Strukturgenerierung eine Genauigkeit auf atomarer Ebene zu erreichen, was für das Design funktioneller Proteine ​​von entscheidender Bedeutung ist. Die Fähigkeit von ESM3, diese Aufgaben zu lösen, steigt mit der Skalierung, das heißt, ESM3 löst schwierigere Generationsprobleme als Funktion der Skalierung.

ESM3 wird durch Feedback weiter verbessert, indem eine Ausrichtungsmethode verwendet wird, die dem im LLM angewendeten Reinforcement Learning with Human Feedback (RLHF) ähnelt. Anstatt Feedback von Menschen zu erhalten, kann ESM3 sich selbst verbessern und Feedback zur Qualität seiner eigenen Generation geben. Rückmeldungen aus Nasslaborexperimenten oder vorhandenen experimentellen Daten können ebenfalls genutzt werden, um die Generierung von ESM3 mit der Biologie in Einklang zu bringen.

Umspannt 500 Millionen Jahre natürlichen Evolutionsabstands

Forscher nutzten ESM3, um ein neues fluoreszierendes Protein namens esmGFP zu entwerfen, das nur 58 % Sequenzhomologie mit dem ähnlichsten bekannten fluoreszierenden Protein aufweist, was bei früheren künstlichen Proteinen äußerst selten war Entwürfe.

Indem ESM3 angewiesen wurde, sich auf die Sequenz und Strukturmerkmale zu konzentrieren, die für die Bildung fluoreszierender Proteine ​​und die Katalyse von Chromosomenreaktionen erforderlich sind, wurde das Modell durch eine Reihe von Iterationen entworfen, was letztendlich zu esmGFP mit hellen Fluoreszenzeffekten führte.

Es simuliert evolutionäre Informationen aus 500 Millionen Jahren und ist das erste groß angelegte biologische Modell, das gleichzeitig auf Proteinsequenz, -struktur und -funktion schließen kann.

Abbildung: esmGFP im Vergleich zu bekannten fluoreszierenden Proteinen. (Quelle: Papier)

Dieses Protein unterscheidet sich nicht nur deutlich von bekannten Proteinen in der Sequenz, sondern zeigt in Experimenten auch eine ähnliche Fluoreszenzintensität wie herkömmliche fluoreszierende Proteine. Dies entspricht einer natürlichen Evolutionsdistanz von mehr als 500 Millionen Jahren.

EvolutionaryScale ist ein gemeinnütziges Unternehmen. Ihre Mission ist es, künstliche Intelligenz zu entwickeln, um die Biologie zu verstehen und so der menschlichen Gesundheit und der Gesellschaft durch Zusammenarbeit mit der wissenschaftlichen Gemeinschaft und offener, sicherer und verantwortungsvoller Forschung zu helfen. Seit seiner Gründung hat sich das ESM-Projekt der offenen Wissenschaft durch Code- und Modellveröffentlichungen verschrieben, und das Team ist bestrebt, dies auch weiterhin zu tun.

Das Unternehmen wurde im Juli 2023 gegründet, hat eine Seed-Finanzierungsrunde in Höhe von 142 Millionen US-Dollar abgeschlossen und eine Zusammenarbeit mit Amazon und NVIDIA geschlossen.

ESM-bezogener Code: https://github.com/evolutionaryscale/esm
Papierlink: https://evolutionaryscale-public.s3.us-east-2.amazonaws.com/research/esm3.pdf
Verwandte Berichte:
https://www.evolutionaryscale.ai/blog/esm3-release
https://twitter.com/ylecun/status/1805634811773571496
https://twitter .com/ylecun/status/1805581310548697360
https://x.com/ebetica/status/1805599844246884677
https://www.businesswire.com/news/home/20240625717839/ de /

Das obige ist der detaillierte Inhalt vonEs simuliert evolutionäre Informationen aus 500 Millionen Jahren und ist das erste groß angelegte biologische Modell, das gleichzeitig auf Proteinsequenz, -struktur und -funktion schließen kann.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

In Verbindung stehende Artikel

Mehr sehen