Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Multifunktionale RNA-Analyse, das auf Transformer basierende RNA-Sprachmodell des Baidu-Teams wird in der Unterzeitschrift „Nature“ veröffentlicht

Multifunktionale RNA-Analyse, das auf Transformer basierende RNA-Sprachmodell des Baidu-Teams wird in der Unterzeitschrift „Nature“ veröffentlicht

WBOY
WBOYOriginal
2024-06-10 22:21:12520Durchsuche

Multifunktionale RNA-Analyse, das auf Transformer basierende RNA-Sprachmodell des Baidu-Teams wird in der Unterzeitschrift „Nature“ veröffentlicht

Editor |. Radish Core

Vorab trainierte Sprachmodelle haben sich bei der Analyse von Nukleotidsequenzen als vielversprechend erwiesen, aber es gibt immer noch Herausforderungen bei der Verwendung eines einzigen vorab trainierten Gewichtssatzes, um multifunktionale Modelle zu erstellen, die bei verschiedenen Aufgaben gut funktionieren .

Baidu Big Data Lab (BDL) und das Team der Shanghai Jiao Tong University haben RNAErnie entwickelt, ein RNA-zentriertes Pre-Training-Modell basierend auf der Transformer-Architektur.

Die Forscher bewerteten das Modell anhand von sieben Datensätzen und fünf Aufgaben und zeigten die Überlegenheit von RNAErnie sowohl beim überwachten als auch beim unbeaufsichtigten Lernen.

RNAErnie übertrifft die Basislinie, indem es die Klassifizierungsgenauigkeit um 1,8 %, die Genauigkeit der Interaktionsvorhersage um 2,2 % und den F1-Score der Strukturvorhersage um 3,3 % verbessert, was seine Robustheit und Anpassungsfähigkeit demonstriert.

Die Studie trägt den Titel „Mehrzweck-RNA-Sprachmodellierung mit motivbewusstem Vortraining und typgesteuerter Feinabstimmung“ und wurde am 13. Mai 2024 in „Nature Machine Intelligence“ veröffentlicht.

Multifunktionale RNA-Analyse, das auf Transformer basierende RNA-Sprachmodell des Baidu-Teams wird in der Unterzeitschrift „Nature“ veröffentlicht

RNA spielt im zentralen Dogma der Molekularbiologie eine Schlüsselrolle und ist für die Übertragung genetischer Informationen in der DNA auf Proteine ​​verantwortlich.

RNA-Moleküle spielen eine wichtige Rolle bei verschiedenen zellulären Prozessen wie Genexpression, Regulation und Katalyse. Angesichts der Bedeutung von RNA in biologischen Systemen besteht ein wachsender Bedarf an effizienten und genauen Analysemethoden für RNA-Sequenzen.

Die traditionelle RNA-Seq-Analyse basiert auf experimentellen Techniken wie RNA-Sequenzierung und Microarrays, aber diese Methoden sind oft kostspielig, zeitaufwändig und erfordern große Mengen an RNA-Input.

Um diese Herausforderungen anzugehen, haben die Teams von Baidu BDL und der Shanghai Jiao Tong University ein vorab trainiertes RNA-Sprachmodell entwickelt: RNAErnie.

RNAErnie

Das Modell basiert auf dem ERNIE-Framework (Enhanced Representation of Knowledge Integration) und enthält mehrschichtige und mehrköpfige Transformer-Blöcke mit jeweils einer verborgenen Zustandsdimension von 768. Das Vortraining wird mit einem umfangreichen Korpus durchgeführt, der aus etwa 23 Millionen RNA-Sequenzen besteht, die sorgfältig von RNAcentral ausgewählt wurden.

Die vorgeschlagene motivbewusste Pre-Training-Strategie umfasst Maskierung auf Basisebene, Maskierung auf Subsequenzebene und Zufallsmaskierung auf Motivebene, wodurch Wissen auf Subsequenz- und Motivebene effektiv erfasst und die Darstellung von RNA-Sequenzen bereichert wird.

Darüber hinaus markiert RNAErnie grobkörnige RNA-Typen als spezielle Vokabulare und hängt die Markierungen grobkörniger RNA-Typen während des Vortrainings an das Ende jeder RNA-Sequenz an. Auf diese Weise hat das Modell das Potenzial, einzigartige Merkmale verschiedener RNA-Typen zu erkennen und so die Domänenanpassung an verschiedene nachgelagerte Aufgaben zu erleichtern.

Multifunktionale RNA-Analyse, das auf Transformer basierende RNA-Sprachmodell des Baidu-Teams wird in der Unterzeitschrift „Nature“ veröffentlicht

Abbildung: Modellübersicht. (Quelle: Papier)

Konkret besteht das RNAErnie-Modell aus 12 Transformer-Schichten. In der themenbewussten Vortrainingsphase wird RNAErnie anhand eines Datensatzes von etwa 23 Millionen Sequenzen trainiert, die aus der RNAcentral-Datenbank extrahiert wurden, wobei selbstüberwachtes Lernen und themenbewusste mehrstufige Zufallsmasken zum Einsatz kommen.

Multifunktionale RNA-Analyse, das auf Transformer basierende RNA-Sprachmodell des Baidu-Teams wird in der Unterzeitschrift „Nature“ veröffentlicht

Illustration: Themenbewusste Vorschulung und typgeleitete Feinabstimmungsstrategie. (Quelle: Papier)

In der typgesteuerten Feinabstimmungsphase verwendet RNAErnie zunächst die Ausgabeeinbettungen, um mögliche grobkörnige RNA-Typen vorherzusagen, und verwendet dann die vorhergesagten Typen als Hilfsinformationen, um das Modell durch Aufgaben zu verfeinern. spezifische Header.

Dieser Ansatz ermöglicht die Anpassung des Modells an verschiedene RNA-Typen und verbessert seinen Nutzen bei einer Vielzahl von RNA-Analyseaufgaben.

Genauer gesagt, um sich an Verteilungsänderungen zwischen dem vorab trainierten Datensatz und der Zieldomäne anzupassen, nutzt RNAErnie die Domänenanpassung, um das vorab trainierte Backbone mit Downstream-Modulen in drei neuronalen Architekturen zu kombinieren: Frozen Backbone with Trainable Heads Net (FBTH), trainierbares Rückgrat mit trainierbaren Köpfen (TBTH) und Stapelung für typgesteuerte Feinabstimmung (STACK).

Auf diese Weise kann die vorgeschlagene Methode je nach Downstream-Anwendung das Backbone und aufgabenspezifische Header durchgängig optimieren oder aus dem eingefrorenen Backbone extrahierte Einbettungen verwenden, um aufgabenspezifische Header zu optimieren.

Leistungsbewertung

Multifunktionale RNA-Analyse, das auf Transformer basierende RNA-Sprachmodell des Baidu-Teams wird in der Unterzeitschrift „Nature“ veröffentlicht

Abbildung: RNAErnie erfasst mehrstufige Ontologiemuster. (Quelle: Paper)

Forscher haben die Methode evaluiert und die Ergebnisse zeigten, dass RNAErnie den aktuellen Stand der Technik bei sieben RNA-Sequenzdatensätzen übertrifft, die mehr als 17.000 wichtige RNA-Motive, 20 RNA-Typen und 50.000 RNA-Sequenzen abdecken.

Multifunktionale RNA-Analyse, das auf Transformer basierende RNA-Sprachmodell des Baidu-Teams wird in der Unterzeitschrift „Nature“ veröffentlicht

Abbildung: RNAErnies Leistung bei der Aufgabe zur Vorhersage der RNA-Sekundärstruktur unter Verwendung der Datensätze ArchiveII600 und TS0. (Quelle: Papier)

Bewertet mit 30 gängigen RNA-Sequenzierungstechnologien, was die Verallgemeinerung und Robustheit von RNAErnie demonstriert. Das Team verwendete Genauigkeit, Präzision, Erinnerung, F1-Score, MCC und AUC als Bewertungsmetriken, um einen fairen Vergleich der RNA-seq-Analysemethoden sicherzustellen.

Derzeit gibt es nur wenige Studien zur Anwendung der Transformer-Architektur mit erweitertem externem Wissen auf die RNA-seq-Datenanalyse. Das von Grund auf neu entwickelte RNAErnie-Framework integriert die Einbettung von RNA-Sequenzen und selbstüberwachte Lernstrategien, um überlegene Leistung, Interpretierbarkeit und Generalisierungspotenzial für nachgelagerte RNA-Aufgaben zu bieten.

Darüber hinaus kann RNAErnie durch Modifizieren von Ausgängen und Überwachungssignalen an andere Aufgaben angepasst werden. RNAErnie ist öffentlich verfügbar und ein effizientes Werkzeug zum Verständnis der typgesteuerten RNA-Analyse und erweiterter Anwendungen.

Einschränkungen

Obwohl das RNAErnie-Modell in der RNA-Sequenzanalyse innovativ ist, steht es dennoch vor einigen Herausforderungen.

Erstens ist das Modell durch die Größe der RNA-Sequenzen, die es analysieren kann, begrenzt, da Sequenzen, die länger als 512 Nukleotide sind, verworfen werden und möglicherweise wichtige strukturelle und funktionelle Informationen übersehen werden. Blockierungsmethoden, die für die Verarbeitung längerer Sequenzen entwickelt wurden, können zu einem weiteren Verlust von Informationen über Interaktionen über große Entfernungen führen.

Zweitens ist der Fokus dieser Studie eng und konzentriert sich nur auf RNA-Domänen und erstreckt sich nicht auf Aufgaben wie die Vorhersage von RNA-Proteinen oder die Identifizierung von Bindungsstellen. Darüber hinaus stößt das Modell auf Schwierigkeiten, die dreidimensionalen Strukturmotive der RNA zu berücksichtigen, wie z. B. Schleifen und Verbindungen, die für das Verständnis der RNA-Funktion von entscheidender Bedeutung sind.

Noch wichtiger ist, dass bestehende Post-hoc-Architekturentwürfe auch potenzielle Einschränkungen aufweisen.

Fazit

Dennoch hat RNAErnie großes Potenzial, die RNA-Analyse voranzutreiben. Das Modell demonstriert seine Vielseitigkeit und Wirksamkeit als allgemeine Lösung für verschiedene nachgelagerte Aufgaben.

Darüber hinaus wird erwartet, dass die innovativen Strategien von RNAErnie die Leistung anderer vorab trainierter Modelle in der RNA-Analyse verbessern werden. Diese Erkenntnisse machen RNAErnie zu einem wertvollen Gut, das Forschern ein leistungsstarkes Werkzeug zur Verfügung stellt, um die Komplexität der RNA-bezogenen Forschung zu entschlüsseln.

Link zum Papier:https://www.nature.com/articles/s42256-024-00836-4

Das obige ist der detaillierte Inhalt vonMultifunktionale RNA-Analyse, das auf Transformer basierende RNA-Sprachmodell des Baidu-Teams wird in der Unterzeitschrift „Nature“ veröffentlicht. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn