Wie weit hat sich Transformer im Bereich Reinforcement Learning entwickelt? Die Tsinghua-Universität, die Peking-Universität und andere haben gemeinsam eine Rezension von TransformRL veröffentlicht

Wie weit hat sich Transformer im Bereich Reinforcement Learning entwickelt? Die Tsinghua-Universität, die Peking-Universität und andere haben gemeinsam eine Rezension von TransformRL veröffentlicht

王林

Apr 13, 2023 am 10:46 AM

ai强化学习

Reinforcement Learning (RL) bietet eine mathematische Form für sequentielle Entscheidungsfindung, und auch Deep Reinforcement Learning (DRL) hat in den letzten Jahren große Fortschritte gemacht. Probleme mit der Stichprobeneffizienz behindern jedoch die weit verbreitete Anwendung von Deep-Reinforcement-Learning-Methoden in der realen Welt. Um dieses Problem zu lösen, besteht ein wirksamer Mechanismus darin, eine induktive Vorspannung in das DRL-Framework einzuführen.

Beim Deep Reinforcement Learning sind Funktionsnäherungen sehr wichtig. Im Vergleich zum Architekturdesign beim überwachten Lernen (Supervised Learning, SL) werden die Architekturdesignprobleme beim DRL jedoch immer noch selten untersucht. Die meisten bestehenden Arbeiten zu RL-Architekturen wurden von der betreuten/halbüberwachten Lerngemeinschaft vorangetrieben. Bei der Verarbeitung von Eingaben auf der Grundlage hochdimensionaler Bilder in DRL besteht beispielsweise die Einführung von Faltungs-Neuronalen Netzen (CNN) [LeCun et al., 1998; Mnih et al., 2015]; Beobachtbarkeit) Ein gängiger Ansatz für Bilder ist die Einführung rekurrenter neuronaler Netze (RNN) [Hochreiter und Schmidhuber, 1997; Hausknecht und Stone, 2015].

In den letzten Jahren hat die Transformer-Architektur [Vaswani et al., 2017] eine bessere Leistung als CNN und RNN gezeigt und ist bei immer mehr SL-Aufgaben zu einem Lernparadigma geworden [Devlin et al., 2018; Dosovitskiy et al., 2020; Dong et al., 2018]. Die Transformer-Architektur unterstützt die Modellierung langfristiger Abhängigkeiten und verfügt über eine hervorragende Skalierbarkeit [Khan et al., 2022]. Inspiriert durch den Erfolg von SL haben die Menschen ein starkes Interesse daran entwickelt, Transformer auf das verstärkende Lernen anzuwenden, in der Hoffnung, die Vorteile von Transformer auf den Bereich RL anzuwenden. Die Verwendung von

Transformer in RL lässt sich auf eine Studie von Zambaldi et al. aus dem Jahr 2018 zurückführen, in der der Selbstaufmerksamkeitsmechanismus für das relationale Denken strukturierter Zustandsdarstellungen verwendet wurde. Anschließend versuchten viele Forscher, die Selbstaufmerksamkeit auf das Repräsentationslernen anzuwenden, um Beziehungen zwischen Entitäten für ein besseres politisches Lernen zu extrahieren [Vinyals et al., 2019;

Zusätzlich zur Verwendung von Transformer für das Repräsentationslernen wurde Transformer in früheren Arbeiten auch zur Erfassung multitemporaler Abhängigkeiten verwendet, um Probleme mit der teilweisen Beobachtbarkeit zu lösen [Parisotto et al., 2020; Parisotto und Salakhutdinov, 2021]. Offline-RL [Levine et al., 2020] hat wegen seiner Fähigkeit, große Offline-Datensätze zu nutzen, Aufmerksamkeit erregt. Inspiriert durch Offline-RL zeigen neuere Untersuchungen, dass die Transformer-Struktur direkt als Modell für die sequentielle Entscheidungsfindung verwendet werden kann [Chen et al., 2021] und auf mehrere Aufgaben und Bereiche verallgemeinert werden kann [Lee et al ., 2022; Carroll et al., 2022].

Tatsächlich steht die Verwendung von Transformer als Funktionsnäherung beim Reinforcement Learning vor einigen besonderen Herausforderungen, darunter:

Die Trainingsdaten eines Reinforcement Learning Agents sind normalerweise eine Funktion der aktuellen Richtlinie, die eine Funktion von ist Die aktuelle Richtlinie beim Lernen von Transformer führt zu Nichtstationarität.
Bestehende RL-Algorithmen reagieren normalerweise sehr empfindlich auf Designentscheidungen während des Trainingsprozesses, einschließlich Modellarchitektur und Modellkapazität [Henderson et al., 2018]; Transformator-basierte Architekturen unterliegen häufig hohen Rechen- und Speicherkosten, was Training und Inferenz im RL-Lernprozess teuer macht.

Um die Entwicklung des Bereichs des Verstärkungslernens besser voranzutreiben, haben Forscher der Tsinghua-Universität, der Peking-Universität, des Zhiyuan Artificial Intelligence Research Institute und von Tencent gemeinsam einen Übersichtsartikel zu Transformer (d. h. TransformRL) im Verstärkungslernen veröffentlicht, fasst die zusammen aktuelle bestehende Methoden und Herausforderungen und diskutiert zukünftige Entwicklungsrichtungen. Der Autor ist davon überzeugt, dass TransformRL eine wichtige Rolle bei der Stimulierung des Potenzials des verstärkenden Lernens spielen wird.

Papieradresse: https://arxiv.org/pdf/2301.03044.pdf

Die Gesamtstruktur des Papiers ist wie folgt:

Kapitel 2 stellt das Hintergrundwissen von RL und Transformer vor und stellt dann kurz vor, wie die beiden kombiniert werden; 3 beschreibt die Entwicklung der Netzwerkarchitektur in RL und die seit langem bestehenden Herausforderungen in RL, die eine umfassende Erforschung der Transformer-Architektur behindert haben klassifizierte und aktuelle repräsentative Methoden werden diskutiert;
Kapitel 5 fasst mögliche zukünftige Forschungsrichtungen zusammen und zeigt sie auf.
Der Kerninhalt beginnt mit Kapitel 3 des Papiers.
Netzwerkarchitektur in RL

Bevor die Klassifizierungsmethode von TransformRL vorgestellt wird, überprüft das Papier den frühen Fortschritt des Netzwerkarchitekturdesigns in RL und Die bestehenden Herausforderungen werden zusammengefasst. Der Autor glaubt, dass Transformer eine fortschrittliche neuronale Netzwerkarchitektur ist, die zur Entwicklung von Deep Reinforcement Learning (DRL) beitragen wird.

Die Architektur des Funktionsnähers

von Deep Q- Netzwerk Seit der Pionierarbeit von [Mnih et al., 2015] wurden viele Anstrengungen zur Netzwerkarchitektur von DRL-Agenten unternommen. Verbesserungen der Netzwerkarchitektur beim Reinforcement Learning werden hauptsächlich in zwei Kategorien unterteilt.

Der erste Typ besteht darin, neue Strukturen zu entwerfen und die induktive RL-Vorspannung zu kombinieren, um die Schwierigkeit von Trainingsstrategien oder Wertfunktionen zu verringern. Beispielsweise schlugen [Wang et al. 2016] eine Duell-Netzwerkarchitektur vor, bei der ein Netzwerk für die Zustandswertfunktion und das andere für die zustandsbezogene Aktionsvorteilsfunktion verwendet wird. Dieses Architekturdesign kombiniert induktive Voreingenommenheit.

Der andere Typ besteht darin, zu untersuchen, ob häufig verwendete neuronale Netzwerktechniken (wie Regularisierung, Restverbindung (Verbindung überspringen), Batch-Normalisierung) auf RL angewendet werden können. Beispielsweise haben [Ota et al. 2020] herausgefunden, dass die Erhöhung der Eingabedimension bei gleichzeitiger Verwendung eines Online-Feature-Extraktors zur Verbesserung der Zustandsdarstellung dazu beitragen kann, die Leistung und Stichprobeneffizienz von DRL-Algorithmen zu verbessern. [Sinha et al. 2020] schlugen eine äußerst dichte Architektur für DRL-Agenten vor, die Restverbindungen für effizientes Lernen und induktive Verzerrungen nutzt, um das Problem der Datenverarbeitungsungleichheit zu lindern. [Ota et al. 2021] nutzen DenseNet [Huang et al., 2017] und entkoppeltes Repräsentationslernen, um den Informationsfluss und die Gradienten in großen Netzwerken zu verbessern. Aufgrund der überlegenen Leistung von Transformer haben Forscher kürzlich versucht, die Transformer-Architektur auf Richtlinienoptimierungsalgorithmen anzuwenden, stellten jedoch fest, dass gewöhnliche Transformer-Designs bei RL-Aufgaben keine ideale Leistung erzielen können [Parisotto et al., 2020].

Angesichts der Herausforderungen

Obwohl in den letzten Jahren basierend auf Die Transformer-Architektur hat im SL-Bereich große Fortschritte gemacht, aber die Anwendung von Transformer auf RL ist nicht einfach. Tatsächlich gibt es mehrere einzigartige Herausforderungen.

Aus RL-Sicht weisen viele Studien darauf hin, dass bestehende RL-Algorithmen sehr empfindlich auf die Architektur tiefer neuronaler Netze reagieren [Henderson et al., 2018; Engstrom et al ., 2019; Andrychowicz et al., 2020]. Erstens führt der Paradigmenwechsel zwischen Datenerfassung und Richtlinienoptimierung im RL zu Instabilität im Training. Zweitens reagieren RL-Algorithmen oft sehr empfindlich auf Designentscheidungen, die während des Trainings getroffen werden. [Emmons et al. 2021] zeigen, dass eine sorgfältige Auswahl der Modellarchitektur und Regularisierung für die Leistung von DRL-Agenten entscheidend ist.

Aus Transformer-Sicht haben Transformer-basierte Architekturen Probleme mit großem Speicherbedarf und hoher Latenz, was ihre effiziente Bereitstellung und Inferenz behindert. In letzter Zeit wurde viel Forschung zu Verbesserungen der Rechen- und Speichereffizienz der ursprünglichen Transformer-Architektur betrieben, der Großteil dieser Arbeit konzentrierte sich jedoch auf den SL-Bereich.

Im Bereich RL schlugen Parisotto und Salakhutdinov vor, das auf einem Transformator mit großer Kapazität basierende Lernmodell in ein Aktormodell mit kleiner Kapazität umzuwandeln, um die hohe Inferenzverzögerung zu vermeiden von Transformer. Allerdings ist dieser Ansatz immer noch speicher- und rechenintensiv. Derzeit werden effiziente oder leichte Transformatoren von der RL-Community nicht vollständig erforscht.

Transformer im Reinforcement Learning

Obwohl Transformer zum Grundmodell für die meisten Forschungsarbeiten zum überwachten Lernen geworden ist, wurde es aus diesem Grund nicht in RL verwendet Die oben genannten Herausforderungen sind seit langem nicht mehr weit verbreitet. Tatsächlich verwendeten die meisten frühen Versuche von TransformRL Transformer für das Lernen von Zustandsdarstellungen oder die Bereitstellung von Speicherinformationen, während für das Lernen von Agenten weiterhin Standard-RL-Algorithmen verwendet wurden, wie z. B. Lernen über zeitliche Differenzen und Richtlinienoptimierung.

Trotz der Einführung von Transformer als Funktionsnäherung werden diese Methoden daher immer noch von traditionellen RL-Frameworks herausgefordert. Bis vor kurzem ermöglichte Offline-RL das Erlernen optimaler Richtlinien aus umfangreichen Offline-Daten. Inspiriert durch Offline-RL behandeln neuere Arbeiten das RL-Problem weiter als ein Problem der bedingten Sequenzmodellierung mit fester Erfahrung. Dadurch wird die Bootstrapping-Fehlerherausforderung im herkömmlichen RL umgangen, sodass die Transformer-Architektur ihre leistungsstarken sequentiellen Modellierungsfunktionen freisetzen kann.

Der Artikel gibt einen Überblick über den Fortschritt von TransformRL und stellt bestehende Methoden nach Klassifizierung vor. Die Autoren klassifizieren bestehende Methoden in vier Kategorien: Repräsentationslernen, Modelllernen, sequentielle Entscheidungsfindung und Allzweckagenten. Abbildung 2 zeigt einen Überblick über die relevanten Klassifizierungen.

Transformer für das Repräsentationslernen

Angesichts der sequentiellen Natur von RL-Aufgaben ist es sinnvoll, das Transformer-Encoder-Modul zu verwenden. Tatsächlich müssen verschiedene Sequenzen in RL-Aufgaben verarbeitet werden, wie zum Beispiel lokale Sequenzen pro Zeitschritt (Multi-Entity-Sequenzen [Vinyals et al., 2019; Baker et al., 2019], Multi-Agent-Sequenzen [Wen et al. , 2022]), Zeitreihen ([Parisotto et al., 2020; Banino et al., 2021]) usw.

Encoder für lokale Sequenzen pro Zeitschritt

Der bedeutende frühe Erfolg dieses Ansatzes spiegelte sich in der Verwendung von Transformern zur Verarbeitung der komplexen Informationen einer variablen Anzahl von vom Agenten beobachteten Entitäten wider. [Zambaldi et al., 2018a] schlugen zunächst die Verwendung der Multi-Head-Punktproduktaufmerksamkeit vor, um das relationale Denken strukturierter Beobachtungen zu erfassen, und dann implementierte AlphaStar [Vinyals et al., 2019] die Handhabung in einer anspruchsvollen Multi-Agenten-Umgebung (StarCraft II). Multi-Entity-Beobachtungen. In diesem als Entitätstransformer bezeichneten Mechanismus werden Beobachtungen in der folgenden Form codiert:

wobei e_i die Beobachtung der Entität i durch den Agenten darstellt, entweder direkt aus der gesamten Beobachtung herausgeschnitten oder vom Entitäts-Tokenizer bereitgestellt.

Einige Folgearbeiten bereichern den Entity-Transformer-Mechanismus. [Hu et al. 2020] schlugen eine kompatible Entkopplungsstrategie vor, um Aktionen explizit mit verschiedenen Entitäten zu verknüpfen und einen Aufmerksamkeitsmechanismus für die Richtlinieninterpretation zu nutzen. Um eine anspruchsvolle visuelle Nachahmung auf einmal zu erreichen, nutzen Dasari und Gupta [2021] Transformer, um Darstellungen zu erlernen, die sich auf aufgabenspezifische Elemente konzentrieren.

Ähnlich wie über Beobachtungen verstreute Entitäten verwenden einige Studien Transformer, um andere lokale Sequenzen pro Zeitschritt zu verarbeiten. Tang und Ha [2021] nutzen den Aufmerksamkeitsmechanismus von Transformer, um Wahrnehmungssequenzen zu verarbeiten und eine permutationsinvariante Eingabestrategie zu entwickeln. In inkompatiblem Multitask-RL schlugen [Kurin et al., 2020] die Verwendung von Transformer vor, um morphologisches Domänenwissen zu extrahieren.

Timing Encoder

Gleichzeitig ist es auch sinnvoll, Transformer zur Verarbeitung von Timing-Sequenzen zu verwenden. Als Speicherarchitektur wird ein zeitlicher Encoder verwendet,

wobei o_t die Beobachtung des Agenten zum Zeitpunkt t darstellt und Emb_0:t die Einbettung historischer Beobachtungen von der ersten Beobachtung bis zur aktuellen Beobachtung darstellt.

In früheren Arbeiten war [Mishra et al. 2018] nicht in der Lage, zeitliche Sequenzen mit einem Vanilla-Transformer zu verarbeiten und stellte fest, dass dieser bei einigen spezifischen Aufgaben sogar schlechtere Ergebnisse lieferte als eine Zufallsrichtlinie. Gated Transformer-XL (GTrXL) [Parisotto et al., 2020] ist die erste effiziente Lösung, die Transformer als Speicherarchitektur zur Verarbeitung von Trajektorien verwendet. GTrXL modifiziert die Transformer-XL-Architektur [Dai et al., 2019] durch Identity Map Reordering, um einen „Sprung“-Pfad von der sequentiellen Eingabe zur Transformer-Ausgabe bereitzustellen, was dazu beitragen kann, von Anfang an einen stabilen Trainingsprozess zu bilden. [Loynd et al. 2020] schlugen einen Speichervektor-Verknüpfungsmechanismus für langfristige Abhängigkeiten vor und [Irie et al. 2021] kombinierten einen linearen Transformator mit einem Fast Weight Programmer für eine bessere Leistung. [Melo 2022] schlug die Verwendung eines Selbstaufmerksamkeitsmechanismus vor, um die Speicherwiederherstellung für speicherbasiertes Meta-RL zu simulieren.

Obwohl Transformer mit zunehmendem Speicher und zunehmender Parametergröße eine bessere Leistung als LSTM/RNN erbringt, ist es auf RL nicht dateneffizient. Nachfolgende Arbeiten nutzen einige selbstüberwachte Hilfsaufgaben, um das Lernen zu erleichtern [Banino et al., 2021] oder verwenden vorab trainierte Transformer-Architekturen als zeitliche Encoder [Li et al., 2022; Fan et al., 2022].

Transformer für Modelllernen

Neben der Verwendung von Transformer als Encoder für die Sequenzeinbettung dient die Transformer-Architektur auch als Rückgrat des Umgebungsmodells in modellbasierten Algorithmen. Im Gegensatz zu Vorhersagen, die auf einstufigen Beobachtungen und Aktionen basieren, ermöglichen Transformer Umgebungsmodellen die Vorhersage von Übergängen, die auf einer bestimmten Länge historischer Informationen basieren.

Tatsächlich wurde der Erfolg von Dreamer und seinen nachfolgenden Algorithmen [Hafner et al., 2020, 2021; Seo et al., 2022] in einigen teilweise beobachtbaren Umgebungen oder Aufgaben nachgewiesen, die auf der Geschichte basierende Gedächtnismechanismen erfordern. Vorteile des Informationsweltmodells. Ein auf historischen Informationen basierendes Weltmodell besteht aus einem Beobachtungsencoder, der abstrakte Informationen erfasst, und einem Transformationsmodell, das Transformationen im latenten Raum lernt.

Es gab Studien, die Transformer-Architektur anstelle von RNN verwendeten, um geschichtsbasierte Weltmodelle zu erstellen. [Chen et al. 2022] Ersetzen Sie das RNN-basierte Recurrent State-Space Model (RSSM) in Dreamer durch das Transformer-basierte Modell TSSM (Transformer State-Space Model). IRIS (Imagination with autoRegression over an Inner Speech) [Micheli et al., 2022] lernt ein Transformer-basiertes Weltmodell durch autoregressives Lernen der Rollout-Erfahrung ohne KL-Balancing wie Dreamer und ist in Atari implementiert [Bellemare et al., 2013] und gute Ergebnisse erzielt.

Darüber hinaus gibt es auch Studien, die versuchen, Transformer-basierte Weltmodelle für die Planung zu nutzen. [Ozair et al. 2021] verifizierten die Wirksamkeit der Planung mithilfe des Transformer-Transformationsmodells zur Erledigung stochastischer Aufgaben. [Sun et al. 2022] schlugen ein zielkonditioniertes Transformer-Transformationsmodell vor, das bei der visuellen Planung von Verfahrensaufgaben wirksam ist.

Sowohl RNN als auch Transformer eignen sich zum Erlernen von Weltmodellen basierend auf historischen Informationen. [Micheli et al. 2022] stellten jedoch fest, dass die Transformer-Architektur im Vergleich zu Dreamer ein dateneffizienteres Weltmodell ist. Experimentelle Ergebnisse zu TSSM zeigen, dass die Transformer-Architektur bei Aufgaben, die ein Langzeitgedächtnis erfordern, eine gute Leistung erbringt.

Transformer für sequentielle Entscheidungsfindung

Transformer lässt sich nicht nur als Hochleistungsarchitektur in traditionelle RL-Algorithmen integrieren, sondern kann auch direkt als sequentielles Entscheidungsmodell verwendet werden. Dies liegt daran, dass RL als ein Problem der bedingten Sequenzmodellierung betrachtet werden kann: Generieren Sie Aktionssequenzen, die hohe Belohnungen bringen.

Angesichts der hervorragenden Genauigkeit von Transformer bei der Sequenzvorhersage schlägt Bootstrapped Transformer (BooT) [Wang et al., 2022] vor, Daten über Bootstrap Transformer zu generieren und gleichzeitig die Daten für die sequentielle Entscheidungsfindung zu optimieren. Bootstrapping Transformer zur Datenerweiterung kann die Anzahl und Abdeckung von Offline-Datensätzen erweitern und dadurch die Leistung verbessern. Insbesondere vergleicht BooT verschiedene Datengenerierungsschemata und Bootstrapping-Schemata, um zu analysieren, wie BooT das Lernen von Richtlinien erleichtert. Die Ergebnisse zeigen, dass es ohne zusätzliche Einschränkungen Daten generieren kann, die mit dem zugrunde liegenden MDP konsistent sind.

Transformator für Universalagenten

Decision Transformer hat bei verschiedenen Aufgaben mit Offline-Daten eine große Rolle gespielt. Einige Forscher haben begonnen zu überlegen, ob Transformer es Allzweckagenten ermöglichen kann, mehrere verschiedene Aufgaben oder Probleme wie in den Bereichen CV und NLP zu lösen.

Auf mehrere Aufgaben verallgemeinern

Einige Forscher greifen auf die Idee zurück, große Datensätze in CV und NLP vorab zu trainieren, und versuchen, die Verallgemeinerung von großen Multitasking-Aufgaben zu abstrahieren Datensätze Strategie. Multi-Game Decision Transformer (MGDT) [Lee et al., 2022] ist eine Variante von DT, die DT anhand eines vielfältigen Datensatzes lernt, der aus Experten- und Nicht-Expertendaten besteht, und eine Reihe von Parametern verwendet, um eine nahezu menschliche Leistung zu erzielen Atari-Spiele. Um eine Leistung auf Expertenebene für Datensätze auf Nicht-Expertenebene zu erhalten, hat MGDT einen Mechanismus zur Argumentation von Expertenaktionen entwickelt, um die Return-to-Go-Posterior-Verteilung auf Expertenebene aus der Return-to-Go-Prior-Verteilung zu berechnen und sie entsprechend zu berechnen zur Bayes'schen Formel Standard-Experten-Return-to-go-Wahrscheinlichkeit.

In ähnlicher Weise ist Switch Trajectory Transformer (SwitchTT) [Lin et al., 2022] eine Multitasking-Erweiterung von TT, die ein spärliches Aktivierungsmodell nutzt, um die FFN-Schicht durch eine hybride Expertenschicht zu ersetzen, um effizientes Multitasking zu erreichen Offline-Lernen. Darüber hinaus verwendet SwitchTT einen verteilten Trajektorienwertschätzer, um die Unsicherheit von Wertschätzungen zu modellieren. Durch diese beiden Verbesserungen ist SwitchTT in Bezug auf Leistung und Trainingsgeschwindigkeit deutlich besser als TT. MGDT und SwitchTT nutzen die Erfahrungen aus mehreren Aufgaben und verschiedenen Richtlinien auf Leistungsebene, um eine allgemeine Richtlinie zu erlernen. Der Aufbau umfangreicher Multitasking-Datensätze ist jedoch nicht trivial.

Im Gegensatz zu umfangreichen Datensätzen in CV und NLP, die normalerweise umfangreiche Daten aus dem Internet und einfache manuelle Kennzeichnung verwenden, fehlen sequentiellen Entscheidungsdaten in RL immer Handlungsinformationen und sie sind nicht einfach zu kennzeichnen. Daher schlugen [Baker et al. 2022] ein halbüberwachtes Schema zum Erlernen eines Transformer-basierten inversen dynamischen Modells (IDM) unter Verwendung umfangreicher Online-Daten ohne Aktionsinformationen vor. Das Modell nutzt vergangene und zukünftige Beobachtungen, um Handlungsinformationen vorherzusagen, und ist in der Lage, große Mengen an Online-Videodaten zu kennzeichnen. IDM wird anhand eines kleinen Datensatzes erlernt, der manuell gekennzeichnete Aktionen enthält, und ist ausreichend genau.

Viele bestehende Arbeiten im NLP haben die Wirksamkeit von Prompt bei der Anpassung an neue Aufgaben bewiesen, und einige Arbeiten nutzen Prompt-Technologie basierend auf DT-Methoden, um eine schnelle Anpassung zu erreichen. Der auf Eingabeaufforderungen basierende Entscheidungstransformator (Prompt-DT) [Xu et al., 2022] probiert eine Reihe von Transformationen als Eingabeaufforderungen aus einem Demonstrationsdatensatz mit wenigen Schüssen und verallgemeinert die Strategie mit wenigen Schüssen auf Offline-Meta-RL-Aufgaben. [Reed et al. 2022] nutzen die prompt-basierte Architektur weiter, um einen Generalagenten (Gato) durch autoregressive Sequenzmodellierung an sehr großen Datensätzen zu erlernen, die natürliche Sprache, Bilder, zeitliche Entscheidungsfindung und multimodale Daten umfassen. Gato ist in der Lage, eine Reihe von Aufgaben aus verschiedenen Bereichen auszuführen, darunter Texterstellung und Entscheidungsfindung.

[Laskin et al. 2022] schlugen Algorithmic Distillation (AD) vor, um Transformer in einer episodenübergreifenden Sequenz eines RL-Algorithmus-Lernprozesses mit einer einzigen Aufgabe zu trainieren. Daher kann der Transformer auch bei neuen Aufgaben lernen, seine Richtlinien während des autoregressiven Generierungsprozesses schrittweise zu verbessern.

Verallgemeinerung auf ein breiteres Spektrum von Bereichen

Transformer ist nicht nur eine Verallgemeinerung auf mehrere Aufgaben, sondern auch ein leistungsstarkes „allgemeines“ Modell, das in einer Reihe von Bereichen im Zusammenhang mit sequentiellen Entscheidungen verwendet werden kann. Herstellung. Inspiriert von der maskierten Sprachmodellierungstechnologie [Devlin et al., 2018] in NLP schlug [Carroll et al. 2022] Uni [MASK] vor, das verschiedene häufig verwendete Forschungsbereiche zu Maskenschlussproblemen vereint, einschließlich Verhaltensklonen, Offline-RL und GCRL , vergangenes/zukünftiges Denken und dynamische Vorhersage. Uni [MASK] vergleicht verschiedene Maskenschemata, darunter aufgabenspezifische Masken, Zufallsmasken und fein abgestimmte Varianten. Die Ergebnisse zeigen, dass ein einzelner Transformer, der mit einer Zufallsmaske trainiert wurde, beliebige Inferenzaufgaben lösen kann.

Darüber hinaus haben [Reid et al. 2022] herausgefunden, dass es von Vorteil ist, DT mithilfe eines Transformers zu optimieren, der auf einem Sprachdatensatz oder einem multimodalen Datensatz mit Sprachmodalitäten vorab trainiert wurde. Dies zeigt, dass auch Wissen aus Nicht-RL-Domänen für das RL-Training durch Transformatoren genutzt werden kann.

Interessierte Leser können den Originaltext des Artikels lesen, um weitere Forschungsdetails zu erfahren.

Das obige ist der detaillierte Inhalt vonWie weit hat sich Transformer im Bereich Reinforcement Learning entwickelt? Die Tsinghua-Universität, die Peking-Universität und andere haben gemeinsam eine Rezension von TransformRL veröffentlicht. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme

Dieser Artikel ist reproduziert unter:51CTO.COM. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen

Verwandter Artikel

Die verborgenen Gefahren des internen Einsatzes der KI: Governance -Lücken und katastrophale RisikenApr 28, 2025 am 11:12 AM

Laut einem neuen Bericht der Apollo Research stellt die nicht kontrollierte interne Bereitstellung fortschrittlicher KI -Systeme erhebliche Risiken dar. Dieser mangelnde Aufsicht, der bei großen KI -Unternehmen weit verbreitet ist

Bauen des AI PolygraphenApr 28, 2025 am 11:11 AM

Traditionelle Lügendetektoren sind veraltet. Wenn man sich auf den vom Armband verbundenen Zeiger stützt, ist ein Lügendetektor, der die lebenswichtigen Anzeichen und physikalischen Reaktionen des Probanden ausdruckt, bei der Identifizierung von Lügen nicht genau. Aus diesem Grund werden die Erkennungsergebnisse normalerweise nicht vom Gericht verabschiedet, obwohl es dazu geführt hat, dass viele unschuldige Menschen inhaftiert wurden. Im Gegensatz dazu ist künstliche Intelligenz eine leistungsstarke Datenmotor, und ihr Arbeitsprinzip besteht darin, alle Aspekte zu beobachten. Dies bedeutet, dass Wissenschaftler künstliche Intelligenz auf Anwendungen anwenden können, die auf verschiedene Weise Wahrheit suchen. Ein Ansatz besteht darin, die Vitalzeichenreaktionen der Person zu analysieren, die wie ein Lügendetektor befragt wird, jedoch mit einer detaillierteren und präziseren vergleichenden Analyse. Ein anderer Ansatz ist die Verwendung von Sprachmarkup, um zu analysieren, was Menschen tatsächlich sagen und Logik und Argumentation verwenden. Wie das Sprichwort sagt, züchtet eine Lüge eine andere Lüge und schließlich

Wird die KI für den Start in der Luft- und Raumfahrtindustrie geklärt?Apr 28, 2025 am 11:10 AM

Die Luft- und Raumfahrtindustrie, ein Pionier der Innovation, nutzt KI, um ihre komplizierten Herausforderungen zu bewältigen. Die zunehmende Komplexität der Modern Aviation erfordert die Automatisierung und Echtzeit-Intelligenzfunktionen von KI für verbesserte Sicherheit, reduzierter Oper

Beobachten Sie das Frühling -Roboter -Rennen von PekingApr 28, 2025 am 11:09 AM

Die schnelle Entwicklung der Robotik hat uns eine faszinierende Fallstudie gebracht. Der N2 -Roboter von Noetix wiegt über 40 Pfund und ist 3 Fuß groß und soll in der Lage sein, sich zurückzufassen. Der G1 -Roboter von Unitree wiegt etwa doppelt so groß wie der N2 und ist etwa 4 Fuß hoch. Es gibt auch viele kleinere humanoide Roboter, die am Wettbewerb teilnehmen, und es gibt sogar einen Roboter, der von einem Fan vorangetrieben wird. Dateninterpretation Der Halbmarathon zog mehr als 12.000 Zuschauer an, aber nur 21 humanoide Roboter nahmen teil. Obwohl die Regierung darauf hinwies, dass die teilnehmenden Roboter vor dem Wettbewerb eine "intensive Ausbildung" durchführten, haben nicht alle Roboter den gesamten Wettbewerb abgeschlossen. Champion - Tiangong ult entwickelt vom Peking Humanoiden Roboter Innovation Center

Die Spiegelfalle: AI -Ethik und der Zusammenbruch der menschlichen VorstellungskraftApr 28, 2025 am 11:08 AM

Künstliche Intelligenz in ihrer aktuellen Form ist nicht wirklich intelligent. Es ist geschickt darin, vorhandene Daten nachzuahmen und zu verfeinern. Wir schaffen keine künstliche Intelligenz, sondern künstliche Schluss

Neues Google Leak enthüllt praktische Google -Fotos -Funktionen UpdateApr 28, 2025 am 11:07 AM

In einem Bericht wurde festgestellt, dass eine aktualisierte Schnittstelle im Code für Google Photos Android Version 7.26 versteckt wurde. Bei jedem Anzeigen eines Fotos werden am unteren Bildschirmrand eine Reihe neu erkannter Vorschaubildesansichten angezeigt. In den neuen Miniaturansichten des Gesichts fehlen Namensschilds. Ich vermute daher, dass Sie einzeln auf sie klicken müssen, um weitere Informationen zu jeder erkannten Person anzuzeigen. Im Moment bietet diese Funktion keine anderen Informationen als diejenigen, die Google Photos in Ihren Bildern gefunden haben. Diese Funktion ist noch nicht verfügbar, daher wissen wir nicht, wie Google sie genau verwendet. Google kann Miniaturansichten verwenden, um mehr Fotos von ausgewählten Personen zu finden, oder kann für andere Zwecke verwendet werden, z. B. für die Bearbeitung der Person. Lassen Sie uns warten und sehen. Wie vorerst

Leitfaden zur Verstärkungsfonetuning - Analytics VidhyaApr 28, 2025 am 09:30 AM

Die Verstärkungsfonetuning hat die KI -Entwicklung erschüttert, indem sie Modelle unterrichten, um sich auf der Grundlage des menschlichen Feedbacks anzupassen. Es mischt beaufsichtigte Lernfundamente mit belohnungsbasierten Updates, um sie sicherer, genauerer und wirklich hilfreicher zu machen

Lassen Sie uns tanzen: Strukturierte Bewegung, um unsere menschlichen neuronalen Netze zu optimierenApr 27, 2025 am 11:09 AM

Wissenschaftler haben ausführlich menschliche und einfachere neuronale Netzwerke (wie die in C. elegans) untersucht, um ihre Funktionalität zu verstehen. Es stellt sich jedoch eine entscheidende Frage: Wie passen wir unsere eigenen neuronalen Netze an, um neben neuartigen Ai S effektiv zu arbeiten

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Was ist neu in Windows 11 KB5054979 und wie Sie Update -Probleme beheben

3 Wochen vorByDDD

Wie kann ich KB5055523 in Windows 11 nicht installieren?

2 Wochen vorByDDD

Inzoi: Wie man sich für Schule und Universität bewerbt

3 Wochen vorByDDD

Wie kann ich KB5055518 in Windows 10 nicht installieren?

2 Wochen vorByDDD

Roblox: Dead Rails - wie man Nikola Tesla beschwört und besiegt

4 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

VSCode Windows 64-Bit-Download

Ein kostenloser und leistungsstarker IDE-Editor von Microsoft

SublimeText3 Englische Version

Empfohlen: Win-Version, unterstützt Code-Eingabeaufforderungen!

DVWA

Damn Vulnerable Web App (DVWA) ist eine PHP/MySQL-Webanwendung, die sehr anfällig ist. Seine Hauptziele bestehen darin, Sicherheitsexperten dabei zu helfen, ihre Fähigkeiten und Tools in einem rechtlichen Umfeld zu testen, Webentwicklern dabei zu helfen, den Prozess der Sicherung von Webanwendungen besser zu verstehen, und Lehrern/Schülern dabei zu helfen, in einer Unterrichtsumgebung Webanwendungen zu lehren/lernen Sicherheit. Das Ziel von DVWA besteht darin, einige der häufigsten Web-Schwachstellen über eine einfache und unkomplizierte Benutzeroberfläche mit unterschiedlichen Schwierigkeitsgraden zu üben. Bitte beachten Sie, dass diese Software

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

SecLists

SecLists ist der ultimative Begleiter für Sicherheitstester. Dabei handelt es sich um eine Sammlung verschiedener Arten von Listen, die häufig bei Sicherheitsbewertungen verwendet werden, an einem Ort. SecLists trägt dazu bei, Sicherheitstests effizienter und produktiver zu gestalten, indem es bequem alle Listen bereitstellt, die ein Sicherheitstester benötigen könnte. Zu den Listentypen gehören Benutzernamen, Passwörter, URLs, Fuzzing-Payloads, Muster für vertrauliche Daten, Web-Shells und mehr. Der Tester kann dieses Repository einfach auf einen neuen Testcomputer übertragen und hat dann Zugriff auf alle Arten von Listen, die er benötigt.

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7812

1646

1402

1300

1236