Heim > Artikel > Technologie-Peripheriegeräte > Googles neue Forschung zur verkörperten Intelligenz: RT-H, das besser als RT-2 ist, ist da
Da große Sprachmodelle wie GPT-4 zunehmend in die Robotik integriert werden, hält künstliche Intelligenz allmählich Einzug in die reale Welt. Daher hat auch die Forschung im Zusammenhang mit der verkörperten Intelligenz immer mehr Aufmerksamkeit auf sich gezogen. Bei vielen Forschungsprojekten stand Googles „RT“-Roboterserie schon immer an vorderster Front, und dieser Trend hat sich in letzter Zeit beschleunigt (Einzelheiten siehe „Große Modelle rekonstruieren Roboter, wie Google Deepmind verkörperte Intelligenz in der Zukunft definiert“).
Im Juli letzten Jahres brachte Google DeepMind RT-2 auf den Markt, das weltweit erste Modell, das Roboter für die Interaktion mit visueller Sprache und Aktion (VLA) steuern kann. Allein durch das Erteilen von Anweisungen im Gespräch kann RT-2 Swift auf einer großen Anzahl von Bildern identifizieren und ihr eine Dose Cola liefern.
Jetzt hat sich dieser Roboter erneut weiterentwickelt. Die neueste Version des RT-Roboters heißt „RT-H“. Er kann die Genauigkeit der Aufgabenausführung und die Lerneffizienz verbessern, indem er komplexe Aufgaben in einfache Sprachanweisungen zerlegt und diese Anweisungen dann in Roboteraktionen umwandelt. Wenn beispielsweise eine Aufgabe wie „Den Deckel auf das Pistazienglas setzen“ und ein Szenenbild gegeben wird, verwendet RT-H ein visuelles Sprachmodell (VLM), um Sprachaktionen (Bewegungen) wie „Bewege den Arm nach vorne“ vorherzusagen „ und „Drehe den Arm nach rechts“ und prognostiziere dann die Aktion des Roboters basierend auf diesen verbalen Aktionen.
Die Aktionsebene ist entscheidend für die Optimierung der Genauigkeit und Lerneffizienz der Roboteraufgabenausführung. Durch diese hierarchische Struktur leistet RT-H bei verschiedenen Roboteraufgaben eine deutlich bessere Leistung als RT-2 und bietet dem Roboter einen effizienteren Ausführungspfad.
Im Folgenden finden Sie die Details des Papiers.
Sprache ist der Motor des menschlichen Denkens, der es uns ermöglicht, komplexe Konzepte in einfachere Komponenten zu zerlegen und zu korrigieren unsere Missverständnisse und verallgemeinern Konzepte in neuen Kontexten. In den letzten Jahren haben Roboter auch damit begonnen, die effiziente und kombinierte Struktur der Sprache zu nutzen, um übergeordnete Konzepte aufzuschlüsseln, Sprachkorrekturen vorzunehmen oder eine Verallgemeinerung in neuen Umgebungen zu erreichen.
Diese Studien folgen in der Regel einem gemeinsamen Paradigma: Wenn sie mit einer Aufgabe auf hohem Niveau konfrontiert werden, die in der Sprache beschrieben wird (wie etwa „die Cola-Dose aufheben“), lernen sie Strategien, um Beobachtungen und Aufgabenbeschreibungen in der Sprache auf einen Roboter auf niedrigem Niveau abzubilden Maßnahmen, die durch umfangreiche Multitasking-Datensätze erreicht werden müssen. Der Vorteil der Sprache in diesen Szenarien besteht darin, dass sie eine gemeinsame Struktur zwischen ähnlichen Aufgaben kodiert (z. B. „Nimm die Cola-Dose auf“ gegenüber „Nimm den Apfel auf“) und reduziert dadurch den Datenaufwand, der zum Erlernen von Zuordnungen von Aufgaben zu Aktionen erforderlich ist. Da die Aufgaben jedoch vielfältiger werden, wird auch die Sprache, die zur Beschreibung der einzelnen Aufgaben verwendet wird, vielfältiger (z. B. „Nimm eine Cola-Dose“ statt „Fülle ein Glas Wasser auf“), sodass das Lernen zwischen verschiedenen Aufgaben ausschließlich durch Hochsprache erfolgt Es wird schwieriger, Strukturen zu teilen
Um vielfältige Aufgaben zu lernen, wollen Forscher die Ähnlichkeiten zwischen diesen Aufgaben genauer erfassen.
Sie fanden heraus, dass Sprache nicht nur Aufgaben auf hoher Ebene beschreiben, sondern auch detailliert erklären kann, wie die Aufgaben erledigt werden – diese Art der Darstellung ist feinfühliger und näher an bestimmten Aktionen. Beispielsweise kann die Aufgabe „Eine Cola-Dose aufheben“ in eine Reihe detaillierterer Schritte unterteilt werden, nämlich „Sprachbewegung“: zuerst „den Arm nach vorne strecken“, dann „die Dose greifen“ und schließlich „heben“. den Arm nach oben" ”. Die Kernerkenntnis der Forscher besteht darin, dass verbale Aktionen als Zwischenschicht zwischen Aufgabenbeschreibungen auf hoher Ebene und Aktionen auf niedriger Ebene zum Aufbau einer Aktionshierarchie verwendet werden können, die durch verbale Aktionen gebildet wird.
Es gibt mehrere Vorteile, dieses Aktionsniveau festzulegen:
Angesichts der oben genannten Vorteile von Sprachaktionen haben Forscher von Google DeepMind ein End-to-End-Framework entwickelt – RT-H (Robot Transformer with Action Hierarchies, also Robotertransformatoren mit Aktionsebenen). , wobei der Schwerpunkt auf dem Erlernen dieser Handlungsebene liegt. RT-H versteht, wie eine Aufgabe auf detaillierter Ebene ausgeführt werden kann, indem es Beobachtungen und Aufgabenbeschreibungen auf hoher Ebene analysiert, um aktuelle verbale Handlungsanweisungen vorherzusagen. Mithilfe dieser Beobachtungen, Aufgaben und abgeleiteten verbalen Aktionen sagt RT-H dann die entsprechenden Aktionen für jeden Schritt voraus. Die verbalen Aktionen liefern zusätzlichen Kontext im Prozess, um dabei zu helfen, bestimmte Aktionen genauer vorherzusagen (violetter Bereich in Abbildung 1).
Darüber hinaus entwickelten sie eine automatisierte Methode, um vereinfachte Sprachaktionssätze aus der Propriozeption des Roboters zu extrahieren und so eine umfangreiche Datenbank mit mehr als 2500 Sprachaktionen aufzubauen, ohne dass manuelle Anmerkungen erforderlich sind.
Die Modellarchitektur von RT-H basiert auf RT-2, einem groß angelegten visuellen Sprachmodell (VLM), das gemeinsam auf visuellen und sprachlichen Daten im Internetmaßstab trainiert wird, um die Effekte des politischen Lernens zu verbessern. RT-H verwendet ein einziges Modell, um sowohl Sprachaktionen als auch Aktionsabfragen zu verarbeiten, und nutzt dabei umfassendes Wissen im Internetmaßstab, um jede Ebene der Aktionshierarchie zu unterstützen.
In Experimenten fanden Forscher heraus, dass die Verwendung der Sprachaktionshierarchie bei der Verarbeitung verschiedener Multitask-Datensätze erhebliche Verbesserungen bringen kann und die Leistung bei einer Reihe von Aufgaben im Vergleich zu RT-2 um 15 % steigert. Sie fanden außerdem heraus, dass Modifikationen der Sprechbewegungen zu nahezu perfekten Erfolgsraten bei derselben Aufgabe führten, was die Flexibilität und situative Anpassungsfähigkeit der erlernten Sprechbewegungen demonstrierte. Darüber hinaus übertrifft seine Leistung durch die Feinabstimmung des Modells für sprachliche Handlungsinterventionen die interaktiven Imitationslernmethoden von SOTA (wie IWR) um 50 %. Letztendlich haben sie bewiesen, dass sich Sprachaktionen in RT-H besser an Szenen- und Objektänderungen anpassen können und eine bessere Generalisierungsleistung als RT-2 zeigen.
Um die gemeinsame Struktur über Multitask-Datensätze hinweg effektiv zu erfassen (nicht durch Aufgabenbeschreibungen auf hoher Ebene dargestellt), möchte RT-H lernen, Richtlinien auf Aktionsebene explizit zu nutzen.
Konkret führte das Forschungsteam die Zwischenschicht zur Vorhersage von Sprachaktionen in das politische Lernen ein. Sprachliche Aktionen, die das feinkörnige Verhalten von Robotern beschreiben, können nützliche Informationen aus Multitask-Datensätzen erfassen und leistungsstarke Richtlinien generieren. Sprachaktionen können erneut ins Spiel kommen, wenn die erlernte Richtlinie schwierig umzusetzen ist: Sie bieten eine intuitive Schnittstelle für Online-Korrekturen durch Menschen, die für ein bestimmtes Szenario relevant sind. Auf Sprachaktionen trainierte Richtlinien können auf natürliche Weise menschlichen Korrekturen auf niedriger Ebene folgen und Aufgaben anhand von Korrekturdaten erfolgreich abschließen. Darüber hinaus kann die Strategie sogar auf sprachkorrigierten Daten trainiert werden und ihre Leistung weiter verbessern.
Wie in Abbildung 2 dargestellt, besteht RT-H aus zwei Hauptphasen: Zuerst werden verbale Aktionen auf der Grundlage von Aufgabenbeschreibungen und visuellen Beobachtungen vorhergesagt, und dann werden präzise Aktionen basierend auf vorhergesagten verbalen Aktionen, spezifischen Aufgaben und Beobachtungsergebnissen abgeleitet.
RT-H nutzt das VLM-Backbone-Netzwerk und folgt dem Trainingsprozess von RT-2 zur Instanziierung. Ähnlich wie RT-2 nutzt RT-H umfangreiche Vorkenntnisse in natürlicher Sprache und Bildverarbeitung aus Daten im Internetmaßstab durch kollaboratives Training. Um dieses Vorwissen in alle Ebenen der Aktionshierarchie zu integrieren, lernt ein einzelnes Modell gleichzeitig sowohl verbale Aktionen als auch Aktionsabfragen.
Um die Leistung von RT-H umfassend zu bewerten, stellte das Forschungsteam vier wichtige experimentelle Fragen:
In Bezug auf den Datensatz verwendet diese Studie einen großen Multitasking-Datensatz mit 100.000 Demonstrationsproben mit zufälligen Objektposen und Hintergründen. Dieser Datensatz kombiniert die folgenden Datensätze:
Die Studie nennt diesen kombinierten Datensatz den Diverse+Kitchen (D+K)-Datensatz und verwendet ein automatisiertes Programm, um ihn für verbale Aktionen zu kennzeichnen. Um die Leistung von RT-H zu bewerten, das auf dem gesamten Diverse+Kitchen-Datensatz trainiert wurde, wurden in der Studie acht spezifische Aufgaben ausgewertet, darunter:
1) Die Schüssel aufrecht auf die Theke stellen
2) Das Pistazienglas öffnen
3) Schließen Sie das Pistazienglas
4) Bewegen Sie die Schüssel vom Müslispender weg
5) Stellen Sie die Schüssel unter den Müslispender
6) Geben Sie die Haferflocken in die Schüssel
7) Löffel aus Korb holen
8) Serviette aus Spender ziehen
Diese acht Aufgaben wurden ausgewählt, weil sie komplexe Bewegungsabläufe und hohe Präzision erfordern.
Die folgende Tabelle gibt den minimalen MSE für RT-H-, RT-H-Joint- und RT-2-Trainingskontrollpunkte an, wenn mit dem Diverse+Kitchen-Datensatz oder dem Kitchen-Datensatz trainiert wird. Der MSE von RT-H ist etwa 20 % niedriger als der von RT-2, und der MSE von RTH-Joint ist 5–10 % niedriger als der von RT-2, was darauf hindeutet, dass die Aktionshierarchie dazu beitragen kann, die Offline-Aktionsvorhersage in großen Multi- Aufgabendatensätze. RT-H (GT) verwendet die Ground-Truth-MSE-Metrik und erreicht einen Abstand von 40 % zum End-to-End-MSE, was darauf hinweist, dass korrekt gekennzeichnete Sprachaktionen einen hohen Informationswert für die Vorhersage von Aktionen haben.
Abbildung 4 zeigt mehrere Beispiele kontextbezogener Maßnahmen aus der RT-H-Onlinebewertung. Wie man sehen kann, führt dieselbe verbale Handlung oft zu subtilen Änderungen in den Handlungen, um die Aufgabe zu erfüllen, während die verbale Handlung auf höherer Ebene dennoch respektiert wird.
Wie in Abbildung 5 dargestellt, demonstrierte das Forschungsteam die Flexibilität von RT-H, indem es online in Sprachbewegungen in RT-H intervenierte.
Diese Studie verwendete auch Vergleichsexperimente, um die Wirkung der Korrektur zu analysieren. Die Ergebnisse sind in Abbildung 6 unten dargestellt:
Wie in Abbildung 7 gezeigt, RT-H und RT-H-. Gelenke haben unterschiedliche Auswirkungen auf die Szene. Veränderungen sind spürbar robuster:
Tatsächlich gibt es eine gewisse gemeinsame Struktur zwischen scheinbar unterschiedlichen Aufgaben. Beispielsweise erfordert jede dieser Aufgaben ein gewisses Auswahlverhalten, um die Aufgabe zu starten, und durch das Erlernen der gemeinsamen Struktur von Sprachaktionen über verschiedene Aufgaben hinweg kann RT-H das Aufnehmen erreichen Bühne ohne jegliche Korrektur.
Selbst wenn RT-H nicht mehr in der Lage ist, seine verbalen Handlungsvorhersagen zu verallgemeinern, können verbale Handlungskorrekturen häufig verallgemeinert werden, sodass nur wenige Korrekturen erforderlich sind, um die Aufgabe erfolgreich abzuschließen. Dies zeigt das Potenzial verbaler Aktionen zur Erweiterung der Datenerfassung auf neue Aufgaben.
Interessierte Leser können den Originaltext des Artikels lesen, um mehr über den Forschungsinhalt zu erfahren.
Das obige ist der detaillierte Inhalt vonGoogles neue Forschung zur verkörperten Intelligenz: RT-H, das besser als RT-2 ist, ist da. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!