Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Google-Roboter erreichen interaktive Sprache mit einer Genauigkeit von 93,5 %, und die Menge an Open-Source-Daten verzehnfacht sich.

Google-Roboter erreichen interaktive Sprache mit einer Genauigkeit von 93,5 %, und die Menge an Open-Source-Daten verzehnfacht sich.

PHPz
PHPznach vorne
2023-04-21 19:34:081463Durchsuche

Pass auf, der Mann vor dir gibt einem Roboter ständig Anweisungen in natürlicher Sprache, wie zum Beispiel „Schiebe den grünen Stern zwischen die roten Blöcke“, „Bewege den blauen Block in die untere linke Ecke“, der Roboter antwortet Jede einmal eingegebene Anweisung kann in Echtzeit ausgeführt werden.

Seit den 1960er Jahren versuchen Robotikexperten, Roboter dazu zu bringen, die „natürlichen Sprachanweisungen“ von Menschen zu verstehen und bestimmte Aktionen auszuführen.

Im Idealfall reagieren zukünftige Roboter in Echtzeit auf jede relevante Aufgabe, die Benutzer in natürlicher Sprache beschreiben können.

Insbesondere in einer offenen menschlichen Umgebung müssen Benutzer möglicherweise das Verhalten des Roboters anpassen und schnelle Korrekturen vornehmen, z. B. „Anhalten, den Arm ein wenig nach oben bewegen“ oder Grenzen festlegen „langsam nach rechts bewegen“.

Google-Roboter erreichen interaktive Sprache mit einer Genauigkeit von 93,5 %, und die Menge an Open-Source-Daten verzehnfacht sich.

Darüber hinaus kann Echtzeitsprache die Zusammenarbeit von Menschen und Robotern bei komplexen Langzeitaufgaben erleichtern, bei denen Menschen Roboteroperationen iterativ und interaktiv mit gelegentlichem verbalen Feedback steuern können.

Die aktuelle verwandte Arbeit kann grob in die folgenden drei Teile unterteilt werden:

1. Der Roboterkörper muss in der realen Welt existieren;

2 reichhaltige Befehle in natürlicher Sprache;

3. Fähigkeit, interaktive (interaktive) Sprachbefehle auszuführen, das heißt, der Roboter muss während der Aufgabenausführung neue Anweisungen in natürlicher Sprache akzeptieren.

Was den dritten Punkt betrifft, ist die aktuelle interaktive Entwicklungsgeschwindigkeit im Bereich Roboter immer noch sehr langsam, was auch dazu führt, dass Robotern ein „Lebensgefühl“ fehlt.

Kürzlich hat Google ein Papier veröffentlicht, in dem ein brandneues Framework vorgeschlagen wird, mit dem interaktive Echtzeitroboter in der realen Welt erstellt werden können, die Anweisungen in natürlicher Sprache ausführen. Die relevanten Datensätze, Umgebungen, Benchmarks und Strategien sind alle frei verfügbar. ?? Durch verhaltensbasiertes Klontraining anhand eines Datensatzes von Hunderttausenden sprachlich annotierten Trajektorien kann die resultierende Richtlinie eine Größenordnung mehr Befehle geschickt ausführen, als dies bei früheren Arbeiten der Fall war. In der realen Welt schätzten die Forscher, dass die Methode bei 87.000 verschiedenen Zeichenfolgen in natürlicher Sprache eine Erfolgsquote von 93,5 % hatte.

Google-Roboter erreichen interaktive Sprache mit einer Genauigkeit von 93,5 %, und die Menge an Open-Source-Daten verzehnfacht sich.

Und die gleiche Strategie kann von Menschen in Echtzeit durch natürliche Sprache gesteuert werden, um eine Vielzahl präziser Fernumordnungsziele zu lösen, wie zum Beispiel „mit Bausteinen ein Smiley machen“ usw.

Der mit dem Papier veröffentlichte Datensatz umfasst fast 600.000 sprachgekennzeichnete Flugbahnen, was eine Größenordnung größer ist als bisher verfügbare Datensätze.

Interaktive Sprache: Konversation mit dem Roboter in Echtzeit

Um den Roboter in die reale Welt zu integrieren, ist es am wichtigsten, offene Anweisungen in natürlicher Sprache verarbeiten zu können, aber aus Sicht des maschinellen Lernens sollte man es dem Roboter überlassen Erlernen Sie einen offenen Wortschatz. Sprache ist eine große Herausforderung.

Offene Darstellungsmodelle müssen eine Vielzahl von Aufgaben ausführen, darunter kleine Korrekturanweisungen usw. Bestehende Multitasking-Lernaufbauten nutzen sorgfältig entworfene Nachahmungslerndatensätze oder komplexe Belohnungsfunktionen für Verstärkungslernen, um das Lernen für jede Aufgabe voranzutreiben, und auf diese Weise entworfene vordefinierte Sätze sind mit Sicherheit nicht sehr groß.

Google-Roboter erreichen interaktive Sprache mit einer Genauigkeit von 93,5 %, und die Menge an Open-Source-Daten verzehnfacht sich.

Daher lautet eine Schlüsselfrage in der offenen Vokabularaufgabe: Wie kann der Erfassungsprozess von Roboterdaten auf Tausende von Aktionen in realen Umgebungen ausgeweitet werden, und wie können all diese Verhaltensweisen mit Endbenutzern in Zusammenhang gebracht werden? Ist es möglich, tatsächlich Anweisungen in natürlicher Sprache bereitzustellen?

In interaktiven Sprachen liegt der Schlüssel zum von Google vorgeschlagenen Lernrahmen für groß angelegte Simulationen in der Skalierbarkeit der Erstellung großer, mehrsprachiger, konditionierter Roboterdemonstrationsdatensätze.

Im Gegensatz zum vorherigen Setup, bei dem alle Fertigkeiten definiert und dann eine kuratierte Demonstration jeder Fertigkeit zusammengestellt wurden, arbeiten Forscher ständig mit mehreren Robotern ohne Szenen-Resets oder Fertigkeitssegmentierung auf niedriger Ebene.

Alle Daten, einschließlich fehlerhafter Daten (z. B. das Wegwerfen von Blöcken von einem Tisch), müssen einen HindSight-Sprachumbenennungsprozess durchlaufen, bevor sie mit Text gepaart werden.

In diesem Prozess müssen Annotatoren lange Robotervideos ansehen, um so viele Verhaltensweisen wie möglich zu identifizieren, die Start- und Endzeit jedes Verhaltens zu markieren und uneingeschränkte Formen natürlicher Sprache zur Beschreibung jedes Segments zu verwenden.

Das Wichtigste ist, dass im Vergleich zum vorherigen Bootstrapping-Satz alle für das Training verwendeten Fähigkeiten von unten nach oben aus den Daten selbst aufgedeckt werden und nicht von den Forschern vorgegeben werden.

Google-Roboter erreichen interaktive Sprache mit einer Genauigkeit von 93,5 %, und die Menge an Open-Source-Daten verzehnfacht sich.

Die Forscher vereinfachen absichtlich die Lernmethode und -architektur so weit wie möglich. Das Robot Policy Network ist ein Cross-Attention-Transformer, der 5-Hz-Video und -Text ohne Hilfsverluste (Auxiliary Loss) auf 5-Hz-Roboteraktionen abbildet. . Verluste) unter Verwendung von standardmäßigem überwachtem Lernverhalten, um das Ziel zu klonen.

Während des Tests können neue Befehle in natürlicher Sprache per Sprache-zu-Text mit Raten von bis zu 5 Hz in das Richtliniennetzwerk gesendet werden.

Open Source Benchmark

Während des Annotationsprozesses sammelten die Forscher einen Sprachtabellendatensatz, der mehr als 440.000 tatsächliche und 180.000 simulierte Demonstrationen von Robotern, die Befehle in natürlicher Sprache ausführen, sowie die von den Robotern während der Demonstrationen durchgeführten Aktionen enthielt . Abfolge von Aktionen.

Google-Roboter erreichen interaktive Sprache mit einer Genauigkeit von 93,5 %, und die Menge an Open-Source-Daten verzehnfacht sich.

Dies ist derzeit auch der größte sprachkonditionierte Roboterdemonstrationsdatensatz, der direkt um eine Größenordnung verbessert wurde.

Language-Table hat einen Simulations-Lern-Benchmark gestartet, der zur Modellauswahl oder zur Bewertung der Fähigkeit von Robotern verwendet werden kann, die mit verschiedenen Methoden trainiert wurden, Anweisungen auszuführen.

Verbales Verhaltenslernen in Echtzeit

In Experimenten fanden Forscher heraus, dass die Fähigkeiten des Roboters besonders stark werden, wenn er den Anweisungen in natürlicher Sprache in Echtzeit folgen kann.

Auf der Projektwebsite demonstrierten die Forscher, dass Benutzer den Roboter durch komplexe Sequenzen mit langem Horizont führen können, indem sie nur natürliche Sprache verwenden, um Ziele zu lösen, deren präzise koordinierte Steuerung lange Zeit erfordert.

Google-Roboter erreichen interaktive Sprache mit einer Genauigkeit von 93,5 %, und die Menge an Open-Source-Daten verzehnfacht sich.

Wenn zum Beispiel viele Blöcke auf dem Tisch liegen, kann der Befehl „Mach ein Smiley mit grünen Augen“ oder „Setze sie alle in einer vertikalen Linie“ usw. lauten.

Da der Roboter darauf trainiert war, der Sprache mit offenem Lexikon zu folgen, reagierte der Roboter im Experiment auf eine Reihe verschiedener verbaler Korrekturen, wie zum Beispiel „Bewege den roten Stern vorsichtig nach rechts.“

Abschließend untersuchten die Forscher die Vorteile der Echtzeitsprache, beispielsweise die effizientere Gestaltung der Roboterdatenerfassung. Ein menschlicher Bediener kann gesprochene Sprache verwenden, um vier Roboter gleichzeitig zu steuern, was möglicherweise den Umfang der Roboterdatenerfassung erweitert in Zukunft, ohne dass jeder Roboter mit einem Annotator ausgestattet werden muss.

Fazit

Obwohl das Projekt derzeit auf einen festen Satz von Objekten auf dem Desktop beschränkt ist, können experimentelle Ergebnisse zu interaktiven Sprachen vorläufige Hinweise darauf liefern, dass Nachahmungslernen in großem Maßstab durchgeführt wird kann tatsächlich interaktive Echtzeit-Bots erstellen, die in der Lage sind, frei formulierten Endbenutzerbefehlen zu folgen.

Um die Weiterentwicklung der Echtzeit-Sprachsteuerungstechnologie für physische Roboter voranzutreiben, haben Forscher Language-Table als Open-Source-Lösung entwickelt, den derzeit größten realen Roboter Ein auf Sprachbedingungen basierender Demonstrationsdatensatz kann auch als relevanter Simulationsbenchmark verwendet werden.

Forscher glauben, dass die Rolle dieses Datensatzes möglicherweise nicht nur auf den Bereich der Robotersteuerung beschränkt ist, sondern auch für die Erforschung von Videos zu Sprach- und Aktionsbedingungen verwendet werden kann Vorhersage und Roboter-Video-Bedingungssprachmodell oder bieten einen neuen Ausgangspunkt für die Untersuchung vieler anderer interessanter und aktiver Probleme im breiteren Kontext des maschinellen Lernens.

Das obige ist der detaillierte Inhalt vonGoogle-Roboter erreichen interaktive Sprache mit einer Genauigkeit von 93,5 %, und die Menge an Open-Source-Daten verzehnfacht sich.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen