Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Google-Wissenschaftler sprechen persönlich: Wie lässt sich verkörpertes Denken umsetzen? Lassen Sie das große Modell die Sprache des Roboters „sprechen“.

Google-Wissenschaftler sprechen persönlich: Wie lässt sich verkörpertes Denken umsetzen? Lassen Sie das große Modell die Sprache des Roboters „sprechen“.

王林
王林nach vorne
2023-04-12 12:25:161842Durchsuche

Können wir mit der Entwicklung groß angelegter Sprachmodelle deren Fähigkeiten nutzen, um Robotern dabei zu helfen, komplexe Anweisungen zu verstehen und komplexere Aufgaben zu erledigen? Und vor welchen Herausforderungen werden wir in diesem Prozess stehen? Kürzlich hat die Zhiyuan Community den Google-Forscher Dr.

Über den Autor: Xia Fei arbeitet derzeit als Forschungswissenschaftlerin im Robotik-Team von Google Brain. Sein Forschungsschwerpunkt ist die Anwendung von Robotern in unstrukturierten komplexen Umgebungen. Zu seinen repräsentativen Werken gehören GibsonEnv, iGibson, SayCan usw. Über seine Forschungen wurde von WIRED, der Washington Post, der New York Times und anderen Medien berichtet. Dr. Xia Fei schloss sein Studium an der Stanford University ab, wo er bei Silvio Savarese und Leonidas Guibas studierte. Er hat viele Artikel in Konferenzen und Zeitschriften wie CVPR, CoRL, IROS, ICRA, Neurips, RA-L, Nature Communications usw. veröffentlicht. Seine jüngste Forschungsrichtung ist die Verwendung von Grundlagenmodellen (Foundation Models) im Entscheidungsprozess intelligenter Agenten. Sein Team hat kürzlich das PaLM-SayCan-Modell vorgeschlagen.

01

Hintergrund

Maschinelles Lernen für Roboter hat in den letzten Jahren große Fortschritte gemacht, aber es gibt immer noch große Probleme. Maschinelles Lernen erfordert zum Trainieren viele Daten, aber die von Robotern generierten Daten sind sehr teuer und auch die Roboter selbst unterliegen Verlusten.

Wenn Menschen Kinder sind, interagieren sie spielerisch mit der physischen Welt und lernen viele physikalische Gesetze. Kann der Roboter, inspiriert davon, auch mit der Umgebung interagieren, um diese physischen Informationen zu erhalten, um verschiedene Aufgaben zu erledigen? Die Anwendung maschinellen Lernens auf Roboter hängt stark von Simulationsumgebungen ab.

In diesem Zusammenhang haben Dr. Durch dreidimensionales Scannen und Rekonstruieren der realen Welt sowie die Wiedergabe visueller Signale über neuronale Netze wird eine Simulationsumgebung geschaffen, die es verschiedenen Robotern ermöglicht, physikalische Simulationen durchzuführen und die Steuerung von Zeitsensoren bis hin zu Aktoren zu erlernen. In der iGibson-Umgebung können Roboter umfassendere Interaktionen mit der Umgebung erlernen, beispielsweise den Umgang mit einer Spülmaschine.

Google-Wissenschaftler sprechen persönlich: Wie lässt sich verkörpertes Denken umsetzen? Lassen Sie das große Modell die Sprache des Roboters „sprechen“.

Dr. Xia Fei glaubt, dass die oben genannte Arbeit den Wandel von Internet-KI zu verkörperter KI darstellt. In der Vergangenheit basierte das KI-Training hauptsächlich auf Datensätzen wie ImageNet und MS COCO, bei denen es sich um Internetaufgaben handelte. Verkörperte KI erfordert, dass die Wahrnehmung und das Handeln der KI einen geschlossenen Kreislauf bilden – die KI muss auf der Grundlage der wahrgenommenen Ergebnisse über die nächste Aktion entscheiden. In der Doktorarbeit von Xia Fei „Large Scale Simulation for Embodied Perception and Robot Learning“ geht es um groß angelegte Robotersimulationen für Lernen, Wahrnehmung und Argumentation.

In den letzten Jahren haben sich grundlegende Modelle im Bereich der künstlichen Intelligenz rasant weiterentwickelt. Einige Forscher glauben, dass Informationen aus dem Basismodell extrahiert werden können, um dem Roboter bei der Entscheidungsfindung zu helfen, anstatt sich auf die Simulationsumgebung zu verlassen. Dr. Xia Fei nannte diese neue Richtung „Grundlagenmodell für die Entscheidungsfindung“ und er und sein Team schlugen Arbeiten wie PaLM-SayCan vor.

02

PaLM-SayCan: Lassen Sie den Roboter vom Sprachmodell leiten

1 Warum ist es für Roboter schwierig, komplexe und weitreichende Aufgaben zu bewältigen?

Das PaLM-SayCan-Team besteht aus insgesamt 45 Autoren. Es handelt sich um ein Gemeinschaftsprojekt zwischen dem Google Robotics-Team und Everyday Robots. Ziel ist es, den Einsatz von maschinellem Lernen zu erforschen, um den Bereich der Robotik zu verändern und lassen Sie Roboter Daten bereitstellen, um die Fähigkeiten des maschinellen Lernens zu verbessern. Die Forschung konzentriert sich auf zwei Themen: unstrukturierte komplexe Umgebungen und die Verbesserung des Nutzens von Robotern im täglichen Leben.

Obwohl die Menschen bereits über persönliche Assistenten wie Siri oder Alexa verfügen, gibt es im Bereich der Robotik keine solche Präsenz. Dr. Xia nannte dieses Beispiel: Wenn ein Getränk verschüttet wird, wollen wir dem Roboter die Situation erklären und ihn um Hilfe bitten. Wenn Sie nach dem Training müde sind, bitten Sie ihn um Getränke und Snacks. Die Forschung hofft, dass Roboter diese Aufgaben verstehen und ausführen können.

Die aktuelle Schwierigkeit besteht darin, dass es für Roboter immer noch relativ schwierig ist, Langzeit- oder Fernaufgaben zu erledigen, und dass sie immer noch nicht in der Lage sind, Aufgaben auszuführen, die komplexe Planung, gesunden Menschenverstand und logisches Denken erfordern zwei Aspekte. Der erste Grund ist das Fehlen einer guten Benutzerinteraktionsschnittstelle im Bereich Roboter. Wenn herkömmliche Roboter Pick&Place-Aufgaben ausführen, verwenden sie normalerweise die Methoden der Zielkonditionierung oder One-Hot-Konditionierung. Zielkonditionierung muss dem Roboter mitteilen, was das Ziel ist, und den Roboter die Aufgabe ausführen lassen, die Anfangsbedingungen in die Zielbedingungen zu ändern. Dazu muss dem Roboter zunächst gezeigt werden, wie die Bedingungen für die abgeschlossene Aufgabe aussehen werden.

Google-Wissenschaftler sprechen persönlich: Wie lässt sich verkörpertes Denken umsetzen? Lassen Sie das große Modell die Sprache des Roboters „sprechen“.

Und One-Hot-Conditioning verwendet One-Hot-Codierung und alle Aufgaben, die der Roboter erledigen kann (z. B. 100 Aufgaben), sind von 0 bis 99 nummeriert. Bei jeder Ausführung erhält der Roboter eine Nummer und weiß, welche Aufgabe er erledigen muss. Das Problem mit der One-Hot-Bedingung besteht jedoch darin, dass sich der Benutzer die jeder Aufgabe entsprechende Kodierung merken muss und die One-Hot-Kodierung keine Abhängigkeitsinformationen zwischen Aufgaben erhält (z. B. das Abschließen der einem Ziel entsprechenden Aufgabenkodierungssequenz). ).

Daher können die aktuellen Roboter nur Aufgaben mit kurzer Reichweite erledigen, in der Regel Greifen und Platzieren, und der Roboter selbst ist eher statisch als mobil. Darüber hinaus ist die Umgebung auch auf Szenen wie Labore beschränkt, oft ohne Menschen.

2. Sprachmodell für Roboter: Wie lässt man es die Sprache des Roboters „sprechen“?

Um diese Probleme zu lösen, dachte das Team über die Verwendung eines Basismodells nach. Sprachmodelle können die Zielkonditionierung ersetzen und Aufgaben klar und eindeutig durch Sprache beschreiben. Gleichzeitig enthält die Sprache auch Abhängigkeitsinformationen zwischen Aufgabenschritten, z. B. dem ersten Schritt, dem zweiten Schritt usw. vom Rezept, um das Roboterlernen zu unterstützen. Darüber hinaus kann Sprache auch zur Definition langfristiger Aufgaben und zur Lösung der Einschränkungen nachahmender Lernmethoden eingesetzt werden.

Google-Wissenschaftler sprechen persönlich: Wie lässt sich verkörpertes Denken umsetzen? Lassen Sie das große Modell die Sprache des Roboters „sprechen“.

Die Verwendung großer Modelle auf Robotern kann einige Herausforderungen mit sich bringen. Das Wichtigste ist, die Sprache zu bestimmen, die sich am Output des Roboters orientiert. Das große Modell wird auf der Grundlage der menschlichen natürlichen Sprache trainiert und die von ihm ausgegebenen Aufgaben sind für Roboter möglicherweise nicht möglich. Und das Sprachmodell wurde nicht anhand der Daten des Roboters trainiert, sodass es den Umfang der Fähigkeiten des Roboters nicht kennt. Das zweite ist das Erdungsproblem. Das große Modell hat die physische Welt nicht persönlich erlebt und es mangelt ihm an verkörperten Informationen. Der dritte Punkt ist die Sicherheit und Interpretierbarkeit des Roboters selbst unter Anleitung großer Modelle. Verzerrungen in Sprachmodellen können durch ihre Assoziation mit physikalischen Systemen verstärkt werden und Konsequenzen für die reale Welt haben.

Google-Wissenschaftler sprechen persönlich: Wie lässt sich verkörpertes Denken umsetzen? Lassen Sie das große Modell die Sprache des Roboters „sprechen“.

Es gibt ein Beispiel für Glaubwürdigkeit: Wenn ein menschlicher Benutzer mit dem LaMDA-Modell von Google kommuniziert, fragt der Benutzer das Modell nach „Lieblingsinsel“ und das Modell antwortet auf Kreta, Griechenland, und kann auch antworten. Nennen Sie einige Gründe. Dieses Ergebnis ist jedoch nicht glaubwürdig, denn das Ergebnis, das die KI liefern sollte, ist „Ich weiß nicht, welche Insel mir am besten gefällt, weil ich noch nie auf einer Insel war.“ Das Problem mit dem Sprachmodell besteht darin, dass es nicht mit der realen Welt interagiert hat und nur den wahrscheinlichsten nächsten Satz basierend auf statistischen Regeln ausgibt.

Wenn Sprachmodelle auf Robotern verwendet werden, liefern unterschiedliche Modelle unterschiedliche Ergebnisse, von denen einige nicht nützlich sind, um den Roboter zur Ausführung von Aufgaben anzutreiben. Wenn ein Benutzer den Roboter beispielsweise auffordert, „ein verschüttetes Getränk aufzuwischen“, sagt GPT-3 möglicherweise: „Sie können einen Staubsauger verwenden.“ Dieses Ergebnis ist nicht ganz korrekt, da Staubsauger keine Flüssigkeiten reinigen können.

Wenn es sich um ein LaMDA-Modell handelt, kann LaMDA sagen: „Möchten Sie, dass ich Ihnen bei der Suche nach einer Reinigungskraft helfe?“ Diese Antwort ist normal, aber von keinem praktischen Nutzen, da LaMDA das Dialogmaterial verfeinert Die Funktion besteht darin, die Dauer des Gesprächs so weit wie möglich zu verlängern, und nicht darin, zur Erledigung der Aufgabe beizutragen. Wenn es sich um ein FLAN-Modell handelt, antwortet es: „Entschuldigung, das habe ich nicht so gemeint.“ Es versteht die Absicht des Benutzers nicht: Handelt es sich um ein Gespräch? Müssen Sie noch ein Problem lösen? Daher gibt es eine Reihe von Problemen bei der Verwendung großer Sprachmodelle auf Robotern.

PaLM-SayCan arbeitet an der Lösung dieser Herausforderungen. Die erste besteht darin, dem großen Modell durch Few-Shot-Prompting (Few-Shot-Lernen) zu ermöglichen, die Sprache des Roboters zu sprechen. Konstruieren Sie beispielsweise Aufgaben wie „Bring den Kaffee in den Schrank“, „Gib mir eine Orange“ usw. und gib die entsprechenden Schritte an (z. B. 1-5 und 1-3). Anschließend gibt der Benutzer dem Modell die Anweisung: „Lege einen Apfel auf den Tisch.“ Nachdem das Modell die Eingabeaufforderungen für die vorherigen Schritte erhalten hat, findet und kombiniert es selbstständig die entsprechenden Aufgabenschritte und erstellt einen Plan, um die Aufgabe Schritt für Schritt abzuschließen.

Google-Wissenschaftler sprechen persönlich: Wie lässt sich verkörpertes Denken umsetzen? Lassen Sie das große Modell die Sprache des Roboters „sprechen“.

Es sollte beachtet werden, dass es in großen Modellen zwei Hauptarten der Interaktion gibt: Eine ist die generative Schnittstelle, die das nächste Token basierend auf der Eingabe generiert; Formel (Scoring-Schnittstelle), berechnet die Wahrscheinlichkeitsfunktion für einen bestimmten Token. PaLM-SayCan verwendet eine Bewertungsmethode, die das Sprachmodell stabiler macht und die gewünschten Ergebnisse einfacher ausgibt. Bei der Aufgabe, einen Apfel zu platzieren, bewertet das Modell verschiedene Schritte und wählt das entsprechende Ergebnis aus.

3. Die Lücke zwischen dem Sprachmodell und der realen Welt schließen: Lassen Sie den Roboter die Möglichkeiten der Umgebung erkunden

Es gibt ein weiteres Problem, das gelöst werden muss: Das Sprachmodell tut es Ich kenne die aktuelle Situation des Roboters beim Generieren von Aufgabenschritten nicht. Was kann getan werden? Befindet sich kein Apfel vor dem Roboter, kann der Roboter die Aufgabe, den Apfel zu platzieren, nicht abschließen. Daher muss das Sprachmodell wissen, welche Aufgaben der Roboter in der aktuellen Umgebung und im aktuellen Zustand ausführen kann. Hier muss ein neues Konzept namens Robotic Affordances (Roboter-Affordanzen) eingeführt werden, das auch den Kern dieser Arbeit darstellt.

Google-Wissenschaftler sprechen persönlich: Wie lässt sich verkörpertes Denken umsetzen? Lassen Sie das große Modell die Sprache des Roboters „sprechen“.

Affordanzen, übersetzt ins Chinesische, werden „Affordanzen“ genannt. Es handelt sich um ein Konzept, das etwa 1977 vom amerikanischen Psychologen James J. Gibson vorgeschlagen wurde. ist definiert als Welche Aufgaben kann ein Agent in einer Umgebung erledigen? Sein aktueller Zustand repräsentiert seine Angebote. Erschwinglichkeit kann durch überwachtes Lernen erzielt werden, dies erfordert jedoch eine große Datenmenge und Kennzeichnung.

In diesem Zusammenhang hat das Team eine Methode des verstärkenden Lernens eingeführt und die Wertfunktion der Richtlinie zur Annäherung an die Erschwinglichkeit genutzt. Trainieren Sie beispielsweise einen Roboter, verschiedene Dinge in der Umgebung zu greifen. Lassen Sie den Roboter nach dem Training den Raum erkunden. Wenn er einen Gegenstand vor sich sieht, wird die Wertfunktion des Aufhebens des Gegenstands sehr hoch verfügbare Artikel.

Google-Wissenschaftler sprechen persönlich: Wie lässt sich verkörpertes Denken umsetzen? Lassen Sie das große Modell die Sprache des Roboters „sprechen“.

Durch die Kombination von Affordanzen und Sprachmodellen erhalten wir den PaLM-SayCan-Algorithmus. Wie in der Abbildung oben gezeigt, ist die linke Seite das Sprachmodell, das die Aufgaben bewertet, die der Roboter gemäß den Anweisungen des Benutzers erledigen kann, und die Wahrscheinlichkeit berechnet, dass die Erledigung der Unteraufgaben zur Erledigung der Gesamtaufgabe beiträgt. Die rechte Seite ist die Wertfunktion, die die Wahrscheinlichkeit darstellt, jede Aufgabe im aktuellen Zustand abzuschließen. Das Produkt aus beiden stellt die Wahrscheinlichkeit dar, dass der Roboter eine Teilaufgabe erfolgreich abschließt, die zur Gesamtaufgabe beiträgt. Im Beispiel von Apple befindet sich im aktuellen Zustand kein Apfel vor dem Roboter. Um diese Aufgabe abzuschließen, muss zunächst der Apfel gefunden werden. Daher ist der Erschwinglichkeitswert für das Finden des Apfels relativ hoch Die Punktzahl für das Greifen des Apfels ist niedrig. Nachdem der Apfel gefunden wurde, erhöht sich der Affordance-Score für das Greifen des Apfels und die Aufgabe, den Apfel zu greifen, wird ausgeführt. Dieser Vorgang wird wiederholt, bis die Gesamtaufgabe abgeschlossen ist.

Google-Wissenschaftler sprechen persönlich: Wie lässt sich verkörpertes Denken umsetzen? Lassen Sie das große Modell die Sprache des Roboters „sprechen“.


03 Mehr verkörperte Intelligenzarbeit: Verbessern Sie die Modellschlussfähigkeiten und nutzen Sie Umgebungsfeedback, um einen geschlossenen Kreislauf zu bilden

1. Kette der Gedankenanregung: Komplexen gesunden Menschenverstand verstehen

Neben PaLM-SayCan haben Dr. Xia und seine Kollegen auch einige andere verwandte Arbeiten abgeschlossen. In Bezug auf Prompt schlug das Team Chain of Thought Prompting (das als Ideen zur Problemlösung verstanden werden kann) vor, um dem Sprachmodell mehr Argumentationsfähigkeiten zu verleihen.

Google-Wissenschaftler sprechen persönlich: Wie lässt sich verkörpertes Denken umsetzen? Lassen Sie das große Modell die Sprache des Roboters „sprechen“.

Der Standard-Eingabeaufforderungsmodus besteht darin, eine Fragenvorlage zu entwerfen und die Antwort zu geben. Das Modell gibt während der Inferenz Antworten aus, aber manchmal sind die vom Modell gegebenen Antworten falsch. Daher besteht das Ziel von Chain of Thought Prompting darin, dem Modell eine Erklärung zu liefern und gleichzeitig das Problem bereitzustellen, was die Ergebnisse des Modells erheblich verbessern und bei einigen Aufgaben sogar das menschliche Niveau übertreffen kann.

Google-Wissenschaftler sprechen persönlich: Wie lässt sich verkörpertes Denken umsetzen? Lassen Sie das große Modell die Sprache des Roboters „sprechen“.

Das Modell ist fehleranfällig bei der Verarbeitung negativer Sätze. Zum Beispiel fragte ein menschlicher Benutzer: „Gib mir eine Frucht, aber keinen Apfel.“ Modelle neigen dazu, einen Apfel bereitzustellen, da sowohl die Frage- als auch die ausführbaren Optionen Äpfel enthalten. Mithilfe von Chain of Thought Prompting können einige Erklärungen bereitgestellt werden. Das Modell würde beispielsweise ausgeben: „Der Benutzer möchte eine Frucht, aber keinen Apfel. Eine Banane ist eine Frucht, kein Apfel. Ich kann dem Benutzer eine Banane geben.“

Chain of Thought Prompting kann auch subtilere negative Anforderungen lösen. Beispielsweise äußert ein Benutzer eine Koffeinallergie und bittet den Roboter um etwas zu trinken. Allergien sind eine weitere subtile Form der Negation. Mit herkömmlichen Methoden könnte der Roboter zu einem koffeinhaltigen Getränk greifen (ohne die Negation zu verstehen, die Allergien darstellen). Chain of Thought Prompting kann Allergien usw. erklären und den Denkeffekt verbessern.

2. Innerer Monolog: Fehler korrigieren und zur richtigen Ausführung zurückkehren

Auch die Kombination großer Modelle für Roboterentscheidungen und Umweltinteraktionen ist eine wichtige Forschungsrichtung. Das Team schlug die Arbeit „Inner Monologue“ vor, die es dem Sprachmodell ermöglichen soll, frühere Entscheidungen auf der Grundlage von Veränderungen in der Umgebung zu überprüfen und sich von falschen Anweisungen oder durch die Umgebung verursachten Unfällen zu erholen. Wenn Menschen beispielsweise nach Hause gehen und feststellen, dass der ausgewählte Schlüssel die Tür nicht öffnen kann, versuchen sie es mit einem anderen Schlüssel oder ändern die Drehrichtung. Dies beinhaltet die Korrektur von Fehlern und die Aktualisierung neuer Aktionen auf der Grundlage des Feedbacks aus der Umgebung. Innerer Monolog funktioniert auf diese Weise. Wenn beispielsweise die Cola herunterfällt, während der Roboter eine Cola greift, können nachfolgende Aufgaben nicht abgeschlossen werden. Um festzustellen, ob die Aufgabe erfolgreich abgeschlossen wurde, kann Feedback in den Entscheidungsprozess einfließen und auf dieser Grundlage neue Entscheidungen getroffen werden die Feedback-Entscheidung.

Google-Wissenschaftler sprechen persönlich: Wie lässt sich verkörpertes Denken umsetzen? Lassen Sie das große Modell die Sprache des Roboters „sprechen“.

Google-Wissenschaftler sprechen persönlich: Wie lässt sich verkörpertes Denken umsetzen? Lassen Sie das große Modell die Sprache des Roboters „sprechen“.

Wie in der Abbildung gezeigt, umfasst die Arbeit „Innerer Monolog“ eine aktive Szenenbeschreibung und einen Aufgabenerfolgsdetektor. Wenn Menschen Anweisungen geben, kann das Modell die Anweisungen ausführen und Szenariobeschreibungen aktivieren, um den Roboter bei der Entscheidungsfindung zu unterstützen. Der Trainingsprozess verwendet weiterhin die Few-Shot-Prompt-Methode, sodass Schlussfolgerungen aus einem Beispiel gezogen werden können. Wenn der Roboter beispielsweise angewiesen wird, etwas zu trinken zu holen, fragt er den Menschen, ob er eine Cola oder eine Limonade nehmen soll.

Google-Wissenschaftler sprechen persönlich: Wie lässt sich verkörpertes Denken umsetzen? Lassen Sie das große Modell die Sprache des Roboters „sprechen“.

Google-Wissenschaftler sprechen persönlich: Wie lässt sich verkörpertes Denken umsetzen? Lassen Sie das große Modell die Sprache des Roboters „sprechen“.

Ein weiterer Fall ist die Begründung historischer Informationen durch Sprachmodelle. In vielen Fällen ändern Menschen ihre Meinung, nachdem sie einen Befehl erteilt haben, oder bitten den Roboter, die „gerechte Aufgabe“ zu erledigen, nachdem sie Anweisungen geändert haben mehrfach. Hier wird die „gerechte Aufgabe“ nicht angegeben, was erfordert, dass das Modell im Verlauf zurückblickt, um zu sehen, was die vorherigen Aufgaben waren. Neben Englisch ist Inner Monologue derzeit auch auf Chinesisch und anderen Sprachen verfügbar. Nach Experimenten in anderen Bereichen stellte das Team fest, dass diese Umwelt-Feedback-Methode einige sehr komplexe und geschlossene Planungsaufgaben erledigen kann.

04 Google-Wissenschaftler sprechen persönlich: Wie lässt sich verkörpertes Denken umsetzen? Lassen Sie das große Modell die Sprache des Roboters „sprechen“.Q&A

F: Wird das große Sprachmodell von PaLM-SayCan von Grund auf trainiert? Oder nutzen Sie einfach das Modell.

A: Das große Vorhersagemodell muss nicht verfeinert werden, es enthält bereits viele Entscheidungsinformationen. Sie können beispielsweise GPT-3 mit 175 Milliarden Parametern oder PaLM verwenden, das bereits genügend Informationen zur Missionsplanung und zum Ablauf enthält.

F: Wird der Agent bei der Arbeit am Inneren Monolog auch die Initiative ergreifen, Fragen zu stellen? Wie wurde das aufgenommen?

A: Wir verwenden das Sprachmodell und die Prompt-Methode. Wenn der Roboter eine Aufgabe erledigt, werden zwei Optionen angezeigt: „und fragen“ und „und fortfahren“. Ob eine Frage gestellt oder fortgefahren werden soll, hängt davon ab, ob Unklarheiten in der kontextuellen Semantik bestehen.

F: Woher weiß der Roboter, wo sich ein Gegenstand befindet (z. B. Kartoffelchips in der Schublade)? Wenn die Fähigkeiten von Robotern in Zukunft schrittweise zunehmen, wird der Suchraum während der Erkundung dann zu groß?

A: Die Kenntnis des Roboters über den Lagerort von Artikeln ist derzeit fest codiert und kein automatischer Prozess. Das große Sprachmodell enthält aber auch bestimmte semantische Kenntnisse, etwa wo sich die Elemente befinden. Dieses semantische Wissen kann den Suchraum reduzieren. Gleichzeitig können Sie die Suche auch anhand der Wahrscheinlichkeit durchführen, Gegenstände zu finden. Derzeit hat das Team von Xia Fei eine neue Arbeit zur Lösung dieses Problems veröffentlicht. Die Kernidee besteht darin, eine indizierte Szenendarstellung in natürlicher Sprache zu etablieren. Referenz-Website nlmap-saycan.github.io

Google-Wissenschaftler sprechen persönlich: Wie lässt sich verkörpertes Denken umsetzen? Lassen Sie das große Modell die Sprache des Roboters „sprechen“.

F: Bietet das hierarchische Verstärkungslernen, das in den letzten Jahren entstanden ist, darüber hinaus einige Inspirationen für die Planung komplexer Aufgaben?

PaLM-SayCan ähnelt dem hierarchischen Verstärkungslernen. Es verfügt über Fähigkeiten auf der unteren Ebene und eine Aufgabenplanung auf der oberen Ebene, es handelt sich jedoch nicht um eine hierarchische Verstärkung Lernen. Ich persönlich bevorzuge diesen mehrschichtigen Ansatz, da man bei der Planung von Aufgaben nicht unbedingt jeden einzelnen Schritt erledigen muss, was Zeitverschwendung wäre. Die Missionsplanung kann mithilfe riesiger Internetdaten trainiert werden, aber die zugrunde liegenden Fähigkeiten erfordern physische Daten, sodass sie mit der Umgebung interagieren und lernen müssen.

F: PaLM-SayCan wird tatsächlich in Robotern eingesetzt. Gibt es noch grundlegende Probleme, die ungelöst sind? Wenn es als Ersatz für die tägliche Nanny verwendet werden kann, wie lange wird es dauern, bis es umgesetzt wird?

A: Es gibt immer noch einige grundlegende Probleme, die nicht gelöst wurden, und es handelt sich nicht um einfache technische Probleme. Prinzipiell stellt die zugrunde liegende Bewegungssteuerung und das Greifen des Roboters eine große Herausforderung dar. Wir können immer noch keinen 100-prozentigen Greiferfolg erzielen, was ein großes Problem darstellt.

Natürlich kann es Menschen mit eingeschränkter Mobilität bereits einen gewissen Mehrwert bieten. Wenn es sich jedoch wirklich um ein kommerzielles Produkt handelt, ist dies noch nicht möglich. Die Erfolgsquote der Mission liegt bei etwa 90 %, was den kommerziellen Anforderungen nicht entspricht.

F: Ist die Erfolgsquote der Roboterplanung durch den Trainingsdatensatz begrenzt?

A: Die Planungsfähigkeit des Roboters wird durch den Trainingskörper begrenzt. Es ist leicht, einige Anweisungen im Korpus zu finden, wie zum Beispiel „Wirf den Müll weg“. Allerdings gibt es im Korpus fast kein Korpus wie „Bewege die Zweifingerklaue des Roboters um 10 Zentimeter nach rechts“, da Menschen solche Informationen nicht im Internet hinterlassen. Dies beinhaltet die Frage der granularen Informationen. Derzeit können Roboter, begrenzt durch den Korpus, nur grobkörnige Aufgaben erledigen.

Andererseits sollte die feinkörnige Planung selbst nicht durch ein Sprachmodell erfolgen, da sie zu viele physikalische Informationen enthält und möglicherweise nicht in menschlicher Sprache beschrieben werden kann. Eine Idee ist, dass feinkörnige Operationen durch Nachahmungslernen (siehe BC-Z-Arbeit) oder Codegenerierung (siehe die neueste Arbeit des Teams https://code-as-policies.github.io/) implementiert werden können. Die größere Rolle des großen Modells besteht darin, als interaktive Schnittstelle des Benutzers zu dienen, die Anweisungen des Menschen an den Roboter zu interpretieren und sie in Schritte zu zerlegen, die die Maschine ausführen kann.

Darüber hinaus kann die Sprache eine semantische Planung auf hoher Ebene durchführen, ohne dass eine weitere physische Planung erforderlich ist. Wenn Sie feinkörnige Planungsaufgaben lösen möchten, müssen Sie sich immer noch auf Nachahmungslernen oder Verstärkungslernen verlassen.

Das obige ist der detaillierte Inhalt vonGoogle-Wissenschaftler sprechen persönlich: Wie lässt sich verkörpertes Denken umsetzen? Lassen Sie das große Modell die Sprache des Roboters „sprechen“.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen