Heim >Technologie-Peripheriegeräte >KI >Einige Gedanken zum Weltmodell für den Roboterbetrieb

Einige Gedanken zum Weltmodell für den Roboterbetrieb

王林nach vorne: 2024-04-28 17:31:10835Durchsuche

In den letzten Jahren scheint die Popularität von Weltmodellen eine entscheidende Rolle bei der Roboterbedienung zu spielen. Für die verkörperte Intelligenz ist Manipulation in dieser Phase der wichtigste Punkt, den es zu durchbrechen gilt. Insbesondere für die folgenden Aufgaben mit langem Horizont ist der Bau eines Roboter-„Kleinhirns“ zur Erfüllung verschiedener komplexer Betriebsanforderungen derzeit das dringendste Problem, das gelöst werden muss.

Ist es notwendig, die Fertigkeit in atomare Operationen aufzuteilen?

Bei der Verwendung von LM zur Anwendung auf Robotern besteht ein gängiger Ansatz darin, verschiedene APIs im Kontext bereitzustellen und LLM dann automatisch Planungscode entsprechend der Aufgabenaufforderung schreiben zu lassen. Weitere Informationen finden Sie im Artikel:

Der Vorteil dieser Methode ist, dass es sehr intuitiv ist. Sie können die Demontagelogik der Aufgabe klarer verstehen, z. B. nach A gehen, B greifen, nach C gehen und B ablegen. Die Prämisse dieser Operation besteht jedoch darin, die gesamte Aufgabe in atomare Operationen (Verschieben, Greifen, Platzieren usw.) aufteilen zu können. Wenn es sich jedoch um eine komplexere Aufgabe handelt, beispielsweise das Falten von Kleidung, ist es natürlich schwierig, die Aufgabe aufzuteilen. Was sollten wir also zu diesem Zeitpunkt tun? Tatsächlich müssen wir uns bei der Manipulation mit vielen Aufgaben befassen, die einen langen Horizont haben und schwer aufzuteilen sind. Das Weltmodell kann als entscheidender Durchbruchspunkt verwendet werden ACT, Modellierung und Anpassung des gesamten Operationsverlaufs. Allerdings wird diese Methode auf ein Problem stoßen, das heißt, es gibt keine Möglichkeit, den kumulativen Fehler gut zu behandeln – und der Kern dieses Problems ist das Fehlen eines wirksamen „Feedback-Mechanismus“. Nehmen wir das Falten von Kleidung als Beispiel. Wenn Menschen Kleidung falten, passen sie ihre Arbeitsstrategien tatsächlich ständig an die Veränderungen an der Kleidung an, die sie visuell sehen, und falten die Kleidung schließlich in das gewünschte Aussehen. Dabei gibt es tatsächlich einen relativ impliziten, aber sehr wichtigen Punkt: Die Menschen wissen ungefähr, welche Operationen welche Veränderungen in der Kleidung bewirken. Wenn man dann noch einen Schritt weiter geht, haben die Leute tatsächlich ein Modell

über

Kleidungsverformung und können ungefähr wissen, welche Art von Eingabe zu Änderungen im Zustand (Kleidungsplatzierung) führt (die visuelle Ebene ist die Pixelebene). kann ausgedrückt werden als: Einige Gedanken zum Weltmodell für den Roboterbetrieb

SORA hat mir tatsächlich eine Chance gegeben, das heißt, solange genügend Daten vorhanden sind, kann ich Transformator + Diffusionsschicht verwenden, um ein Modell f hart zu trainieren, das Änderungen verstehen und vorhersagen kann . Unter der Annahme, dass wir bereits über ein sehr starkes Modell f verfügen, das Änderungen in der Kleidung durch Operationen vorhersagt, können wir beim Falten von Kleidung durch Feedback zum Kleidungsstatus auf Pixelebene und die Idee der

Model Predictive Control ein visuelles Servo (Visual Servo) erstellen

Strategien, um Kleidung in den gewünschten Zustand zu falten. Dies wurde tatsächlich durch einige der jüngsten „heftigen Diskussionen“ von LeCun bestätigt: Wie baut man ein Weltmodell für den Roboterbetrieb auf?

Einige Gedanken zum Weltmodell für den Roboterbetrieb

Das obige ist der detaillierte Inhalt vonEinige Gedanken zum Weltmodell für den Roboterbetrieb. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

transformer prompt

Stellungnahme：

Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen

Vorheriger Artikel：Yuanxiangs erstes multimodales Großmodell XVERSE-V ist Open Source, aktualisiert die Liste der maßgeblichen Großmodelle und unterstützt die Eingabe aller SeitenverhältnisseNächster Artikel：Yuanxiangs erstes multimodales Großmodell XVERSE-V ist Open Source, aktualisiert die Liste der maßgeblichen Großmodelle und unterstützt die Eingabe aller Seitenverhältnisse

In Verbindung stehende Artikel

Mehr sehen