Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Das Training mit 7.500 Flugbahndaten, CMU und Meta ermöglichen es dem Roboter, das Niveau eines Allround-Wohnzimmers und einer Küche zu erreichen

Das Training mit 7.500 Flugbahndaten, CMU und Meta ermöglichen es dem Roboter, das Niveau eines Allround-Wohnzimmers und einer Küche zu erreichen

PHPz
PHPznach vorne
2023-08-24 18:17:12874Durchsuche

Allein durch das Training anhand von 7500 Flugbahndaten kann dieser Roboter 12 verschiedene Bedienfähigkeiten in 38 Aufgaben demonstrieren, die sich nicht nur auf das Aufnehmen und Schieben beschränken, sondern auch die gemeinsame Objektmanipulation und Objektneupositionierung umfassen. Darüber hinaus können diese Fähigkeiten auf Hunderte verschiedener unbekannter Situationen angewendet werden, darunter unbekannte Objekte, unbekannte Aufgaben und sogar völlig unbekannte Küchenumgebungen. Diese Art von Roboter ist wirklich cool!

Das Training mit 7.500 Flugbahndaten, CMU und Meta ermöglichen es dem Roboter, das Niveau eines Allround-Wohnzimmers und einer Küche zu erreichen

Die Entwicklung eines Roboters, der in der Lage ist, beliebige Objekte in verschiedenen Umgebungen zu manipulieren, ist seit Jahrzehnten ein schwer erreichbares Ziel. Einer der Gründe ist der Mangel an vielfältigen Robotik-Datensätzen zum Trainieren solcher Agenten sowie der Mangel an Allzweckagenten, die in der Lage sind, solche Datensätze zu generieren

Um dieses Problem zu lösen, haben Forscher der Carnegie Mellon University und Meta Der Autor von AI hat zwei Jahre damit verbracht, einen universellen RoboAgent zu entwickeln. Ihr Hauptziel besteht darin, ein effizientes Paradigma zu entwickeln, das einen Generalagenten trainieren kann, der mit begrenzten Daten zu mehreren Fähigkeiten fähig ist, und diese Fähigkeiten auf verschiedene unbekannte Situationen verallgemeinern kann. eine verteilte Robotik-Infrastruktur, die mit Allzweck-Hardware ausgestattet ist, die für einen langfristigen Non-Stop-Betrieb geeignet ist;

Das Training mit 7.500 Flugbahndaten, CMU und Meta ermöglichen es dem Roboter, das Niveau eines Allround-Wohnzimmers und einer Küche zu erreichenRoboHive – ein einheitliches Framework für simulierte und reale Operationen; Roboterlernen in; Qualitätsdatensatz, der mehrere Fähigkeiten unter Verwendung von Alltagsgegenständen in verschiedenen Szenarien darstellt;

MT-ACT – eine effiziente sprachkonditionierte Multitasking-Offline-Imitation. Das Lernframework erweitert den Offline-Datensatz durch die Erstellung verschiedener semantisch erweiterter Sätze basierend auf vorhandener Robotererfahrung. und übernimmt eine neuartige Richtlinienarchitektur und eine effiziente Aktionsdarstellungsmethode, um mit einem begrenzten Datenbudget wiederherzustellen. Eine Strategie, die gut funktioniert.

  • RoboSet: Multi-Skill-, Multi-Task-, multimodaler Datensatz
  • Um einen Roboteragenten zu erstellen, der in vielen verschiedenen Situationen verallgemeinert werden kann, benötigen Sie zunächst einen Datensatz mit breiter Abdeckung. Angesichts der Tatsache, dass Skalierungsbemühungen oft hilfreich sind (z. B. zeigte RT-1 Ergebnisse auf etwa 130.000 Robotertrajektorien), besteht die Notwendigkeit, die Effizienz- und Generalisierungsprinzipien lernender Systeme im Kontext begrenzter Datensätze, oft mit wenigen Daten, zu verstehen Situationen führen zu einer Überanpassung. Daher besteht das Hauptziel der Autoren darin, ein leistungsstarkes Paradigma zu entwickeln, das verallgemeinerbare allgemeine Strategien in Situationen mit wenig Daten erlernen und gleichzeitig Überanpassungsprobleme vermeiden kann.
  • Das Kompetenz- und Datenpanorama beim Roboterlernen ist ein wichtiges Feld. Beim Roboterlernen beziehen sich Fähigkeiten auf die Fähigkeiten, die ein Roboter durch Lernen und Training erwirbt und die zur Ausführung bestimmter Aufgaben eingesetzt werden können. Die Entwicklung dieser Fähigkeiten kann nicht von der Unterstützung großer Datenmengen getrennt werden. Daten sind die Grundlage für das Lernen von Robotern. Durch die Analyse und Verarbeitung von Daten können Roboter daraus lernen und ihre Fähigkeiten verbessern. Daher sind Fähigkeiten und Daten zwei unverzichtbare Aspekte des Roboterlernens. Nur durch kontinuierliches Lernen und die Erfassung neuer Daten können Roboter ihre Fähigkeiten weiter verbessern und bei verschiedenen Aufgaben eine höhere Intelligenz und Effizienz zeigen
  • Der zum Training von RoboAgent verwendete Datensatz RoboSet (MT-ACT) umfasst nur 7.500 Trajektorien (18-mal weniger als die Daten von RT-1). Der Datensatz wird vorab erfasst und bleibt eingefroren. Der Datensatz besteht aus hochwertigen Trajektorien, die während der menschlichen Teleoperation mithilfe handelsüblicher Roboterhardware (Franka-Emika-Roboter mit Robotiq-Greifer) über mehrere Aufgaben und Szenarien hinweg erfasst wurden. RoboSet (MT-ACT) deckt 12 einzigartige Fähigkeiten in verschiedenen Kontexten spärlich ab. Die Daten wurden gesammelt, indem die täglichen Küchenaktivitäten (z. B. Tee zubereiten, Backen) in verschiedene Unteraufgaben unterteilt wurden, die jeweils eine einzigartige Fähigkeit repräsentierten. Der Datensatz umfasst allgemeine Pick-and-Place-Fähigkeiten, aber auch kontaktreiche Fertigkeiten wie Wischen, Deckeln und Fertigkeiten mit beweglichen Objekten. Umgeschriebener Inhalt: Der zum Training von RoboAgent verwendete Datensatz RoboSet (MT-ACT) umfasst nur 7.500 Trajektorien (18-mal weniger als die Daten für RT-1). Der Datensatz wird vorab erfasst und bleibt eingefroren. Der Datensatz besteht aus hochwertigen Trajektorien, die während der menschlichen Teleoperation mithilfe handelsüblicher Roboterhardware (Franka-Emika-Roboter mit Robotiq-Greifer) über mehrere Aufgaben und Szenarien hinweg erfasst wurden. RoboSet (MT-ACT) deckt 12 einzigartige Fähigkeiten in verschiedenen Kontexten spärlich ab. Die Daten wurden gesammelt, indem die täglichen Küchenaktivitäten (z. B. Tee zubereiten, Backen) in verschiedene Unteraufgaben unterteilt wurden, die jeweils eine einzigartige Fähigkeit repräsentierten. Der Datensatz umfasst allgemeine Pick-and-Place-Fähigkeiten, aber auch kontaktreiche Fähigkeiten wie Wischen, Abdecken und Fähigkeiten mit beweglichen Objekten erlernt allgemeine Strategien in Situationen mit wenig Daten basierend auf zwei wichtigen Erkenntnissen. Es nutzt das weltweite Vorwissen des Basismodells, um einen Modenkollaps zu vermeiden, und übernimmt eine neuartige und effiziente Strategiedarstellung, um hochgradig multimodale Daten aufnehmen zu können

    Das Training mit 7.500 Flugbahndaten, CMU und Meta ermöglichen es dem Roboter, das Niveau eines Allround-Wohnzimmers und einer Küche zu erreichenDer Inhalt, der neu geschrieben werden muss, ist: 1. Semantische Verbesserung : RoboAgent Durch die semantische Erweiterung von RoboSet (MT-ACT) wird Vorwissen über die Welt aus dem vorhandenen Basismodell in dieses eingebracht. Der resultierende Datensatz kombiniert die Erfahrung des Roboters mit Vorkenntnissen der Welt ohne zusätzliche Mensch-/Roboterkosten. Verwenden Sie SAM, um Zielobjekte zu segmentieren und sie hinsichtlich Form-, Farb- und Texturänderungen semantisch zu verbessern. Neu geschriebener Inhalt: 1. Semantische Erweiterung: RoboAgent fügt weltweites Vorwissen aus dem vorhandenen Basismodell in RoboSet (MT-ACT) ein, indem es es semantisch erweitert. Auf diese Weise können die Erfahrungen und Vorkenntnisse des Roboters über die Welt ohne zusätzliche Mensch-Roboter-Kosten kombiniert werden. Verwenden Sie SAM, um Zielobjekte zu segmentieren und eine semantische Verbesserung in Bezug auf Form-, Farb- und Texturänderungen durchzuführen

    2. Effiziente Richtliniendarstellung: Der resultierende Datensatz ist stark multimodal und enthält eine große Vielfalt an Fähigkeiten, Aufgaben und Szenarien . Wir wenden die Action-Chunking-Methode auf eine Multitasking-Umgebung an und entwickeln eine neuartige und effiziente Richtliniendarstellung, MT-ACT, die in der Lage ist, hochgradig multimodale Datensätze mit kleinen Datenmengen zu erfassen und gleichzeitig eine Überanpassung zu vermeiden Experimentelle Ergebnisse: Die Stichprobeneffizienz von RoboAgent ist höher als bei vorhandenen Methoden. Der Autor verwendet nur Umgebungsänderungen, einschließlich Objektpositionsänderungen und teilweise Beleuchtungsänderungen. Ähnlich wie in früheren Studien führen die Autoren dies auf die L1-Generalisierung zurück. Aus den Ergebnissen von RoboAgent ist deutlich ersichtlich, dass die Verwendung von Action Chunking zur Modellierung von Untertrajektorien alle Basismethoden deutlich übertrifft, was die Wirksamkeit der vom Autor vorgeschlagenen Richtliniendarstellung beim stichprobeneffizienten Lernen weiter beweist

    RoboAgent zeichnet sich durch mehrere Abstraktionsebenen aus

    Die folgende Abbildung zeigt die Ergebnisse des Autors zu Testmethoden auf verschiedenen Generalisierungsebenen. Gleichzeitig wird die Generalisierungsebene auch durch Visualisierung demonstriert, wobei L1 für Änderungen der Objekthaltung steht, L2 für verschiedene Desktop-Hintergründe und ablenkende Faktoren und L3 für neuartige Fertigkeits-Objekt-Kombinationen. Als nächstes zeigen die Autoren, wie jede Methode auf diesen Generalisierungsebenen funktioniert. In strengen Evaluierungsstudien schnitt MT-ACT deutlich besser ab als andere Methoden, insbesondere auf der schwierigeren Generalisierungsebene (L3). der semantischen Verbesserung in einer 5-Fertigkeits-Aktivität. Wie aus der folgenden Abbildung ersichtlich ist, verbessert sich die Leistung mit zunehmender Datenmenge (d. h. der Anzahl der Verbesserungen pro Frame) auf allen Generalisierungsebenen erheblich. Besonders hervorzuheben ist, dass bei der schwierigeren Aufgabe (L3-Generalisierung) die Leistungsverbesserung offensichtlicher ist

    Das Training mit 7.500 Flugbahndaten, CMU und Meta ermöglichen es dem Roboter, das Niveau eines Allround-Wohnzimmers und einer Küche zu erreichen

    RoboAgent kann seine Fähigkeiten in einer Vielzahl unterschiedlicher Aktivitäten unter Beweis stellen

    Das Training mit 7.500 Flugbahndaten, CMU und Meta ermöglichen es dem Roboter, das Niveau eines Allround-Wohnzimmers und einer Küche zu erreichen

    Das Training mit 7.500 Flugbahndaten, CMU und Meta ermöglichen es dem Roboter, das Niveau eines Allround-Wohnzimmers und einer Küche zu erreichen

Das obige ist der detaillierte Inhalt vonDas Training mit 7.500 Flugbahndaten, CMU und Meta ermöglichen es dem Roboter, das Niveau eines Allround-Wohnzimmers und einer Küche zu erreichen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen