Heim > Artikel > Technologie-Peripheriegeräte > Das Training mit 7.500 Flugbahndaten, CMU und Meta ermöglichen es dem Roboter, das Niveau eines Allround-Wohnzimmers und einer Küche zu erreichen
Allein durch das Training anhand von 7500 Flugbahndaten kann dieser Roboter 12 verschiedene Bedienfähigkeiten in 38 Aufgaben demonstrieren, die sich nicht nur auf das Aufnehmen und Schieben beschränken, sondern auch die gemeinsame Objektmanipulation und Objektneupositionierung umfassen. Darüber hinaus können diese Fähigkeiten auf Hunderte verschiedener unbekannter Situationen angewendet werden, darunter unbekannte Objekte, unbekannte Aufgaben und sogar völlig unbekannte Küchenumgebungen. Diese Art von Roboter ist wirklich cool!
Die Entwicklung eines Roboters, der in der Lage ist, beliebige Objekte in verschiedenen Umgebungen zu manipulieren, ist seit Jahrzehnten ein schwer erreichbares Ziel. Einer der Gründe ist der Mangel an vielfältigen Robotik-Datensätzen zum Trainieren solcher Agenten sowie der Mangel an Allzweckagenten, die in der Lage sind, solche Datensätze zu generieren
Um dieses Problem zu lösen, haben Forscher der Carnegie Mellon University und Meta Der Autor von AI hat zwei Jahre damit verbracht, einen universellen RoboAgent zu entwickeln. Ihr Hauptziel besteht darin, ein effizientes Paradigma zu entwickeln, das einen Generalagenten trainieren kann, der mit begrenzten Daten zu mehreren Fähigkeiten fähig ist, und diese Fähigkeiten auf verschiedene unbekannte Situationen verallgemeinern kann. eine verteilte Robotik-Infrastruktur, die mit Allzweck-Hardware ausgestattet ist, die für einen langfristigen Non-Stop-Betrieb geeignet ist;
RoboHive – ein einheitliches Framework für simulierte und reale Operationen; Roboterlernen in; Qualitätsdatensatz, der mehrere Fähigkeiten unter Verwendung von Alltagsgegenständen in verschiedenen Szenarien darstellt;
MT-ACT – eine effiziente sprachkonditionierte Multitasking-Offline-Imitation. Das Lernframework erweitert den Offline-Datensatz durch die Erstellung verschiedener semantisch erweiterter Sätze basierend auf vorhandener Robotererfahrung. und übernimmt eine neuartige Richtlinienarchitektur und eine effiziente Aktionsdarstellungsmethode, um mit einem begrenzten Datenbudget wiederherzustellen. Eine Strategie, die gut funktioniert.
Der zum Training von RoboAgent verwendete Datensatz RoboSet (MT-ACT) umfasst nur 7.500 Trajektorien (18-mal weniger als die Daten von RT-1). Der Datensatz wird vorab erfasst und bleibt eingefroren. Der Datensatz besteht aus hochwertigen Trajektorien, die während der menschlichen Teleoperation mithilfe handelsüblicher Roboterhardware (Franka-Emika-Roboter mit Robotiq-Greifer) über mehrere Aufgaben und Szenarien hinweg erfasst wurden. RoboSet (MT-ACT) deckt 12 einzigartige Fähigkeiten in verschiedenen Kontexten spärlich ab. Die Daten wurden gesammelt, indem die täglichen Küchenaktivitäten (z. B. Tee zubereiten, Backen) in verschiedene Unteraufgaben unterteilt wurden, die jeweils eine einzigartige Fähigkeit repräsentierten. Der Datensatz umfasst allgemeine Pick-and-Place-Fähigkeiten, aber auch kontaktreiche Fertigkeiten wie Wischen, Deckeln und Fertigkeiten mit beweglichen Objekten. Umgeschriebener Inhalt: Der zum Training von RoboAgent verwendete Datensatz RoboSet (MT-ACT) umfasst nur 7.500 Trajektorien (18-mal weniger als die Daten für RT-1). Der Datensatz wird vorab erfasst und bleibt eingefroren. Der Datensatz besteht aus hochwertigen Trajektorien, die während der menschlichen Teleoperation mithilfe handelsüblicher Roboterhardware (Franka-Emika-Roboter mit Robotiq-Greifer) über mehrere Aufgaben und Szenarien hinweg erfasst wurden. RoboSet (MT-ACT) deckt 12 einzigartige Fähigkeiten in verschiedenen Kontexten spärlich ab. Die Daten wurden gesammelt, indem die täglichen Küchenaktivitäten (z. B. Tee zubereiten, Backen) in verschiedene Unteraufgaben unterteilt wurden, die jeweils eine einzigartige Fähigkeit repräsentierten. Der Datensatz umfasst allgemeine Pick-and-Place-Fähigkeiten, aber auch kontaktreiche Fähigkeiten wie Wischen, Abdecken und Fähigkeiten mit beweglichen Objekten erlernt allgemeine Strategien in Situationen mit wenig Daten basierend auf zwei wichtigen Erkenntnissen. Es nutzt das weltweite Vorwissen des Basismodells, um einen Modenkollaps zu vermeiden, und übernimmt eine neuartige und effiziente Strategiedarstellung, um hochgradig multimodale Daten aufnehmen zu können
Der Inhalt, der neu geschrieben werden muss, ist: 1. Semantische Verbesserung : RoboAgent Durch die semantische Erweiterung von RoboSet (MT-ACT) wird Vorwissen über die Welt aus dem vorhandenen Basismodell in dieses eingebracht. Der resultierende Datensatz kombiniert die Erfahrung des Roboters mit Vorkenntnissen der Welt ohne zusätzliche Mensch-/Roboterkosten. Verwenden Sie SAM, um Zielobjekte zu segmentieren und sie hinsichtlich Form-, Farb- und Texturänderungen semantisch zu verbessern. Neu geschriebener Inhalt: 1. Semantische Erweiterung: RoboAgent fügt weltweites Vorwissen aus dem vorhandenen Basismodell in RoboSet (MT-ACT) ein, indem es es semantisch erweitert. Auf diese Weise können die Erfahrungen und Vorkenntnisse des Roboters über die Welt ohne zusätzliche Mensch-Roboter-Kosten kombiniert werden. Verwenden Sie SAM, um Zielobjekte zu segmentieren und eine semantische Verbesserung in Bezug auf Form-, Farb- und Texturänderungen durchzuführen
RoboAgent zeichnet sich durch mehrere Abstraktionsebenen aus
Die folgende Abbildung zeigt die Ergebnisse des Autors zu Testmethoden auf verschiedenen Generalisierungsebenen. Gleichzeitig wird die Generalisierungsebene auch durch Visualisierung demonstriert, wobei L1 für Änderungen der Objekthaltung steht, L2 für verschiedene Desktop-Hintergründe und ablenkende Faktoren und L3 für neuartige Fertigkeits-Objekt-Kombinationen. Als nächstes zeigen die Autoren, wie jede Methode auf diesen Generalisierungsebenen funktioniert. In strengen Evaluierungsstudien schnitt MT-ACT deutlich besser ab als andere Methoden, insbesondere auf der schwierigeren Generalisierungsebene (L3). der semantischen Verbesserung in einer 5-Fertigkeits-Aktivität. Wie aus der folgenden Abbildung ersichtlich ist, verbessert sich die Leistung mit zunehmender Datenmenge (d. h. der Anzahl der Verbesserungen pro Frame) auf allen Generalisierungsebenen erheblich. Besonders hervorzuheben ist, dass bei der schwierigeren Aufgabe (L3-Generalisierung) die Leistungsverbesserung offensichtlicher ist
RoboAgent kann seine Fähigkeiten in einer Vielzahl unterschiedlicher Aktivitäten unter Beweis stellen
Das obige ist der detaillierte Inhalt vonDas Training mit 7.500 Flugbahndaten, CMU und Meta ermöglichen es dem Roboter, das Niveau eines Allround-Wohnzimmers und einer Küche zu erreichen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!