Heim > Artikel > Technologie-Peripheriegeräte > Die Kerntechnologie von Byte AI Lab gewann die Habitat Challenge 2022 Active Navigation Championship, die traditionelle Methoden mit Nachahmungslernen kombiniert.
Objektnavigation ist eine der Grundaufgaben intelligenter Roboter. Bei dieser Aufgabe erkundet und findet der intelligente Roboter aktiv bestimmte, von Menschen bestimmte Arten von Objekten in einer unbekannten neuen Umgebung. Die Aufgabe der Objektzielnavigation orientiert sich an den Anwendungsanforderungen zukünftiger Heimservice-Roboter. Wenn Menschen den Roboter benötigen, um bestimmte Aufgaben zu erledigen, beispielsweise um ein Glas Wasser zu holen, muss der Roboter zunächst den Standort des Wasserbechers finden und sich dorthin bewegen , und dann helfen Sie den Leuten, den Wasserbecher zu bekommen.
Die Habitat Challenge wird gemeinsam von Meta AI und anderen Institutionen organisiert. Sie ist einer der bekanntesten Wettbewerbe im Bereich der Objektnavigation. Insgesamt haben 54 Teams daran teilgenommen in diesem Wettbewerb. Im Wettbewerb schlugen Forscher des ByteDance AI Lab-Research-Teams ein neues Framework für die Objektzielnavigation vor, um die Mängel bestehender Methoden zu beheben. Dieses Framework kombiniert geschickt Nachahmungslernen mit traditionellen Methoden, um sich von der Masse abzuheben und die Meisterschaft zu gewinnen. Ergebnisse, die die Ergebnisse des Zweitplatzierten und der anderen teilnehmenden Teams in der Schlüsselmetrik SPL deutlich übertrafen. Historisch gesehen sind die Championteams dieser Veranstaltung im Allgemeinen bekannte Forschungseinrichtungen wie CMU, UC Berkerly und Facebook.
Test-Standard-Liste
Test-Challenge-Liste
Habitat Challenge Competition Offizielle Website: https://aihabitat.org/challenge/2022/
Habitat Challenge Competition LeaderBoard: https:// eval .ai/web/challenges/challenge-page/1615/leaderboard
Aktuelle Objektzielnavigationsmethoden können grob in zwei Kategorien unterteilt werden: End-to-End-Methoden und kartenbasierte Methoden. Die End-to-End-Methode extrahiert die Eigenschaften der eingegebenen Sensordaten und sendet sie dann an ein Deep-Learning-Modell, um die Aktion zu erhalten. Solche Methoden basieren im Allgemeinen auf Verstärkungslernen oder Imitationslernen (Abbildung 1 Kartenlose Methoden). -basierte Methoden erstellen im Allgemeinen explizite oder implizite Karten, wählen dann durch Verstärkungslernen und andere Methoden einen Zielpunkt auf der Karte aus und planen schließlich den Pfad und erhalten die Aktion (Abbildung 1 Kartenbasierte Methode).
Abbildung 1 Flussdiagramm der End-to-End-Methode (oben) und der kartenbasierten Methode (unten)
Nach einer großen Anzahl von Experimenten zum Vergleich der beiden Methodentypen stellten die Forscher fest, dass beide Typen Verschiedene Methoden haben ihre eigenen Vor- und Nachteile: Die End-to-End-Methode erfordert nicht die Erstellung einer Umgebungskarte, ist daher prägnanter und verfügt über eine stärkere Generalisierungsfähigkeit in verschiedenen Szenarien. Da das Netzwerk jedoch lernen muss, die räumlichen Informationen der Umgebung zu kodieren, ist es auf eine große Menge an Trainingsdaten angewiesen und es ist schwierig, gleichzeitig einige einfache Verhaltensweisen zu erlernen, z. B. das Anhalten in der Nähe des Zielobjekts. Kartenbasierte Methoden verwenden Raster zum Speichern von Features oder Semantik und verfügen über explizite räumliche Informationen, sodass die Lernschwelle für diese Art von Verhalten niedriger ist. Es hängt jedoch stark von genauen Positionierungsergebnissen ab und in einigen Umgebungen wie Treppen ist eine künstliche Wahrnehmungsgestaltung und Wegeplanungsstrategien erforderlich.
Basierend auf den oben genannten Schlussfolgerungen hoffen Forscher des ByteDance AI Lab-Research-Teams, die Vorteile der beiden Methoden zu kombinieren. Allerdings sind die Algorithmusprozesse dieser beiden Methoden sehr unterschiedlich und schwer direkt zu kombinieren. Außerdem ist es schwierig, eine Strategie zu entwerfen, um die Ausgabe der beiden Methoden direkt zu integrieren. Daher entwickelten die Forscher eine einfache, aber effektive Strategie, die es den beiden Arten von Methoden ermöglicht, je nach Status des Roboters abwechselnd aktive Erkundung und Objektsuche durchzuführen und so ihre jeweiligen Vorteile zu maximieren.
Der Algorithmus besteht hauptsächlich aus zwei Zweigen: dem Wahrscheinlichkeitskarten-basierten Zweig und dem End-to-End-Zweig. Die Eingabe des Algorithmus ist das RGB-D-Bild und die Roboterpose der ersten Ansicht sowie die zu findende Zielobjektkategorie, und die Ausgabe ist die nächste Aktion (Aktion). Das RGB-Bild wird zunächst segmentiert und zusammen mit anderen Roheingabedaten an beide Zweige übergeben. Die beiden Zweige geben jeweils ihre eigenen Aktionen aus, und eine Umschaltstrategie bestimmt die endgültige Ausgabeaktion.
Abbildung 2 Schematische Darstellung des Algorithmusflusses
Der auf der Wahrscheinlichkeitskarte basierende Zweig
Der auf der Wahrscheinlichkeitskarte basierende Zweig basiert auf der Idee der semantischen Verknüpfungskarte[2] und vereinfacht die Methode des Originalpapiers des Autors[3], das auf der IROS Robot Conference veröffentlicht wurde . Dieser Zweig erstellt eine semantische 2D-Karte auf der Grundlage der Segmentierungsergebnisse der Eingabeinstanz, der Tiefenkarte und der Roboterhaltung. Andererseits aktualisiert er eine Wahrscheinlichkeitskarte auf der Grundlage der vorab erlernten Assoziationswahrscheinlichkeiten zwischen Objekten.
Die Aktualisierungsmethoden der Wahrscheinlichkeitskarte umfassen Folgendes: Wenn das Zielobjekt erkannt wird, aber nicht sicher genug ist (der Vertrauenswert liegt unter dem Schwellenwert), sollte die genauere Beobachtung zu diesem Zeitpunkt fortgesetzt werden, sodass der Wahrscheinlichkeitswert des Der entsprechende Bereich auf der Wahrscheinlichkeitskarte sollte vergrößert werden (wie im oberen Teil von Abbildung 3 gezeigt). , erhöht sich auch der Wahrscheinlichkeitswert des entsprechenden Bereichs (wie im unteren Teil von Abbildung 3 dargestellt). Durch die Auswahl des Bereichs mit der höchsten Wahrscheinlichkeit als Zielpunkt ermutigt der Algorithmus den Roboter, sich potenziellen Zielobjekten und verwandten Objekten zur weiteren Beobachtung zu nähern, bis er ein Zielobjekt mit einer Konfidenzwahrscheinlichkeit über dem Schwellenwert findet.
Abbildung 3 Schematische Darstellung der Methode zur Aktualisierung der Wahrscheinlichkeitskarte
End-to-End-Zweig
Die Eingabe des End-to-End-Zweigs umfasst RGB-D-Bilder, Instanzsegmentierungsergebnisse und Roboter Posen und Zielobjektkategorien sowie Direktausgabeaktion. Die Hauptfunktion des End-to-End-Zweigs besteht darin, den Roboter bei der Suche nach Objekten wie Menschen anzuleiten. Daher werden das Modell und der Trainingsprozess der Habitat-Web[4]-Methode übernommen. Die Methode basiert auf Nachahmungslernen, bei dem das Netzwerk trainiert wird, indem Beispiele von Menschen gesammelt werden, die in einem Trainingssatz nach Objekten suchen.
Umschaltstrategie
Die Umschaltstrategie wählt hauptsächlich eine der beiden vom Wahrscheinlichkeitskartenzweig und vom End-to-End-Zweig ausgegebenen Aktionen als endgültige Ausgabe basierend auf den Ergebnissen der Wahrscheinlichkeitskarten- und Pfadplanung aus. Wenn in der Wahrscheinlichkeitskarte kein Raster mit einer Wahrscheinlichkeit größer als der Schwellenwert vorhanden ist, muss der Roboter die Umgebung erkunden. Wenn auf der Karte kein möglicher Pfad geplant werden kann, befindet sich der Roboter möglicherweise in bestimmten Umgebungen (z. B. Treppen). In beiden Fällen werden End-to-End-Methoden verwendet. Durch die End-to-End-Verzweigung erhält der Roboter eine ausreichende Anpassungsfähigkeit an die Umgebung. In anderen Fällen wird der probabilistische Kartenzweig ausgewählt, um seine Vorteile beim Auffinden von Zielobjekten voll auszuschöpfen.
Der Effekt dieser Umschaltstrategie wird im Video gezeigt. Der Roboter nutzt im Allgemeinen den End-to-End-Zweig, um die Umgebung effizient zu erkunden. Sobald ein mögliches Zielobjekt oder ein damit verbundenes Objekt gefunden wird, wechselt er zum Wahrscheinlichkeitskartenzweig Wenn die Konfidenzwahrscheinlichkeit des Zielobjekts größer als der Schwellenwert ist, wird es beim Zielobjekt angehalten. Andernfalls nimmt der Wahrscheinlichkeitswert in dem Bereich weiter ab, bis keine Gitter mehr vorhanden sind, deren Wahrscheinlichkeit größer als der Schwellenwert ist. und der Roboter wechselt wieder in den End-to-End-Modus, um die Erkundung fortzusetzen.
Wie im Video zu sehen ist, vereint diese Methode die Vorteile sowohl des End-to-End-Ansatzes als auch des kartenbasierten Ansatzes. Die beiden Zweige erfüllen ihre eigenen Aufgaben. Die End-to-End-Methode ist hauptsächlich für die Erkundung der Umgebung verantwortlich. Daher kann diese Methode nicht nur komplexe Szenen (z. B. Treppen) erkunden, sondern auch den Schulungsbedarf des End-to-End-Zweigs reduzieren.
Für die objektaktive Zielnavigation schlug das ByteDance AI Lab-Research-Team ein Framework vor, das klassische Wahrscheinlichkeitskarten mit modernem Imitationslernen kombiniert. Dieses Framework ist ein erfolgreicher Versuch, traditionelle Methoden mit einem End-to-End-Ansatz zu kombinieren. Im Habitat-Wettbewerb übertraf die vom ByteDance AI Lab-Research-Team vorgeschlagene Methode die Ergebnisse des Zweitplatzierten und anderer teilnehmender Teams deutlich und bewies damit die Weiterentwicklung des Algorithmus. Durch die Einführung traditioneller Methoden in die aktuelle Mainstream-End-to-End-Methode der verkörperten KI können wir einige Mängel der End-to-End-Methode weiter ausgleichen und so intelligente Roboter auf dem Weg zur Hilfe und zum Dienst an Menschen weiterbringen.
Kürzlich wurde die Forschung des ByteDance AI Lab-Research-Teams auf dem Gebiet der Robotik auch in Top-Robotikkonferenzen wie CoRL, IROS und ICRA einbezogen, darunter Objektpositionsschätzung, Objekterfassung, Zielnavigation, automatische Montage und Mensch- Computerinteraktion und andere Kernaufgaben von Robotern.
【CoRL 2022】Generative Form- und Posenschätzung auf Kategorieebene mit semantischen Primitiven
【IROS 2022】3D-Teilebaugruppengenerierung mit instanzencodiertem Transformator
【IROS 2022】Navigieren zu Objekten in unsichtbaren Umgebungen durch Entfernungsvorhersage
【EMNLP 2022】Towards Unifying Reference Expression Generation and Comprehension
【ICRA 2022】Lernen von Design und Konstruktion mit Materialien unterschiedlicher Größe durch priorisierte Speicherrücksetzungen
【IROS 2021】Simultanes Semantik- und Kollisionslernen für 6-DoF Grasp Pose Estimation
【IROS 2021】Learning to Design and Construct Bridge without Blueprint
[1] Yadav, Karmesh, et al. „Habitat-Matterport 3D Semantics Dataset“. und Odest Chadwicke Jenkins. „Semantische Verknüpfungskarten für die aktive visuelle Objektsuche.“ 2020 IEEE International Conference on Robotics and Automation, 2020.
[3] Minzhao Zhu, Binglei Zhao und Tao Kong Objekte in unsichtbaren Umgebungen durch Entfernungsvorhersage.“ Tagungsband der IEEE/CVF-Konferenz zu Computer Vision und Mustererkennung. 2022 Er ist im Bereich der Technologieforschung tätig und engagiert sich für die Umsetzung von Forschungsergebnissen in die Praxis sowie für die Bereitstellung grundlegender technischer Unterstützung und Dienstleistungen für die bestehenden Produkte und Geschäfte des Unternehmens. Die technischen Fähigkeiten des Teams werden durch die Volcano Engine der Außenwelt zugänglich gemacht, wodurch KI-Innovationen gefördert werden.
ByteDance AI-Lab NLP&Research Kontaktinformationen
Rekrutierungsberatung: fankaijing@bytedance.comAkademische Zusammenarbeit: luomanping@bytedance.comDas obige ist der detaillierte Inhalt vonDie Kerntechnologie von Byte AI Lab gewann die Habitat Challenge 2022 Active Navigation Championship, die traditionelle Methoden mit Nachahmungslernen kombiniert.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!