Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Einsende-E-Mail: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
Wenn wir eine mechanische Uhr in die Hand nehmen, sehen wir das Zifferblatt und die Zeiger von vorne und die Krone und das Armband von der Seite Auf der Rückseite der Uhr sehen Sie komplexe Zahnräder und Uhrwerke. Jede Perspektive liefert unterschiedliche Informationen, die kombiniert werden, um die dreidimensionale Gesamtansicht des manipulierten Objekts zu verstehen. Wenn Sie möchten, dass ein Roboter lernt, komplexe Aufgaben im wirklichen Leben auszuführen, müssen Sie zunächst dem Roboter die Eigenschaften des Betriebsobjekts und des bedienten Objekts verständlich machen sowie die entsprechenden drei -dimensionaler Betriebsraum, einschließlich der Position, Form und Okklusionsbeziehung zwischen Objekten sowie der Beziehung zwischen Objekten und der Umgebung usw. Zweitens muss der Roboter Anweisungen in natürlicher Sprache verstehen, eine langfristige Planung durchführen und zukünftige Aktionen effizient ausführen können. Es ist eine Herausforderung, Roboter mit den Fähigkeiten von der Umgebungswahrnehmung bis zur Handlungsvorhersage auszustatten. Kürzlich hat sich Professor Li Im Rahmen dieses Prozesses wurde ein universeller verkörperter Operationsalgorithmus vorgeschlagen, der durch Multi-View-Fusion angetrieben wird und eine praktikable Lösung für Roboter zum Erlernen komplexer Operationen darstellt. Das Papier wurde von der „International Machine Learning Conference ICML 2024“ angenommen und legte den Grundstein für die Grundlage für die Konstruktion einer universellen dreidimensionalen verkörperten Strategie. Die SAM-E-Videoeinführung lautet wie folgt: In den letzten Jahren hat sich die Fähigkeit grundlegender Sehmodelle, Bilder zu verstehen, rasant entwickelt. Allerdings gibt es noch viele Herausforderungen beim Verständnis des dreidimensionalen Raums. Können wir große visuelle Modelle verwenden, um verkörperten Agenten dabei zu helfen, dreidimensionale Betriebsszenen zu verstehen und sie in die Lage zu versetzen, verschiedene komplexe Betriebsaufgaben im dreidimensionalen Raum zu erledigen? Inspiriert durch den kognitiven Prozess „Wahrnehmung-Erinnerung-Denken-Vorstellungskraft“ schlägt der Artikel ein neues „verkörpertes Basismodell SAM-E“ vor, das auf dem visuellen Segmentierungsmodell Segment Anything (SAM) basiert. Zuallererst verfügt SAM-E über eine leistungsstarke, aufrufbare „Wahrnehmung“-Fähigkeit. Es wendet die einzigartige Segmentierungsstruktur von SAM auf bestimmte Aufgaben von Sprachanweisungen an und ermöglicht es dem Modell, durch das Parsen von Textanweisungen auf die Szene zu achten . Bedienobjekt. Anschließend wird ein Multi-View-Transformer entwickelt, um Tiefenmerkmale, Bildmerkmale und Befehlsmerkmale zu verschmelzen und auszurichten, um das Objekt „memory“ und die Operation „
think
“ zu erreichen und den Roboterarm dreidimensional zu verstehen Betriebsraum. Schließlich wird ein
neues Aktionssequenz-Vorhersagenetzwerk
vorgeschlagen, um Aktionssequenzen in mehreren Zeitschritten zu modellieren, Aktionsanweisungen zu „vorstellen“ und von der dreidimensionalen Szenenwahrnehmung bis hin zu verkörperten Aktionen zu realisieren Ausgabe
- Papiername: SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation
- Papierlink: https://sam-embodied.github.io/static/SAM-E.pdf
- Projektadresse: https://sam-embodied.github.io/
Von der zweidimensionalen Wahrnehmung zur dreidimensionalen WahrnehmungIn der Welle des digitalen Zeitalters Mit der künstlichen Intelligenz Mit der rasanten Entwicklung intelligenter Technologie treten wir allmählich in eine neue Ära ein – die Ära der verkörperten Intelligenz. Einem intelligenten Agenten einen Körper zu geben und ihn in die Lage zu versetzen, direkt mit der realen Welt zu interagieren, ist zu einer der Schlüsselrichtungen der aktuellen Forschung geworden. Um dieses Ziel zu erreichen, muss der Agent über starke dreidimensionale Wahrnehmungsfähigkeiten verfügen, damit er die Umgebung genau verstehen kann. Herkömmliche zweidimensionale Wahrnehmungsmethoden sind angesichts des komplexen dreidimensionalen Raums unzureichend. Wie man es verkörperten Agenten ermöglicht, die genaue Modellierungsfähigkeit des dreidimensionalen Raums durch Lernen zu beherrschen, ist zu einem Schlüsselproblem geworden, das gelöst werden muss dringend. Vorhandene Arbeit stellt den dreidimensionalen Raum aus mehreren Perspektiven wie Vorderansicht, Draufsicht, Seitenansicht usw. wieder her und rekonstruiert. Allerdings sind die erforderlichen Rechenressourcen relativ groß und die Generalisierungsfähigkeit ist in verschiedenen Szenarien schlecht . begrenzt. Um dieses Problem zu lösen, untersucht diese Arbeit einen neuen Ansatz –
Anwendung der leistungsstarken Generalisierungsfähigkeit großer visueller Modelle auf den Bereich der dreidimensionalen Wahrnehmung verkörperter Agenten. SAM-E schlägt vor, das allgemeine visuelle große Modell SAM mit starker Generalisierungsfähigkeit für die visuelle Wahrnehmung zu verwenden. Durch effiziente Feinabstimmung sind Funktionen zur Merkmalsextraktion und Instanzsegmentierung für komplexe Szenen verfügbar Verständnis und andere Fähigkeiten werden effektiv auf verkörperte Szenen übertragen.
Um die Leistung des SAM-Basismodells weiter zu optimieren, wird das Konzept des Aktionssequenznetzwerks eingeführt, das nicht nur die Vorhersage einer einzelnen Aktion erfassen, sondern auch den inneren Zusammenhang zwischen aufeinanderfolgenden Aktionen und Aktionen tiefgreifend verstehen kann Ermitteln Sie die Zeitinformationen zwischen den Aktionen vollständig und verbessern Sie so die Fähigkeit des Basismodells, verkörperte Szenen zu verstehen und sich daran anzupassen. Abbildung 1. SAM-E-Gesamtrahmen
Der Kernaspekt der SAM-E-Methode umfasst hauptsächlich zwei Aspekte:
Unter Verwendung der prompt-gesteuerten Struktur von SAM wird ein leistungsstarkes Basismodell verwendet gebaut, das eine hervorragende Generalisierungsleistung unter Anweisungen in der Aufgabensprache aufweist. Durch die LoRA-Feinabstimmungstechnologie wird das Modell an spezifische Aufgaben angepasst und so seine Leistung weiter verbessert. nutzt die
sequenzielle Aktionsmodellierungstechnologie, um die Zeitinformationen in der Aktionssequenz zu erfassen, die dynamischen Änderungen der Aufgabe besser zu verstehen und die Strategie und Ausführungsmethode des Roboters rechtzeitig anzupassen, um eine hohe Ausführungseffizienz der Aufgabe aufrechtzuerhalten Roboter. Schnelle Wahrnehmung und Feinabstimmung
- Der Kern von SAM-E ist eine Netzwerkstruktur, die durch Eingabeaufforderungen für Aufgabenanweisungen gesteuert wird, einschließlich eines leistungsstarken visuellen Encoders und eines leichten Decoders.
In verkörperten Szenen- werden Aufgaben-„Eingabeaufforderungen“ in Form natürlicher Sprache dargestellt Als Aufgabenbeschreibungsanweisungen übt der visuelle Encoder seine auffordernden Wahrnehmungsfähigkeiten aus, um aufgabenbezogene Merkmale zu extrahieren. Das Richtliniennetzwerk fungiert als Decoder und gibt Aktionen basierend auf der verschmolzenen visuellen Einbettung und den Sprachanweisungen aus. In der Trainingsphase nutzt SAM-E LoRA für eine effiziente Feinabstimmung
, wodurch die Trainingsparameter erheblich reduziert werden und das grundlegende Sehmodell eine schnelle Anpassung an bestimmte Aufgaben ermöglicht.
Multiperspektivische 3D-FusionSAM-E führt ein multiperspektivisches Transformer-Netzwerk ein, um visuelle Eingaben aus mehreren Perspektiven zu fusionieren und den dreidimensionalen Raum tiefgreifend zu verstehen. Seine Arbeit ist in zwei Phasen unterteilt: Betrachtungsbezogene Aufmerksamkeit und Cross-view-Aufmerksamkeit. Führen Sie zunächst eine Intra-View-Aufmerksamkeitsverarbeitung für Multi-View-Funktionen separat durch und verschmelzen Sie dann mehrere Ansichten und Sprachbeschreibungen für Hybrid-View-Aufmerksamkeit, um eine Multi-View-Informationsfusion und Bild-Sprach-Ausrichtung zu erreichen. Aktionssequenzmodellierung Während der Roboterarmausführung zeigen Position und Drehung des Endeffektors normalerweise einen kontinuierlichen und gleichmäßigen Änderungstrend. Diese Funktion ermöglicht eine enge Verbindung und Kontinuität zwischen benachbarten Aktionen. Basierend auf dieser Beobachtung wird eine neuartige Hypothese der zeitlichen Glättung vorgeschlagen, die darauf abzielt, die intrinsische Korrelation zwischen benachbarten Aktionen vollständig auszunutzen und ein effektives Nachahmungslernen von Aktionssequenzen zu erreichen.
Konkret erfasst das SAM-E-Framework Muster und Beziehungen in Aktionssequenzen durch Sequenzmodellierungstechnologie, stellt implizites Vorwissen für die Aktionsvorhersage bereit und schränkt die Kontinuität von Aktionen ein, wodurch die Genauigkeit und Konsistenz von Aktionen erheblich verbessert wird Vorhersage.
In praktischen Anwendungen ermöglicht SAM-E die Ausführung aufeinanderfolgender mehrstufiger Aktionen in einer Aktionsvorhersage, wodurch die Ausführungseffizienz erheblich verbessert wird.
Abbildung 4. Netzwerk zur Vorhersage von Aktionssequenzen -View-Beobachtung Das SAM-E-Modell übertrifft andere herkömmliche Methoden in vielerlei Hinsicht deutlich.
Im Multitask-Szenario
verbessert das SAM-E-Modell die Missionserfolgsquote erheblich.
Wenn die Situation besteht, eine kleine Anzahl von Proben zu neuen Aufgaben zu migrieren, kann SAM-E mit seiner starken Generalisierungsleistung und effizienten Ausführungseffizienz die Leistung neuer Aufgaben effektiv verbessern. ✨
Abbildung 6. Beispiel für dreidimensionale Betriebsaufgaben verbessert die Ausführungseffizienz von SAM-E und gleichzeitig in der Strategieausführungsstufe signifikant die Ausführungseffizienz von SAM-E Eine einzelne Aktion, Aktionssequenzausführung Die Anzahl der Modellinferenzen wird erheblich reduziert, und die entsprechende Aufgabe kann während des Tests sogar durch eine Modellinferenz abgeschlossen werden. Steuern Sie , indem Sie zwei Third-Person-Kameras verwenden, um mehrperspektivische Sichteingaben zu erfassen, mit Echtzeit-Begründungsfunktionen für fünf Aufgaben aus der realen Welt. Zusammenfassung
Diese Arbeit war der Pionier Methode basierend auf Multi-View-Fusion. Mithilfe integrierter Operationsalgorithmen werden visuelle Segmentierung großer Modelle und Multi-View-Fusion verwendet, um eine dreidimensionale Darstellung zu erreichen physische Raumwahrnehmung verkörperter Agenten. Durch effiziente Feinabstimmung der Parameter wird das vorab trainierte visuelle Modell auf die verkörperte Szene übertragen, wodurch die komplexen 3D-Roboterarm-Bedienungsaufgaben natürlichsprachlicher Anweisungen gelöst werden können. Darüber hinaus kann das Modell durch das Erlernen einer kleinen Anzahl von Expertenbeispielen schnell auf neue Aufgaben übertragen werden, was eine überlegene Trainingseffizienz und Effizienz bei der Aktionsausführung zeigt.
Noch wichtiger ist, dass SAM-E die kognitive Verknüpfung „
Wahrnehmung-Erinnerung-Denken-Imagination“ nutzt, um eine durchgängige Zuordnung von Daten zu Maßnahmen zu erreichen. Seine Bedeutung liegt nicht nur in seiner Anwendung bei der verkörperten Intelligenz, sondern auch in seiner Inspiration zur Verbesserung der kognitiven Fähigkeiten der Intelligenz.
Durch die Simulation menschlicher Wahrnehmungs- und Entscheidungsmethoden können intelligente Agenten komplexe Umgebungen besser verstehen und sich an sie anpassen und so in einem breiteren Spektrum von Bereichen eine größere Rolle spielen.
Vorstellung an den Teamleiter:
Li Xuelong, CTO und Chefwissenschaftler von China Telecom, Präsident des China Telecom Artificial Intelligence Research Institute (TeleAI). Der Schwerpunkt liegt hauptsächlich auf künstlicher Intelligenz, lokaler Sicherheit, Bildverarbeitung und verkörperter Intelligenz. Das obige ist der detaillierte Inhalt vonTeleAI und Shanghai AI Lab schlagen eine neue Kette dreidimensionaler Wahrnehmung verkörperter Intelligenz vor und schlagen ein multiperspektivisches verkörpertes Fusionsmodell „SAM-E“ vor.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!
Stellungnahme:Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn