Heim >Technologie-Peripheriegeräte >KI >Gemini 1.5 Pro ist im Roboter installiert und kann nach dem Besuch im Unternehmen als Concierge und Anleitung dienen.

Gemini 1.5 Pro ist im Roboter installiert und kann nach dem Besuch im Unternehmen als Concierge und Anleitung dienen.

王林Original: 2024-07-17 05:58:40988Durchsuche

Große Modelle mit langem Kontext helfen Robotern, die Welt zu verstehen.

Kürzlich hat Google DeepMind plötzlich damit begonnen, mit seinen Robotern anzugeben.

Gemini 1.5 Pro装进机器人，参观一遍公司就能礼宾、带路

Dieser Roboter kann problemlos menschlichen Anweisungen folgen, eine visuelle Navigation durchführen und mit gesundem Menschenverstand Wege im dreidimensionalen Raum finden.

Es verwendet das Gemini 1.5 Pro, ein großes Modell, das kürzlich von Google veröffentlicht wurde. Bei der Verwendung herkömmlicher KI-Modelle haben Roboter aufgrund von Kontextlängenbeschränkungen oft Schwierigkeiten, sich an Umgebungsdetails zu erinnern, aber die Millionen-Level-Token-Kontextlänge von Gemini 1.5 Pro bietet Robotern leistungsstarke Umgebungsgedächtnisfunktionen.

In einem realen Büroszenario führen Ingenieure den Roboter durch bestimmte Bereiche und markieren wichtige Orte, die abgerufen werden müssen, z. B. „Lewis‘ Schreibtisch“ oder „temporärer Schreibtischbereich“. Nachdem jemand einen Kreis geschlossen hat, kann der Roboter ihn auf Anfrage basierend auf diesen Erinnerungen zu diesen Orten bringen.

Auch wenn Sie den genauen Ort, an den Sie gehen möchten, nicht nennen können, sondern nur Ihr Ziel äußern können, kann der Roboter Sie zum entsprechenden Ort bringen. Dies ist die spezifische Manifestation der Denkfähigkeit großer Modelle in Robotern.

All dies ist untrennbar mit einer Navigationsstrategie namens Mobility VLA verbunden.

Papiertitel: Mobility VLA: Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs
Papierlink: https://arxiv.org/pdf/2407.07775v1

Laut DeepMind stellt diese Arbeit den nächsten Schritt in der Mensch-Computer-Interaktion dar. Nutzer können künftig ihre Umwelttouren ganz einfach mit dem Smartphone filmen. Nachdem sie sich das Video angesehen hatten, war ihr persönlicher Roboterassistent in der Lage, die Umgebung zu verstehen und sich darin zurechtzufinden.

Mobilitäts-VLA: Multimodale Befehlsnavigation unter Verwendung von Langkontext-VLM und Topologiekarte

Mit der kontinuierlichen Weiterentwicklung der KI-Technologie hat die Roboternavigation große Fortschritte gemacht. Frühe Arbeiten beruhten darauf, dass Benutzer physische Koordinaten in einer vorgezeichneten Umgebung angaben. Object Goal Navigation (ObjNav) und Visual Language Navigation (VLN) stellen einen großen Fortschritt in der Benutzerfreundlichkeit von Robotern dar, da sie es Benutzern ermöglichen, eine Sprache mit offenem Vokabular zu verwenden, um Navigationsziele wie „Geh zur Couch“ zu definieren.

Um Roboter wirklich nützlich und allgegenwärtig in unserem täglichen Leben zu machen, haben Forscher von Google DeepMind vorgeschlagen, den natürlichen Sprachraum von ObjNav und VLN zu einem multimodalen Raum zu erweitern, was bedeutet, dass Roboter natürliche Sprache akzeptieren können gleichzeitig verbale und/oder visuelle Befehle, um einen weiteren Sprung nach vorne zu erreichen. Beispielsweise könnte eine Person, die mit einem Gebäude nicht vertraut ist, eine Plastikkiste halten und fragen: „Wohin soll ich diese zurückgeben?“ und der Roboter würde den Benutzer anhand des verbalen und visuellen Kontexts anleiten, die Kiste zurück in ein Regal zu stellen. Sie nennen diese Art von Navigationsaufgabe multimodale angezeigte Navigation (MIN).

MIN ist eine umfassende Mission, die Umwelterkundung und befehlsgesteuerte Navigation umfasst. In vielen Fällen kann man die Erkundung jedoch umgehen, indem man sich die Videos der Demonstrationstour zunutze macht. Demonstrationstouren haben mehrere Vorteile:

Einfach zu sammeln: Benutzer können den Roboter fernsteuern oder mit ihrem Smartphone Videos aufnehmen, während sie durch die Umgebung laufen. Darüber hinaus gibt es Erkundungsalgorithmen, mit denen Touren erstellt werden können.
Es entspricht den Gewohnheiten der Benutzer: Wenn Benutzer einen neuen Heimroboter bekommen, führen sie den Roboter selbstverständlich durch ihr Zuhause und können während des Besuchs verbal interessante Orte vorstellen.
In manchen Fällen ist es aus Sicherheits- und Datenschutzgründen wünschenswert, Roboteraktivitäten auf voreingestellte Bereiche zu beschränken. Zu diesem Zweck stellt der Autor in diesem Artikel diese Art von Aufgabe vor und untersucht sie, nämlich „Multimodal Instruction Tour Navigation (MINT)“, die Demonstrationstouren nutzt und sich auf die Befriedigung der multimodalen Anweisungen des Benutzers konzentriert.

In jüngster Zeit haben groß angelegte visuelle Sprachmodelle (VLMs) großes Potenzial zur Lösung des MINT-Problems gezeigt, dank ihrer beeindruckenden Fähigkeiten im Sprach- und Bildverständnis sowie im gesunden Menschenverstand, die Schlüsselelemente für die Implementierung sind MINZE.Allerdings ist es aus folgenden Gründen schwierig, das MINT-Problem mit VLM allein zu lösen:

Aufgrund von Kontextlängenbeschränkungen verfügen viele VLMs über eine sehr begrenzte Anzahl von Eingabebildern, was die Genauigkeit des Umgebungsverständnisses im Großen und Ganzen erheblich einschränkt Umgebungen.
Um das MINT-Problem zu lösen, müssen die Aktionen des Roboters berechnet werden. Abfragen, die solche Roboteraktionen anfordern, stimmen oft nicht mit dem überein, worauf der VLM (vor)trainiert wurde. Daher ist die Zero-Sample-Leistung von Robotern oft unbefriedigend.

Um das MINT-Problem zu lösen, schlug DeepMind Mobility VLA vor, eine mehrschichtige Vision-Language-Action (VLA)-Navigationsstrategie. Es kombiniert das Umweltverständnis und die Fähigkeiten des gesunden Menschenverstandes von VLM mit langem Kontext mit einer robusten Navigationsstrategie auf niedriger Ebene, die auf topologischen Diagrammen basiert.

Konkret verwendet High-Level-VLM ein Demonstrationstourvideo und multimodale Benutzeranweisungen, um den Zielrahmen im Tourvideo zu finden. Als nächstes verwendet eine klassische Low-Level-Strategie Zielrahmen und Topologiekarten (offline aus Tourrahmen erstellt), um bei jedem Zeitschritt Roboteraktionen (Wegpunkte) zu generieren. Die Verwendung von VLMs mit langem Kontext löst das Genauigkeitsproblem des Umgebungsverständnisses, und die Topologiekarte schließt die Lücke zwischen der Trainingsverteilung des VLM und den zur Lösung von MINT erforderlichen Roboteraktionen.

Die Autoren bewerteten mobile VLA in realen (836 m2) Büro- und häuslichen Umgebungen. Mobility VLA erreichte 86 % bzw. 90 % bei bisher unerreichbaren MINT-Aufgaben mit komplexen Überlegungen (z. B. „Ich möchte etwas außerhalb der Öffentlichkeit aufbewahren, wohin soll ich gehen?“) und multimodalen Benutzeranweisungen (26 % bzw. 60 %). höher als die Basismethoden).

Der Autor zeigte auch eine enorme Verbesserung der Benutzerinteraktion mit dem Roboter. Benutzer können mit ihren Smartphones kommentierte Videotouren in einer häuslichen Umgebung durchführen und dann fragen: „Wo ist meine Achterbahn?“

Technische Details

Mobilit VLA ist eine mehrschichtige Navigationsstrategie (dargestellt in Abbildung 1), die Online- und Offline-Teile umfasst.

In der Offline-Phase wird die topologische Karte G auf Basis der Demonstrationstour (N, F) generiert. In der Online-Phase findet die High-Level-Strategie den Navigationsziel-Frame-Index g durch Demonstrationstouren und multimodale Benutzeranweisungen (d, I), bei dem es sich um eine ganze Zahl handelt, die einem bestimmten Frame der Tour entspricht. Im nächsten Schritt verwendet die Low-Level-Strategie die topologische Karte, die aktuellen Kamerabeobachtungsdaten (O) und g, um bei jedem Zeitschritt eine Wegpunktaktion (a) zu generieren, die der Roboter ausführen soll.

wobei h und l High-Level- bzw. Low-Level-Strategien darstellen.

Demonstrationstouren und Offline-Topologiekartenerstellung

Mobility VLA nutzt Umweltdemonstrationstouren zur Lösung von MINT-Problemen. Solche Touren können von einem menschlichen Benutzer aus der Ferne durchgeführt werden, oder es können Videos mit einem Smartphone aufgezeichnet werden, während er durch die Umgebung geht.

Dann erstellt Mobility VLA offline einen topologischen Graphen G = (V, E), wobei jeder Scheitelpunkt v_i∈V dem Frame f_i im Demo-Tourvideo (F, N) entspricht. Die Autoren verwendeten COLMAP, eine handelsübliche Structure-from-Motion-Pipeline, um die ungefähre 6-DOF-Kameraposition für jedes Bild zu bestimmen und sie in den Eckpunkten zu speichern. Wenn der Zielscheitelpunkt „vor“ dem Quellscheitelpunkt liegt (weniger als 90 Grad unterschiedlich in der Lage vom Quellscheitelpunkt) und innerhalb von 2 Metern, wird G eine gerichtete Kante hinzugefügt.

Im Vergleich zur herkömmlichen Navigationspipeline (z. B. Kartierung der Umgebung, Identifizierung durchfahrbarer Bereiche und anschließender Aufbau eines PRM) ist der topologische Kartenansatz viel einfacher, da er die allgemeine Konnektivität der Umgebung basierend auf der Tourtrajektorie erfasst .

High-Level-Zielfindung basierend auf multimodalem VLM mit langem Kontext

Während der Online-Ausführung nutzt die High-Level-Strategie die Fähigkeit des VLM zum gesunden Menschenverstand, um ein Navigationsziel aus dem zu bestimmen Demonstrationstour, um einer Vielzahl multimodaler, umgangssprachlicher und oft mehrdeutiger Benutzeranweisungen gerecht zu werden. Zu diesem Zweck erstellte der Forscher eine Eingabeaufforderung P (F, N, d, I), die aus verschachteltem Text und Bildern besteht. Das Folgende ist ein spezifisches Beispiel eines multimodalen Benutzerbefehls, der einer Frage in Tabelle 1 entspricht – „Wo soll ich das zurückgeben?“.

You are a robot operating in a building and your task is to respond to the user command about going to a specific location by finding the closest frame in the tour video to navigate to . These frames are from the tour of the building last year . [ Frame 1 Image f1] Frame 1. [ Frame narrative n1] ... [ Frame k Image fk ] Frame k . [ Frame narrative nk ] This image is what you see now . You may or may not see the user in this image . [ Image Instruction I] The user says : Where should I return this ? How would you respond ? Can you find the closest frame ?

VLM Gibt einen ganzzahligen Ziel-Frame-Index g zurück.

Nutzen Sie die Topologiekarte, um das Low-Level-Ziel zu erreichen.

Sobald die High-Level-Strategie den Ziel-Frame-Index g bestimmt, übernimmt die Low-Level-Strategie (Algorithmus 1) und führt das aus Aufgabe bei jedem Zeitschritt Erzeugt eine Wegpunktaktion (Formel 1).

Bei jedem Zeitschritt verwenden die Autoren ein hierarchisches visuelles Echtzeit-Lokalisierungssystem, um die Pose T des Roboters und den nächstgelegenen Startscheitelpunkt v_s∈G mithilfe der aktuellen Kamerabeobachtung O (Zeile 5) zu schätzen. Das Lokalisierungssystem findet über globale Deskriptoren die k nächstgelegenen Kandidatenrahmen in G und berechnet dann T über PnP. Als nächstes wird der kürzeste Weg S im topologischen Graphen zwischen v_s und dem Zielscheitelpunkt v_g (der Scheitelpunkt, der g entspricht) durch den Dijkstra-Algorithmus bestimmt (Zeile 9). Schließlich gibt die Low-Level-Richtlinie eine Wegpunktaktion zurück, bei der es sich um Δx, Δy, Δθ des nächsten Scheitelpunkts v_1 in S relativ zu T handelt (Zeile 10).

Experimentelle Ergebnisse

Um die Leistung von Mobility VLA zu demonstrieren und das Schlüsseldesign besser zu verstehen, haben die Autoren Experimente entworfen, um die folgenden Forschungsfragen zu beantworten:

Frage 1: In Funktioniert Mobility VLA in der realen Welt in MINT gut?
Frage 2: Wird Mobility VLA Alternativen aufgrund der Verwendung von Long-Context-VLM übertreffen?
Frage 3: Ist eine Topologiekarte notwendig? Kann VLM direkt Maßnahmen generieren?

Mobility VLA bietet eine robuste End-to-End-Leistung in realen Umgebungen

1. Hohe End-to-End-Erfolgsquote. Tabelle 2 zeigt, dass Mobility VLA in den meisten Benutzeranweisungskategorien hohe Erfolgsraten bei der End-to-End-Navigation erzielt, einschließlich „Begründungsanforderungen“ und „multimodaler“ Anweisungen, die zuvor nicht durchführbar waren.

2. Robustes Low-Level-Ziel erreicht. Tabelle 2 zeigt auch die reale Robustheit (100 % Erfolgsquote) der Strategie zur Zielerreichung auf niedriger Ebene von Mobility VLA. Der darin enthaltene Demonstrationsrundgang wurde mehrere Monate vor dem Experiment aufgezeichnet, als viele Objekte, Möbel und Lichtverhältnisse unterschiedlich waren.

Long-Context-VLM übertrifft Alternativen bei der erweiterten Zielfindung

1. Mobility VLA übertrifft Alternativen. Tabelle 3 zeigt, dass die Erfolgsquote bei der Zielfindung auf hoher Ebene von Mobility VLA deutlich höher ist als die der Vergleichsmethoden. Da die Erfolgsquote auf niedriger Ebene 100 % beträgt, stellt diese Erfolgsquote bei der Zielsuche auf hoher Ebene die End-to-End-Erfolgsquote dar.

2. Die Verwendung von Long-Context-VLM zur Verarbeitung von Tourvideos mit hoher Bildrate ist der Schlüssel zum Erfolg. Die Eingabe einer vollständigen Demonstrationstour einer großen Umgebung in einen VLM ohne langen Kontext ist eine Herausforderung, da für jedes Bild ein Budget von Hunderten von Token erforderlich ist. Eine Lösung zur Reduzierung der Anzahl der Eingabe-Tokens besteht darin, die Bildrate des Tourvideos zu senken, allerdings mit dem Verlust von Zwischenbildern. Tabelle 4 zeigt, dass mit abnehmender Tour-Framerate auch die Erfolgsrate bei der Suche nach Zielen auf hoher Ebene abnimmt. Dies ist nicht verwunderlich, da Tourvideos mit niedrigeren Bildraten manchmal Navigationsziel-Frames verlieren. Darüber hinaus weist beim Vergleich modernster VLMs aufgrund seiner Kontextlänge von bis zu 1 Million Token nur Gemini 1.5 Pro eine zufriedenstellende Erfolgsquote auf.

Topologiekarte ist der Schlüssel zum Erfolg

Tabelle 5 zeigt die End-to-End-Leistung von Mobility VLA in Simulationen im Vergleich zum sofortigen VLM-Wegpunktbetrieb mit direkter Ausgabe. Die End-to-End-Erfolgsquote von 0 % zeigt, dass Gemini 1.5 Pro ohne eine topologische Karte keine Zero-Shot-Navigation des Roboters erreichen kann. Basierend auf Experimenten stellte der Autor fest, dass Gemini unabhängig von der aktuellen Kamerabeobachtung fast immer eine Wegpunktaktion „Vorwärtsbewegen“ ausgibt. Darüber hinaus erfordert die aktuelle Gemini 1.5-API das Hochladen aller 948 Tourbilder bei jedem Inferenzaufruf, was zu einer kostspieligen Laufzeit von 26 Sekunden für jeden Meter führt, den der Roboter bewegt. Andererseits benötigt der High-Level-VLM von Mobility VLA 10–30 Sekunden, um den Zielindex zu finden, und dann nutzt der Roboter die Low-Level-Topologiekarte, um zum Ziel zu navigieren, was zu einem äußerst robusten und effizienten (0,19) führt Sekunden pro Schritt)-System. Lösen Sie das MINT-Problem.

Weitere Einzelheiten finden Sie im Originalpapier.

Das obige ist der detaillierte Inhalt vonGemini 1.5 Pro ist im Roboter installiert und kann nach dem Besuch im Unternehmen als Concierge und Anleitung dienen.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Token this 算法 https

Stellungnahme：

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Vorheriger Artikel：ICLR2024 |. Harvard FairSeg: Der erste groß angelegte medizinische Segmentierungsdatensatz zur Untersuchung der Fairness von SegmentierungsalgorithmenNächster Artikel：ICLR2024 |. Harvard FairSeg: Der erste groß angelegte medizinische Segmentierungsdatensatz zur Untersuchung der Fairness von Segmentierungsalgorithmen

In Verbindung stehende Artikel

Mehr sehen