In letzter Zeit wurden große Fortschritte in Richtung verkörperter Intelligenz gemacht. Von Googles RT-H bis hin zu Figure 01, das gemeinsam von OpenAI und Figure entwickelt wurde: Roboter werden immer interaktiver und vielseitiger.
Wenn Roboter in Zukunft zu Assistenten im täglichen Leben der Menschen werden, welche Aufgaben erwarten Sie von ihnen? Bereiten Sie eine dampfende Tasse handgebrühten Kaffee zu, räumen Sie den Schreibtisch auf und helfen Sie sogar bei der Organisation eines romantischen Dates. Tsinghuas neues verkörpertes Intelligenz-Framework „CoPa“ kann diese Aufgaben mit nur einem Befehl erledigen.
CoPa (Robotic Manipulation through Spatial Constraints of Parts) ist das neueste intelligente Framework, das vom Robotik-Forschungsteam der Tsinghua-Universität unter der Leitung von Professor Gao Yang vorgeschlagen wurde. Dieses Framework erreicht zum ersten Mal die Generalisierungsfähigkeit des Roboters bei der Bewältigung von Langstreckenaufgaben und komplexen 3D-Verhaltensweisen in einer Vielzahl von Szenarien.
Papieradresse: https://arxiv.org/abs/2403.08248
Projekthomepage: https://copa-2024.github.io/
Aufgrund des Bedarfs an großen Visuelle Sprachmodelle CoPa ist eine einzigartige Anwendung von (VLMs). CoPa kann in offenen Szenarien ohne spezielle Schulung verallgemeinern und komplexe Anweisungen verarbeiten. Was an CoPa am meisten auffällt, ist seine Fähigkeit, ein tiefes Verständnis der physikalischen Eigenschaften von Objekten in der Szene zu demonstrieren, sowie seine präzisen Planungs- und Manipulationsfähigkeiten.
CoPa kann Forschern beispielsweise dabei helfen, eine Tasse handgebrühten Kaffee zuzubereiten:
Bei dieser Aufgabe kann CoPa nicht nur die Rolle jedes Objekts in einer komplexen Tischpräsentation verstehen, sondern auch deren Steuerung durch Präzision vervollständigen Kontrolle. Physische Operationen. Bei der Aufgabe „Wasser aus dem Wasserkocher in den Trichter gießen“ bewegt der Roboter beispielsweise den Wasserkocher über den Trichter und dreht ihn präzise in den entsprechenden Winkel, damit das Wasser aus der Öffnung des Wasserkochers in den Trichter fließen kann.
CoPa kann auch ein romantisches Date sorgfältig arrangieren. Nachdem CoPa die Dating-Bedürfnisse des Forschers verstanden hatte, half er ihm, einen schönen westlichen Esstisch aufzustellen.
Obwohl CoPa die Bedürfnisse der Benutzer genau versteht, demonstriert es auch die Fähigkeit, Objekte präzise zu manipulieren. Bei der Aufgabe „Eine Blume in eine Vase einsetzen“ beispielsweise greift der Roboter zunächst den Stiel der Blume, dreht ihn, bis er zur Vase zeigt, und setzt ihn schließlich ein.

Einführung in die Methode
Algorithmusablauf
Die meisten Betriebsaufgaben können in zwei Phasen unterteilt werden: das Ergreifen des Objekts und die nachfolgenden Aktionen, die zum Abschließen der Aufgabe erforderlich sind. Wenn wir beispielsweise eine Schublade öffnen, müssen wir zuerst den Griff der Schublade greifen und dann die Schublade entlang einer geraden Linie herausziehen. Auf dieser Grundlage entwarfen die Forscher zwei Stufen, nämlich zunächst durch das „Aufgabenorientierte Greifmodul (Aufgabenorientiertes Greifen)“, um die Pose des Roboters zu generieren, der das Objekt ergreift, und dann durch die „Aufgabenbezogene Bewegungsplanung“. Modul (Task-Aware) „Motion Planning)“ generiert die Pose, die erforderlich ist, um die Aufgabe nach dem Greifen abzuschließen. Der Transfer des Roboters zwischen benachbarten Posen kann durch herkömmliche Pfadplanungsalgorithmen erreicht werden.
Wichtiges Teilerkennungsmodul
Forscher beobachteten, dass die meisten Manipulationsaufgaben ein detailliertes „Verständnis auf Teileebene“ von Objekten in der Szene erfordern. Wenn wir beispielsweise mit einem Messer schneiden, halten wir den Griff statt der Klinge; wenn wir eine Brille tragen, halten wir das Gestell statt der Gläser. Basierend auf dieser Beobachtung entwarf das Forschungsteam ein „Grob-zu-Fein-Erdungsmodul“, um aufgabenbezogene Teile der Szene zu lokalisieren. Konkret lokalisiert CoPa zunächst aufgabenrelevante Objekte in der Szene durch eine grobkörnige Objekterkennung und lokalisiert dann aufgabenrelevante Teile dieser Objekte durch eine feinkörnige Teileerkennung.
Im „aufgabenorientierten Greifmodul“ lokalisiert CoPa zunächst die Greifposition (z. B. den Griff des Werkzeugs) über das Modul zur Erkennung wichtiger Teile. Diese Positionsinformationen werden zum Filtern von GraspNet (einem Werkzeug, das dies kann) verwendet Generieren Sie Szenenmodelle aller möglichen Greifhaltungen) und ermitteln Sie dann die endgültige Greifhaltung.
Aufgabenbezogenes Bewegungsplanungsmodul
Damit das große Modell der visuellen Sprache dem Roboter bei der Ausführung von Bedienaufgaben helfen kann, muss in dieser Forschung eine Schnittstelle entworfen werden, die es dem großen Modell nicht nur ermöglicht, in einer Sprache zu argumentieren, sondern auch die Roboterbedienung erleichtert. Das Forschungsteam stellte fest, dass aufgabenbezogene Objekte bei der Ausführung von Aufgaben in der Regel vielen räumlichen geometrischen Einschränkungen unterliegen. Wenn Sie beispielsweise ein Mobiltelefon aufladen, muss der Ladekopf zum Ladeanschluss zeigen; beim Verschließen einer Flasche muss der Verschluss direkt auf der Flaschenöffnung aufgesetzt werden. Auf dieser Grundlage schlug das Forschungsteam vor, räumliche Einschränkungen als Brücke zwischen der visuellen Sprache großer Modelle und Robotern zu nutzen. Konkret verwendet CoPa zunächst ein großes visuelles Sprachmodell, um die räumlichen Einschränkungen zu generieren, die aufgabenbezogene Objekte bei der Erledigung der Aufgabe erfüllen müssen, und verwendet dann ein Lösungsmodul, um die Pose des Roboters basierend auf diesen Einschränkungen zu lösen.
Experimentelle Ergebnisse
CoPa-Fähigkeitsbewertung
CoPa hat starke Generalisierungsfähigkeiten bei realen Betriebsaufgaben gezeigt. CoPa verfügt über ein tiefes Verständnis der physikalischen Eigenschaften von Objekten in der Szene, dank der Nutzung von gesundem Menschenverstand, eingebettet in große Modelle der visuellen Sprache.
Bei der Aufgabe „Einen Nagel hämmern“ zum Beispiel ergriff CoPa zuerst den Griff des Hammers, drehte dann den Hammer, bis der Hammerkopf dem Nagel zugewandt war, und hämmerte schließlich nach unten. Die Aufgabe erforderte eine genaue Identifizierung des Hammerstiels, der Hammerfläche und der Nagelfläche sowie ein umfassendes Verständnis ihrer räumlichen Beziehungen, was CoPas umfassendes Verständnis der physikalischen Eigenschaften von Objekten in der Szene unter Beweis stellte.
Bei der Aufgabe „den Radiergummi in die Schublade legen“ lokalisierte CoPa zunächst die Position des Radiergummis und stellte dann fest, dass ein Teil des Radiergummis in Papier eingewickelt war Der Radiergummi würde keine Flecken hinterlassen.
Bei der Aufgabe „Löffel in die Tasse stecken“ ergriff CoPa zunächst den Griff des Löffels, übersetzte und drehte ihn so, dass er vertikal nach unten zeigte, sodass er der Tasse zugewandt war, und führte ihn schließlich in die Tasse ein, um zu beweisen, dass CoPa es kann leicht Gutes Verständnis der räumlichen geometrischen Einschränkungen, die Objekte erfüllen müssen, um Aufgaben zu erfüllen.
Das Forschungsteam führte ausreichend quantitative Experimente an 10 realen Aufgaben durch. Wie in Tabelle 1 gezeigt, übertrifft CoPa die Basismethoden sowie viele Ablationsvarianten bei diesen komplexen Aufgaben deutlich.
Ablationsexperimente
Die Forscher demonstrierten die Bedeutung der folgenden drei Komponenten im CoPa-Framework durch eine Reihe von Ablationsexperimenten: Basismodell, Grob-zu-Fein-Teilerkennung und Erzeugung räumlicher Restriktionen. Die Versuchsergebnisse sind in Tabelle 1 oben aufgeführt.
Basismodell
Das CoPa-Experiment ohne Fundamentablation in der Tabelle macht die Verwendung des Basismodells in CoPa überflüssig und verwendet stattdessen ein Erkennungsmodell zum Lokalisieren von Objekten und eine regelbasierte Methode zum Generieren räumlicher Einschränkungen. Die experimentellen Ergebnisse zeigen, dass die Erfolgsquote dieser Ablationsvariante sehr gering ist, was die wichtige Rolle des umfassenden gesunden Menschenverstandswissens beweist, das im Grundmodell von CoPa enthalten ist. Beispielsweise weiß die Ablationsvariante bei der Aufgabe „Sweeping Nuts“ nicht, welches Werkzeug in der Szene zum Fegen geeignet ist.
Erkennung von Grob-zu-Fein-Teilen
Das CoPa-Experiment ohne Grob-zu-Fein-Ablation in der Tabelle entfernt das CoPa-Design zur Erkennung von Grob-zu-Fein-Teilen und verwendet stattdessen direkt die feinkörnige Segmentierung Objekte lokalisieren. Diese Variante beeinträchtigt die Leistung bei der relativ schwierigen Aufgabe, wichtige Teile eines Objekts zu lokalisieren, erheblich. Beispielsweise ist es bei der Aufgabe „Einen Nagel einschlagen“ aufgrund des fehlenden „Grob-Fein“-Designs schwierig, die Hammeroberfläche zu identifizieren.
Erzeugung räumlicher Einschränkungen
Das CoPa-Experiment ohne Einschränkungsablation in der Tabelle entfernt das Modul zur Erzeugung räumlicher Einschränkungen von CoPa und ermöglicht stattdessen dem großen visuellen Sprachmodell, die spezifischen Werte des Roboters direkt auszugeben Zielpose. Experimente zeigen, dass es sehr schwierig ist, die Roboterzielpose basierend auf Szenenbildern direkt auszugeben. Beispielsweise muss bei der Aufgabe „Wasser gießen“ der Wasserkocher in einem bestimmten Winkel geneigt werden, und diese Variante ist zu diesem Zeitpunkt überhaupt nicht in der Lage, die Haltung des Roboters zu erzeugen.
Weitere Informationen finden Sie im Originalpapier.
Das obige ist der detaillierte Inhalt von一句指令就能冲咖啡、倒红酒、锤钉子,清华具身智能CoPa「动」手了. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

KI verstärken die Zubereitung der Lebensmittel KI -Systeme werden während der Nahten immer noch in der Zubereitung von Nahrungsmitteln eingesetzt. KI-gesteuerte Roboter werden in Küchen verwendet, um Aufgaben zur Zubereitung von Lebensmitteln zu automatisieren, z.

Einführung Das Verständnis der Namespaces, Scopes und des Verhaltens von Variablen in Python -Funktionen ist entscheidend, um effizient zu schreiben und Laufzeitfehler oder Ausnahmen zu vermeiden. In diesem Artikel werden wir uns mit verschiedenen ASP befassen

Einführung Stellen Sie sich vor, Sie gehen durch eine Kunstgalerie, umgeben von lebhaften Gemälden und Skulpturen. Was wäre, wenn Sie jedem Stück eine Frage stellen und eine sinnvolle Antwort erhalten könnten? Sie könnten fragen: „Welche Geschichte erzählst du?

In diesem Monat hat MediaTek in diesem Monat eine Reihe von Ankündigungen gemacht, darunter das neue Kompanio Ultra und die Abmessung 9400. Diese Produkte füllen die traditionelleren Teile von MediaTeks Geschäft aus, die Chips für Smartphone enthalten

#1 Google gestartet Agent2Agent Die Geschichte: Es ist Montagmorgen. Als mit KI betriebener Personalvermittler arbeiten Sie intelligenter, nicht härter. Sie melden sich im Dashboard Ihres Unternehmens auf Ihrem Telefon an. Es sagt Ihnen, dass drei kritische Rollen bezogen, überprüft und geplant wurden

Ich würde vermuten, dass du es sein musst. Wir alle scheinen zu wissen, dass Psychobabble aus verschiedenen Geschwätzern besteht, die verschiedene psychologische Terminologie mischen und oft entweder unverständlich oder völlig unsinnig sind. Alles was Sie tun müssen, um fo zu spucken

Laut einer neuen Studie, die diese Woche veröffentlicht wurde, wurden im Jahr 2022 nur 9,5% der im Jahr 2022 hergestellten Kunststoffe aus recycelten Materialien hergestellt. In der Zwischenzeit häufen sich Plastik weiter in Deponien - und Ökosystemen - um die Welt. Aber Hilfe ist unterwegs. Ein Team von Engin

Mein jüngstes Gespräch mit Andy Macmillan, CEO der führenden Unternehmensanalyse -Plattform Alteryx, zeigte diese kritische, aber unterschätzte Rolle in der KI -Revolution. Wie Macmillan erklärt, die Lücke zwischen Rohgeschäftsdaten und KI-fertigen Informat


Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SecLists
SecLists ist der ultimative Begleiter für Sicherheitstester. Dabei handelt es sich um eine Sammlung verschiedener Arten von Listen, die häufig bei Sicherheitsbewertungen verwendet werden, an einem Ort. SecLists trägt dazu bei, Sicherheitstests effizienter und produktiver zu gestalten, indem es bequem alle Listen bereitstellt, die ein Sicherheitstester benötigen könnte. Zu den Listentypen gehören Benutzernamen, Passwörter, URLs, Fuzzing-Payloads, Muster für vertrauliche Daten, Web-Shells und mehr. Der Tester kann dieses Repository einfach auf einen neuen Testcomputer übertragen und hat dann Zugriff auf alle Arten von Listen, die er benötigt.

DVWA
Damn Vulnerable Web App (DVWA) ist eine PHP/MySQL-Webanwendung, die sehr anfällig ist. Seine Hauptziele bestehen darin, Sicherheitsexperten dabei zu helfen, ihre Fähigkeiten und Tools in einem rechtlichen Umfeld zu testen, Webentwicklern dabei zu helfen, den Prozess der Sicherung von Webanwendungen besser zu verstehen, und Lehrern/Schülern dabei zu helfen, in einer Unterrichtsumgebung Webanwendungen zu lehren/lernen Sicherheit. Das Ziel von DVWA besteht darin, einige der häufigsten Web-Schwachstellen über eine einfache und unkomplizierte Benutzeroberfläche mit unterschiedlichen Schwierigkeitsgraden zu üben. Bitte beachten Sie, dass diese Software

Dreamweaver CS6
Visuelle Webentwicklungstools

WebStorm-Mac-Version
Nützliche JavaScript-Entwicklungstools