一句指令就能冲咖啡、倒红酒、锤钉子，清华具身智能CoPa「动」手了-KI-php.cn

Heim

Technologie-Peripheriegeräte

一句指令就能冲咖啡、倒红酒、锤钉子，清华具身智能CoPa「动」手了

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Mar 18, 2024 pm 02:50 PM

产业具身智能机器人技术copa

In letzter Zeit wurden große Fortschritte in Richtung verkörperter Intelligenz gemacht. Von Googles RT-H bis hin zu Figure 01, das gemeinsam von OpenAI und Figure entwickelt wurde: Roboter werden immer interaktiver und vielseitiger.

Wenn Roboter in Zukunft zu Assistenten im täglichen Leben der Menschen werden, welche Aufgaben erwarten Sie von ihnen? Bereiten Sie eine dampfende Tasse handgebrühten Kaffee zu, räumen Sie den Schreibtisch auf und helfen Sie sogar bei der Organisation eines romantischen Dates. Tsinghuas neues verkörpertes Intelligenz-Framework „CoPa“ kann diese Aufgaben mit nur einem Befehl erledigen.

CoPa (Robotic Manipulation through Spatial Constraints of Parts) ist das neueste intelligente Framework, das vom Robotik-Forschungsteam der Tsinghua-Universität unter der Leitung von Professor Gao Yang vorgeschlagen wurde. Dieses Framework erreicht zum ersten Mal die Generalisierungsfähigkeit des Roboters bei der Bewältigung von Langstreckenaufgaben und komplexen 3D-Verhaltensweisen in einer Vielzahl von Szenarien.

一句指令就能冲咖啡、倒红酒、锤钉子，清华具身智能CoPa「动」手了

Papieradresse: https://arxiv.org/abs/2403.08248
Projekthomepage: https://copa-2024.github.io/

Aufgrund des Bedarfs an großen Visuelle Sprachmodelle CoPa ist eine einzigartige Anwendung von (VLMs). CoPa kann in offenen Szenarien ohne spezielle Schulung verallgemeinern und komplexe Anweisungen verarbeiten. Was an CoPa am meisten auffällt, ist seine Fähigkeit, ein tiefes Verständnis der physikalischen Eigenschaften von Objekten in der Szene zu demonstrieren, sowie seine präzisen Planungs- und Manipulationsfähigkeiten.

CoPa kann Forschern beispielsweise dabei helfen, eine Tasse handgebrühten Kaffee zuzubereiten:

Bei dieser Aufgabe kann CoPa nicht nur die Rolle jedes Objekts in einer komplexen Tischpräsentation verstehen, sondern auch deren Steuerung durch Präzision vervollständigen Kontrolle. Physische Operationen. Bei der Aufgabe „Wasser aus dem Wasserkocher in den Trichter gießen“ bewegt der Roboter beispielsweise den Wasserkocher über den Trichter und dreht ihn präzise in den entsprechenden Winkel, damit das Wasser aus der Öffnung des Wasserkochers in den Trichter fließen kann.

CoPa kann auch ein romantisches Date sorgfältig arrangieren. Nachdem CoPa die Dating-Bedürfnisse des Forschers verstanden hatte, half er ihm, einen schönen westlichen Esstisch aufzustellen.

Obwohl CoPa die Bedürfnisse der Benutzer genau versteht, demonstriert es auch die Fähigkeit, Objekte präzise zu manipulieren. Bei der Aufgabe „Eine Blume in eine Vase einsetzen“ beispielsweise greift der Roboter zunächst den Stiel der Blume, dreht ihn, bis er zur Vase zeigt, und setzt ihn schließlich ein.

Einführung in die Methode

Algorithmusablauf

Die meisten Betriebsaufgaben können in zwei Phasen unterteilt werden: das Ergreifen des Objekts und die nachfolgenden Aktionen, die zum Abschließen der Aufgabe erforderlich sind. Wenn wir beispielsweise eine Schublade öffnen, müssen wir zuerst den Griff der Schublade greifen und dann die Schublade entlang einer geraden Linie herausziehen. Auf dieser Grundlage entwarfen die Forscher zwei Stufen, nämlich zunächst durch das „Aufgabenorientierte Greifmodul (Aufgabenorientiertes Greifen)“, um die Pose des Roboters zu generieren, der das Objekt ergreift, und dann durch die „Aufgabenbezogene Bewegungsplanung“. Modul (Task-Aware) „Motion Planning)“ generiert die Pose, die erforderlich ist, um die Aufgabe nach dem Greifen abzuschließen. Der Transfer des Roboters zwischen benachbarten Posen kann durch herkömmliche Pfadplanungsalgorithmen erreicht werden.

一句指令就能冲咖啡、倒红酒、锤钉子，清华具身智能CoPa「动」手了

Wichtiges Teilerkennungsmodul

Forscher beobachteten, dass die meisten Manipulationsaufgaben ein detailliertes „Verständnis auf Teileebene“ von Objekten in der Szene erfordern. Wenn wir beispielsweise mit einem Messer schneiden, halten wir den Griff statt der Klinge; wenn wir eine Brille tragen, halten wir das Gestell statt der Gläser. Basierend auf dieser Beobachtung entwarf das Forschungsteam ein „Grob-zu-Fein-Erdungsmodul“, um aufgabenbezogene Teile der Szene zu lokalisieren. Konkret lokalisiert CoPa zunächst aufgabenrelevante Objekte in der Szene durch eine grobkörnige Objekterkennung und lokalisiert dann aufgabenrelevante Teile dieser Objekte durch eine feinkörnige Teileerkennung.

一句指令就能冲咖啡、倒红酒、锤钉子，清华具身智能CoPa「动」手了

Im „aufgabenorientierten Greifmodul“ lokalisiert CoPa zunächst die Greifposition (z. B. den Griff des Werkzeugs) über das Modul zur Erkennung wichtiger Teile. Diese Positionsinformationen werden zum Filtern von GraspNet (einem Werkzeug, das dies kann) verwendet Generieren Sie Szenenmodelle aller möglichen Greifhaltungen) und ermitteln Sie dann die endgültige Greifhaltung.

Aufgabenbezogenes Bewegungsplanungsmodul

Damit das große Modell der visuellen Sprache dem Roboter bei der Ausführung von Bedienaufgaben helfen kann, muss in dieser Forschung eine Schnittstelle entworfen werden, die es dem großen Modell nicht nur ermöglicht, in einer Sprache zu argumentieren, sondern auch die Roboterbedienung erleichtert. Das Forschungsteam stellte fest, dass aufgabenbezogene Objekte bei der Ausführung von Aufgaben in der Regel vielen räumlichen geometrischen Einschränkungen unterliegen. Wenn Sie beispielsweise ein Mobiltelefon aufladen, muss der Ladekopf zum Ladeanschluss zeigen; beim Verschließen einer Flasche muss der Verschluss direkt auf der Flaschenöffnung aufgesetzt werden. Auf dieser Grundlage schlug das Forschungsteam vor, räumliche Einschränkungen als Brücke zwischen der visuellen Sprache großer Modelle und Robotern zu nutzen. Konkret verwendet CoPa zunächst ein großes visuelles Sprachmodell, um die räumlichen Einschränkungen zu generieren, die aufgabenbezogene Objekte bei der Erledigung der Aufgabe erfüllen müssen, und verwendet dann ein Lösungsmodul, um die Pose des Roboters basierend auf diesen Einschränkungen zu lösen.

一句指令就能冲咖啡、倒红酒、锤钉子，清华具身智能CoPa「动」手了

Experimentelle Ergebnisse

CoPa-Fähigkeitsbewertung

CoPa hat starke Generalisierungsfähigkeiten bei realen Betriebsaufgaben gezeigt. CoPa verfügt über ein tiefes Verständnis der physikalischen Eigenschaften von Objekten in der Szene, dank der Nutzung von gesundem Menschenverstand, eingebettet in große Modelle der visuellen Sprache.

Bei der Aufgabe „Einen Nagel hämmern“ zum Beispiel ergriff CoPa zuerst den Griff des Hammers, drehte dann den Hammer, bis der Hammerkopf dem Nagel zugewandt war, und hämmerte schließlich nach unten. Die Aufgabe erforderte eine genaue Identifizierung des Hammerstiels, der Hammerfläche und der Nagelfläche sowie ein umfassendes Verständnis ihrer räumlichen Beziehungen, was CoPas umfassendes Verständnis der physikalischen Eigenschaften von Objekten in der Szene unter Beweis stellte.

一句指令就能冲咖啡、倒红酒、锤钉子，清华具身智能CoPa「动」手了

Bei der Aufgabe „den Radiergummi in die Schublade legen“ lokalisierte CoPa zunächst die Position des Radiergummis und stellte dann fest, dass ein Teil des Radiergummis in Papier eingewickelt war Der Radiergummi würde keine Flecken hinterlassen.

一句指令就能冲咖啡、倒红酒、锤钉子，清华具身智能CoPa「动」手了

Bei der Aufgabe „Löffel in die Tasse stecken“ ergriff CoPa zunächst den Griff des Löffels, übersetzte und drehte ihn so, dass er vertikal nach unten zeigte, sodass er der Tasse zugewandt war, und führte ihn schließlich in die Tasse ein, um zu beweisen, dass CoPa es kann leicht Gutes Verständnis der räumlichen geometrischen Einschränkungen, die Objekte erfüllen müssen, um Aufgaben zu erfüllen.

一句指令就能冲咖啡、倒红酒、锤钉子，清华具身智能CoPa「动」手了

Das Forschungsteam führte ausreichend quantitative Experimente an 10 realen Aufgaben durch. Wie in Tabelle 1 gezeigt, übertrifft CoPa die Basismethoden sowie viele Ablationsvarianten bei diesen komplexen Aufgaben deutlich.

一句指令就能冲咖啡、倒红酒、锤钉子，清华具身智能CoPa「动」手了

Ablationsexperimente

Die Forscher demonstrierten die Bedeutung der folgenden drei Komponenten im CoPa-Framework durch eine Reihe von Ablationsexperimenten: Basismodell, Grob-zu-Fein-Teilerkennung und Erzeugung räumlicher Restriktionen. Die Versuchsergebnisse sind in Tabelle 1 oben aufgeführt.

Basismodell

Das CoPa-Experiment ohne Fundamentablation in der Tabelle macht die Verwendung des Basismodells in CoPa überflüssig und verwendet stattdessen ein Erkennungsmodell zum Lokalisieren von Objekten und eine regelbasierte Methode zum Generieren räumlicher Einschränkungen. Die experimentellen Ergebnisse zeigen, dass die Erfolgsquote dieser Ablationsvariante sehr gering ist, was die wichtige Rolle des umfassenden gesunden Menschenverstandswissens beweist, das im Grundmodell von CoPa enthalten ist. Beispielsweise weiß die Ablationsvariante bei der Aufgabe „Sweeping Nuts“ nicht, welches Werkzeug in der Szene zum Fegen geeignet ist.

Erkennung von Grob-zu-Fein-Teilen

Das CoPa-Experiment ohne Grob-zu-Fein-Ablation in der Tabelle entfernt das CoPa-Design zur Erkennung von Grob-zu-Fein-Teilen und verwendet stattdessen direkt die feinkörnige Segmentierung Objekte lokalisieren. Diese Variante beeinträchtigt die Leistung bei der relativ schwierigen Aufgabe, wichtige Teile eines Objekts zu lokalisieren, erheblich. Beispielsweise ist es bei der Aufgabe „Einen Nagel einschlagen“ aufgrund des fehlenden „Grob-Fein“-Designs schwierig, die Hammeroberfläche zu identifizieren.

Erzeugung räumlicher Einschränkungen

Das CoPa-Experiment ohne Einschränkungsablation in der Tabelle entfernt das Modul zur Erzeugung räumlicher Einschränkungen von CoPa und ermöglicht stattdessen dem großen visuellen Sprachmodell, die spezifischen Werte des Roboters direkt auszugeben Zielpose. Experimente zeigen, dass es sehr schwierig ist, die Roboterzielpose basierend auf Szenenbildern direkt auszugeben. Beispielsweise muss bei der Aufgabe „Wasser gießen“ der Wasserkocher in einem bestimmten Winkel geneigt werden, und diese Variante ist zu diesem Zeitpunkt überhaupt nicht in der Lage, die Haltung des Roboters zu erzeugen.

Weitere Informationen finden Sie im Originalpapier.

Das obige ist der detaillierte Inhalt von一句指令就能冲咖啡、倒红酒、锤钉子，清华具身智能CoPa「动」手了. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme

Dieser Artikel ist reproduziert unter:机器之心. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen

Verwandter Artikel

Kochen innovation: Wie künstliche Intelligenz den Lebensmittelservice verändertApr 12, 2025 pm 12:09 PM

KI verstärken die Zubereitung der Lebensmittel KI -Systeme werden während der Nahten immer noch in der Zubereitung von Nahrungsmitteln eingesetzt. KI-gesteuerte Roboter werden in Küchen verwendet, um Aufgaben zur Zubereitung von Lebensmitteln zu automatisieren, z.

Umfassende Anleitung zu Python -Namespaces und variablen ScopesApr 12, 2025 pm 12:00 PM

Einführung Das Verständnis der Namespaces, Scopes und des Verhaltens von Variablen in Python -Funktionen ist entscheidend, um effizient zu schreiben und Laufzeitfehler oder Ausnahmen zu vermeiden. In diesem Artikel werden wir uns mit verschiedenen ASP befassen

Ein umfassender Leitfaden zu Vision Language Models (VLMs)Apr 12, 2025 am 11:58 AM

Einführung Stellen Sie sich vor, Sie gehen durch eine Kunstgalerie, umgeben von lebhaften Gemälden und Skulpturen. Was wäre, wenn Sie jedem Stück eine Frage stellen und eine sinnvolle Antwort erhalten könnten? Sie könnten fragen: „Welche Geschichte erzählst du?

MediaTek steigert die Premium -Aufstellung mit Kompanio Ultra und Abmessung 9400Apr 12, 2025 am 11:52 AM

In diesem Monat hat MediaTek in diesem Monat eine Reihe von Ankündigungen gemacht, darunter das neue Kompanio Ultra und die Abmessung 9400. Diese Produkte füllen die traditionelleren Teile von MediaTeks Geschäft aus, die Chips für Smartphone enthalten

Diese Woche in AI: Walmart setzt Modetrends vor, bevor sie jemals passierenApr 12, 2025 am 11:51 AM

#1 Google gestartet Agent2Agent Die Geschichte: Es ist Montagmorgen. Als mit KI betriebener Personalvermittler arbeiten Sie intelligenter, nicht härter. Sie melden sich im Dashboard Ihres Unternehmens auf Ihrem Telefon an. Es sagt Ihnen, dass drei kritische Rollen bezogen, überprüft und geplant wurden

Generative KI trifft PsychobabbleApr 12, 2025 am 11:50 AM

Ich würde vermuten, dass du es sein musst. Wir alle scheinen zu wissen, dass Psychobabble aus verschiedenen Geschwätzern besteht, die verschiedene psychologische Terminologie mischen und oft entweder unverständlich oder völlig unsinnig sind. Alles was Sie tun müssen, um fo zu spucken

Der Prototyp: Wissenschaftler verwandeln Papier in PlastikApr 12, 2025 am 11:49 AM

Laut einer neuen Studie, die diese Woche veröffentlicht wurde, wurden im Jahr 2022 nur 9,5% der im Jahr 2022 hergestellten Kunststoffe aus recycelten Materialien hergestellt. In der Zwischenzeit häufen sich Plastik weiter in Deponien - und Ökosystemen - um die Welt. Aber Hilfe ist unterwegs. Ein Team von Engin

Der Aufstieg des KI -Analysten: Warum dies der wichtigste Job in der KI -Revolution sein könnteApr 12, 2025 am 11:41 AM

Mein jüngstes Gespräch mit Andy Macmillan, CEO der führenden Unternehmensanalyse -Plattform Alteryx, zeigte diese kritische, aber unterschätzte Rolle in der KI -Revolution. Wie Macmillan erklärt, die Lücke zwischen Rohgeschäftsdaten und KI-fertigen Informat

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

2 Wochen vorByDDD

R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können

3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Wie man alles in Myrise freischaltet

4 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SecLists

SecLists ist der ultimative Begleiter für Sicherheitstester. Dabei handelt es sich um eine Sammlung verschiedener Arten von Listen, die häufig bei Sicherheitsbewertungen verwendet werden, an einem Ort. SecLists trägt dazu bei, Sicherheitstests effizienter und produktiver zu gestalten, indem es bequem alle Listen bereitstellt, die ein Sicherheitstester benötigen könnte. Zu den Listentypen gehören Benutzernamen, Passwörter, URLs, Fuzzing-Payloads, Muster für vertrauliche Daten, Web-Shells und mehr. Der Tester kann dieses Repository einfach auf einen neuen Testcomputer übertragen und hat dann Zugriff auf alle Arten von Listen, die er benötigt.

DVWA

Damn Vulnerable Web App (DVWA) ist eine PHP/MySQL-Webanwendung, die sehr anfällig ist. Seine Hauptziele bestehen darin, Sicherheitsexperten dabei zu helfen, ihre Fähigkeiten und Tools in einem rechtlichen Umfeld zu testen, Webentwicklern dabei zu helfen, den Prozess der Sicherung von Webanwendungen besser zu verstehen, und Lehrern/Schülern dabei zu helfen, in einer Unterrichtsumgebung Webanwendungen zu lehren/lernen Sicherheit. Das Ziel von DVWA besteht darin, einige der häufigsten Web-Schwachstellen über eine einfache und unkomplizierte Benutzeroberfläche mit unterschiedlichen Schwierigkeitsgraden zu üben. Bitte beachten Sie, dass diese Software

Dreamweaver CS6

Visuelle Webentwicklungstools

WebStorm-Mac-Version

Nützliche JavaScript-Entwicklungstools

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7473

CakePHP-Tutorial

1377

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten