suchen
HeimTechnologie-PeripheriegeräteKIWie viele Schritte sind erforderlich, um einen Elefanten im Kühlschrank zu installieren? NVIDIA veröffentlicht ProgPrompt, mit dem Sprachmodelle Pläne für Roboter erstellen können

Für Roboter ist Aufgabenplanung ein unvermeidbares Problem.

Wenn Sie eine reale Aufgabe erledigen möchten, müssen Sie zunächst wissen, wie viele Schritte erforderlich sind, um einen Elefanten im Kühlschrank zu installieren.

Auch die relativ einfache Aufgabe „Einen Apfel werfen“ enthält mehrere Teilschritte , und dann nähere dich an den Apfel , nimm den Apfel und finde und nähere dich dem Mülleimer . Wenn der Mülleimer geschlossen ist, müssen Sie ihn zuerst öffnen , dann

die Äpfel hineinwerfen

und den Mülleimer schließen . Aber die spezifischen Implementierungsdetails jeder Aufgabe können nicht alle von Menschen entworfen werden. Wie man Aktionssequenzen durch einen einzigen Befehl generiert, wird zu einem schwierigen Problem.

Den Befehl verwenden, um eine Sequenz zu generieren? Ist das nicht genau die Aufgabe des Sprachmodells?

In der Vergangenheit haben Forscher große Sprachmodelle (LLMs) verwendet, um den potenziellen nächsten Aktionsraum basierend auf Eingabeaufgabenanweisungen zu bewerten und dann Aktionssequenzen zu generieren. Anweisungen werden in natürlicher Sprache beschrieben und enthalten keine zusätzlichen Domäneninformationen. Aber solche Methoden müssen entweder alle möglichen nächsten Aktionen zur Bewertung aufzählen, oder der generierte Text unterliegt keinen Einschränkungen in der Form, was Aktionen enthalten kann, die

für einen bestimmten Roboter in der aktuellen Umgebung unmöglich sind

. Kürzlich haben die University of Southern California und NVIDIA gemeinsam ein neues Modell

ProgPrompt

auf den Markt gebracht, das auch ein Sprachmodell zur Aufgabenplanung anhand von Eingabeanweisungen verwendet. Es enthält eine programmierte Eingabeaufforderungsstruktur, sodass der generierte Plan erstellt werden kann Es kann in verschiedenen Situationen eine Rolle spielen, Roboter mit unterschiedlichen Fähigkeiten und unterschiedliche Aufgaben.

Um die Standardisierung von Aufgaben sicherzustellen, verwenden Forscher Code im Python-Stil generieren, um dem Sprachmodell mitzuteilen, welche Aktionen verfügbar sind, welche Objekte sich in der Umgebung befinden und welche Programme ausführbar sind.

Wie viele Schritte sind erforderlich, um einen Elefanten im Kühlschrank zu installieren? NVIDIA veröffentlicht ProgPrompt, mit dem Sprachmodelle Pläne für Roboter erstellen könnenDurch Eingabe des Befehls

„Apfel werfen“

kann beispielsweise das folgende Programm generiert werden. Das

ProgPrompt-Modell erreichte Sota-Leistung bei virtuellen Heimaufgaben, und die Forscher setzten das Modell auch auf einem physischen Roboterarm

für Desktop-Aufgaben ein.

Wie viele Schritte sind erforderlich, um einen Elefanten im Kühlschrank zu installieren? NVIDIA veröffentlicht ProgPrompt, mit dem Sprachmodelle Pläne für Roboter erstellen können

Fantastisches Sprachmodell

Die Erledigung täglicher Haushaltsaufgaben erfordert sowohl ein gesundes Menschenverstandsverständnis der Welt als auch Situationswissen über die aktuelle Umgebung. Um einen Aufgabenplan zum „Abendessen kochen“ zu erstellen, muss der Agent mindestens Folgendes wissen:

Funktion von Objekten

, wie z. B. Öfen und Mikrowellen, die zum Erhitzen verwendet werden können;

Logische Abfolge von Aktionen

, vor dem Hinzufügen von Speisen Der Ofen muss vorher vorgeheizt werden; und Aufgabenzusammenhang von Gegenständen und Aktionen, wie Erhitzen und Finden von Zutaten sind erste Aktionen im Zusammenhang mit dem „Abendessen“.

Aber ohne Zustandsrückmeldung kann eine solche Argumentation nicht durchgeführt werden. Der Agent muss wissen,

wo sich in der aktuellen Umgebung Lebensmittel befinden

, beispielsweise ob sich Fisch im Kühlschrank befindet oder ob sich Hühnchen im Kühlschrank befindet.

Ein auf einem großen Korpus trainiertes autoregressives großes Sprachmodell kann Textsequenzen unter der Bedingung von Eingabeaufforderungen generieren und verfügt über erhebliche Multitasking-Generalisierungsfähigkeiten.

Wenn Sie beispielsweise „Abendessen zubereiten“ eingeben, kann das Sprachmodell Folgesequenzen generieren, z. B. Öffnen des Kühlschranks, Aufnehmen des Huhns, Aufnehmen der Limonade, Schließen des Kühlschranks, Einschalten des Lichtschalters usw .

Die generierte Textsequenz muss dem Aktionsbereich des Agenten zugeordnet werden. Die generierte Anweisung lautet beispielsweise „Heben Sie die Hand aus und heben Sie ein Glas Gurken auf“, und die entsprechende ausführbare Aktion kann „Heben Sie das auf“ lauten jar“, und dann berechnet das Modell einen Wahrscheinlichkeitswert der Aktion.

... Zustand der Welt.

Das ProgPrompt-Modell nutzt Programmiersprachenkonstrukte geschickt bei der Aufgabenplanung, da

bestehende umfangreiche Sprachmodelle normalerweise auf Korpora von Programmier-Tutorials und Codedokumenten vorab trainiert werden.

ProgPrompt stellt dem Sprachmodell einen Pythonic-Programmheader als Eingabeaufforderung zur Verfügung und importiert den verfügbaren Aktionsraum, erwartete Parameter und verfügbare Objekte in der Umgebung.

Wie viele Schritte sind erforderlich, um einen Elefanten im Kühlschrank zu installieren? NVIDIA veröffentlicht ProgPrompt, mit dem Sprachmodelle Pläne für Roboter erstellen können

Dann

definieren Funktionen wie make_dinner, throw_away_banana usw. , deren Körper eine Aktionssequenz ist, die auf das Objekt einwirkt, und dann die geplanten Voraussetzungen bestätigen , zum Beispiel bevor Sie es versuchen Öffnen Sie den Kühlschrank. Integrieren Sie Zustandsrückmeldungen in die Umgebung, indem Sie in der Nähe des Kühlschranks bleiben und als Reaktion auf Behauptungsfehler Wiederherstellungsmaßnahmen ergreifen. Das Wichtigste ist, dass das ProgPrompt-Programm auch

in natürlicher Sprache verfasste Anmerkungen

enthält, um die Ziele der Aktion zu erläutern und so die Erfolgsquote der Aufgabenausführung des generierten Planers zu verbessern. ProgPrompt

Mit der vollständigen Idee ist der Gesamtworkflow von ProgPrompt klar, der hauptsächlich

drei Teile

, ​​Pythonische Funktionskonstruktion, konstruierte Programmiersprachen-Eingabeaufforderungen, Erzeugung und Ausführung des Aufgabenplans umfasst.

Wie viele Schritte sind erforderlich, um einen Elefanten im Kühlschrank zu installieren? NVIDIA veröffentlicht ProgPrompt, mit dem Sprachmodelle Pläne für Roboter erstellen können

1. Drücken Sie den Roboterplan als Python-Funktion aus Die Planungsfunktion umfasst API-Aufrufe für

Aktionsprimitive

, das Zusammenfassen von Aktionen und das Hinzufügen von Kommentaren sowie das Verfolgen der Ausführungsbestätigung. Jedes Aktionsgrundelement erfordert ein Objekt als Parameter. Beispielsweise enthält die Aufgabe „Lachs in die Mikrowelle stellen“ einen Aufruf von „find(salmon)“, wobei „find“ ein Aktionsgrundelement ist.

Wie viele Schritte sind erforderlich, um einen Elefanten im Kühlschrank zu installieren? NVIDIA veröffentlicht ProgPrompt, mit dem Sprachmodelle Pläne für Roboter erstellen können Nutzen Sie Kommentare im Code, um Zusammenfassungen in natürlicher Sprache für nachfolgende Aktionssequenzen bereitzustellen. Kommentare helfen dabei, übergeordnete Aufgaben in logische Unteraufgaben zu unterteilen, nämlich „Lachs fangen“ und „Lachs in die Mikrowelle stellen“.

Annotationen ermöglichen es dem Sprachmodell auch, das aktuelle Ziel zu verstehen und die Möglichkeit einer inkohärenten, inkonsistenten oder wiederholten Ausgabe zu reduzieren,

ähnlich einer Gedankenkette

Zwischenergebnisse zu generieren.

Assertions

stellen einen Umgebungs-Feedback-Mechanismus bereit, um sicherzustellen, dass die Vorbedingungen wahr sind, und implementieren eine Fehlerbehebung, wenn sie nicht wahr sind. Beispielsweise behauptet der Plan vor der Greifaktion, dass sich der Agent dem Lachs genähert hat, andernfalls agent Die Suchaktion muss zuerst ausgeführt werden. 2. Erstellen eines Programmiersprachen-Prompts Modellvervollständigung.

Wie viele Schritte sind erforderlich, um einen Elefanten im Kühlschrank zu installieren? NVIDIA veröffentlicht ProgPrompt, mit dem Sprachmodelle Pläne für Roboter erstellen können

Dann sagt das Sprachmodell als ausführbare Funktion voraus, nämlich Microwave_salmon()

Bei der Aufgabe, Lachs in der Mikrowelle zu erhitzen, besteht der erste Schritt, den LLM generieren kann und ist, darin, den Lachs herauszunehmen, aber ist dafür verantwortlich Der Agent, der den Plan ausführt, verfügt möglicherweise nicht über ein solches Aktionsprimitiv.

Damit das Sprachmodell die Aktionsprimitive des Agenten verstehen kann, importieren Sie sie über die Importanweisung in der Eingabeaufforderung, wodurch die Ausgabe auch auf Funktionen beschränkt wird, die in der aktuellen Umgebung verfügbar sind.

Um den Verhaltensbereich des Agenten zu ändern, müssen Sie nur die importierte Funktionsliste aktualisieren.

Die Variablenobjekte stellen alle verfügbaren Objekte in der Umgebung als Liste von Zeichenfolgen bereit.

prompt enthält auch einige vollständig ausführbare Programmpläne als Beispiele. Jede Beispielaufgabe zeigt, wie eine bestimmte Aufgabe mithilfe der verfügbaren Aktionen und Ziele in einer bestimmten Umgebung ausgeführt werden kann, z. B. throw_away_lime

3 des Aufgabenplans

Nach einer bestimmten Aufgabe wird der Plan vollständig vom Sprachmodell basierend auf der ProgPrompt-Eingabeaufforderung abgeleitet, und dann kann der generierte Plan auf dem virtuellen Agenten oder dem physischen Robotersystem ausgeführt werden. Ein Dolmetscher ist erforderlich um jeden Aktionsbefehl gegen die Umgebung auszuführen.

Während der Ausführung erfolgt die Assertionsprüfung im geschlossenen Regelkreis und liefert Feedback basierend auf dem aktuellen Umgebungsstatus.

Im experimentellen Teil evaluierten die Forscher die Methode auf der Simulationsplattform Virtual Home (VH).

Der VH-Status umfasst eine Reihe von Objekten und entsprechenden Attributen, z. B. Lachs im Mikrowellenherd (in) oder in der Nähe (agent_close_to) usw.

Der Aktionsbereich umfasst Greifen, Putten, Zurücklegen, Gehen, Finden, Öffnen, Schließen usw.

Am Ende wurden 3 VH-Umgebungen experimentiert, jede Umgebung umfasste 115 verschiedene Objekte. Die Forscher erstellten einen Datensatz mit 70 Haushaltsaufgaben mit einem hohen Abstraktionsgrad und die Befehle waren alle wie „Mikrowellenlachs“. , und erstellen Sie eine Ground-Truth-Action-Sequenz dafür.

Nach der Bewertung des generierten Programms in der virtuellen Familie umfassen die Bewertungsindikatoren Erfolgsrate (SR), Zielbedingungsrückruf (GCR) und Ausführbarkeit (Exec). Aus den Ergebnissen ist ersichtlich, dass ProgPrompt deutlich besser ist als Die Tabelle zeigt neben der Baseline und LangPrompt auch, wie jede Funktion die Leistung verbessert.

Wie viele Schritte sind erforderlich, um einen Elefanten im Kühlschrank zu installieren? NVIDIA veröffentlicht ProgPrompt, mit dem Sprachmodelle Pläne für Roboter erstellen können

Die Forscher führten auch Experimente in der realen Welt durch, wobei sie einen Panda-Roboter von Franka-Emika mit parallelen Krallen verwendeten, und stellten die Hypothese auf, dass eine Pick-and-Place-Strategie entwickelt werden könnte.

Diese Strategie verwendet als Eingabe zwei Punktwolken eines Zielobjekts und eines Zielcontainers und führt Pick-and-Place-Vorgänge durch, um das Objekt auf oder innerhalb des Containers zu platzieren.

Die Systemimplementierung führt ein offenes Vokabular-Objekterkennungsmodell ViLD ein, um Objekte in der Szene zu identifizieren und zu segmentieren und eine Liste der verfügbaren Objekte in der Eingabeaufforderung zu erstellen.

Anders als in der virtuellen Umgebung ist hier die Objektliste eine lokale Variable jeder Planungsfunktion, was mehr Flexibilität bei der Anpassung an neue Objekte ermöglicht.

Der vom Sprachmodell ausgegebene Plan enthält Funktionsaufrufe in Form von Grab und Putin.

Aufgrund realer Unsicherheiten wurde die zusicherungsbasierte Closed-Loop-Option im Versuchsaufbau nicht implementiert.

Wie viele Schritte sind erforderlich, um einen Elefanten im Kühlschrank zu installieren? NVIDIA veröffentlicht ProgPrompt, mit dem Sprachmodelle Pläne für Roboter erstellen können

Es ist zu erkennen, dass der Roboter in der Klassifizierungsaufgabe Bananen und Erdbeeren als Früchte identifizieren und Planungsschritte generieren konnte, um sie auf dem Teller und den Flaschen in der Schachtel zu platzieren.

Das obige ist der detaillierte Inhalt vonWie viele Schritte sind erforderlich, um einen Elefanten im Kühlschrank zu installieren? NVIDIA veröffentlicht ProgPrompt, mit dem Sprachmodelle Pläne für Roboter erstellen können. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme
Dieser Artikel ist reproduziert unter:51CTO.COM. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen
Lesen des AI-Index 2025: Ist AI Ihr Freund, Feind oder Co-Pilot?Lesen des AI-Index 2025: Ist AI Ihr Freund, Feind oder Co-Pilot?Apr 11, 2025 pm 12:13 PM

Der Bericht des Stanford University Institute for Human-orientierte künstliche Intelligenz bietet einen guten Überblick über die laufende Revolution der künstlichen Intelligenz. Interpretieren wir es in vier einfachen Konzepten: Erkenntnis (verstehen, was geschieht), Wertschätzung (Sehenswürdigkeiten), Akzeptanz (Gesichtsherausforderungen) und Verantwortung (finden Sie unsere Verantwortlichkeiten). Kognition: Künstliche Intelligenz ist überall und entwickelt sich schnell Wir müssen uns sehr bewusst sein, wie schnell künstliche Intelligenz entwickelt und ausbreitet. Künstliche Intelligenzsysteme verbessern sich ständig und erzielen hervorragende Ergebnisse bei mathematischen und komplexen Denktests, und erst vor einem Jahr haben sie in diesen Tests kläglich gescheitert. Stellen Sie sich vor, KI zu lösen komplexe Codierungsprobleme oder wissenschaftliche Probleme auf Graduiertenebene-seit 2023-

Erste Schritte mit Meta Lama 3.2 - Analytics VidhyaErste Schritte mit Meta Lama 3.2 - Analytics VidhyaApr 11, 2025 pm 12:04 PM

Metas Lama 3.2: Ein Sprung nach vorne in der multimodalen und mobilen KI Meta hat kürzlich Lama 3.2 vorgestellt, ein bedeutender Fortschritt in der KI mit leistungsstarken Sichtfunktionen und leichten Textmodellen, die für mobile Geräte optimiert sind. Aufbau auf dem Erfolg o

AV -Bytes: META ' S Lama 3.2, Googles Gemini 1.5 und mehrAV -Bytes: META ' S Lama 3.2, Googles Gemini 1.5 und mehrApr 11, 2025 pm 12:01 PM

Die KI -Landschaft dieser Woche: Ein Wirbelsturm von Fortschritten, ethischen Überlegungen und regulatorischen Debatten. Hauptakteure wie OpenAI, Google, Meta und Microsoft haben einen Strom von Updates veröffentlicht, von bahnbrechenden neuen Modellen bis hin zu entscheidenden Verschiebungen in LE

Die menschlichen Kosten für das Gespräch mit Maschinen: Kann sich ein Chatbot wirklich darum kümmern?Die menschlichen Kosten für das Gespräch mit Maschinen: Kann sich ein Chatbot wirklich darum kümmern?Apr 11, 2025 pm 12:00 PM

Die beruhigende Illusion der Verbindung: Blühen wir in unseren Beziehungen zur KI wirklich auf? Diese Frage stellte den optimistischen Ton des "Fortschritts -Menschen mit AI) des MIT Media Lab in Frage. Während die Veranstaltung moderne EDG präsentierte

Verständnis der Scipy Library in PythonVerständnis der Scipy Library in PythonApr 11, 2025 am 11:57 AM

Einführung Stellen Sie sich vor, Sie sind ein Wissenschaftler oder Ingenieur, der sich mit komplexen Problemen befasst - Differentialgleichungen, Optimierungsherausforderungen oder Fourier -Analysen. Pythons Benutzerfreundlichkeit und Grafikfunktionen sind ansprechend, aber diese Aufgaben erfordern leistungsstarke Tools

3 Methoden zum Ausführen von LLAMA 3.2 - Analytics Vidhya3 Methoden zum Ausführen von LLAMA 3.2 - Analytics VidhyaApr 11, 2025 am 11:56 AM

METAs Lama 3.2: Ein multimodales KI -Kraftpaket Das neueste multimodale Modell von META, Lama 3.2, stellt einen erheblichen Fortschritt in der KI dar, das ein verbessertes Sprachverständnis, eine verbesserte Genauigkeit und die überlegenen Funktionen der Textgenerierung bietet. Seine Fähigkeit t

Automatisierung von Datenqualitätsprüfungen mit DagsterAutomatisierung von Datenqualitätsprüfungen mit DagsterApr 11, 2025 am 11:44 AM

Datenqualitätssicherung: Automatisieren von Schecks mit Dagster und großen Erwartungen Die Aufrechterhaltung einer hohen Datenqualität ist für datengesteuerte Unternehmen von entscheidender Bedeutung. Wenn Datenvolumina und Quellen zunehmen, wird die manuelle Qualitätskontrolle ineffizient und anfällig für Fehler.

Haben Mainframes eine Rolle in der KI -Ära?Haben Mainframes eine Rolle in der KI -Ära?Apr 11, 2025 am 11:42 AM

Mainframes: Die unbesungenen Helden der KI -Revolution Während die Server bei allgemeinen Anwendungen und mehreren Kunden übernommen werden, werden Mainframes für hochvolumige, missionskritische Aufgaben erstellt. Diese leistungsstarken Systeme sind häufig in Heavil gefunden

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Wie man alles in Myrise freischaltet
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

SecLists

SecLists

SecLists ist der ultimative Begleiter für Sicherheitstester. Dabei handelt es sich um eine Sammlung verschiedener Arten von Listen, die häufig bei Sicherheitsbewertungen verwendet werden, an einem Ort. SecLists trägt dazu bei, Sicherheitstests effizienter und produktiver zu gestalten, indem es bequem alle Listen bereitstellt, die ein Sicherheitstester benötigen könnte. Zu den Listentypen gehören Benutzernamen, Passwörter, URLs, Fuzzing-Payloads, Muster für vertrauliche Daten, Web-Shells und mehr. Der Tester kann dieses Repository einfach auf einen neuen Testcomputer übertragen und hat dann Zugriff auf alle Arten von Listen, die er benötigt.

Dreamweaver Mac

Dreamweaver Mac

Visuelle Webentwicklungstools

MinGW – Minimalistisches GNU für Windows

MinGW – Minimalistisches GNU für Windows

Dieses Projekt wird derzeit auf osdn.net/projects/mingw migriert. Sie können uns dort weiterhin folgen. MinGW: Eine native Windows-Portierung der GNU Compiler Collection (GCC), frei verteilbare Importbibliotheken und Header-Dateien zum Erstellen nativer Windows-Anwendungen, einschließlich Erweiterungen der MSVC-Laufzeit zur Unterstützung der C99-Funktionalität. Die gesamte MinGW-Software kann auf 64-Bit-Windows-Plattformen ausgeführt werden.

VSCode Windows 64-Bit-Download

VSCode Windows 64-Bit-Download

Ein kostenloser und leistungsstarker IDE-Editor von Microsoft

EditPlus chinesische Crack-Version

EditPlus chinesische Crack-Version

Geringe Größe, Syntaxhervorhebung, unterstützt keine Code-Eingabeaufforderungsfunktion