Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Auf dem Weg in die digitale Welt AGI! Der Agent hat angefangen, „Red Dead Redemption 2“ von Grund auf zu spielen

Auf dem Weg in die digitale Welt AGI! Der Agent hat angefangen, „Red Dead Redemption 2“ von Grund auf zu spielen

WBOY
WBOYnach vorne
2024-03-15 08:20:17894Durchsuche

向数字世界AGI迈进!智能体已经从头开玩「荒野大镖客 2」了

Allgemeine Computersteuerung

Die Informationsrevolution hat eine digitale Welt hervorgebracht und ist auch die am einfachsten zu implementierende allgemeine Künstliche Intelligenz (AGI). ).

向数字世界AGI迈进!智能体已经从头开玩「荒野大镖客 2」了

Auf dem Weg zu AGI in der digitalen Welt haben das Beijing Zhiyuan Artificial Intelligence Research Institute, die Nanyang Technological University of Singapore und die Peking University gemeinsam „General Computer Control (GCC)“ vorgeschlagen, das heißt, der intelligente Agent muss sich mit dem befassen Bildschirm wie ein Mensch , erledige alle Aufgaben auf dem Computer über Tastatur und Maus. In der Vergangenheit basierte die Forschung zu künstlicher Intelligenz lange Zeit auf Spielen, und GCC wird ein Szenario für die allgemeine Forschung zu künstlicher Intelligenz bereitstellen und die Implementierung und Industrialisierung großer Modelle und KI-Agenten weiter vorantreiben.

Zu diesem Zweck schlug das Forschungsteam
Cradle vor, ein universelles computergesteuertes Agenten-Framework, das es dem Agenten ermöglicht, Tastatur, Maus und jede Software-Interaktion direkt zu steuern, ohne auf eine interne API angewiesen zu sein, sei es Open Source oder Closed Source und kann sogar „The Wilderness“ spielen, ein kommerzielles AAA-Meisterwerk wie Red Dead Redemption 2!

向数字世界AGI迈进!智能体已经从头开玩「荒野大镖客 2」了

Titel des Papiers: Towards General Computer Control: A Multimodal Agent for Red Dead Redemption II as a Case Study
  • Link zum Papier: https://arxiv.org/abs/2403.03186
  • Project Startseite: https://baai-agents.github.io/Cradle/
  • Code-Link: https://github.com/BAAI-Agents/Cradle
Mit der Entwicklung großer Modelle , Immer mehr Forschungen zu künstlicher Intelligenz (KI-Agenten) konzentrieren sich auf die Computersteuerung, einschließlich Surfen im Internet, Bedienen von Smartphones, Spielen usw. Die bestehende Forschung stützt sich jedoch auf interne APIs, um vordefinierte Eingabe- und Ausgabeaktionen zu erhalten. Um einen
universellen Agenten
zu erstellen, der alle Aufgaben auf einem Computer erledigen kann, müssen Sie die gebräuchlichsten und standardmäßigsten Ein- und Ausgaben verwenden, um mit dem Computer zu interagieren. Daher verwendet die universelle Computersteuerung einheitliche Ein- und Ausgänge, was die Universalität von Agenten ermöglicht.
Aber Vielseitigkeit bringt betriebliche Schwierigkeiten mit sich: (1) Die Verwendung des Computerbildschirms als Eingabe stellt höhere Anforderungen an die Videoverständnisfähigkeit des Agenten. Da es beispielsweise keine interne API gibt, müssen Aktionen anhand visueller Informationen beurteilt werden Die Ausführung ist erfolgreich. (2) Die Verwendung von Tastatur- und Mausoperationen als Ausgabe erfordert, dass der Agent eine höhere räumlich-zeitliche Operationsgenauigkeit erfordert. Tastatureingaben und Mausklicks erfordern beispielsweise normalerweise zusätzliche Zeitdimensionen. Die Lösung dieser schwierigen Probleme ist die Herausforderung beim Aufbau von
General Computer Controlled Agents (GCC-Agenten)
!

Cradle: Software, die alles steuert

„Computer bezieht sich auf jedes benutzerzentrierte Computergerät, einschließlich PCs, Smartphones, Tablets usw. Obwohl Cradle sich auf Tastatur- und Mausbedienungen konzentriert, können Sie es.“ lässt sich leicht erweitern, um Griffe, Touchscreens usw. zu steuern Modul. Die hohe Vielseitigkeit von Cradle beruht auf der sinnvollen Kapselung und Abstraktion der ursprünglichen Eingabe und Ausgabe im Prozess der Interaktion mit Computern. Es verwendet das auf dem Bildschirm angezeigte Video als Eingabe, extrahiert die Text- und visuellen Informationen zur Entscheidungsfindung und gibt die Tastatur- und Maussteuersignale im zugrunde liegenden Betriebssystem aus, um mit dem Computer zu interagieren, sodass dieser mit der gesamten Software interagieren kann, ohne sich darauf verlassen zu müssen auf irgendwelchen Annahmen. 向数字世界AGI迈进!智能体已经从头开玩「荒野大镖客 2」了

„Cradle besteht hauptsächlich aus 6 Modulen, darunter Informationssammlung, Selbstreflexion, Aufgabeninferenz, Fähigkeitsmanagement, Aktionsplanung und Gedächtnismodul. Seine aussagekräftige Entscheidungsbegründung beruht auf „Reflexion über die Vergangenheit, Zusammenfassung der Gegenwart und Planung für“. die Zukunft“

Gleichzeitig ermöglicht das leistungsstarke Entscheidungsfindungsmodul von Cradle die spontane Interaktion mit der Software und die Erledigung von Aufgaben. Dieser Prozess lässt sich einfach wie folgt zusammenfassen: Über die Vergangenheit nachdenken, die Gegenwart zusammenfassen , und für die Zukunft planen.

  • Reflektieren Sie über die Vergangenheit: Verwenden Sie Videos vergangener Aktionsprozesse als Eingabe, extrahieren Sie wichtige Text- bzw. visuelle Informationen und ermitteln Sie mithilfe der Reflexion, ob die vorherige Aktion erfolgreich ausgeführt wurde, ob die Aufgabe abgeschlossen wurde. und wie man sich verbessern kann.
  • Jetzt zusammenfassen: Fassen Sie nach der Reflexion die aktuelle Situation zusammen und entscheiden Sie auf dieser Grundlage, ob das Missionsziel geändert oder der Missionsinhalt angepasst werden soll.
  • Planung für die Zukunft: Abschließend generieren oder aktualisieren Sie Fertigkeiten basierend auf der aktuellen Aufgabe und der aktuellen Situation, rufen als Alternative Fertigkeiten im Zusammenhang mit der aktuellen Aufgabe aus den erlernten Fertigkeiten ab und wählen daraus dann geeignete Fertigkeiten zur Instanziierung aus sie als Handlungen zur Ausführung.

Während er Entscheidungen trifft und argumentiert, fasst Cradle regelmäßig historische Informationen zusammen, die im Kontextgedächtnis gespeichert sind, und Fähigkeiten, die im Langzeitgedächtnis gespeichert sind. Das Gehirn dieses Prozesses ist ein großes multimodales Modell wie GPT-4V, aber Cradle fügt ihm Funktionen wie Zusammenfassung, Reflexion und Speicher hinzu und bildet so ein vollständiges intelligentes Agenten-Framework für die allgemeine Computersteuerung, das die Probleme der Universalität effektiv löst . Probleme verursacht. Cradle: Entdecken Sie „Red Dead Redemption 2“ von Grund auf schwierige und selten erkundete Gebiete Das kommerzielle AAA-Game-Meisterwerk „Red Dead Redemption 2“. Sie glauben, dass Cradle, da es sich um die am schwierigsten zu bedienende Software handelt und die Haupthandlung von 3A-Spielen frei erkunden und sogar vervollständigen kann, ein großes Potenzial für die Verallgemeinerung auf andere Spiele und Software hat.

„Im Gegensatz zu Open-Source-Spielen wie Minecraft bieten die meisten kommerziellen Spiele, insbesondere 3A-Spiele, keine internen API-Schnittstellen, sodass Frameworks wie Voyager, die auf interne APIs angewiesen sind, um vordefinierte Eingabe- und Ausgabeaktionen zu erhalten, nicht auf andere migriert werden können „In-Game“

Basierend auf GPT-4V kann Cradle basierend auf Eingabeaufforderungen und Tutorials im Spiel direkt entsprechende ausführbare Codes als Fertigkeiten generieren, seine Fertigkeitsbibliothek Schritt für Schritt bereichern und sie in nachfolgenden Spielen wiederverwenden. diese Fertigkeiten .

向数字世界AGI迈进!智能体已经从头开玩「荒野大镖客 2」了Nachdem eine falsche Aktion ausgeführt wurde, kann Cradle den Fehler durch Reflexion effektiv erkennen und korrigieren.


Cradle kann nicht nur der Spielanleitung folgen, um entsprechende Fähigkeiten von Grund auf zu generieren und die 40-minütige Hauptgeschichte abzuschließen, sondern kann auch frei erkunden, reiten, jagen, kämpfen, mit NPCs sprechen, Requisiten verwenden und operieren Karten in der offenen Welt und sogar das Einkaufen im Laden sind ein Kinderspiel. Dies ist seit langem der erste Roboter, der kommerzielle AAA-Spiele spielen kann.

向数字世界AGI迈进!智能体已经从头开玩「荒野大镖客 2」了

向数字世界AGI迈进!智能体已经从头开玩「荒野大镖客 2」了

向数字世界AGI迈进!智能体已经从头开玩「荒野大镖客 2」了Fazit

向数字世界AGI迈进!智能体已经从头开玩「荒野大镖客 2」了Der Open-Source-Cradle-Code lässt sich problemlos auf andere Software und Spiele erweitern. Das Forschungsteam gab an, dass Cradle in Zukunft auf mehr Software und Spiele portiert werden soll, um eine echte universelle Computersteuerung zu erreichen, und es ermutigt auch relevante Forschungsteams/Industrie, weitere Forschung und Erkundung durchzuführen. Ziel ist es, intelligenten Agenten die Interaktion mit jeglicher Software zu ermöglichen, egal ob Open Source oder Closed Source, und sich kontinuierlich zu verbessern, um Universalität zu erreichen und letztendlich zur Wiege der Geburt allgemeiner „künstlicher Intelligenz“ zu werden.

„GCC ist eine Wiege für AGI.“

– Das Cradle-Team

Noch etwas: Live-Übertragung der Interpretation der Cradle-Technologie

Am 14. März von 14:30 bis 15:30 Uhr war der erste Autor des Artikels, Tan Weihao, ein Doktorand in Nanyang Die Technologische Universität in Singapur gab einen Online-Interpretationsbericht ab. Scannen Sie den untenstehenden QR-Code, um sich zu registrieren.

向数字世界AGI迈进!智能体已经从头开玩「荒野大镖客 2」了

Das obige ist der detaillierte Inhalt vonAuf dem Weg in die digitale Welt AGI! Der Agent hat angefangen, „Red Dead Redemption 2“ von Grund auf zu spielen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:jiqizhixin.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen