Heim >Technologie-Peripheriegeräte >KI >Gerade hat Google ein grundlegendes Weltmodell veröffentlicht: 11B-Parameter, mit denen eine interaktive virtuelle Welt generiert werden kann
Generieren Sie mit einem Klick eine spielbare Spielwelt.
Es sind erst zwei Wochen vergangen, und das Weltmodell von Google ist ebenfalls da, und seine Fähigkeiten scheinen noch mächtiger zu sein: Die virtuelle Welt, die es generiert, ist „autonom und kontrollierbar“. Gerade hat Google ein neues Paradigma der generativen KI definiert – Generative Interactive Environments (Genie). Genie ist ein 11 Milliarden Parameter umfassendes Weltmodell, das aus einer einzigen Bildaufforderung spielbare, interaktive Umgebungen generieren kann.
Wir können es mit Bildern anregen, die es noch nie zuvor gesehen hat, und dann mit der virtuellen Welt unserer Fantasie interagieren.
Ob es sich um zusammengesetzte Bilder, Fotos oder sogar handgezeichnete Skizzen handelt, Genie kann daraus endlose spielbare Welten generieren.
Genie besteht aus drei Teilen: einem latenten Aktionsmodell, um mögliche Aktionen zwischen jedem Frame-Paar abzuleiten; einem Video-Tokenizer, um rohe Video-Frames in diskrete Token umzuwandeln; und einem dynamischen Modell, um den nächsten Frame eines gegebenen Videos vorherzusagen eine mögliche Aktion und ein vergangenes Frame-Token.
Als viele Leute die Veröffentlichung dieser Technologie sahen, sagten sie: Google wird wieder die Führung in der KI-Technologie übernehmen.
Google schlägt außerdem vor, dass die potenziellen Aktionen, die Genie gelernt hat, auf reale, von Menschen gestaltete Umgebungen übertragen werden können. Basierend auf dieser Hypothese trainierte Google ein Genie-Modell auf Robotervideos als Proof-of-Concept für potenzielle Weltmodellanwendungen im Bereich der Robotik.
Disruptive Gaming-, Design-, XR-, Robotik-Industrien...
Wir können die revolutionäre Bedeutung von Genie aus vier Dimensionen verstehen.
Erstens kann Genie Steuerelemente ohne Aktions-Tags erlernen.
Genie wird insbesondere mit einer großen Anzahl öffentlicher Internet-Videodatensätze ohne Aktionskennzeichnungsdaten trainiert.
Das wäre eine Herausforderung gewesen, da Internetvideos oft keine Beschriftungen darüber haben, welche Aktion ausgeführt wird und welcher Teil des Bildes gesteuert werden sollte, aber Genie ist in der Lage, eine feinkörnige Steuerung speziell aus Internetvideos zu lernen.
Für Genie versteht es nicht nur, welche Teile von Beobachtungen allgemein kontrollierbar sind, sondern leitet auch verschiedene potenzielle Aktionen ab, die in der generierten Umgebung konsistent sind. Beachten Sie, dass dieselbe zugrunde liegende Aktion ein ähnliches Verhalten in verschiedenen Eingabeaufforderungsbildern hervorrufen kann.
Zweitens kann Genie die nächste Generation von „Schöpfern“ fördern.
Die Schaffung einer völlig neuen interaktiven Umgebung mit nur einem einzigen Bild öffnet die Tür zu einer Vielzahl neuer Möglichkeiten, virtuelle Welten zu generieren und zu betreten. Beispielsweise können wir ein hochmodernes Bildmodell zur Textgenerierung verwenden, um den Startrahmen zu generieren, und dann mit Genie zusammenarbeiten, um eine dynamische interaktive Umgebung zu generieren.
In der folgenden Animation hat Google Imagen2 verwendet, um Bilder zu generieren, und dann Genie verwendet, um sie in die Realität umzusetzen:
Genie kann mehr als das, es kann auch auf kreative Bereiche im Zusammenhang mit menschlichem Design angewendet werden, z skizzieren.
Oder auf reale Bilder angewendet:
Wieder einmal ist Google davon überzeugt, dass Genie der Grundstein für die Verwirklichung universeller Intelligenz ist. Frühere Untersuchungen haben gezeigt, dass Spielumgebungen effektive Testumgebungen für die Entwicklung von KI-Agenten sein können, jedoch häufig durch die Anzahl der verfügbaren Spiele begrenzt sind.
Jetzt können zukünftige KI-Agenten mit Genie im endlosen Lehrplan der neu geschaffenen Welt geschult werden. Google hat einen Proof of Concept vorgelegt, der zeigt, dass die von Genie erlernten potenziellen Aktionen auf reale, von Menschen gestaltete Umgebungen übertragen werden können.
Abschließend gab Google an, dass es sich bei Genie um eine allgemeine Methode handelt, die auf mehrere Bereiche angewendet werden kann, ohne dass zusätzliche Domänenkenntnisse erforderlich sind.
Obwohl es sich bei den verwendeten Daten eher um 2D-Platformer-Gameplay- und Robotervideos handelt, ist die Methode allgemein und auf jede Art von Domain anwendbar und kann auf größere Internetdatensätze erweitert werden.
Google hat ein kleineres 2,5-B-Modell auf den bewegungsfreien Videos von RT1 trainiert. Wie bei Platformern zeigen Flugbahnen mit der gleichen zugrunde liegenden Aktionsfolge oft ein ähnliches Verhalten.
Dies zeigt, dass Genie einen konsistenten Aktionsraum erlernen kann, der sich möglicherweise zum Trainieren von Robotern eignet, um verallgemeinerte verkörperte Intelligenz zu erzeugen.
Technologie enthüllt: Das Paper „Genie: Generative Interactive Environments“ wurde veröffentlicht
Google DeepMind hat das Genie-Paper veröffentlicht.
Papieradresse: https://arxiv.org/pdf/2402.15391.pdf
Projekthomepage: https://sites.google.com/view/genie-2024/home?pli= 1
Es gibt bis zu 6 Co-Autoren dieses Artikels, darunter der chinesische Gelehrte Yuge (Jimmy) Shi. Derzeit ist sie wissenschaftliche Mitarbeiterin bei Google DeepMind und promovierte 2023 in maschinellem Lernen an der Universität Oxford.
Methodeneinführung
Mehrere Komponenten in der Genie-Architektur werden auf Basis von Vision Transformer (ViT) erstellt. Es ist erwähnenswert, dass ein Video aufgrund der sekundären Speicherkosten von Transformer, die den Videobereich vor Herausforderungen stellen, bis zu ?(10^4) Token enthalten kann. Daher verwendet Google in allen Modellkomponenten eine speichereffiziente ST-Transformer-Architektur (siehe Abbildung 4), um Modellkapazität und Rechenbeschränkungen auszugleichen.
Genie enthält drei Schlüsselkomponenten (wie in der Abbildung unten dargestellt):
1) Latent Action Model (LAM), das verwendet wird, um über mögliche Aktionen zwischen jedem Frame-Paar nachzudenken;
2) Video-Tokenizer (Tokenizer). ), wird verwendet, um ursprüngliche Videobilder in diskrete Token umzuwandeln?;
3) Dynamisches Modell, das potenzielle Aktionen und Token vergangener Bilder berücksichtigt und zur Vorhersage des nächsten Bildes des Videos verwendet wird.
Im Einzelnen:
Latentes Aktionsmodell: Um eine kontrollierbare Videogenerierung zu erreichen, verwendet Google die im vorherigen Frame ausgeführte Aktion als Bedingung für die Vorhersage zukünftiger Frames. Allerdings sind solche Aktionsbezeichnungen in Videos im Internet selten verfügbar und die Kosten für die Beschaffung von Aktionsanmerkungen können hoch sein. Stattdessen lernt Google völlig unbeaufsichtigt potenzielle Aktionen (siehe Abbildung 5).
Video-Tokenizer: Basierend auf früheren Untersuchungen komprimiert Google Videos in diskrete Token, um die Dimensionalität zu reduzieren und eine Videogenerierung mit höherer Qualität zu erreichen (siehe Abbildung 6). Für die Implementierung verwendet Google VQ-VAE, das ? Frames eines Videos als Eingabe verwendet und für jedes Frame eine diskrete Darstellung generiert: , wobei ? die diskrete latente Raumgröße ist. Der Tokenizer wird mit Standard-VQ-VQAE auf die gesamte Videosequenz trainiert.
Dynamisches Modell: ist ein MaskGIT-Transformator nur für Decoder (Abbildung 7). Der Inferenzprozess von Genie ist wie folgt B bis 41M Um die Auswirkungen der Modellgröße und der Chargengröße zu untersuchen, sind die experimentellen Ergebnisse in Abbildung 9 unten dargestellt.
Es ist zu beobachten, dass mit zunehmender Modellgröße der endgültige Trainingsverlust abnimmt. Dies ist ein starker Hinweis darauf, dass der Genie-Ansatz von der Skalierung profitiert. Gleichzeitig führt die Erhöhung der Losgröße auch zu einer Steigerung der Modellleistung.
Qualitative Ergebnisse
Google präsentiert qualitative experimentelle Ergebnisse für das parametrische Genie 11B-Modell, das auf dem Platformers-Datensatz trainiert wurde, und ein kleineres Modell, das auf dem Robotics-Datensatz trainiert wurde. Die Ergebnisse zeigen, dass das Genie-Modell qualitativ hochwertige, steuerbare Videos über verschiedene Domänen hinweg generieren kann. Bemerkenswert ist, dass Google zur qualitativen Bewertung seiner Plattform-Trainingsmodelle nur Out-of-Distribution (OOD)-Bildaufforderungen verwendet, was die Robustheit des Genie-Ansatzes und den Wert eines groß angelegten Datentrainings demonstriert.
Agentenschulung. Vielleicht kann Genie eines Tages als Basismodell für die Schulung von Multitasking-Agenten dienen. In Abbildung 14 zeigen die Autoren, dass das Modell bereits verwendet werden kann, um bei einem gegebenen Startrahmen unterschiedliche Trajektorien in einer neuartigen RL-Umgebung zu generieren.
Die Autoren führen Auswertungen in CoinRun, einer prozedural generierten 2D-Plattform-Spielumgebung, durch und vergleichen sie mit einem Oracle Behavioral Clone (BC)-Modell mit Zugriff auf Expertenoperationen als Obergrenze.
Ablationsforschung. Auswahl Beim Entwurf des Latent-Action-Modells haben die Autoren sorgfältig überlegt, welche Arten von Eingaben verwendet werden sollen. Während die endgültige Entscheidung darin bestand, Rohbilder (Pixel) zu verwenden, bewerteten die Autoren diese Wahl beim Entwurf von Genie im Vergleich zur Alternative der Verwendung tokenisierter Bilder (Ersetzen von x durch z in Abbildung 5). Diese Alternative wird als „Token-Input“-Modell bezeichnet (siehe Tabelle 2).
Ablation der Tokenizer-Architektur. Die Autoren verglichen die Leistung von drei Tokenizer-Optionen, darunter 1) (nur räumlich) ViT, 2) (räumlich und zeitlich) ST-ViViT und 3) (räumlich und zeitlich) CViViT (Tabelle 3).
Das obige ist der detaillierte Inhalt vonGerade hat Google ein grundlegendes Weltmodell veröffentlicht: 11B-Parameter, mit denen eine interaktive virtuelle Welt generiert werden kann. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!