suchen
HeimTechnologie-PeripheriegeräteKIVincent Tus neues SOTA! Pika, die Peking-Universität und Stanford starten gemeinsam ein multimodales RPG, um zur Lösung zweier großer Probleme von Wenshengtu beizutragen

Kürzlich haben die Peking-Universität in Stanford und die beliebten Pika Labs gemeinsam eine Studie veröffentlicht, die die Fähigkeiten vinzentinischer Diagramme mit großem Modell auf ein neues Niveau gehoben hat.

Vincent Tus neues SOTA! Pika, die Peking-Universität und Stanford starten gemeinsam ein multimodales RPG, um zur Lösung zweier großer Probleme von Wenshengtu beizutragen

Papieradresse: https://arxiv.org/pdf/2401.11708.pdf

Codeadresse: https://github.com/YangLing0818/RPG-DiffusionMaster

Vorgeschlagen von der Autor des Papiers Es wird ein innovativer Ansatz verfolgt, um das Text-zu-Bild-Generierungs-/Bearbeitungs-Framework zu verbessern, indem die Inferenzfähigkeiten multimodaler großer Sprachmodelle (MLLM) genutzt werden.

Mit anderen Worten zielt diese Methode darauf ab, die Leistung von Textgenerierungsmodellen bei der Verarbeitung komplexer Textaufforderungen mit mehreren Attributen, Beziehungen und Objekten zu verbessern.

Ohne weitere Umschweife, hier ist das Bild:

Vincent Tus neues SOTA! Pika, die Peking-Universität und Stanford starten gemeinsam ein multimodales RPG, um zur Lösung zweier großer Probleme von Wenshengtu beizutragen

Ein grünes Zwillingsschwanzmädchen in orangefarbenem Kleid sitzt auf dem Sofa, während links unter einem großen Fenster ein unordentlicher Schreibtisch steht, auf dem sich ein lebhaftes Aquarium befindet Oben rechts auf dem Sofa, realistischer Stil.

Ein Mädchen mit zwei Schwänzen in einem orangefarbenen Kleid sitzt auf dem Sofa. Oben rechts befindet sich ein unordentliches Aquarium ist realistischer Stilismus.

Angesichts mehrerer Objekte mit komplexen Beziehungen sind die Struktur des gesamten Bildes und die vom Modell vorgegebene Beziehung zwischen Personen und Objekten sehr vernünftig und lassen die Augen des Betrachters leuchten.

Für die gleiche Aufforderung werfen wir einen Blick auf die Leistung des aktuellen hochmodernen SDXL und DALL·E 3:

Vincent Tus neues SOTA! Pika, die Peking-Universität und Stanford starten gemeinsam ein multimodales RPG, um zur Lösung zweier großer Probleme von Wenshengtu beizutragen

Werfen wir einen Blick auf das neue Framework, wenn es verfügbar ist geht es darum, mehrere Attribute mit mehreren Objekten zu verbinden. Von links nach rechts: ein blondes europäisches Mädchen mit Pferdeschwanz in einem weißen Hemd, ein afrikanisches Mädchen mit braunen Locken in einem blauen Hemd, das mit einem Vogel bedruckt ist, und ein asiatischer Junge Männer mit schwarzen kurzen Haaren im Anzug gehen glücklich über den Campus.

Vincent Tus neues SOTA! Pika, die Peking-Universität und Stanford starten gemeinsam ein multimodales RPG, um zur Lösung zweier großer Probleme von Wenshengtu beizutragenVon links nach rechts ein europäisches Mädchen in einem weißen Hemd mit blondem Pferdeschwanz, ein afrikanisches Mädchen mit braunen Locken, das ein blaues Hemd mit einem Vogelaufdruck trägt Darauf und ein Mädchen im Anzug spaziert ein junger asiatischer Mann mit kurzen schwarzen Haaren glücklich über den Campus.

Die Forscher nannten dieses Framework RPG (Recaption, Plan and Generate) und verwendeten MLLM als globalen Planer, um den komplexen Bildgenerierungsprozess in mehrere einfachere Generierungsaufgaben innerhalb von Unterregionen zu zerlegen.

Das Papier schlägt eine komplementäre Regionsdiffusion vor, um die Generierung von Regionskombinationen zu erreichen, und integriert außerdem die textgesteuerte Bildgenerierung und -bearbeitung in einem geschlossenen Regelkreis in das RPG-Framework, wodurch die Generalisierungsfähigkeiten verbessert werden.

Experimente zeigen, dass das in diesem Artikel vorgeschlagene RPG-Framework die aktuellen hochmodernen Textbilddiffusionsmodelle, einschließlich DALL·E 3 und SDXL, übertrifft, insbesondere bei der Objektsynthese mehrerer Kategorien und der semantischen Ausrichtung von Textbildern. Vincent Tus neues SOTA! Pika, die Peking-Universität und Stanford starten gemeinsam ein multimodales RPG, um zur Lösung zweier großer Probleme von Wenshengtu beizutragen

Es ist erwähnenswert, dass das RPG-Framework weitgehend mit verschiedenen MLLM-Architekturen (wie MiniGPT-4) und Diffusions-Backbone-Netzwerken (wie ControlNet) kompatibel ist.

RPG

Das aktuelle Vincentian-Graphmodell weist zwei Hauptprobleme auf: 1. Layoutbasierte oder aufmerksamkeitsbasierte Methoden können nur eine grobe räumliche Orientierung bieten und haben Schwierigkeiten, mit überlappenden Objekten umzugehen. 2. Feedbackbasierte Methoden erfordern Collect hochwertige Feedbackdaten und verursachen zusätzliche Schulungskosten.

Um diese Probleme zu lösen, schlugen Forscher drei Kernstrategien von RPG vor, wie in der folgenden Abbildung dargestellt:

Anhand einer komplexen Textaufforderung mit mehreren Entitäten und Beziehungen wird zunächst MLLM verwendet, um es zu zerlegen grundlegende Hinweise und hochbeschreibende Unterhinweise; anschließend wird der Bildraum mithilfe der CoT-Planung des multimodalen Modells in komplementäre Regionen unterteilt, um das Bild jeder Unterregion unabhängig zu erzeugen; Die Aggregation wird bei jedem Stichprobenschritt durchgeführt.

Multimodale Neuabstimmung

wandelt Texthinweise in hochbeschreibende Hinweise um und sorgt so für ein informationsverbessertes Hinweisverständnis und eine semantische Ausrichtung in Diffusionsmodellen.

Verwenden Sie MLLM, um Schlüsselphrasen in der Benutzeraufforderung y zu identifizieren und die darin enthaltenen Unterelemente abzurufen:

Vincent Tus neues SOTA! Pika, die Peking-Universität und Stanford starten gemeinsam ein multimodales RPG, um zur Lösung zweier großer Probleme von Wenshengtu beizutragen

Verwenden Sie LLM, um die Textaufforderung in verschiedene Unteraufforderungen zu zerlegen und diese detaillierter neu zu beschreiben :

Vincent Tus neues SOTA! Pika, die Peking-Universität und Stanford starten gemeinsam ein multimodales RPG, um zur Lösung zweier großer Probleme von Wenshengtu beizutragen

Auf diese Weise können für jeden Unterhinweis dichtere, feinkörnigere Details generiert werden, um die Wiedergabetreue der generierten Bilder effektiv zu verbessern und die semantischen Unterschiede zwischen Hinweisen und Bildern zu verringern.

Thought Chain Planning

unterteilt den Bildraum in komplementäre Unterregionen und weist jeder Unterregion unterschiedliche Unterhinweise zu, während die Generierungsaufgabe in mehrere einfachere Unteraufgaben unterteilt wird.

Konkret ist der Bildraum H×B in mehrere komplementäre Bereiche unterteilt, und jede Enhancer-Eingabeaufforderung ist einem bestimmten Bereich R zugeordnet:

Vincent Tus neues SOTA! Pika, die Peking-Universität und Stanford starten gemeinsam ein multimodales RPG, um zur Lösung zweier großer Probleme von Wenshengtu beizutragen

Verwenden Sie die leistungsstarke Denkketten-Argumentationsfähigkeit von MLLM und führen Sie aus effektive Zonierung. Durch die Analyse der abgerufenen Zwischenergebnisse können detaillierte Prinzipien und präzise Anweisungen für die anschließende Bildsynthese generiert werden.

Supplementary Area Diffusion

In jedem rechteckigen Unterbereich werden von Unterhinweisen geleitete Inhalte unabhängig generiert und dann in der Größe geändert und so verbunden, dass diese Unterbereiche räumlich zusammengeführt werden.

Vincent Tus neues SOTA! Pika, die Peking-Universität und Stanford starten gemeinsam ein multimodales RPG, um zur Lösung zweier großer Probleme von Wenshengtu beizutragen

Diese Methode löst effektiv das Problem großer Modelle, die Schwierigkeiten mit der Handhabung überlappender Objekte haben. Darüber hinaus erweitert das Papier dieses Framework, um es an Bearbeitungsaufgaben anzupassen, indem es eine konturbasierte Regionsdiffusion verwendet, um inkonsistente Regionen, die geändert werden müssen, präzise zu bearbeiten.

Textgeführte Bildbearbeitung

Vincent Tus neues SOTA! Pika, die Peking-Universität und Stanford starten gemeinsam ein multimodales RPG, um zur Lösung zweier großer Probleme von Wenshengtu beizutragen

wie im Bild oben gezeigt. In der Nacherzählphase verwendet RPG MLLM als Untertitel, um das Quellbild nachzuerzählen, und nutzt seine leistungsstarken Argumentationsfunktionen, um feinkörnige semantische Unterschiede zwischen dem Bild und dem Zielhinweis zu identifizieren und direkt zu analysieren, wie das Eingabebild mit dem Zielhinweis übereinstimmt.

Verwenden Sie MLLM (GPT-4, Gemini Pro usw.), um Unterschiede zwischen Eingabe und Ziel hinsichtlich numerischer Genauigkeit, Eigenschaftsbindungen und Objektbeziehungen zu überprüfen. Das resultierende multimodale Verständnis-Feedback wird zur inferenziellen Bearbeitungsplanung an das MLLM übermittelt.

Werfen wir einen Blick auf die Leistung des Generierungseffekts in den oben genannten drei Aspekten. Der erste ist die Attributbindung und vergleicht SDXL, DALL·E 3 und LMD+:

Vincent Tus neues SOTA! Pika, die Peking-Universität und Stanford starten gemeinsam ein multimodales RPG, um zur Lösung zweier großer Probleme von Wenshengtu beizutragen

Das können wir insgesamt sehen Drei Tests Von den Spielen spiegelt nur RPG am genauesten wider, was die Eingabeaufforderungen beschreiben.

Dann ist da noch die numerische Genauigkeit, die Anzeigereihenfolge ist die gleiche wie oben (SDXL, DALL·E 3, LMD+, RPG):

Vincent Tus neues SOTA! Pika, die Peking-Universität und Stanford starten gemeinsam ein multimodales RPG, um zur Lösung zweier großer Probleme von Wenshengtu beizutragen

-Ich habe nicht erwartet, dass das Zählen ziemlich schwierig ist für das große Vincent-Figurenmodell Ja, RPG besiegt den Gegner leicht.

Der letzte Punkt besteht darin, komplexe Beziehungen in der Eingabeaufforderung wiederherzustellen:

Vincent Tus neues SOTA! Pika, die Peking-Universität und Stanford starten gemeinsam ein multimodales RPG, um zur Lösung zweier großer Probleme von Wenshengtu beizutragen

Darüber hinaus kann die Zonenverteilung auf ein hierarchisches Format erweitert werden, das bestimmte Unterregionen in kleinere Unterregionen unterteilt.

Wie in der Abbildung unten gezeigt, kann RPG erhebliche Verbesserungen bei der Text-zu-Bild-Generierung erzielen, wenn eine Hierarchie der Regionssegmentierung hinzugefügt wird. Dies bietet eine neue Perspektive für die Bewältigung komplexer Generierungsaufgaben und ermöglicht die Generierung von Bildern beliebiger Zusammensetzung.

Vincent Tus neues SOTA! Pika, die Peking-Universität und Stanford starten gemeinsam ein multimodales RPG, um zur Lösung zweier großer Probleme von Wenshengtu beizutragen


Das obige ist der detaillierte Inhalt vonVincent Tus neues SOTA! Pika, die Peking-Universität und Stanford starten gemeinsam ein multimodales RPG, um zur Lösung zweier großer Probleme von Wenshengtu beizutragen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme
Dieser Artikel ist reproduziert unter:51CTO.COM. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen
Kochen innovation: Wie künstliche Intelligenz den Lebensmittelservice verändertKochen innovation: Wie künstliche Intelligenz den Lebensmittelservice verändertApr 12, 2025 pm 12:09 PM

KI verstärken die Zubereitung der Lebensmittel KI -Systeme werden während der Nahten immer noch in der Zubereitung von Nahrungsmitteln eingesetzt. KI-gesteuerte Roboter werden in Küchen verwendet, um Aufgaben zur Zubereitung von Lebensmitteln zu automatisieren, z.

Umfassende Anleitung zu Python -Namespaces und variablen ScopesUmfassende Anleitung zu Python -Namespaces und variablen ScopesApr 12, 2025 pm 12:00 PM

Einführung Das Verständnis der Namespaces, Scopes und des Verhaltens von Variablen in Python -Funktionen ist entscheidend, um effizient zu schreiben und Laufzeitfehler oder Ausnahmen zu vermeiden. In diesem Artikel werden wir uns mit verschiedenen ASP befassen

Ein umfassender Leitfaden zu Vision Language Models (VLMs)Ein umfassender Leitfaden zu Vision Language Models (VLMs)Apr 12, 2025 am 11:58 AM

Einführung Stellen Sie sich vor, Sie gehen durch eine Kunstgalerie, umgeben von lebhaften Gemälden und Skulpturen. Was wäre, wenn Sie jedem Stück eine Frage stellen und eine sinnvolle Antwort erhalten könnten? Sie könnten fragen: „Welche Geschichte erzählst du?

MediaTek steigert die Premium -Aufstellung mit Kompanio Ultra und Abmessung 9400MediaTek steigert die Premium -Aufstellung mit Kompanio Ultra und Abmessung 9400Apr 12, 2025 am 11:52 AM

In diesem Monat hat MediaTek in diesem Monat eine Reihe von Ankündigungen gemacht, darunter das neue Kompanio Ultra und die Abmessung 9400. Diese Produkte füllen die traditionelleren Teile von MediaTeks Geschäft aus, die Chips für Smartphone enthalten

Diese Woche in AI: Walmart setzt Modetrends vor, bevor sie jemals passierenDiese Woche in AI: Walmart setzt Modetrends vor, bevor sie jemals passierenApr 12, 2025 am 11:51 AM

#1 Google gestartet Agent2Agent Die Geschichte: Es ist Montagmorgen. Als mit KI betriebener Personalvermittler arbeiten Sie intelligenter, nicht härter. Sie melden sich im Dashboard Ihres Unternehmens auf Ihrem Telefon an. Es sagt Ihnen, dass drei kritische Rollen bezogen, überprüft und geplant wurden

Generative KI trifft PsychobabbleGenerative KI trifft PsychobabbleApr 12, 2025 am 11:50 AM

Ich würde vermuten, dass du es sein musst. Wir alle scheinen zu wissen, dass Psychobabble aus verschiedenen Geschwätzern besteht, die verschiedene psychologische Terminologie mischen und oft entweder unverständlich oder völlig unsinnig sind. Alles was Sie tun müssen, um fo zu spucken

Der Prototyp: Wissenschaftler verwandeln Papier in PlastikDer Prototyp: Wissenschaftler verwandeln Papier in PlastikApr 12, 2025 am 11:49 AM

Laut einer neuen Studie, die diese Woche veröffentlicht wurde, wurden im Jahr 2022 nur 9,5% der im Jahr 2022 hergestellten Kunststoffe aus recycelten Materialien hergestellt. In der Zwischenzeit häufen sich Plastik weiter in Deponien - und Ökosystemen - um die Welt. Aber Hilfe ist unterwegs. Ein Team von Engin

Der Aufstieg des KI -Analysten: Warum dies der wichtigste Job in der KI -Revolution sein könnteDer Aufstieg des KI -Analysten: Warum dies der wichtigste Job in der KI -Revolution sein könnteApr 12, 2025 am 11:41 AM

Mein jüngstes Gespräch mit Andy Macmillan, CEO der führenden Unternehmensanalyse -Plattform Alteryx, zeigte diese kritische, aber unterschätzte Rolle in der KI -Revolution. Wie Macmillan erklärt, die Lücke zwischen Rohgeschäftsdaten und KI-fertigen Informat

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Wie man alles in Myrise freischaltet
4 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

MinGW – Minimalistisches GNU für Windows

MinGW – Minimalistisches GNU für Windows

Dieses Projekt wird derzeit auf osdn.net/projects/mingw migriert. Sie können uns dort weiterhin folgen. MinGW: Eine native Windows-Portierung der GNU Compiler Collection (GCC), frei verteilbare Importbibliotheken und Header-Dateien zum Erstellen nativer Windows-Anwendungen, einschließlich Erweiterungen der MSVC-Laufzeit zur Unterstützung der C99-Funktionalität. Die gesamte MinGW-Software kann auf 64-Bit-Windows-Plattformen ausgeführt werden.

SublimeText3 Linux neue Version

SublimeText3 Linux neue Version

SublimeText3 Linux neueste Version

DVWA

DVWA

Damn Vulnerable Web App (DVWA) ist eine PHP/MySQL-Webanwendung, die sehr anfällig ist. Seine Hauptziele bestehen darin, Sicherheitsexperten dabei zu helfen, ihre Fähigkeiten und Tools in einem rechtlichen Umfeld zu testen, Webentwicklern dabei zu helfen, den Prozess der Sicherung von Webanwendungen besser zu verstehen, und Lehrern/Schülern dabei zu helfen, in einer Unterrichtsumgebung Webanwendungen zu lehren/lernen Sicherheit. Das Ziel von DVWA besteht darin, einige der häufigsten Web-Schwachstellen über eine einfache und unkomplizierte Benutzeroberfläche mit unterschiedlichen Schwierigkeitsgraden zu üben. Bitte beachten Sie, dass diese Software

Herunterladen der Mac-Version des Atom-Editors

Herunterladen der Mac-Version des Atom-Editors

Der beliebteste Open-Source-Editor

Sicherer Prüfungsbrowser

Sicherer Prüfungsbrowser

Safe Exam Browser ist eine sichere Browserumgebung für die sichere Teilnahme an Online-Prüfungen. Diese Software verwandelt jeden Computer in einen sicheren Arbeitsplatz. Es kontrolliert den Zugriff auf alle Dienstprogramme und verhindert, dass Schüler nicht autorisierte Ressourcen nutzen.