Vincent Tus neues SOTA! Pika, die Peking-Universität und Stanford starten gemeinsam ein multimodales RPG, um zur Lösung zweier großer Probleme von Wenshengtu beizutragen-KI-php.cn

Vincent Tus neues SOTA! Pika, die Peking-Universität und Stanford starten gemeinsam ein multimodales RPG, um zur Lösung zweier großer Probleme von Wenshengtu beizutragen

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Feb 19, 2024 am 09:06 AM

模型开源

Kürzlich haben die Peking-Universität in Stanford und die beliebten Pika Labs gemeinsam eine Studie veröffentlicht, die die Fähigkeiten vinzentinischer Diagramme mit großem Modell auf ein neues Niveau gehoben hat.

Vincent Tus neues SOTA! Pika, die Peking-Universität und Stanford starten gemeinsam ein multimodales RPG, um zur Lösung zweier großer Probleme von Wenshengtu beizutragen

Papieradresse: https://arxiv.org/pdf/2401.11708.pdf

Codeadresse: https://github.com/YangLing0818/RPG-DiffusionMaster

Vorgeschlagen von der Autor des Papiers Es wird ein innovativer Ansatz verfolgt, um das Text-zu-Bild-Generierungs-/Bearbeitungs-Framework zu verbessern, indem die Inferenzfähigkeiten multimodaler großer Sprachmodelle (MLLM) genutzt werden.

Mit anderen Worten zielt diese Methode darauf ab, die Leistung von Textgenerierungsmodellen bei der Verarbeitung komplexer Textaufforderungen mit mehreren Attributen, Beziehungen und Objekten zu verbessern.

Ohne weitere Umschweife, hier ist das Bild:

Vincent Tus neues SOTA! Pika, die Peking-Universität und Stanford starten gemeinsam ein multimodales RPG, um zur Lösung zweier großer Probleme von Wenshengtu beizutragen

Ein grünes Zwillingsschwanzmädchen in orangefarbenem Kleid sitzt auf dem Sofa, während links unter einem großen Fenster ein unordentlicher Schreibtisch steht, auf dem sich ein lebhaftes Aquarium befindet Oben rechts auf dem Sofa, realistischer Stil.

Ein Mädchen mit zwei Schwänzen in einem orangefarbenen Kleid sitzt auf dem Sofa. Oben rechts befindet sich ein unordentliches Aquarium ist realistischer Stilismus.

Angesichts mehrerer Objekte mit komplexen Beziehungen sind die Struktur des gesamten Bildes und die vom Modell vorgegebene Beziehung zwischen Personen und Objekten sehr vernünftig und lassen die Augen des Betrachters leuchten.

Für die gleiche Aufforderung werfen wir einen Blick auf die Leistung des aktuellen hochmodernen SDXL und DALL·E 3:

Vincent Tus neues SOTA! Pika, die Peking-Universität und Stanford starten gemeinsam ein multimodales RPG, um zur Lösung zweier großer Probleme von Wenshengtu beizutragen

Werfen wir einen Blick auf das neue Framework, wenn es verfügbar ist geht es darum, mehrere Attribute mit mehreren Objekten zu verbinden. Von links nach rechts: ein blondes europäisches Mädchen mit Pferdeschwanz in einem weißen Hemd, ein afrikanisches Mädchen mit braunen Locken in einem blauen Hemd, das mit einem Vogel bedruckt ist, und ein asiatischer Junge Männer mit schwarzen kurzen Haaren im Anzug gehen glücklich über den Campus.

Vincent Tus neues SOTA! Pika, die Peking-Universität und Stanford starten gemeinsam ein multimodales RPG, um zur Lösung zweier großer Probleme von Wenshengtu beizutragen Von links nach rechts ein europäisches Mädchen in einem weißen Hemd mit blondem Pferdeschwanz, ein afrikanisches Mädchen mit braunen Locken, das ein blaues Hemd mit einem Vogelaufdruck trägt Darauf und ein Mädchen im Anzug spaziert ein junger asiatischer Mann mit kurzen schwarzen Haaren glücklich über den Campus.

Die Forscher nannten dieses Framework RPG (Recaption, Plan and Generate) und verwendeten MLLM als globalen Planer, um den komplexen Bildgenerierungsprozess in mehrere einfachere Generierungsaufgaben innerhalb von Unterregionen zu zerlegen.

Das Papier schlägt eine komplementäre Regionsdiffusion vor, um die Generierung von Regionskombinationen zu erreichen, und integriert außerdem die textgesteuerte Bildgenerierung und -bearbeitung in einem geschlossenen Regelkreis in das RPG-Framework, wodurch die Generalisierungsfähigkeiten verbessert werden.

Experimente zeigen, dass das in diesem Artikel vorgeschlagene RPG-Framework die aktuellen hochmodernen Textbilddiffusionsmodelle, einschließlich DALL·E 3 und SDXL, übertrifft, insbesondere bei der Objektsynthese mehrerer Kategorien und der semantischen Ausrichtung von Textbildern. Vincent Tus neues SOTA! Pika, die Peking-Universität und Stanford starten gemeinsam ein multimodales RPG, um zur Lösung zweier großer Probleme von Wenshengtu beizutragen

Es ist erwähnenswert, dass das RPG-Framework weitgehend mit verschiedenen MLLM-Architekturen (wie MiniGPT-4) und Diffusions-Backbone-Netzwerken (wie ControlNet) kompatibel ist.

RPG

Das aktuelle Vincentian-Graphmodell weist zwei Hauptprobleme auf: 1. Layoutbasierte oder aufmerksamkeitsbasierte Methoden können nur eine grobe räumliche Orientierung bieten und haben Schwierigkeiten, mit überlappenden Objekten umzugehen. 2. Feedbackbasierte Methoden erfordern Collect hochwertige Feedbackdaten und verursachen zusätzliche Schulungskosten.

Um diese Probleme zu lösen, schlugen Forscher drei Kernstrategien von RPG vor, wie in der folgenden Abbildung dargestellt:

Anhand einer komplexen Textaufforderung mit mehreren Entitäten und Beziehungen wird zunächst MLLM verwendet, um es zu zerlegen grundlegende Hinweise und hochbeschreibende Unterhinweise; anschließend wird der Bildraum mithilfe der CoT-Planung des multimodalen Modells in komplementäre Regionen unterteilt, um das Bild jeder Unterregion unabhängig zu erzeugen; Die Aggregation wird bei jedem Stichprobenschritt durchgeführt.

Multimodale Neuabstimmung

wandelt Texthinweise in hochbeschreibende Hinweise um und sorgt so für ein informationsverbessertes Hinweisverständnis und eine semantische Ausrichtung in Diffusionsmodellen.

Verwenden Sie MLLM, um Schlüsselphrasen in der Benutzeraufforderung y zu identifizieren und die darin enthaltenen Unterelemente abzurufen:

Vincent Tus neues SOTA! Pika, die Peking-Universität und Stanford starten gemeinsam ein multimodales RPG, um zur Lösung zweier großer Probleme von Wenshengtu beizutragen

Verwenden Sie LLM, um die Textaufforderung in verschiedene Unteraufforderungen zu zerlegen und diese detaillierter neu zu beschreiben :

Vincent Tus neues SOTA! Pika, die Peking-Universität und Stanford starten gemeinsam ein multimodales RPG, um zur Lösung zweier großer Probleme von Wenshengtu beizutragen

Auf diese Weise können für jeden Unterhinweis dichtere, feinkörnigere Details generiert werden, um die Wiedergabetreue der generierten Bilder effektiv zu verbessern und die semantischen Unterschiede zwischen Hinweisen und Bildern zu verringern.

Thought Chain Planning

unterteilt den Bildraum in komplementäre Unterregionen und weist jeder Unterregion unterschiedliche Unterhinweise zu, während die Generierungsaufgabe in mehrere einfachere Unteraufgaben unterteilt wird.

Konkret ist der Bildraum H×B in mehrere komplementäre Bereiche unterteilt, und jede Enhancer-Eingabeaufforderung ist einem bestimmten Bereich R zugeordnet:

Vincent Tus neues SOTA! Pika, die Peking-Universität und Stanford starten gemeinsam ein multimodales RPG, um zur Lösung zweier großer Probleme von Wenshengtu beizutragen

Verwenden Sie die leistungsstarke Denkketten-Argumentationsfähigkeit von MLLM und führen Sie aus effektive Zonierung. Durch die Analyse der abgerufenen Zwischenergebnisse können detaillierte Prinzipien und präzise Anweisungen für die anschließende Bildsynthese generiert werden.

Supplementary Area Diffusion

In jedem rechteckigen Unterbereich werden von Unterhinweisen geleitete Inhalte unabhängig generiert und dann in der Größe geändert und so verbunden, dass diese Unterbereiche räumlich zusammengeführt werden.

Vincent Tus neues SOTA! Pika, die Peking-Universität und Stanford starten gemeinsam ein multimodales RPG, um zur Lösung zweier großer Probleme von Wenshengtu beizutragen

Diese Methode löst effektiv das Problem großer Modelle, die Schwierigkeiten mit der Handhabung überlappender Objekte haben. Darüber hinaus erweitert das Papier dieses Framework, um es an Bearbeitungsaufgaben anzupassen, indem es eine konturbasierte Regionsdiffusion verwendet, um inkonsistente Regionen, die geändert werden müssen, präzise zu bearbeiten.

Textgeführte Bildbearbeitung

Vincent Tus neues SOTA! Pika, die Peking-Universität und Stanford starten gemeinsam ein multimodales RPG, um zur Lösung zweier großer Probleme von Wenshengtu beizutragen

wie im Bild oben gezeigt. In der Nacherzählphase verwendet RPG MLLM als Untertitel, um das Quellbild nachzuerzählen, und nutzt seine leistungsstarken Argumentationsfunktionen, um feinkörnige semantische Unterschiede zwischen dem Bild und dem Zielhinweis zu identifizieren und direkt zu analysieren, wie das Eingabebild mit dem Zielhinweis übereinstimmt.

Verwenden Sie MLLM (GPT-4, Gemini Pro usw.), um Unterschiede zwischen Eingabe und Ziel hinsichtlich numerischer Genauigkeit, Eigenschaftsbindungen und Objektbeziehungen zu überprüfen. Das resultierende multimodale Verständnis-Feedback wird zur inferenziellen Bearbeitungsplanung an das MLLM übermittelt.

Werfen wir einen Blick auf die Leistung des Generierungseffekts in den oben genannten drei Aspekten. Der erste ist die Attributbindung und vergleicht SDXL, DALL·E 3 und LMD+:

Vincent Tus neues SOTA! Pika, die Peking-Universität und Stanford starten gemeinsam ein multimodales RPG, um zur Lösung zweier großer Probleme von Wenshengtu beizutragen

Das können wir insgesamt sehen Drei Tests Von den Spielen spiegelt nur RPG am genauesten wider, was die Eingabeaufforderungen beschreiben.

Dann ist da noch die numerische Genauigkeit, die Anzeigereihenfolge ist die gleiche wie oben (SDXL, DALL·E 3, LMD+, RPG):

Vincent Tus neues SOTA! Pika, die Peking-Universität und Stanford starten gemeinsam ein multimodales RPG, um zur Lösung zweier großer Probleme von Wenshengtu beizutragen

-Ich habe nicht erwartet, dass das Zählen ziemlich schwierig ist für das große Vincent-Figurenmodell Ja, RPG besiegt den Gegner leicht.

Der letzte Punkt besteht darin, komplexe Beziehungen in der Eingabeaufforderung wiederherzustellen:

Vincent Tus neues SOTA! Pika, die Peking-Universität und Stanford starten gemeinsam ein multimodales RPG, um zur Lösung zweier großer Probleme von Wenshengtu beizutragen

Darüber hinaus kann die Zonenverteilung auf ein hierarchisches Format erweitert werden, das bestimmte Unterregionen in kleinere Unterregionen unterteilt.

Wie in der Abbildung unten gezeigt, kann RPG erhebliche Verbesserungen bei der Text-zu-Bild-Generierung erzielen, wenn eine Hierarchie der Regionssegmentierung hinzugefügt wird. Dies bietet eine neue Perspektive für die Bewältigung komplexer Generierungsaufgaben und ermöglicht die Generierung von Bildern beliebiger Zusammensetzung.

Vincent Tus neues SOTA! Pika, die Peking-Universität und Stanford starten gemeinsam ein multimodales RPG, um zur Lösung zweier großer Probleme von Wenshengtu beizutragen

Das obige ist der detaillierte Inhalt vonVincent Tus neues SOTA! Pika, die Peking-Universität und Stanford starten gemeinsam ein multimodales RPG, um zur Lösung zweier großer Probleme von Wenshengtu beizutragen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme

Dieser Artikel ist reproduziert unter:51CTO.COM. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen

Verwandter Artikel

Die KI -Kompetenzlücke verlangsamt die VersorgungskettenApr 26, 2025 am 11:13 AM

Der Begriff "AI-fähige Belegschaft" wird häufig verwendet, aber was bedeutet das in der Lieferkettenindustrie wirklich? Nach Abe Eshkenazi, CEO des Association for Supply Chain Management (ASCM), bedeutet dies Fachkräfte, die kritisch sind

Wie ein Unternehmen leise daran arbeitet, die KI für immer zu verwandelnApr 26, 2025 am 11:12 AM

Die dezentrale KI -Revolution gewinnt leise an Dynamik. An diesem Freitag in Austin, Texas, markiert der Bittensor Endgame Summit einen entscheidenden Moment, in dem die dezentrale KI (DEAI) von Theorie zu praktischer Anwendung übergeht. Im Gegensatz zum glitzernden Werbespot

Nvidia veröffentlicht Nemo Microservices, um die Entwicklung der AI -Agenten zu optimierenApr 26, 2025 am 11:11 AM

Enterprise KI steht vor der Datenintegrationsprobleme Die Anwendung von Enterprise KI steht vor einer großen Herausforderung: Aufbau von Systemen, die die Genauigkeit und Praktikabilität durch kontinuierlich lernende Geschäftsdaten aufrechterhalten können. NEMO Microservices lösen dieses Problem, indem er das erstellt, was NVIDIA als "Datenschwungrad" beschreibt und KI -Systemen durch kontinuierliche Exposition gegenüber Unternehmensinformationen und Benutzerinteraktion relevant bleibt. Dieses neu gestartete Toolkit enthält fünf wichtige Microservices: Nemo Customizer behandelt die Feinabstimmung großer Sprachmodelle mit höherem Trainingsdurchsatz. NEMO Evaluator bietet eine vereinfachte Bewertung von KI -Modellen für benutzerdefinierte Benchmarks. NEMO -Leitplanken implementiert Sicherheitskontrollen, um die Einhaltung und Angemessenheit aufrechtzuerhalten

KI malt ein neues Bild für die Zukunft von Kunst und DesignApr 26, 2025 am 11:10 AM

AI: Die Zukunft von Kunst und Design Künstliche Intelligenz (KI) verändert das Kunst- und Designgebiet auf beispiellose Weise, und seine Auswirkungen beschränken sich nicht mehr auf Amateure, sondern beeinflussen jedoch die Fachkräfte. Kunstwerke und Designschemata, die von KI erzeugt wurden, ersetzen traditionelle materielle Bilder und Designer in vielen Transaktionsdesignaktivitäten wie Werbung, Social -Media -Bildgenerierung und Webdesign schnell. Professionelle Künstler und Designer finden jedoch auch den praktischen Wert von KI. Sie verwenden AI als Hilfsmittel, um neue ästhetische Möglichkeiten zu erforschen, verschiedene Stile zu mischen und neuartige visuelle Effekte zu erzeugen. KI hilft Künstlern und Designer, sich wiederholende Aufgaben zu automatisieren, verschiedene Designelemente vorzuschlagen und kreative Eingaben zu leisten. AI unterstützt den Stiltransfer, der einen Bildstil anwenden soll

Wie Zoom die Arbeit mit Agentic AI: Von Meetings bis Meilensteinen revolutioniertApr 26, 2025 am 11:09 AM

Zoom, ursprünglich für seine Video -Konferenz -Plattform bekannt, führt eine Revolution am Arbeitsplatz mit der innovativen Nutzung der Agenten -KI. Ein aktuelles Gespräch mit Zooms CTO, XD Huang, enthüllte die ehrgeizige Vision des Unternehmens. Definieren von Agenten AI Huang d

Die existenzielle Bedrohung für UniversitätenApr 26, 2025 am 11:08 AM

Wird AI die Bildung revolutionieren? Diese Frage führt zu ernsthafter Reflexion unter Pädagogen und Stakeholdern. Die Integration von KI in Bildung bietet sowohl Chancen als auch Herausforderungen. Wie Matthew Lynch von The Tech Edvocate bemerkt, Universität

Der Prototyp: Amerikanische Wissenschaftler suchen nach Jobs im AuslandApr 26, 2025 am 11:07 AM

Die Entwicklung wissenschaftlicher Forschung und Technologie in den Vereinigten Staaten kann vor Herausforderungen stehen, möglicherweise aufgrund von Budgetkürzungen. Nach der Natur stieg die Zahl der amerikanischen Wissenschaftler, die sich für Arbeitsplätze in Übersee bewerben, von Januar bis März 2025 im Vergleich zum gleichen Zeitraum von 2024 um 32%. Eine frühere Umfrage ergab, dass 75% der untersuchten Forscher über die Suche nach Arbeitsplätzen in Europa und Kanada in Betracht gezogen wurden. In den letzten Monaten wurden Hunderte von NIH- und NSF-Zuschüssen beendet, wobei die neuen Zuschüsse von NIH in diesem Jahr um etwa 2,3 Milliarden US-Dollar gesunken sind, ein Rückgang von fast einem Drittel. Der durchgesickerte Haushaltsvorschlag zeigt, dass die Trump -Administration mit einer möglichen Reduzierung von um bis zu 50%ein starkes Budget für wissenschaftliche Institutionen in Betracht zieht. Die Turbulenzen auf dem Gebiet der Grundlagenforschung haben sich auch auf einen der Hauptvorteile der Vereinigten Staaten ausgewirkt: die Gewinnung von Talenten in Übersee. 35

Alles über Open AIs neueste GPT 4.1 -Familie - Analytics VidhyaApr 26, 2025 am 10:19 AM

OpenAI enthüllt die leistungsstarke GPT-4.1-Serie: eine Familie von drei fortschrittlichen Sprachmodellen für reale Anwendungen. Dieser signifikante Sprung nach vorne bietet schnellere Reaktionszeiten, verbessertes Verständnis und drastisch reduzierte Kosten im Vergleich t t

See all articles