suchen
HeimTechnologie-PeripheriegeräteKIDie Authentizität ist schockierend! Google und die Cornell University führen die RealFill-Technologie zur Bildvervollständigung im echten Leben ein

Ein gut aussehendes Foto zu bekommen wird immer einfacher.

Bei Reisen im Urlaub ist das Fotografieren ein Muss. Allerdings sind die meisten Fotos, die an malerischen Orten aufgenommen wurden, mehr oder weniger bedauerlich. Entweder ist etwas im Hintergrund, oder es fehlt etwas.

Ein „perfektes“ Bild zu erhalten, ist eines der Ziele, die CV-Forscher seit langem anstreben. Kürzlich haben Forscher von Google Research und der Cornell University gemeinsam eine „Authentic Image Completion“-Technologie vorgeschlagen – RealFill, ein generatives Modell für die Bildvervollständigung.

Der Vorteil des RealFill-Modells besteht darin, dass es mit einer kleinen Anzahl von Szenenreferenzbildern personalisiert werden kann, die nicht auf das Zielbild ausgerichtet werden müssen und sogar hinsichtlich Blickwinkel, Lichtverhältnissen, Kamerablende usw. stark variieren können Bildstil. Sobald die Personalisierung abgeschlossen ist, kann RealFill das Zielbild mit visuell ansprechenden Inhalten ergänzen, die der Originalszene entsprechen.

Die Authentizität ist schockierend! Google und die Cornell University führen die RealFill-Technologie zur Bildvervollständigung im echten Leben ein

  • Bitte klicken Sie auf den folgenden Link, um das Papier anzuzeigen: https://arxiv.org/abs/2309.16668

  • Link zur Projektseite: https://realfill.github.io/

Bei den Inpainting- und Outpainting-Modellen handelt es sich um Technologien, die qualitativ hochwertige und sinnvolle Bildinhalte in unbekannten Bildbereichen erzeugen können. Der von diesen Modellen generierte Inhalt muss jedoch unrealistisch sein, da diese Modelle in der realen Welt nicht realistisch sind sind Mängel in der Kontextinformation der Szene. Im Gegensatz dazu generiert RealFill Inhalte, die vorhanden sein „sollten“, wodurch die Ergebnisse der Bildvervollständigung realistischer werden.

Die Autoren wiesen in dem Artikel darauf hin, dass sie ein neues Bildvervollständigungsproblem definiert haben – „Authentic Image Completion“. Im Gegensatz zur herkömmlichen generativen Bildwiederherstellung (der Inhalt, der den fehlenden Bereich ersetzt, stimmt möglicherweise nicht mit der Originalszene überein) besteht das Ziel der echten Bildvervollständigung darin, den fertigen Inhalt so originalgetreu wie möglich an die Originalszene anzupassen und dabei Inhalte zu verwenden, die „erscheinen sollen“. Dort". Vervollständigen Sie das Zielbild mit Inhalten, die „da draußen sein könnten".

Der Autor gab an, dass RealFill die erste Methode ist, die Ausdruckskraft generativer Bildreparaturmodelle durch das Hinzufügen weiterer Bedingungen (z. B. Hinzufügen von Referenzbildern) zum Prozess zu erweitern.

RealFill übertrifft bestehende Methoden deutlich bei einem neuen Bildvervollständigungs-Benchmark, der eine Reihe vielfältiger und herausfordernder Szenarien abdeckt. Das Ziel der

Methode

RealFill besteht darin, eine kleine Anzahl von Referenzbildern zu verwenden, um die fehlenden Teile eines bestimmten Zielbilds zu vervollständigen und gleichzeitig die Authentizität so weit wie möglich beizubehalten. Konkret erhalten Sie bis zu 5 Referenzbilder und ein Zielbild, das ungefähr dieselbe Szene einfängt (aber möglicherweise ein anderes Layout oder Erscheinungsbild aufweist).

Für eine bestimmte Szene erstellen die Forscher zunächst ein personalisiertes generatives Modell, indem sie ein vorab trainiertes Inpainting-Diffusionsmodell anhand von Referenz- und Zielbildern verfeinern. Dieser Feinabstimmungsprozess ist so konzipiert, dass das feinabgestimmte Modell nicht nur gute Bildprioritäten beibehält, sondern auch den Szeneninhalt, die Beleuchtung und den Stil im Eingabebild lernt. Dieses fein abgestimmte Modell wird dann verwendet, um fehlende Bereiche im Zielbild durch einen Standard-Diffusions-Sampling-Prozess zu füllen. Die Authentizität ist schockierend! Google und die Cornell University führen die RealFill-Technologie zur Bildvervollständigung im echten Leben ein

Es ist erwähnenswert, dass dieses Modell aus praktischen Gründen besonderes Augenmerk auf den anspruchsvolleren und uneingeschränkteren Fall legt, d. h. das Zielbild und das Referenzbild können sehr unterschiedliche Standpunkte und Umgebungen haben Bedingungen, Kamerablende, Bildstil und sogar sich bewegende Objekte.

Experimentelle Ergebnisse

Laut Referenzbild auf der linken Seite kann RealFill das Zielbild auf der rechten Seite erweitern (zuschneiden) oder reparieren (einmalen). Sie müssen aber auch mit dem Referenzbild übereinstimmen, selbst wenn große Unterschiede zwischen dem Referenzbild und dem Zielbild hinsichtlich Blickwinkel, Blende, Beleuchtung, Bildstil und Objektbewegung bestehen.

Die Authentizität ist schockierend! Google und die Cornell University führen die RealFill-Technologie zur Bildvervollständigung im echten Leben einDie Authentizität ist schockierend! Google und die Cornell University führen die RealFill-Technologie zur Bildvervollständigung im echten Leben ein

Die Authentizität ist schockierend! Google und die Cornell University führen die RealFill-Technologie zur Bildvervollständigung im echten Leben ein

Die Authentizität ist schockierend! Google und die Cornell University führen die RealFill-Technologie zur Bildvervollständigung im echten Leben einRealFill-Modellausgabeeffekt. Bei einem Referenzbild auf der linken Seite kann RealFill das entsprechende Zielbild auf der rechten Seite erweitern. Die Bereiche innerhalb der White Box werden dem Netzwerk als bekannte Pixel zur Verfügung gestellt, während die Bereiche außerhalb der White Box generiert werden. Die Ergebnisse zeigen, dass RealFill qualitativ hochwertige Bilder erzeugen kann, die dem Referenzbild treu bleiben, selbst wenn große Unterschiede zwischen dem Referenzbild und dem Zielbild bestehen, einschließlich Blickwinkel, Blende, Beleuchtung, Bildstil und Objektbewegung. Quelle: Papier

Kontrollierte Experimente

Die Forscher verglichen das RealFill-Modell mit anderen Basismethoden. Im Vergleich dazu liefert RealFill qualitativ hochwertige Ergebnisse und schneidet hinsichtlich der Szenentreue und Konsistenz mit Referenzbildern besser ab.

Paint-by-Example kann kein hohes Maß an Szenentreue erreichen, da es auf der CLIP-Einbettung basiert, die nur semantische Informationen auf hoher Ebene erfassen kann.

Stable Diffusion Inpainting kann scheinbar vernünftige Ergebnisse liefern, aber aufgrund der begrenzten Ausdruckskraft von Prompt stimmen die endgültigen Ergebnisse nicht mit dem Referenzbild überein.

Die Authentizität ist schockierend! Google und die Cornell University führen die RealFill-Technologie zur Bildvervollständigung im echten Leben ein

Vergleich von RealFill mit anderen beiden Basismethoden. Der von einer transparenten weißen Maske abgedeckte Bereich ist der unveränderte Teil des Zielbilds. Quelle: realfill.github.io Die Fähigkeit des Models, mit herausfordernden Situationen umzugehen. Konkret:

RealFill erfordert einen verlaufsbasierten Feinabstimmungsprozess für das Eingabebild, was die Ausführung relativ langsam macht.
Wenn der Blickwinkelwechsel zwischen dem Referenzbild und dem Zielbild sehr groß ist, ist RealFill oft nicht in der Lage, die 3D-Szene wiederherzustellen, insbesondere wenn nur ein Referenzbild vorhanden ist.

Da RealFill hauptsächlich auf Bild-Prioritäten basiert, die vom vorab trainierten Basismodell geerbt wurden, kann es keine Situationen bewältigen, die für das Basismodell eine Herausforderung darstellen, wie z. B. stabile Diffusionsmodelle, die Text nicht gut verarbeiten können.

Abschließend danken die Autoren ihren Mitarbeitern:
Wir möchten Rundi Wu, Qianqian Wang, Viraj Shah, Ethan Weber, Zhengqi Li, Kyle Genova, Boyang Deng, Maya Goldenberg, Noah Snavely danken. Ben Poole, Ben Mildenhall, Alex Rav-Acha, Pratul Srinivasan, Dor Verbin und Jon Barron für wertvolle Diskussionen und Feedback. Wir danken außerdem Zeya Peng, Rundi Wu und Shan Nan für ihre Beiträge zum Bewertungsdatensatz. Besonders dankbar sind wir Jason Baldridge, Kihyuk Sohn, Kathy Meier-Hellstern und Nicole Brichtova für ihr Feedback und ihre Unterstützung zum Projekt.
Bitte lesen Sie das Originalpapier und besuchen Sie die Projekthomepage für weitere Informationen

Das obige ist der detaillierte Inhalt vonDie Authentizität ist schockierend! Google und die Cornell University führen die RealFill-Technologie zur Bildvervollständigung im echten Leben ein. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme
Dieser Artikel ist reproduziert unter:机器之心. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen
Lesen des AI-Index 2025: Ist AI Ihr Freund, Feind oder Co-Pilot?Lesen des AI-Index 2025: Ist AI Ihr Freund, Feind oder Co-Pilot?Apr 11, 2025 pm 12:13 PM

Der Bericht des Stanford University Institute for Human-orientierte künstliche Intelligenz bietet einen guten Überblick über die laufende Revolution der künstlichen Intelligenz. Interpretieren wir es in vier einfachen Konzepten: Erkenntnis (verstehen, was geschieht), Wertschätzung (Sehenswürdigkeiten), Akzeptanz (Gesichtsherausforderungen) und Verantwortung (finden Sie unsere Verantwortlichkeiten). Kognition: Künstliche Intelligenz ist überall und entwickelt sich schnell Wir müssen uns sehr bewusst sein, wie schnell künstliche Intelligenz entwickelt und ausbreitet. Künstliche Intelligenzsysteme verbessern sich ständig und erzielen hervorragende Ergebnisse bei mathematischen und komplexen Denktests, und erst vor einem Jahr haben sie in diesen Tests kläglich gescheitert. Stellen Sie sich vor, KI zu lösen komplexe Codierungsprobleme oder wissenschaftliche Probleme auf Graduiertenebene-seit 2023-

Erste Schritte mit Meta Lama 3.2 - Analytics VidhyaErste Schritte mit Meta Lama 3.2 - Analytics VidhyaApr 11, 2025 pm 12:04 PM

Metas Lama 3.2: Ein Sprung nach vorne in der multimodalen und mobilen KI Meta hat kürzlich Lama 3.2 vorgestellt, ein bedeutender Fortschritt in der KI mit leistungsstarken Sichtfunktionen und leichten Textmodellen, die für mobile Geräte optimiert sind. Aufbau auf dem Erfolg o

AV -Bytes: META ' S Lama 3.2, Googles Gemini 1.5 und mehrAV -Bytes: META ' S Lama 3.2, Googles Gemini 1.5 und mehrApr 11, 2025 pm 12:01 PM

Die KI -Landschaft dieser Woche: Ein Wirbelsturm von Fortschritten, ethischen Überlegungen und regulatorischen Debatten. Hauptakteure wie OpenAI, Google, Meta und Microsoft haben einen Strom von Updates veröffentlicht, von bahnbrechenden neuen Modellen bis hin zu entscheidenden Verschiebungen in LE

Die menschlichen Kosten für das Gespräch mit Maschinen: Kann sich ein Chatbot wirklich darum kümmern?Die menschlichen Kosten für das Gespräch mit Maschinen: Kann sich ein Chatbot wirklich darum kümmern?Apr 11, 2025 pm 12:00 PM

Die beruhigende Illusion der Verbindung: Blühen wir in unseren Beziehungen zur KI wirklich auf? Diese Frage stellte den optimistischen Ton des "Fortschritts -Menschen mit AI) des MIT Media Lab in Frage. Während die Veranstaltung moderne EDG präsentierte

Verständnis der Scipy Library in PythonVerständnis der Scipy Library in PythonApr 11, 2025 am 11:57 AM

Einführung Stellen Sie sich vor, Sie sind ein Wissenschaftler oder Ingenieur, der sich mit komplexen Problemen befasst - Differentialgleichungen, Optimierungsherausforderungen oder Fourier -Analysen. Pythons Benutzerfreundlichkeit und Grafikfunktionen sind ansprechend, aber diese Aufgaben erfordern leistungsstarke Tools

3 Methoden zum Ausführen von LLAMA 3.2 - Analytics Vidhya3 Methoden zum Ausführen von LLAMA 3.2 - Analytics VidhyaApr 11, 2025 am 11:56 AM

METAs Lama 3.2: Ein multimodales KI -Kraftpaket Das neueste multimodale Modell von META, Lama 3.2, stellt einen erheblichen Fortschritt in der KI dar, das ein verbessertes Sprachverständnis, eine verbesserte Genauigkeit und die überlegenen Funktionen der Textgenerierung bietet. Seine Fähigkeit t

Automatisierung von Datenqualitätsprüfungen mit DagsterAutomatisierung von Datenqualitätsprüfungen mit DagsterApr 11, 2025 am 11:44 AM

Datenqualitätssicherung: Automatisieren von Schecks mit Dagster und großen Erwartungen Die Aufrechterhaltung einer hohen Datenqualität ist für datengesteuerte Unternehmen von entscheidender Bedeutung. Wenn Datenvolumina und Quellen zunehmen, wird die manuelle Qualitätskontrolle ineffizient und anfällig für Fehler.

Haben Mainframes eine Rolle in der KI -Ära?Haben Mainframes eine Rolle in der KI -Ära?Apr 11, 2025 am 11:42 AM

Mainframes: Die unbesungenen Helden der KI -Revolution Während die Server bei allgemeinen Anwendungen und mehreren Kunden übernommen werden, werden Mainframes für hochvolumige, missionskritische Aufgaben erstellt. Diese leistungsstarken Systeme sind häufig in Heavil gefunden

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Wie man alles in Myrise freischaltet
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

EditPlus chinesische Crack-Version

EditPlus chinesische Crack-Version

Geringe Größe, Syntaxhervorhebung, unterstützt keine Code-Eingabeaufforderungsfunktion

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SecLists

SecLists

SecLists ist der ultimative Begleiter für Sicherheitstester. Dabei handelt es sich um eine Sammlung verschiedener Arten von Listen, die häufig bei Sicherheitsbewertungen verwendet werden, an einem Ort. SecLists trägt dazu bei, Sicherheitstests effizienter und produktiver zu gestalten, indem es bequem alle Listen bereitstellt, die ein Sicherheitstester benötigen könnte. Zu den Listentypen gehören Benutzernamen, Passwörter, URLs, Fuzzing-Payloads, Muster für vertrauliche Daten, Web-Shells und mehr. Der Tester kann dieses Repository einfach auf einen neuen Testcomputer übertragen und hat dann Zugriff auf alle Arten von Listen, die er benötigt.

MinGW – Minimalistisches GNU für Windows

MinGW – Minimalistisches GNU für Windows

Dieses Projekt wird derzeit auf osdn.net/projects/mingw migriert. Sie können uns dort weiterhin folgen. MinGW: Eine native Windows-Portierung der GNU Compiler Collection (GCC), frei verteilbare Importbibliotheken und Header-Dateien zum Erstellen nativer Windows-Anwendungen, einschließlich Erweiterungen der MSVC-Laufzeit zur Unterstützung der C99-Funktionalität. Die gesamte MinGW-Software kann auf 64-Bit-Windows-Plattformen ausgeführt werden.

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

Leistungsstarke integrierte PHP-Entwicklungsumgebung