Heim >Technologie-Peripheriegeräte >KI >ACM MM 2023 |. DiffBFR: Von Meitu und der Chinesischen Universität für Wissenschaft und Technologie gemeinsam vorgeschlagene Methode zur Wiederherstellung von Flächen zur Geräuschunterdrückung

ACM MM 2023 |. DiffBFR: Von Meitu und der Chinesischen Universität für Wissenschaft und Technologie gemeinsam vorgeschlagene Methode zur Wiederherstellung von Flächen zur Geräuschunterdrückung

WBOY
WBOYnach vorne
2023-09-03 08:05:10986Durchsuche

Das Ziel der Blind Face Restoration (BFR) ist die Wiederherstellung qualitativ hochwertiger Gesichtsbilder aus minderwertigen Gesichtsbildern. Dies ist eine wichtige Aufgabe im Bereich Computer Vision und Grafik und wird häufig in verschiedenen Szenarien wie der Wiederherstellung von Überwachungsbildern, der Wiederherstellung alter Fotos und der Superauflösung von Gesichtsbildern eingesetzt. Diese Aufgabe ist jedoch sehr anspruchsvoll, da sie nicht deterministisch ist Eine Verschlechterung beeinträchtigt die Bildqualität und führt sogar zum Verlust von Bildinformationen wie Unschärfe, Rauschen, Downsampling und Komprimierungsartefakten. Frühere BFR-Methoden stützen sich in der Regel auf generative kontradiktorische Netzwerke (GAN), um diese Probleme durch den Entwurf verschiedener gesichtsspezifischer Priors zu lösen, darunter generative Priors, Referenz-Priors und geometrische Priors. Obwohl diese Methoden den neuesten Stand der Technik erreicht haben, können sie das Ziel, realistische Texturen zu erhalten und gleichzeitig Details wiederherzustellen, immer noch nicht vollständig erreichen.

Beim Bildwiederherstellungsprozess sind die Datensätze von Gesichtsbildern normalerweise im hochdimensionalen Raum verstreut und verteilt Die Merkmalsdimensionen weisen eine Long-Tail-Verteilung auf. Anders als bei der Long-Tail-Verteilung bei Bildklassifizierungsaufgaben beziehen sich die Long-Tail-Regionalmerkmale bei der Bildwiederherstellung auf Attribute, die einen geringen Einfluss auf die Identität, aber einen großen Einfluss auf visuelle Effekte haben, wie z. B. Muttermale, Falten und Töne usw.

Gemäß Abbildung 1 Die gezeigte Einfachheit besteht darin, dass die experimentellen Ergebnisse ins Chinesische umgeschrieben werden müssen, um die ursprüngliche Bedeutung nicht zu ändern. Wir können feststellen, dass die bisherigen GAN-basierten Methoden offensichtliche Probleme bei der Verarbeitung von Kopf- und Schwanzproben haben Gleichzeitig kommt es beim Reparieren des Bildes zu Überschwingern und zu Detailverlusten. Die auf Diffusion Probistic Models (DPM) basierende Methode kann die Long-Tail-Verteilung besser anpassen und die Tail-Eigenschaften beibehalten, während sie gleichzeitig an die reale Datenverteilung angepasst wird

ACM MM 2023 | DiffBFR: 美图&国科大联合提出的噪音抑制人脸修复方法

Der Inhalt, der neu geschrieben werden muss, ist: GAN-basiert und DPM- Basierend auf Tests auf Long-Tail-Problemen

Das Meitu Imaging Research Institute (MT Lab) hat mit Forschern der Universität der Chinesischen Akademie der Wissenschaften zusammengearbeitet, um eine neue Methode zur Reparatur blinder Gesichtsbilder, DiffBFR, vorzuschlagen. Diese Methode basiert auf der DPM-Technologie und erreicht erfolgreich die Wiederherstellung blinder Gesichtsbilder, die Reparatur von Gesichtsbildern geringer Qualität (LQ) in klare Bilder hoher Qualität (HQ)

ACM MM 2023 | DiffBFR: 美图&国科大联合提出的噪音抑制人脸修复方法Der Inhalt, der neu geschrieben werden muss, ist: Papierlink: https://arxiv.org/ abs/2305.04517

Diese Forschung untersucht die Anpassungsfähigkeit zweier generativer Modelle, Generative Adversarial Networks (GAN) und Deep Partial Models (DPM), im Umgang mit Long-Tail-Problemen. Durch die Gestaltung eines geeigneten Moduls zur Gesichtsrestaurierung können genauere Detailinformationen erhalten werden, wodurch die übermäßige Glättung des Gesichts, die bei generativen Methoden auftreten kann, reduziert und die Präzision und Genauigkeit der Wiederherstellung verbessert werden. Dieses Forschungspapier wurde vom ACM MM 2023 angenommen. Schwanzverteilungen. Daher entscheidet sich DiffBFR für die Verwendung des Diffusionswahrscheinlichkeitsmodells, um die Einbettung von Gesichts-Vorinformationen zu verbessern, und verwendet dieses als Grundgerüst für die Auswahl von DPM als Lösung. Dies liegt daran, dass das Diffusionsmodell über die leistungsstarke Fähigkeit verfügt, qualitativ hochwertige Bilder innerhalb eines beliebigen Verteilungsbereichs zu erzeugen

Um die in der Arbeit gefundene Long-Tail-Verteilung von Merkmalen im Gesichtsdatensatz und das Problem der übermäßigen Glättung in der Vergangenheit zu lösen Diese Studie basiert auf GAN-basierten Methoden und untersuchte ein vernünftiges Design, um die ungefähre Long-Tail-Verteilung besser anzupassen und das Problem der übermäßigen Glättung im Reparaturprozess zu überwinden. Durch einfache Experimente mit GAN und DPM mit derselben Parametergröße im MNIST-Datensatz (Abbildung 1) ergab die Studie, dass die DPM-Methode die Long-Tail-Verteilung angemessen anpassen kann, während GAN den Kopfmerkmalen zu viel Aufmerksamkeit schenkt und diese ignoriert Die Schwanzmerkmale können daher nicht generiert werden. Daher wird DPM als Lösung für BFR ausgewählt. Durch die Einführung zweier Zwischenvariablen schlägt DiffBFR zwei spezifische Reparaturmodule vor. Das Design verfolgt einen zweistufigen Ansatz, bei dem zunächst Identitätsinformationen aus LQ-Bildern wiederhergestellt werden und anschließend Texturdetails basierend auf der Verteilung realer Gesichter verbessert werden. Dieses Design besteht aus zwei Hauptteilen:

(1) Identitätswiederherstellungsmodul (IRM):

Der Zweck dieses Moduls besteht darin, die Gesichtsdetails in den Ergebnissen beizubehalten. Gleichzeitig wird eine verkürzte Abtastmethode vorgeschlagen, die die Entrauschungsmethode unter Verwendung einer reinen Gaußschen Zufallsverteilung im umgekehrten Prozess ersetzt, indem ein Teil des Rauschens dem Bild mit geringer Qualität hinzugefügt wird. Der Artikel beweist theoretisch, dass diese Änderung die theoretische Evidenzuntergrenze (ELBO) von DPM schrumpft und dadurch ursprünglichere Details wiederherstellt. Basierend auf dem theoretischen Beweis werden zwei kaskadierte bedingte Diffusionsmodelle mit unterschiedlichen Eingabegrößen eingeführt, um den Sampling-Effekt zu verbessern und die Trainingsschwierigkeiten bei der direkten Erzeugung hochauflösender Bilder zu verringern. Gleichzeitig wird weiterhin bewiesen, dass je höher die Qualität der bedingten Eingabe ist, desto näher kommt sie der tatsächlichen Datenverteilung und desto genauer ist das wiederhergestellte Bild. Dies ist auch der Grund, warum DiffBFR zuerst Bilder mit niedriger Auflösung wiederherstellt

(2) Texture Enhancement Module (TEM):

Die zum Texturieren von Polierbildern verwendete Methode besteht darin, ein bedingungsloses Diffusionsmodell einzuführen. Dieses Modell ist völlig unabhängig von Bildern mit geringer Qualität, wodurch die wiederhergestellten Ergebnisse den realen Bilddaten noch näher kommen. Der Artikel beweist theoretisch, dass ein bedingungsloses Diffusionsmodell, das auf rein qualitativ hochwertigen Bildern trainiert wird, zur korrekten Verteilung des Ausgabebildes im Raum auf Pixelebene beiträgt. Das heißt, nach der Verwendung dieses Modells weist die Verteilung von eingefärbten Bildern einen niedrigeren FID auf als vor der Verwendung und ähnelt insgesamt eher der Verteilung von Bildern mit hoher Qualität. Insbesondere werden die Identitätsinformationen durch Abschneiden der Abtastung im Zeitschritt beibehalten und die Textur auf Pixelebene poliert. Die Abtastinferenzschritte von DiffBFR sind in Abbildung 2 dargestellt, und das schematische Diagramm des Abtastinferenzprozesses ist in Abbildung dargestellt 3.

Der Inhalt, der neu geschrieben werden muss, ist: Abbildung 2 zeigt den Sampling-Inferenzschritt der DiffBFR-Methode

ACM MM 2023 | DiffBFR: 美图&国科大联合提出的噪音抑制人脸修复方法

Der Inhalt, der neu geschrieben werden muss, ist: Abbildung 3 zeigt das schematische Diagramm des Sampling-Inferenzprozesses der DiffBFR-Methode

ACM MM 2023 | DiffBFR: 美图&国科大联合提出的噪音抑制人脸修复方法Um die ursprüngliche Bedeutung nicht zu ändern, müssen die experimentellen Ergebnisse ins Chinesische umgeschrieben werden

Die Visualisierungseffekte der GAN-basierten BFR-Methode und der DPM-basierten Methode werden verglichen , wie in Abbildung 4 dargestellt

ACM MM 2023 | DiffBFR: 美图&国科大联合提出的噪音抑制人脸修复方法

Für Abbildung 5 wird die Leistung der SOTA-Methode für BFR verglichen

Im Modell können wir die Leistung von IRM und TEM durch Visualisierung vergleichen ACM MM 2023 | DiffBFR: 美图&国科大联合提出的噪音抑制人脸修复方法

Im Modell wird die Leistung von IRM und TEM verglichen, wie in Abbildung 8 dargestelltACM MM 2023 | DiffBFR: 美图&国科大联合提出的噪音抑制人脸修复方法

Der Inhalt, der neu geschrieben werden muss, lautet: Vergleichen Sie die IRM-Leistung von Abbildung 9 unter verschiedenen Parametern. ACM MM 2023 | DiffBFR: 美图&国科大联合提出的噪音抑制人脸修复方法

Für Abbildung 10 müssen wir die Leistung verschiedener Parameter vergleichen Umzuschreiben ist: Abbildung 11 zeigt die Parametereinstellungen jedes Moduls von DiffBFR ACM MM 2023 | DiffBFR: 美图&国科大联合提出的噪音抑制人脸修复方法

Die Zusammenfassung besteht darin, die Informationen oder den Prozess der Neuformulierung von Ideen auf prägnante und klare Weise zu kombinieren. Es verändert nicht die ursprüngliche Bedeutung, sondern stellt die gleiche Idee dar, indem es ein anderes Vokabular und eine andere Satzstruktur verwendet. Der Zweck einer Zusammenfassung besteht darin, eine klarere und prägnantere Darstellung bereitzustellen, damit der Leser die übermittelten Informationen leichter verstehen und verarbeiten kann. Zusammenfassungen sind in einer Vielzahl von Situationen nützlich, sei es in wissenschaftlichen Arbeiten, Geschäftsberichten oder alltäglichen Mitteilungen, wo sie zur Vermittlung wichtiger Ideen und Schlussfolgerungen verwendet werden können. Kurz gesagt, die Zusammenfassung ist ein wichtiges Kommunikationsinstrument, das uns helfen kann, Informationen effektiver zu vermitteln und zu verstehen. In diesem Artikel wird ein DiffBFR-Modell zur Wiederherstellung von Gesichtsbildern mit blinder Verschlechterung vorgeschlagen, um die Probleme früherer GAN-basierter Methoden zu lösen Modusabsturz und Probleme mit dem Verschwinden des langen Schwanzes. Durch die Einbettung von Vorwissen in das Diffusionsmodell können hochwertige und klare wiederhergestellte Bilder aus zufälligen, stark beeinträchtigten Gesichtsbildern generiert werden. Konkret schlägt diese Studie zwei Module vor, IRM und TEM, die zur Wiederherstellung der Realität bzw. zur Wiederherstellung von Details verwendet werden. Durch theoretische Ableitung und experimentelle Bilddemonstration wird die Überlegenheit des Modells demonstriert und qualitative und quantitative Vergleiche mit bestehenden Methoden auf dem neuesten Stand der Technik durchgeführt

Was neu geschrieben werden muss, ist: ForschungsteamACM MM 2023 | DiffBFR: 美图&国科大联合提出的噪音抑制人脸修复方法

Dieses Papier wurde gemeinsam von Forschern des Meitu Imaging Research Institute (MT Lab) und der University of Chinese Academy of Sciences vorgeschlagen. Das Meitu Imaging Research Institute (MT Lab) wurde 2010 gegründet. Es handelt sich um ein Team von Meitu, das sich auf Algorithmenforschung, technische Entwicklung und Produktimplementierung in den Bereichen Computer Vision, Deep Learning, Augmented Reality und anderen Bereichen konzentriert. Seit seiner Gründung widmet sich das Team der Forschung im Bereich Computer Vision und begann 2013 mit dem Einsatz von Deep Learning, um technischen Support für die Software- und Hardwareprodukte von Meitu bereitzustellen. Gleichzeitig bieten sie auch gezielte SaaS-Dienste für mehrere vertikale Bereiche der Bildgebungsbranche an und fördern die ökologische Entwicklung der Produkte der künstlichen Intelligenz von Meitu durch modernste Bildgebungstechnologie. Sie haben an internationalen Top-Wettbewerben wie CVPR, ICCV und ECCV teilgenommen, mehr als zehn Meisterschaften und Zweitplatzierungen gewonnen und mehr als 48 erstklassige internationale wissenschaftliche Konferenzbeiträge veröffentlicht. Das Meitu Imaging Research Institute (MT Lab) engagiert sich seit langem für Forschung und Entwicklung im Bereich der Bildgebung, verfügt über umfangreiche technische Reserven und verfügt über umfangreiche Erfahrung bei der Technologieimplementierung in den Bereichen Bilder, Videos, Design und digitale Menschen

Das obige ist der detaillierte Inhalt vonACM MM 2023 |. DiffBFR: Von Meitu und der Chinesischen Universität für Wissenschaft und Technologie gemeinsam vorgeschlagene Methode zur Wiederherstellung von Flächen zur Geräuschunterdrückung. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:jiqizhixin.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen