Heim >Technologie-Peripheriegeräte >KI >Vincents 3D-Modell-Durchbruch! MVDream kommt und generiert in einem Satz ultrarealistische 3D-Modelle

Vincents 3D-Modell-Durchbruch! MVDream kommt und generiert in einem Satz ultrarealistische 3D-Modelle

WBOY
WBOYnach vorne
2023-10-11 11:37:011384Durchsuche

Das ist unglaublich!

Jetzt können Sie mit nur wenigen Worten ganz einfach schöne und hochwertige 3D-Modelle erstellen?

Nein, ein ausländischer Blog hat das Internet ins Leben gerufen und uns etwas namens MVDream präsentiert.

Benutzer können mit nur wenigen Worten ein lebensechtes 3D-Modell erstellen.

Vincents 3D-Modell-Durchbruch! MVDream kommt und generiert in einem Satz ultrarealistische 3D-Modelle

Und der Unterschied zu früher ist, dass MVDream die Physik wirklich zu „verstehen“ scheint.

Mal sehen, wie großartig dieser MVDream ist~

MVDream

Der kleine Bruder sagte, dass wir im Zeitalter großer Modelle zu viele Modelle zur Textgenerierung und Bildgenerierung gesehen haben. Und die Leistung dieser Modelle wird immer leistungsfähiger.

Später haben wir mit eigenen Augen die Geburt des Vincent-Videomodells und natürlich des 3D-Modells, das wir heute erwähnen werden, miterlebt

Stellen Sie sich vor, dass Sie durch einfaches Eintippen eines Satzes ein Objekt erzeugen können, das aussieht als ob es in der realen Welt existiert. Das Modell enthält sogar alle notwendigen Details, wie cool ist so eine Szene

Und das ist definitiv keine leichte Aufgabe, insbesondere wenn der Benutzer ein Modell mit genügend realistischen Details erstellen muss.

Werfen wir zunächst einen Blick auf den Effekt ~

Vincents 3D-Modell-Durchbruch! MVDream kommt und generiert in einem Satz ultrarealistische 3D-Modelle


Unter derselben Eingabeaufforderung wird ganz rechts das fertige Produkt von MVDream angezeigt.

Die Lücke zwischen den 5 Modelle sind mit bloßem Auge sichtbar. Die ersten Modelle verstoßen völlig gegen die objektiven Fakten und sind nur aus bestimmten Blickwinkeln korrekt.

Auf den ersten vier Bildern hat das generierte Modell beispielsweise tatsächlich mehr als zwei Ohren. Obwohl das vierte Bild detaillierter aussieht, können wir bei Drehung in einem bestimmten Winkel feststellen, dass das Gesicht der Figur konkav ist und ein Ohr darauf steckt.

Wer weiß? Der Redakteur erinnerte sich sofort an die Frontansicht von Peppa Pig, die zuvor sehr beliebt war.

Vincents 3D-Modell-Durchbruch! MVDream kommt und generiert in einem Satz ultrarealistische 3D-Modelle

Dies ist eine Situation, die Ihnen aus einigen Blickwinkeln gezeigt wird, aber aus anderen Blickwinkeln darf sie nicht betrachtet werden, es wird lebensgefährlich sein

Das generierte Modell von MVDream ganz rechts ist offensichtlich nicht das Gleiche. Egal wie das 3D-Modell gedreht wird, Sie werden nichts Ungewöhnliches spüren.

Das wurde bereits erwähnt. MVDream kennt sich mit den physikalischen Kenntnissen gut aus und wird keine seltsamen Dinge erstellen, um sicherzustellen, dass jede Ansicht zwei Ohren hat.

Der kleine Bruder wies darauf hin, dass die Beurteilung eines 3D-Modells der Schlüssel zum Erfolg ist besteht darin, zu beobachten, ob die verschiedenen Perspektiven realistisch und von hoher Qualität sind

, und außerdem sicherzustellen, dass das Modell räumlich kohärent ist, nicht wie das Modell mit mehreren Ohren oben.

Eine der Hauptmethoden zur Generierung von 3D-Modellen besteht darin, die Kameraperspektive zu simulieren und dann zu generieren, was aus einer bestimmten Perspektive zu sehen ist.

Mit anderen Worten nennt man das 2D-Lifting. Dabei werden verschiedene Perspektiven zusammengefügt, um das endgültige 3D-Modell zu erstellen.

Die obige Situation mit mehreren Ohren tritt auf, weil das generative Modell die Forminformationen des gesamten Objekts im dreidimensionalen Raum nicht vollständig erfasst. Und MVDream ist in dieser Hinsicht einfach ein großer Schritt nach vorne.

Dieses neue Modell löst das bisherige Konsistenzproblem in der 3D-Perspektive

Fraktionierte Destillationsstichprobe

Diese Methode wird als Score-Destillation-Stichprobe bezeichnet und wurde von DreamFusion The

Bevor Sie mit dem Erlernen der fraktionierten Destillation beginnen Bei der Sampling-Technik müssen wir zunächst die von dieser Methode verwendete Architektur verstehen

Mit anderen Worten, dies ist eigentlich nur ein weiteres zweidimensionales Bilddiffusionsmodell, ähnlich den Modellen DALLE, MidJourney und Stable Diffusion

Genauer gesagt, alles beginnt mit dem vorab trainierten DreamBooth-Modell, einem Open-Source-Modell, das auf Stable Diffusion-Rohdiagrammen basiert.

Vincents 3D-Modell-Durchbruch! MVDream kommt und generiert in einem Satz ultrarealistische 3D-Modelle

Die Veränderung steht vor der Tür, was bedeutet, dass sich die Dinge geändert haben

Als nächstes hat das Forschungsteam einen Satz von Bildern mit mehreren Ansichten direkt gerendert, anstatt nur ein Bild zu rendern. Für diesen Schritt sind drei erforderlich. Dimensionsdatensätze verschiedener Objekte können vervollständigt werden.

Hier haben Forscher mehrere Ansichten eines 3D-Objekts aus einem Datensatz entnommen, sie zum Trainieren eines Modells verwendet und es dann verwendet, um diese Ansichten rückwärts zu generieren.

Die spezifische Methode besteht darin, den blauen Selbstaufmerksamkeitsblock im Bild unten in einen dreidimensionalen Selbstaufmerksamkeitsblock umzuwandeln. Das heißt, die Forscher müssen nur eine Dimension hinzufügen, um mehrere Bilder anstelle eines zu rekonstruieren Bild.

Im Bild unten können wir sehen, dass die Kamera und der Zeitschritt für jede Ansicht in das Modell eingegeben werden, um dem Modell zu helfen, zu verstehen, welches Bild wo verwendet wird und welche Art von Ansicht generiert werden muss

Jetzt sind alle Bilder miteinander verbunden und die Generierung erfolgt auch gemeinsam. So können sie Informationen austauschen und das Gesamtbild besser verstehen.

Zuerst wird Text in das Modell eingespeist, das dann darauf trainiert wird, Objekte aus dem Datensatz genau zu rekonstruieren.

Und hier wendete das Forschungsteam das Verfahren der fraktionierten Destillation mit mehreren Ansichten an.

Vincents 3D-Modell-Durchbruch! MVDream kommt und generiert in einem Satz ultrarealistische 3D-Modelle

Jetzt kann das Team mit einem Multi-View-Diffusionsmodell mehrere Ansichten eines Objekts generieren.

Als nächstes müssen wir diese Ansichten verwenden, um ein dreidimensionales Modell zu rekonstruieren, das mit der realen Welt und nicht nur mit Ansichten übereinstimmt.

Hier müssen wir NeRF (neuronale Strahlungsfelder, neuronale Strahlungsfelder) verwenden erreichen, wie das zuvor erwähnte DreamFusion.

Vincents 3D-Modell-Durchbruch! MVDream kommt und generiert in einem Satz ultrarealistische 3D-Modelle

In diesem Schritt ist es unser Ziel, das zuvor trainierte Multi-View-Diffusionsmodell einzufrieren. Mit anderen Worten, wir verwenden in diesem Schritt einfach die Bilder aus jeder Perspektive oben und trainieren nicht mehr

Basierend auf dem anfänglichen Rendering begannen die Forscher, ein Multi-View-Diffusionsmodell zu verwenden, um einige verrauschte anfängliche Bildversionen zu generieren

Damit das Modell versteht, dass verschiedene Versionen des Bildes generiert werden müssen, fügten die Forscher Rauschen hinzu und konnten dennoch Hintergrundinformationen erhalten

Als nächstes kann dieses Modell verwendet werden, um weitere Bilder mit höherer Qualität zu generieren

Fügen Sie das Bild hinzu, mit dem dieses Bild erstellt wurde, und entfernen Sie das Rauschen, das wir manuell hinzugefügt haben, damit die Ergebnisse im nächsten Schritt als Leitfaden und Verbesserung des NeRF-Modells verwendet werden können.

Um im nächsten Schritt bessere Ergebnisse zu erzielen, besteht der Zweck dieser Schritte darin, besser zu verstehen, auf welchen Teil des Bildes sich das NeRF-Modell konzentrieren sollte

Wiederholen Sie diesen Vorgang so lange, bis ein zufriedenstellendes 3D-Modell erstellt wurde

Vincents 3D-Modell-Durchbruch! MVDream kommt und generiert in einem Satz ultrarealistische 3D-Modelle


Was die Bewertung der Bilderzeugungsqualität des Multi-View-Diffusionsmodells und die Beurteilung, wie sich unterschiedliche Designs auf seine Leistung auswirken, angeht, so arbeitet das Team folgendermaßen.

Zunächst verglichen sie die Auswahl von Aufmerksamkeitsmodulen zur Erstellung von Cross-View-Konsistenzmodellen.

Diese Optionen umfassen:

(1) Eindimensionale zeitliche Selbstaufmerksamkeit, die häufig in Videodiffusionsmodellen verwendet wird;

(2) Hinzufügen eines neuen dreidimensionalen Selbstaufmerksamkeitsmoduls zu bestehenden Modellen;

(3) Verwenden Sie das vorhandene 2D-Selbstaufmerksamkeitsmodul für 3D-Aufmerksamkeit wieder.

Um die Unterschiede zwischen diesen Modulen genau zu demonstrieren, verwendeten die Forscher in diesem Experiment 8 Frames mit 90-Grad-Perspektivwechseln, um das Modell so zu trainieren, dass es den Videoeinstellungen besser entspricht.

Im Experiment hat das Forschungsteam Gleichzeitig bleibt die höhere Bildauflösung erhalten, also 512×512 als beim ursprünglichen SD-Modell. Wie in der folgenden Abbildung dargestellt, stellten die Forscher fest, dass die zeitliche Selbstaufmerksamkeit selbst bei solch begrenzten Perspektivwechseln in statischen Szenen immer noch durch Inhaltsverschiebungen beeinträchtigt wird und die perspektivische Konsistenz nicht aufrechterhalten kann

Das Team geht davon aus, dass dies daran liegt, dass die zeitliche Aufmerksamkeit dies kann Tauschen Sie nur Informationen zwischen denselben Pixeln in verschiedenen Frames aus. Wenn sich der Blickwinkel ändert, können die entsprechenden Pixel weit voneinander entfernt sein.

Andererseits kann das Hinzufügen neuer 3D-Aufmerksamkeit ohne Erlernen der Konsistenz zu erheblichen Qualitätsverlusten führen.

Die Forscher glauben, dass dies daran liegt, dass das Erlernen neuer Parameter von Grund auf mehr Trainingsdaten und Zeit verbraucht, was auf diese Situation, in der das dreidimensionale Modell begrenzt ist, nicht anwendbar ist. Sie schlugen eine Strategie zur Wiederverwendung des 2D-Selbstaufmerksamkeitsmechanismus vor, um eine optimale Konsistenz zu erreichen, ohne die Generierungsqualität zu beeinträchtigen

Das Team stellte außerdem fest, dass bei einer Reduzierung der Bildgröße auf 256 die Anzahl der Ansichten auf 4 reduziert wird. Die Unterschiede zwischen diesen Modulen wird viel kleiner sein. Um jedoch die beste Konsistenz zu erreichen, trafen die Forscher ihre Auswahl auf der Grundlage vorläufiger Beobachtungen in den folgenden Experimenten.

Vincents 3D-Modell-Durchbruch! MVDream kommt und generiert in einem Satz ultrarealistische 3D-Modelle

Darüber hinaus implementierten die Forscher die fraktionierte Destillationsprobenahme mit mehreren Ansichten in der Bibliothek von threestudio (thr) und führten eine Diffusionsführung mit mehreren Ansichten ein. Diese Bibliothek implementiert modernste Methoden zur Generierung von Text-zu-3D-Modellen unter einem einheitlichen Framework -Gitter)

Bei der Untersuchung der Kameraansicht haben die Forscher die Kamera auf genau die gleiche Weise abgetastet wie beim Rendern des 3D-Datensatzes

Darüber hinaus haben die Forscher das 3D-Modell auch für 10.000 Schritte optimiert Der AdamW-Optimierer und die Einstellung der Lernrate auf 0,01 Das Rendering beträgt 64 × 64 und erhöht sich nach 5000 Schritten schrittweise auf 256 × 256. Die folgenden Fälle sind weitere: Synthese und durch einen iterativen Prozess eine Text-zu-3D-Modellmethode erstellt

Diese neue Methode weist derzeit einige Einschränkungen auf. Das Hauptproblem besteht darin, dass die Auflösung des generierten Bildes nur 256 x 256 Pixel beträgt sehr niedrig

Darüber hinaus wiesen die Forscher auch darauf hin, dass die Größe des Datensatzes zur Ausführung dieser Aufgabe die Vielseitigkeit dieser Methode in gewissem Maße einschränken muss, denn Wenn der Datensatz zu klein ist, ist dies nicht möglich um unsere komplexe Welt realistischer abzubilden.

Das obige ist der detaillierte Inhalt vonVincents 3D-Modell-Durchbruch! MVDream kommt und generiert in einem Satz ultrarealistische 3D-Modelle. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen