Heim > Artikel > Technologie-Peripheriegeräte > Eine GPU, 20 Modelle pro Sekunde! NVIDIAs neues Spielzeug nutzt GET3D, um das Universum zu erschaffen
Abrakadabra!
In Bezug auf 2D-generierte 3D-Modelle hat NVIDIA seine selbsternannte „Weltklasse“-Forschung vorgestellt: GET3D.
Nach dem Training an 2D-Bildern generiert das Modell 3D-Formen mit hochauflösenden Texturen und komplexen geometrischen Details.
Wie mächtig ist es?
GET3D erhielt seinen Namen aufgrund seiner Fähigkeit, explizite texturierte 3D-Netze zu erzeugen.
Papieradresse: https://arxiv.org/pdf/2209.11163.pdf
Das heißt, die dadurch erzeugte Form hat die Form eines Dreiecksnetzes, genau wie ein Papiermodell. Gleiches, mit Strukturmaterial überzogen.
Der Schlüssel ist, dass dieses Modell eine Vielzahl hochwertiger Modelle generieren kann.
Zum Beispiel verschiedene Räder an Stuhlbeinen; Tierohren und -hörner; Texturen auf Autoreifen, menschliche Kleidung... .
Einzigartige Gebäude auf beiden Seiten der Straße, verschiedene vorbeifliegende Fahrzeuge und verschiedene vorbeifahrende Personengruppen ...
Wenn Sie durch manuelle Modellierung dieselbe virtuelle 3D-Welt erstellen möchten, ist dies sehr zeitaufwändig.
Obwohl frühere 3D-generierte KI-Modelle schneller sind als die manuelle Modellierung, fehlt es ihnen immer noch an der Fähigkeit, detailliertere Modelle zu generieren.
Selbst die neuesten inversen Rendering-Methoden können 3D-Objekte nur auf der Grundlage von 2D-Bildern generieren, die aus verschiedenen Winkeln aufgenommen wurden, und Entwickler können jeweils nur ein 3D-Objekt erstellen.
GET3D ist anders.
Entwickler können generierte Modelle problemlos in Game Engines, 3D-Modellierer und Filmrenderer importieren, um sie zu bearbeiten.
Wenn Entwickler GET3D-generierte Modelle in Grafikanwendungen exportieren, können sie realistische Lichteffekte anwenden, während sich das Modell innerhalb der Szene bewegt oder dreht.
Wie im Bild gezeigt:
Darüber hinaus kann GET3D auch textgeführte Formen generieren.
Mit StyleGAN-NADA, einem weiteren KI-Tool von NVIDIA, können Entwickler mithilfe von Textaufforderungen bestimmte Stile zu Bildern hinzufügen.
Zum Beispiel können Sie ein verputztes Auto in ein ausgebranntes Auto oder ein Taxi verwandeln.
Ein gewöhnliches Haus in ein Backsteinhaus, ein brennendes Haus oder sogar ein Spukhaus umwandeln.
Oder wenden Sie die Eigenschaften von Tiger- und Panda-Prints auf jedes Tier an ...
Es ist einfach das „Animal Crossing“ der Simpsons ...
NVIDIA gab bekannt, dass GET3D beim Training auf einer einzelnen NVIDIA-GPU etwa 20 Objekte pro Sekunde generieren kann.
Je größer und vielfältiger der Trainingsdatensatz ist, aus dem gelernt wird, desto vielfältiger und detaillierter wird die Ausgabe sein.
NVIDIA sagte, dass das Forschungsteam die A100-GPU verwendet habe, um das Modell in nur 2 Tagen mit etwa 1 Million Bildern zu trainieren.
GET3D-Framework, dessen Hauptfunktion darin besteht, strukturierte dreidimensionale Formen zu synthetisieren.
Der Generierungsprozess gliedert sich in zwei Teile: Der erste Teil ist der Geometriezweig, der Oberflächennetze beliebiger Topologie ausgeben kann. Der andere Teil ist der Texturzweig, der ein Texturfeld erzeugt, aus dem Oberflächenpunkte abgefragt werden können.
Während des Trainingsprozesses wird ein differenzierbarer Rasterizer verwendet, um das resultierende Texturnetz effizient in ein zweidimensionales hochauflösendes Bild zu rendern. Der gesamte Prozess ist trennbar und ermöglicht ein gegnerisches Training aus Bildern durch die Ausbreitung der Gradienten des 2D-Diskriminators.
Danach wird der Gradient vom 2D-Diskriminator an die beiden Generatorzweige weitergegeben.
Die Forscher führten umfangreiche Experimente durch, um das Modell zu evaluieren. Sie verglichen zunächst die Qualität der von GET3D generierten 3D-Texturnetze mit vorhandenen Netzen, die mit den Datensätzen ShapeNet und Turbosquid generiert wurden.
Als nächstes optimierten die Forscher das Modell in Folgestudien auf Basis der Vergleichsergebnisse und führten weitere Experimente durch.
GET3D-Modell ist in der Lage, Phasentrennung in Geometrie und Textur durchzuführen.
Wie in der Abbildung gezeigt, wird in jeder Zeile die durch denselben versteckten Geometriecode erzeugte Form angezeigt, während der Texturcode geändert wird.
In jeder Spalte werden die Formen angezeigt, die durch denselben Textur-Ausblendcode generiert wurden, während der Geometriecode geändert wurde.
Darüber hinaus fügten die Forscher den Geometrie-Versteckcode von links nach rechts in die Formen ein, die durch denselben Textur-Versteckcode in jeder Zeile erzeugt wurden.
und die Formen, die durch denselben versteckten Geometriecode generiert werden, während der Texturcode von oben nach unten eingefügt wird. Die Ergebnisse zeigen, dass jede Interpolation für das generierte Modell von Bedeutung ist.
Innerhalb des Untergraphen jedes Modells ist GET3D in der Lage, fließende Übergänge zwischen verschiedenen Formen in allen Kategorien zu erzeugen.
Unterbrechen Sie in jeder Zeile lokal den versteckten Code, indem Sie ein kleines Rauschen hinzufügen. Auf diese Weise ist GET3D in der Lage, lokal Formen zu generieren, die ähnlich aussehen, sich aber leicht unterscheiden.
Die Forscher weisen darauf hin, dass zukünftige Versionen von GET3D die Kamerapositionsschätzungstechnologie verwenden könnten, die es Entwicklern ermöglicht, Modelle anhand realer Daten statt synthetischer Datensätze zu trainieren.
In Zukunft können Entwickler durch Verbesserungen GET3D auf einmal für eine Vielzahl von 3D-Formen trainieren, anstatt es jeweils für eine Objektkategorie trainieren zu müssen.
Sanja Fidler, Vizepräsidentin für künstliche Intelligenzforschung bei Nvidia, sagte:
GET3D bringt uns der Demokratisierung der KI-gesteuerten 3D-Inhaltserstellung einen Schritt näher. Seine Fähigkeit, texturierte 3D-Formen im Handumdrehen zu erzeugen, könnte für Entwickler von entscheidender Bedeutung sein und ihnen dabei helfen, virtuelle Welten schnell mit einer Vielzahl interessanter Objekte zu bevölkern.
Der Erstautor des Artikels, Jun Gao, ist Doktorand in der Gruppe für maschinelles Lernen der University of Toronto und seine Betreuerin ist Sanja Fidler.
Zusätzlich zu seinen hervorragenden akademischen Qualifikationen ist er auch wissenschaftlicher Mitarbeiter am NVIDIA Toronto Artificial Intelligence Laboratory.
Seine Forschung konzentriert sich hauptsächlich auf Deep Learning (DL) mit dem Ziel des strukturierten Lernens geometrischer Darstellungen. Gleichzeitig zieht seine Forschung auch Erkenntnisse aus der menschlichen Wahrnehmung von 2D- und 3D-Bildern und Videos.
Solch ein herausragender Student kommt von der Peking-Universität. 2018 schloss er sein Studium mit einem Bachelor ab. Während seines Studiums an der Peking-Universität arbeitete er mit Professor Wang Liwei zusammen.
Nach seinem Abschluss absolvierte er außerdem Praktika an der Stanford University, MSRA und NVIDIA.
Die Ausbilder von Jun Gao sind ebenfalls führend in der Branche.
Fidler ist außerordentliche Professorin an der University of Toronto und Fakultätsmitglied am Vector Institute, wo sie auch Mitbegründerin ist.
Neben ihrer Lehrtätigkeit ist sie auch Vizepräsidentin für künstliche Intelligenzforschung bei NVIDIA und leitet ein Forschungslabor in Toronto.
Bevor sie nach Toronto kam, war sie Forschungsassistentin am Toyota Institute of Technology in Chicago. Das Institut befindet sich auf dem Campus der University of Chicago und gilt als akademische Einrichtung.
Fidlers Forschungsbereiche konzentrieren sich auf Computer Vision (CV) und maschinelles Lernen (ML), wobei der Schwerpunkt auf der Schnittstelle von CV und Grafik, 3D-Vision, 3D-Rekonstruktion und -Synthese sowie interaktiven Methoden der Bildannotation usw. liegt.
Das obige ist der detaillierte Inhalt vonEine GPU, 20 Modelle pro Sekunde! NVIDIAs neues Spielzeug nutzt GET3D, um das Universum zu erschaffen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!