Heim > Artikel > Technologie-Peripheriegeräte > 0,5 Sekunden, keine GPU erforderlich, Stability AI und das chinesische Team VAST Open Source Einzelbild zur Generierung des 3D-Modells TripoSR
Kürzlich hat Vincents Videomodell Sora eine neue Welle generativer KI-Modelle ausgelöst, und die multimodalen Fähigkeiten des Modells haben große Aufmerksamkeit erregt.
Jetzt haben KI-Modelle neue Durchbrüche bei der Generierung von 3D-Inhalten erzielt.
Nach dem erfolgreichen Start von Projekten zur Bild- und Videogenerierung widmet sich Stability AI, das auf die Generierung visueller Inhalte spezialisiert ist, nun der Expansion in den 3D-Bereich. Die neuesten Nachrichten zeigen, dass das Unternehmen mit dem chinesischen Team VAST zusammengearbeitet hat, um gemeinsam ein aus Einzelbildern generiertes 3D-Modellprojekt namens TripoSR als Open Source zu veröffentlichen. Dieser Schritt festigt die führende Position von Stability AI im Bereich der Generierung digitaler Inhalte weiter und bietet Benutzern ein vielfältigeres und innovativeres Produkterlebnis.
TripoSR ist in der Lage, aus einem einzigen Bild in 0,5 Sekunden hochwertige 3D-Modelle zu generieren und benötigt zum Betrieb nicht einmal eine GPU.
TripoSR-Modellcode: https://github.com/VAST-AI-Research/TripoSR
TripoSR-Modellgewichte: https://huggingface.co/stabilityai/TripoSR
TripoSR Demo: https://huggingface.co/spaces/stabilityai/TripoSR
Beim Testen von TripoSR auf NVIDIA A100 konnte es in etwa 0,5 Sekunden hochwertige Skizzen-3D-Netzmodelle mit Texturen generieren, eine Leistung, die die Leistung übertrifft übertrifft andere Open-Source-Tools für Bild-zu-3D-Modelle wie OpenLRM. Zusätzlich zur Geschwindigkeit ist TripoSR für Benutzer mit oder ohne GPU uneingeschränkt nutzbar.
TripoSR ist von LRM inspiriert, das Adobe im November 2023 eingeführt hat. Dabei handelt es sich um eine innovative Technologie zur Bilderzeugung eines 3D-Großrekonstruktionsmodells (LRM). Das Besondere an LRM ist, dass es aus jedem einzelnen Eingabebild in nur wenigen Sekunden ein entsprechendes 3D-Modell generieren kann. Diese Technologie ist in ihrer Effizienz und Genauigkeit bahnbrechend und ermöglicht es Benutzern, flache Bilder einfach in realistische dreidimensionale Modelle umzuwandeln. TripoSR wurde auf Basis dieser Technologie weiterentwickelt und optimiert, sodass Benutzer schneller und genauer atemberaubende dreidimensionale Szenen erstellen können. Durch die Kombination von LRM
LRM durchbricht und formuliert die Tusheng-3D-Modellaufgabe in eine Sequenz-zu-Sequenz-Übersetzungsaufgabe – indem man sich das Eingabebild und das Ausgabe-3D-Modell als zwei verschiedene Sprachen vorstellt, kann die Tusheng-3D-Aufgabe verstanden werden Bildsprache in 3D-Modellsprache übersetzen. Die „Wörter“ in der Bildsprache (analog zu den Tokens des Sprachmodells und den Patches des Videomodells) sind kleine Teile, in die das vom Benutzer eingegebene Bild unterteilt wird, während in der LRM-Methode die „Wörter“ des 3D Modellsprache ist eine Art von Information, die als „Dreidecker“ für jeden kleinen Block in der dreidimensionalen Darstellung bezeichnet wird. Die Aufgabe von LRM besteht darin, die „Wörter“ in der Bildsprache in „Wörter“ in der 3D-Modellsprache zu übersetzen Geben Sie das Bild ein und geben Sie das 3D-Modell aus.
Mit der Unterstützung der Transformer-Architektur wurde LRM auf mehr als einer Million öffentlicher 3D-Daten trainiert und demonstrierte phänomenale 3D-Rendering-Effekte und Effizienz und sorgte damit für großes Aufsehen in Wissenschaft und Industrie. Die entsprechenden Codes und Modelle sind jedoch nicht Open Source, und die enormen Schulungskosten (128 A100 laufen eine Woche lang) verhindern auch, dass kleine Forschungsorganisationen die zivile Entwicklung dieser Technologie erheblich behindern.
Dieses Mal haben Tripo AI und Stability AI gemeinsam die erste hochwertige Open-Source-Implementierung von LRM auf den Markt gebracht – TripoSR, das auf der Grundlage von von Benutzern bereitgestellten Bildern hochwertige 3D-Modelle nahezu in Echtzeit generieren kann und so die Lücke in der Entwicklung erheblich füllt Bereich der generativen 3D-Intelligenz.
Laut Stability-Blog und technischem Bericht basiert das Modell auf dem ursprünglichen Algorithmus von LRM und verbessert die Generalisierung von begrenzten Trainingsdaten durch fein gefilterte und gerenderte Teilmengen des Objaverse-Datensatzes sowie eine Reihe von Modell- und Trainingsverbesserungen erheblich Gleichzeitig wird die Genauigkeit der 3D-Rekonstruktion verbessert. Bis zum Aufkommen von TripoSR fehlte der akademischen und Open-Source-Community ein offenes, schnelles und leistungsstarkes Basismodell und Framework für die 3D-Generierung mit starken Generalisierungsfähigkeiten. Obwohl es weithin beachtete Open-Source-Projekte wie Threestudio gibt, ist die Erstellung eines 3D-Modells langsam und ressourcenintensiv, da die Technologien, auf denen es basiert (z. B. Destillation Score Sampling), lange Optimierungs- und Berechnungszeiten erfordern. Das zuvor veröffentlichte Stable Zero123-Projekt von Stability AI in dieser Richtung und seine Integrationsversuche in threestudio haben einige Fortschritte gemacht, konnten diese Probleme jedoch immer noch nicht vollständig lösen.
TripoSR Open Source ermöglicht Forschern, Entwicklern und Kreativen auf der ganzen Welt den Zugriff auf die fortschrittlichsten 3D-generierten KI-Modelle und ermöglicht verschiedenen Unternehmen, 3D-Inhalte zu nutzen, um komplexere Produkte und Dienstleistungen zu erstellen und neue kreative Möglichkeiten in der 3D-Branche zu erkunden und zu fördern ein aktiverer und wettbewerbsintensiverer Markt.性 Das Diagramm zeigt die Beziehung zwischen dem 3D-Leistungs-F-Score (je höher, desto besser) und der Argumentationszeit (je niedriger, desto besser).
Die Technologie zur Generierung von 3D-Inhalten hat in den letzten Jahren eine stetige Entwicklung in den Bereichen Computergrafik und Computer Vision erfahren. Im vergangenen Jahr hat die generative 3D-Technologie enorme und schnelle Fortschritte erzielt, insbesondere mit der Entstehung umfangreicher öffentlicher 3D-Datensätze und der Weiterentwicklung leistungsstarker generativer Modelle im Bereich von 2D-Bildern und -Videos, die in der Branche große Aufmerksamkeit erregt haben . Obwohl auf Score-Destillation-Sampling (SDS) basierende Technologien wie DreamFusion (vorgeschlagen vom Google Research-Team) Durchbrüche bei der Generierung von 3D-Modellen aus mehreren Perspektiven erzielt haben, sind sie immer noch mit langen Generierungszeiten und Schwierigkeiten bei praktischen Anwendungen konfrontiert. Detaillierte Kontrolle über Einschränkungen wie generierte Modelle.Im Gegensatz dazu demonstrieren Generierungstechnologielösungen, die auf großen 3D-Datensätzen und großen skalierbaren Modellarchitekturen basieren, wie das dieses Mal veröffentlichte TripoSR, die Fähigkeit, den Prozess der Generierung von 3D-Modellen effizient auf verschiedenen 3D-Datensätzen zu trainieren erfordert nur schnelles Vorwärtsdenken und eine einfache und genaue Kontrolle der 3D-Modellergebnisse während des Generierungsprozesses. Das Aufkommen dieser Art von Technologie eröffnet nicht nur einen neuen Weg für die schnelle Entwicklung der 3D-Generierungstechnologie, sondern bietet auch neue Möglichkeiten für breitere Anwendungen in der Industrie.
Bild- und Datenquelle: TripoSR: Schnelle 3D-Objektrekonstruktion aus einem einzelnen Bild
Es ist erwähnenswert, dass Stability AI Tripo AI diesmal eine gemeinsame Open Source ist. VAST AI Research, die Forschungseinrichtung hinter Tripo AI, ist ein hochmodernes Forschungsteam im Bereich der Generierung von 3D-Inhalten. Das Unternehmen engagiert sich seit seiner Gründung für Open-Source-Community-Beiträge und hat sukzessive den Code und das Gewicht von High-Source-Lösungen bereitgestellt -Qualitätsforschungsarbeit wie Wonder3D, CSD und TGS.Tripo ist ein universelles generatives 3D-Modell, das seit Dezember 2023 von VAST eingeführt wird (www.tripo3d.ai). Es kann in 8 Sekunden ein 3D-Netzmodell aus Text oder Bildern generieren und es in 5 Minuten verfeinern. Die Qualität des generierten Modells liegt in Bezug auf Geometrie und Material nahe am manuellen Niveau. Laut dem Blog von VAST AI Research erfordert die rasante Entwicklung der KI im Bereich der 3D-Generierung einen „universellen Ansatz“, der sich von der Abhängigkeit von menschlicher Erfahrung löst und größere Datenmengen, skalierbarere Modelle und die volle Nutzung leistungsstarker Rechenleistung nutzt Macht. Kommen Sie und „lernen“. Dieser „universelle Ansatz“ sollte die Vereinheitlichung von Trainingsdaten für mehrere Modalitäten, die Vereinheitlichung von Kontrollbedingungen für mehrere Modalitäten und eine generative Modellinfrastruktur umfassen, die mehreren Modalitäten gemeinsam ist.
Um dieses Ziel zu erreichen, ist VAST davon überzeugt, dass die Arbeit aus drei Richtungen erfolgen muss: Darstellung, Modell und Daten. Dabei ist die Wahl der „Darstellung“ von entscheidender Bedeutung. Es gilt, eine 3D-Darstellung zu finden, die sowohl flexibel als auch rechenfreundlich ist und gleichzeitig die Kompatibilität mit vorhandenen Grafikpipelines gewährleistet. Darüber hinaus ist die Erforschung von „3D-Tokenizern“ eine vielversprechende Richtung, da sie 3D-Darstellungen in Formen umwandeln, die Sprach-Tokens ähneln, was dazu beitragen kann, vorhandene Verständnis- und Generierungsmodelle auf den 3D-Bereich anzuwenden. Auf der „Modell“-Ebene zielt die Forschung von VAST darauf ab, das Vorwissen, die Designrichtlinien und die Trainingserfahrung großer Modelle in anderen Modalitäten vollständig zu nutzen, um die Lernfähigkeit des Modells für 3D-Daten zu verbessern. Die Herausforderungen auf der „Daten“-Ebene können nicht ignoriert werden. Der Mangel an hochwertigen, nativen und vielfältigen 3D-Datensatzressourcen schränkt die endgültige Leistung und die Generalisierungsfähigkeiten des Modells ein. TripoSR ermöglicht es uns, das Potenzial generativer KI-Modelle in 3D-Richtung zu erkennen, und wir freuen uns auf weitere neue Erkundungen im Bereich der 3D-Generierung im Jahr 2024. Referenzlink:https://stability.ai/news/triposr-3d-generation?utm_source=x&utm_medium=website&utm_campaign=blog
Das obige ist der detaillierte Inhalt von0,5 Sekunden, keine GPU erforderlich, Stability AI und das chinesische Team VAST Open Source Einzelbild zur Generierung des 3D-Modells TripoSR. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!