Heim >Technologie-Peripheriegeräte >KI >Die 3D-Version von SORA ist da! DreamTech bringt Direct3D auf den Markt, das weltweit erste native 3D-DiT-Großmodell

Die 3D-Version von SORA ist da! DreamTech bringt Direct3D auf den Markt, das weltweit erste native 3D-DiT-Großmodell

王林Original: 2024-06-18 09:57:211163Durchsuche

Im Mai 2024 kündigte DreamTech offiziell sein hochwertiges 3D-Generation-Großmodell Direct3D an und veröffentlichte die zugehörige wissenschaftliche Arbeit Direct3D: Scalable Image-to-3D Generation via 3D Latent Diffusion Transformer.

3D 版 SORA 来了！DreamTech 推出全球首个原生 3D-DiT 大模型 Direct3D

Link: https://arxiv.org/abs/2405.14832

Dies ist das erste öffentlich veröffentlichte 3D-Großmodell einer nativen 3D-generierten Route unter Verwendung von 3D Diffusion Transformer (3D-DiT). Es löst das Problem der Generierung hochwertiger 3D-Inhalte, das die Branche seit langem plagt.

3D 版 SORA 来了！DreamTech 推出全球首个原生 3D-DiT 大模型 Direct3D

Halten Sie sich an die native 3D-Technologieroute und erzielen Sie Durchbrüche

Früher war die Technologieroute, die 3D-AIGC normalerweise eingeschlagen hat, das 2D-zu-3D-Lifting, was eine Aktualisierung des zu erhaltenden 2D-Bildmodells bedeutet Ein 3D-Modell, das darstellt. Zu den ersten Lösungen gehören Score Distillation Sampling (SDS), dargestellt durch DreamFusion, vorgeschlagen von Google, und Large Reconstruction Model (LRM), dargestellt durch Instant3D, vorgeschlagen von Adobe. Obwohl 3D-Daten schrittweise in den Modelltrainingsprozess eingeführt werden, um die Qualität zu verbessern, weist die Technologie zur Verbesserung der 2D-Dimensionalität inhärente Probleme wie mehrere Köpfe und Flächen, Hohlräume und Verdeckungen auf. Bestehende Lösungen können die Anforderungen kommerzieller Anwendungen für die allgemeine 3D-Generierung nur schwer erfüllen.

3D 版 SORA 来了！DreamTech 推出全球首个原生 3D-DiT 大模型 Direct3D

Zu Beginn des letzten Jahres begannen einige Leute in der Branche, den nativen 3D-Weg auszuprobieren, d Der technische Weg kann die Mängel der 2D-Dimensionalitätsverbesserung vermeiden und das Potenzial zeigen, qualitativ hochwertige, verzerrungsfreie, unvollständige und kommerziell verfügbare 3D-Inhalte zu erhalten. Grundsätzlich hat die native 3D-Methode erhebliche Vorteile gegenüber der 2D-Dimensionalitätsverbesserungsmethode. Es gab jedoch immer viele Herausforderungen beim Modelltraining und bei der Algorithmenentwicklung:

Effiziente 3D-Modelldarstellung Und Videos können latente Merkmale direkt durch Komprimierung der 2D-/2,5D-Matrixdarstellung erhalten. Im Gegensatz dazu weisen 3D-Daten eine komplexe Topologie und höhere Darstellungsdimensionen auf. Wie man 3D-Daten effizient komprimiert und dann die Verteilung von 3D-Daten im latenten 3D-Raum analysiert und erlernt, ist ein Problem, das Branchenpersonal schon immer beschäftigt hat.
Effiziente 3D-Trainingsarchitektur: Die DiT-Architektur wurde erstmals im Bereich der Bildgenerierung angewendet und erzielte große Erfolge, darunter Stable Diffusion 3 (SD3) und Hunyuan-DiT. Im Bereich der Videogenerierung verwendet OpenAI SORA Die DiT-Architektur kann erfolgreich Videogenerierungseffekte erzielen, die weit über die von Runway und Pika hinausgehen. Im Bereich der 3D-Generierung ist die ursprüngliche DiT-Architektur aufgrund komplexer Topologie und dreidimensionaler Darstellungsmethoden nicht direkt auf die 3D-Netzgenerierung anwendbar.
Hochwertige groß angelegte 3D-Trainingsdaten: Die Qualität und der Umfang der 3D-Trainingsdaten bestimmen direkt die Qualität und Generalisierungsfähigkeit des generierten Modells. In der Branche wird allgemein davon ausgegangen, dass mindestens zig Millionen davon vorhanden sind Es werden hochwertige 3D-Trainingsdaten benötigt, um die Trainingsanforderungen großer 3D-Modelle zu erfüllen. Allerdings sind 3D-Daten weltweit äußerst rar. Obwohl es Dutzende Millionen von 3D-Trainingsdatensätzen wie ObjaverseXL gibt, handelt es sich bei den meisten davon um einfache Strukturen von geringer Qualität, und die verfügbaren hochwertigen 3D-Daten machen weniger als 5 % aus. . Wie man eine ausreichende Menge hochwertiger 3D-Daten erhält, ist ein weltweites Problem.

3D 版 SORA 来了！DreamTech 推出全球首个原生 3D-DiT 大模型 Direct3D

Als Reaktion auf die oben genannten Kernprobleme schlug DreamTech das weltweit erste native 3D-DiT-Großmodell Direct3D vor. Durch umfangreiche experimentelle Überprüfung übertrifft die Qualität der 3D-Modellgenerierung von Direct3D die aktuelle gängige 2D-Dimensionalitätsmethode deutlich, die hauptsächlich von den folgenden drei Punkten profitiert:

D3D-VAE: Direct3D schlägt ein 3D-Modell vor, das OpenAI SORA VAE ähnelt (Variational Auto-Encoder) wird verwendet, um latente Merkmale von 3D-Daten zu extrahieren und so die Darstellungskomplexität von 3D-Daten vom ursprünglichen N^3 auf einen kompakten 3D-Latentraum von n^2 (n<
D3D-DiT: Direct3D übernimmt die DiT-Architektur und verbessert und optimiert das ursprüngliche DiT. Es führt Ausrichtungsmodule auf Semantik- und Pixelebene für Eingabebilder ein, die eine hohe Ausrichtung des Ausgabemodells an jedem Eingabebild erreichen können .
DreamTech 3D Data Engine: Direct3D verwendet im Training eine große Menge hochwertiger 3D-Daten, die größtenteils von der selbst entwickelten Datensynthese-Engine von DreamTech erzeugt werden. Die DreamTech-Synthese-Engine hat vollautomatische Datenverarbeitungsprozesse wie Datenbereinigung und Annotation etabliert und mehr als 20 Millionen hochwertige 3D-Daten gesammelt und produziert und damit das letzte Puzzleteil für die Implementierung nativer 3D-Algorithmen fertiggestellt. Es ist erwähnenswert, dass OpenAI im Jahr 2023 versucht hat, Millionen synthetischer 3D-Daten im Trainingsprozess von Shap-E und Point-E zu verwenden. Im Vergleich zur Datensyntheselösung von OpenAI sind die von DreamTech synthetisierten 3D-Daten größer und von höherer Qualität .

Einführung der DiT-Architektur

Der 3D-Bereich hat das Skalierungsgesetz erneut bestätigt

In Bezug auf die technische Architektur verwendet Direct3D Diffusion Transformer (DiT), das OpenAI SORA ähnelt. Die DiT-Architektur ist derzeit die fortschrittlichste AIGC-Architektur für große Modelle. Sie kombiniert die Vorteile der beiden Hauptarchitekturen Diffusion und Transformer, um den Anforderungen der Skalierbarkeit gerecht zu werden, dh sie stellt dem Modell mehr Daten und größere Modellparameter zur Verfügung kann die menschliche generative Qualität erreichen oder sogar übertreffen. Zu den aktuellen Praxisprojekten der DiT-Technologie gehören Stable Diffusion 3 (Stabilility AI, Februar 2024), Hunyuan-DiT (Tencent, Mai 2024) in Richtung Bildgenerierung und SORA (OpenAI, Februar 2024) in Richtung Videogenerierung. Direct3D von DreamTech ist die weltweit erste öffentliche DiT-Praxis in Richtung 3D-Content-Generierung.

Die DiT-Architektur entspricht dem Skalierungsgesetz und wurde mehrfach als solches verifiziert.

3D 版 SORA 来了！DreamTech 推出全球首个原生 3D-DiT 大模型 Direct3D

Das Skalierungsgesetz hat seine Wirksamkeit bei großen Sprachmodellen vollständig bewiesen. Mit zunehmender Anzahl von Parametern und Trainingsdaten wird die Intelligenz großer Modelle im Bereich der Bilderzeugung erheblich verbessert Die Größe von SORA reicht von 0,8 B bis 8 B von SD3, und die Parametergröße von Dall-E 3 beträgt 12 B, was die Wirksamkeit des Skalierungsgesetzes im Bereich der Videogenerierung im Vergleich zu Runway, Pika usw. zeigt Es wurde spekuliert, dass seine technische Umsetzung hauptsächlich eine Änderung der Modellarchitektur beinhaltet und die Modellparameter und Trainingsdaten um eine Größenordnung verbessert wurden, was schockierende Auswirkungen auf die Erzeugung hat, egal ob es sich um Videoauflösung, Videodauer oder Video handelt Die Generierungsqualität wurde erheblich verbessert.

Das Gleiche gilt im 3D-Bereich. Direct3D-1B zeigt der Branche die erste realisierbare native 3D-DiT-Architektur. Es nutzt eine selbst entwickelte hochwertige Datensynthese-Engine, um die Menge an Trainingsdaten und Modellen zu erhöhen Da sich die Parameter zur Generierung von Ergebnissen stetig verbessern, wird der zukünftige Bereich der 3D-Generierung vollständig durch Direct3D (oder seine abgeleitete Architektur) sowie bestehende LRM- oder SDS-Lösungen ersetzt. Derzeit treibt das DreamTech-Team die Skalierung von Direct3D kontinuierlich voran und plant, Direct3D-XL noch vor Jahresende mit 15B-Parametern auf den Markt zu bringen. Gleichzeitig wird es die hochwertigen 3D-Daten für Trainingsmodelle noch weiter steigern Die 3D-Generierung wird einen Meilenstein einläuten.

Die Qualität der 3D-Inhaltsgenerierung hat kommerzielles Niveau erreicht

Mit der Einführung von Direct3D hat der Bereich der 3D-Inhaltsgenerierung einen großen Sprung in das kommerzielle Zeitalter gemacht. Am Beispiel des 3D-Drucks treten bei Modellen, die mit SDS, LRM und anderen technischen Lösungen erstellt wurden, die folgenden Probleme auf:

Die geometrische Struktur des Modells ist verzerrt und es kann leicht mehrere Köpfe und Schwänze haben
Das Modell hat viele scharfe Grate;
Die Oberfläche ist zu glatt und es fehlen Details.
Das Netz weist nur wenige Flecken auf und die feine Struktur kann nicht garantiert werden.

Das Vorhandensein dieser Probleme hat dazu geführt, dass die mit verschiedenen früheren Lösungen generierten Modelle nicht normal auf 3D-Druckern gedruckt werden konnten und manuelle Anpassungen und Reparaturen erforderlich waren. Da Direct3D die native 3D-Technologieroute übernimmt und nur 3D-Daten im Trainingssatz verwendet, liegt die Qualität der von ihm generierten 3D-Modelle näher an der Originalqualität und löst Kernprobleme wie geometrische Struktur, Modellgenauigkeit, Oberflächendetails usw. perfekt. und Anzahl der Mesh-Patches. Die Qualität der von Direct3D generierten Modelle hat die Obergrenze der Genauigkeit von Heimdruckern überschritten. Nur kommerzielle und industrielle Drucker mit höheren Spezifikationen können die Präzision der generierten Modelle vollständig wiederherstellen.

3D 版 SORA 来了！DreamTech 推出全球首个原生 3D-DiT 大模型 Direct3D

Früher waren technische Lösungen wie SDS und LRM durch die Ausdrucksform der 3D-Modellfunktionen begrenzt. Im Allgemeinen lag die Anzahl der generierten Modellnetzfelder bei etwa 50.000 bis 200.000, und es war schwierig, sie im kommerziellen Einsatz zu erhöhen. Das Netz von 3D-Modellen Die Anzahl der Teigstücke muss oft mehr als 1 Million bis 5 Millionen erreichen. Direct3D schlägt ein verfeinertes 3D-Merkmalsausdrucksparadigma vor, sodass die Anzahl der generierten Modellnetze keine Obergrenze hat und 10 Millionen erreichen und überschreiten kann, um den Anforderungen verschiedener Geschäftsszenarien gerecht zu werden.

Mit der Zunahme der Menge an Direct3D-Modellparametern und Trainingsdaten wird die 3D-Generierung in immer mehr Branchen Anwendung finden, einschließlich der Billionen-Level-Spiele- und Animationsbranche. Es wird erwartet, dass dies noch vor Ende 2025 der Fall sein wird. Die 3D-Generierung wird die Ersatzarbeit der meisten Spiele, Animationen, Film- und Fernsehmodelle realisieren und sie in verschiedenen Branchen in großem Maßstab einsetzen.

Direct3D Practice

Basierend auf dem Direct3D-Großmodell hat DreamTech zwei Early-Adopter-Produkte auf den Markt gebracht, die derzeit für Anwendungstests geöffnet sind (Klicken Sie hier, um den Originaltext zu lesen, springen Sie zu: www. neural4d.com).

One ist Animeit! für C-seitige Benutzer. Animeit kann jedes vom Benutzer eingegebene Bild/Textobjekt in ein hochwertiges 3D-Charakterbild in einem zweidimensionalen Stil umwandeln, und der 3D-Charakter verfügt über Skelettknoten Für Action Binding können Benutzer auf Animeit! direkt mit personalisierten 3D-KI-Partnern sprechen und interagieren.

Animeit! Der von Animeit generierte zweidimensionale Charakter ist äußerst präzise, mit deutlich erkennbaren Gesichtskonturdetails, markanten Handdetails und deutlichen Fingern. Dies ist ein Qualitätsniveau, das mit der Technologie früherer 3D-Generationen nicht erreicht werden konnte für die MMD-Produktion in der 2D-Community verfügbar.

3D 版 SORA 来了！DreamTech 推出全球首个原生 3D-DiT 大模型 Direct3D

Ein weiteres Produkt ist eine Plattform zur Erstellung von 3D-Inhalten für Ersteller, die über Textbeschreibungen wie Midjourney innerhalb einer Minute hochwertige 3D-Modelle erhalten können Laden Sie auch nur ein einzelnes Bild hoch und warten Sie eine Weile, bis Sie ein qualitativ hochwertiges und genau wiederhergestelltes 3D-Modell erhalten.

Über DreamTech

DreamTech engagiert sich intensiv im Bereich der 3D-KI-Technologie und setzt sich für den Einsatz innovativer Produkte und Dienstleistungen ein, um das Erlebnis globaler AIGC-Entwickler und -Verbraucher zu verbessern Verwenden Sie fortschrittliche KI. Die Technologie schafft ein 4D-Raum-Zeit-Erlebnis, das nahtlos mit der realen Welt verbunden ist, in Echtzeit interagiert und allgemeine künstliche Intelligenz (AGI) realisiert, indem sie die Komplexität und Vielfalt der realen Welt simuliert.

DreamTech bringt die weltweit besten KI-Talente zusammen und sein Gründungsteam besteht aus Akademikern der British Academy und der Academy of Sciences, jungen Talenten auf nationaler Ebene und vielen hochrangigen Talenten in Shenzhen. Die Kernmitglieder des Unternehmens haben Abschlüsse an weltbekannten Universitäten wie der Oxford University, der Chinese University of Hong Kong und der Hong Kong University of Science and Technology und haben in branchenführenden Unternehmen wie Apple, Tencent und Baidu gearbeitet Die Mitglieder des Gründerteams haben erfolgreich eine Reihe von Unternehmen gegründet, die zu Maßstäben im 3D-Bereich geworden sind. Diese Unternehmen wurden später von Branchenriesen wie Apple, Google und Bosch übernommen.

Das obige ist der detaillierte Inhalt vonDie 3D-Version von SORA ist da! DreamTech bringt Direct3D auf den Markt, das weltweit erste native 3D-DiT-Großmodell. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

架构 auto 对象算法人工智能 transformer stable diffusion DreamFusion https AIGC midjourney agi

Stellungnahme：

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Vorheriger Artikel：Lassen Sie Lu Xun Zungenbrecher sprechen und Hepburn Hip-Hop spielen. Ein weiteres Videomodell ging viral und wurde von einem chinesischen Arzt aus Stanford gegründet.Nächster Artikel：Lassen Sie Lu Xun Zungenbrecher sprechen und Hepburn Hip-Hop spielen. Ein weiteres Videomodell ging viral und wurde von einem chinesischen Arzt aus Stanford gegründet.

In Verbindung stehende Artikel

Mehr sehen