>  기사  >  기술 주변기기  >  두 개의 논문이 동시에 Best Paper Honorable Mention 후보로 지명되었습니다. SIGGRAPH의 최초 실시간 라이브 중국 팀은 생성 AI를 사용하여 3D 세계를 만듭니다.

두 개의 논문이 동시에 Best Paper Honorable Mention 후보로 지명되었습니다. SIGGRAPH의 최초 실시간 라이브 중국 팀은 생성 AI를 사용하여 3D 세계를 만듭니다.

王林
王林원래의
2024-08-09 16:03:49915검색

SIGGRAPH, die weltweit führende akademische Konferenz mit Schwerpunkt auf Computergrafik, zeichnet sich durch einen neuen Trend aus.

Auf der SIGGRAPH 2024-Konferenz, die letzte Woche stattfand, erhielt das Team vom MARS-Labor der Shanghai University of Science and Technology neben den besten Papers und anderen Auszeichnungen gleichzeitig zwei Ehrennominierungen für das beste Paper und seine Forschungsergebnisse sind Auch die Industrialisierung schreitet rasch voran.

Der Autor nutzt die Methode generativer Modelle, um einen neuen Weg zu eröffnen, Fantasie direkt in komplexe 3D-Modelle umzuwandeln. „Clay“ und „Dresscode“, die für die besten Beiträge nominiert sind, sind 3D-generierte Produkte und 3D-Kleidungsgenerierung.

两篇论文同时获最佳论文荣誉提名,SIGGRAPH上首个Real-Time Live的中国团队用生成式AI创建3D世界

In der Real-Time Live-Sitzung von SIGGARPH demonstrierte das Team der Shanghai University of Science and Technology eine Reihe von Anwendungsszenarien basierend auf diesen beiden Aufgaben in Echtzeit.

Zhang Qixuan, der Autor des Artikels, ein Doktorand im zweiten Jahr und CTO des Startups Yingmo Technology, demonstrierte erstmals die auf CLAY basierende 3D-Generierungslösung. Letztes Jahr nutzte das Shadow Eye-Team einfache Texteingabeaufforderungen (Prompt), um realistische 3D-Modelle für Zuckerberg und Huang Jen-Hsun zu erstellen und war damit das erste chinesische Team, das an SIGGRAPH Real-Time Live teilnahm. In diesem Jahr verwendet ihre 3D-Generierungslösung ein einzelnes Bild als Eingabe, um Cartoon-Bilder von Xiao Zha und Lao Huang in verschiedenen Stilen zu generieren.

Hinter diesen generierten Inhalten verbirgt sich die 3D-KI-Engine Rodin der neuen Generation, die eine Hommage an den berühmten Bildhauer Rodin darstellt. Der auf der Website angezeigte 3D-Inhalt wird direkt aus einem einzelnen vom Benutzer hochgeladenen Bild generiert, und Rodin kann außerdem PBR-Texturen und viereckige Oberflächen generieren, um weitere Änderungen und Verwendung durch Künstler zu erleichtern.

两篇论文同时获最佳论文荣誉提名,SIGGRAPH上首个Real-Time Live的中国团队用生成式AI创建3D世界Mit 3D ControlNet kann Rodin KI-generierte Formen steuern. Einfach als Leitfaden bereitgestellt, können einfache geometrische Elemente in Voxel umgewandelt und basierend auf den semantischen Informationen des Referenzbilds in die erforderlichen 3D-Assets umgewandelt werden.

两篇论文同时获最佳论文荣誉提名,SIGGRAPH上首个Real-Time Live的中国团队用生成式AI创建3D世界Rodin unterstützt auch direkte handgezeichnete Bilder, sogar einfache Graffiti. Zur Generierung von 3D-Figuren wurden einige Fotos verwendet, als Hintergrund dienten Graffiti-Bäume von Kindern. Die Entwickler agierten vor Ort in Echtzeit und erstellten in einer Minute eine vollständige 3D-Modellierungsszene. Als der Moderator fragte, wer das kleine Monster in der Mitte sei, sagte Zhang Qixuan humorvoll, dass es sich um KI handele.

两篇论文同时获最佳论文荣誉提名,SIGGRAPH上首个Real-Time Live的中国团队用生成式AI创建3D世界 Apropos, das letzte Mal, dass die 3D-Modellgenerierung aus dem Kreis gerissen wurde, war tatsächlich bei SIGGRAPH: Im Jahr 2021 stellte NVIDIA auf dieser Bühne die Methode zur Erstellung von 3D-Modellen für Huang Renxun vor und schockierte die Welt mit Fälschung und Echtheit Effekte.

Damals galt die 3D-Modellgenerierung als entscheidend für Technologien wie den digitalen Menschen und die virtuelle Realität. Es besteht jedoch kein Zweifel daran, dass die hohen Kosten für hochpräzises Körperscannen und Deep-Learning-Rekonstruktion dazu führen, dass es nicht in die Massenproduktion geht.

Der Einsatz von KI-Generierung könnte ein besserer Weg sein. In der Vergangenheit wurden die von Menschen in dieser Richtung vorgeschlagenen Technologien jedoch immer „mit Beifall begrüßt, waren aber nicht beliebt“. 两篇论文同时获最佳论文荣誉提名,SIGGRAPH上首个Real-Time Live的中国团队用生成式AI创建3D世界

Für praktische Anwendungen stellen diese Methoden einige Herausforderungen dar:

3D ist ein industrielles Problem. Es reicht nicht aus, dass ein Modell visuell gut funktioniert, sondern auch bestimmte Industriestandards einhalten, z. B. wie Materialien dargestellt werden Planung, wie sinnvoll die Struktur ist. Wenn es nicht an menschliche Industriestandards angepasst werden kann, erfordern die generierten Ergebnisse zahlreiche Anpassungen und lassen sich nur schwer auf die Produktion übertragen.

So wie große Sprachmodelle (LLM) an menschlichen Werten ausgerichtet werden müssen, müssen 3D-generierte KI-Modelle an komplexen 3D-Industriestandards ausgerichtet werden.

Es ist eine praktischere Lösung entstanden: 3D nativ

Eine der besten Papiernominierungen des MARS-Labors der Shanghai University of Science and Technology – CLAY hat es der Branche ermöglicht, eine praktikable Lösung für die oben genannten Probleme zu sehen, nämlich 3D einheimisch.

Wir wissen, dass die technischen Wege zur 3D-Generierung in den letzten zwei Jahren grob in zwei Kategorien unterteilt werden können: 2D-Dimensionalitätsverbesserung und natives 3D.

2D 차원 향상은 NeRF와 같은 방법을 결합한 2D 확산 모델을 통해 3차원 재구성을 달성하는 프로세스입니다. 대량의 2D 이미지 데이터를 학습할 수 있기 때문에 이러한 모델은 다양한 결과를 생성하는 경향이 있습니다. 그러나 2D 확산 모델의 3D 사전 기능이 부족하기 때문에 이러한 유형의 모델은 3D 세계를 이해하는 능력이 제한되어 있으며 불합리한 기하학적 구조(예: 머리가 여러 개인 사람이나 동물)로 결과를 생성하기 쉽습니다.

两篇论文同时获最佳论文荣誉提名,SIGGRAPH上首个Real-Time Live的中国团队用生成式AI创建3D世界

최근 일련의 다중 뷰 재구성 노력은 2D 확산 모델의 훈련 데이터에 3D 자산의 다중 뷰 2D 이미지를 추가하여 이 문제를 어느 정도 완화했습니다. 그러나 이러한 방법의 한계는 시작점이 2D 이미지이기 때문에 기하학적 충실도를 유지하기보다는 생성된 이미지의 품질에 중점을 두기 때문에 생성된 기하학적 구조가 불완전하고 세부 사항이 부족한 경우가 많습니다.

즉, 2D 데이터는 현실 세계의 한 면, 즉 투영만을 기록합니다. 여러 각도의 이미지는 3차원 콘텐츠를 완전히 설명할 수 없습니다. 따라서 모델이 학습하는 내용에는 여전히 많은 정보가 누락되어 있습니다. 생성된 결과는 여전히 많은 수정이 필요하고 업계 표준을 충족하기 어렵습니다.

이러한 한계를 고려하여 CLAY 연구팀은 3D 네이티브라는 또 다른 길을 선택했습니다.

이 경로는 3D 데이터 세트에서 직접 생성 모델을 훈련하여 다양한 3D 형상에서 풍부한 3D 사전을 추출합니다. 결과적으로 모델은 기하학적 특징을 더 잘 "이해"하고 보존할 수 있습니다.

그러나 이러한 유형의 모델은 강력한 생성 기능을 통해 "출현"할 수 있을 만큼 커야 하며 더 큰 모델은 더 큰 데이터 세트에서 훈련되어야 합니다. 우리 모두 알고 있듯이 고품질 3D 데이터 세트는 매우 부족하고 비용이 많이 들며 이는 기본 3D 경로가 해결해야 하는 첫 번째 문제입니다.

이 CLAY 논문에서 연구자들은 맞춤형 데이터 처리 파이프라인을 사용하여 여러 3D 데이터 세트를 마이닝하고 생성 모델을 확장하는 효과적인 기술을 제안합니다.

특히 데이터 처리 프로세스는 3D 데이터를 방수 메쉬로 변환하는 맞춤형 리메싱 알고리즘으로 시작하여 단단한 모서리와 평평한 표면과 같은 중요한 기하학적 특징을 조심스럽게 보존합니다. 또한 GPT-4V를 활용하여 중요한 기하학적 특징을 강조하는 상세한 주석을 작성했습니다.

위의 처리 과정을 거친 후 많은 데이터 세트가 CLAY 모델 학습에 사용되는 초대형 3D 모델 데이터 세트로 결합됩니다. 이전에는 형식이 다르고 일관성이 부족하여 이러한 데이터세트를 3D 생성 모델을 훈련하는 데 함께 사용한 적이 없었습니다. 처리된 결합 데이터 세트는 일관된 표현과 일관된 주석을 유지하므로 생성 모델의 일반화를 크게 향상시킬 수 있습니다.

이 데이터 세트를 사용하여 훈련된 CLAY에는 최대 15억 개의 매개변수를 갖춘 3D 생성 모델이 포함되어 있습니다. 데이터 세트 변환에서 암시적 표현, 출력까지의 정보 손실을 최대한 줄이기 위해 오랜 시간을 들여 심사하고 개선했으며 마침내 새롭고 효율적인 3D 표현 방법을 모색했습니다. 특히 그들은 연속적이고 완전한 표면을 설명하기 위해 3DShape2VecSet의 신경장 설계를 채택하고 이를 특별히 설계된 다중 해상도 기하학적 VAE와 결합하여 다양한 해상도의 포인트 클라우드를 처리하여 잠재 벡터 크기(잠재적 벡터 크기)에 적응할 수 있도록 했습니다. 크기).

两篇论文同时获最佳论文荣誉提名,SIGGRAPH上首个Real-Time Live的中国团队用生成式AI创建3D世界

CLAY는 모델 확장을 용이하게 하기 위해 최소한의 DiT(잠재 확산 변환기)를 사용합니다. Transformer로 구성되어 잠재 벡터 크기에 적응할 수 있으며 모델 확장성이 높습니다. 또한 CLAY는 잠재 벡터 크기와 모델 매개변수를 점진적으로 증가시켜 점진적인 훈련 방식을 도입합니다. 两篇论文同时获最佳论文荣誉提名,SIGGRAPH上首个Real-Time Live的中国团队用生成式AI创建3D世界

마지막으로 CLAY는 기하학의 정확한 제어를 달성하고 사용자는 프롬프트 단어를 조정하여 기하학 생성의 복잡성, 스타일 등(심지어 문자까지)을 제어할 수 있습니다. 이전 방법과 비교하여 CLAY는 상세한 형상을 신속하게 생성하고 평평한 표면 및 구조적 무결성과 같은 중요한 기하학적 특징을 잘 보장할 수 있습니다.

两篇论文同时获最佳论文荣誉提名,SIGGRAPH上首个Real-Time Live的中国团队用生成式AI创建3D世界

논문의 일부 결과는 기본 3D 경로의 장점을 완전히 보여줍니다. 아래 그림은 연구원이 데이터 세트에서 검색한 처음 3개의 가장 가까운 이웃 샘플을 보여줍니다. CLAY가 생성한 고품질 기하학은 프롬프트 단어와 일치하지만 데이터 세트의 샘플과 다르기 때문에 충분한 풍부함과 대형 모델에서 나올 수 있는 능력을 보여줍니다.

两篇论文同时获最佳论文荣誉提名,SIGGRAPH上首个Real-Time Live的中国团队用生成式AI创建3D世界

Um die direkte Nutzung der generierten digitalen Assets in bestehenden CG-Produktionspipelines zu ermöglichen, haben die Forscher außerdem eine zweistufige Lösung gewählt:

1. Die geometrische Optimierung gewährleistet strukturelle Integrität und Kompatibilität bei gleichzeitiger Beibehaltung der Ästhetik und der funktionalen Verfeinerung Form des Modells, wie z. B. Viereckigkeit, UV-Ausdehnung usw.;

2. Die Materialsynthese verleiht dem Modell eine realistische Textur. Zusammengenommen verwandeln diese Schritte ein grobes Netz in ein besser nutzbares Asset in einer digitalen Umgebung.

两篇论文同时获最佳论文荣誉提名,SIGGRAPH上首个Real-Time Live的中国团队用生成式AI创建3D世界

Unter anderem umfasst die zweite Stufe ein Multi-View-Materialdiffusionsmodell mit fast 1 Milliarde Parametern. Nach der Quadrifizierung des Netzes und der UV-Abwicklung wird über einen Multi-View-Ansatz ein PBR-Material generiert, das dann auf UV-Karten zurückprojiziert wird. Das Modell generiert realistischere PBR-Materialien als frühere Methoden, was zu realistischen Renderings führt.

两篇论文同时获最佳论文荣誉提名,SIGGRAPH上首个Real-Time Live的中国团队用生成式AI创建3D世界

Damit CLAY mehr Aufgaben unterstützen kann, haben die Forscher auch eine 3D-Version von ControlNet entwickelt. Die minimalistische Architektur ermöglicht die effiziente Unterstützung der Zustandskontrolle verschiedener Modi. Sie implementierten mehrere Beispielbedingungen, die Benutzer problemlos bereitstellen können, darunter Text (nativ unterstützt) sowie Bilder/Skizzen, Voxel, Multiview-Bilder, Punktwolken und Begrenzungsrahmen) und eine Teilpunktwolke mit einem Begrenzungsrahmen. Diese Bedingungen können einzeln oder in Kombination angewendet werden, sodass das Modell Inhalte basierend auf einer einzelnen Bedingung originalgetreu generieren oder mehrere Bedingungen kombinieren kann, um 3D-Inhalte mit Stil und Benutzerkontrolle zu erstellen, was eine breite Palette kreativer Möglichkeiten bietet.

两篇论文同时获最佳论文荣誉提名,SIGGRAPH上首个Real-Time Live的中国团队用生成式AI创建3D世界

Darüber hinaus unterstützt CLAY auch direkt Low-Rank Adaptation (LoRA) auf den Aufmerksamkeitsebenen von DiT. Dies ermöglicht eine effiziente Feinabstimmung, sodass der generierte 3D-Inhalt an einen bestimmten Stil angepasst werden kann.

两篇论文同时获最佳论文荣誉提名,SIGGRAPH上首个Real-Time Live的中国团队用生成式AI创建3D世界

Anhand dieser Designs ist nicht schwer zu erkennen, dass das Design von CLAY von Anfang an auf Anwendungsszenarien abzielt, was sich stark von einigen rein akademischen Untersuchungen unterscheidet.

Dadurch lässt sich das Modell auch schnell umsetzen: Rodin ist mittlerweile für viele 3D-Entwickler zum häufig verwendeten 3D-Generator geworden.文 Sie können auf klicken, um den Originaltext zu lesen und auf das Rodin-Erlebnisprodukt zuzugreifen (es wird empfohlen, die PC-Seite zu öffnen).

两篇论文同时获最佳论文荣誉提名,SIGGRAPH上首个Real-Time Live的中国团队用生成式AI创建3D世界

Viele Branchenanwender im In- und Ausland haben berichtet, dass die von Rodin generierten 3D-Assets über wissenschaftliche Geometrie, Verdrahtungsregeln und exquisite Materialkarten verfügen und direkt in bestehende Mainstream-Rendering-Engines importiert werden können sind kurz vor der Produktion. - Bereit für die 3D-Generierung.

Das MARS-Laborteam der Shanghai University of Science and Technology, das zu CLAY beigetragen hat, wurde in den 50 Jahren seit der Gründung von SIGGRAPH im Jahr 2023 als erstes chinesisches Team für die Echtzeit-Live-Sitzung ausgewählt. Das hat es getan stand zum zweiten Mal in Folge auf dieser Bühne.

两篇论文同时获最佳论文荣誉提名,SIGGRAPH上首个Real-Time Live的中国团队用生成式AI创建3D世界 Shadow Eye Technology erforscht den Weg der nativen 3D-KI und entwickelt 3D-Produkte, die kurz vor der Produktionsreife stehen, wodurch die Schwelle für die 3D-Erstellung deutlich gesenkt wird.

Die auf CLAY basierende 3D-Generierungstechnologie gibt nicht nur die Richtung der Branche vor, sondern wird auch eine positive Rolle bei der Generierung von Bildern und Videos spielen. Denn aus Sicht der Informationsentropie ist der Spielraum für das Modell umso größer, je weniger Informationen Sie bereitstellen. Durch 3D-Modellierung kann die Konvergenzrichtung verankert und die Steuerbarkeit der Bild- und Videoerzeugung verbessert werden.

Der 3D-Bereich selbst ist jedoch nicht so einfach wie Bilder und Videos. Erst wenn die vollständige Kette abgeschlossen ist, werden Benutzer beginnen, die Fähigkeiten von 3D + KI wirklich zu akzeptieren. Dieser Teil der Arbeit kann über die API des Partners oder von dessen Team selbst erledigt werden. 两篇论文同时获最佳论文荣誉提名,SIGGRAPH上首个Real-Time Live的中国团队用生成式AI创建3D世界

Ich freue mich auf die weitere Implementierung neuer Technologien in der Zukunft.

위 내용은 두 개의 논문이 동시에 Best Paper Honorable Mention 후보로 지명되었습니다. SIGGRAPH의 최초 실시간 라이브 중국 팀은 생성 AI를 사용하여 3D 세계를 만듭니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.