컴퓨터 그래픽 분야에서 삼각형 메시는 3차원 기하학적 객체를 표현하는 주요 방법이자 게임, 영화, 가상현실 인터페이스에서 가장 일반적으로 사용되는 3차원 리소스 표현 방식이기도 합니다. 업계에서는 일반적으로 삼각형 메시를 사용하여 건물, 차량, 동물 등과 같은 복잡한 개체의 표면을 시뮬레이션합니다. 동시에 일반적인 기하학적 변환, 형상 감지, 렌더링 및 음영 작업도 삼각형 메쉬를 기반으로 수행되어야 합니다. 포인트 클라우드나 복셀과 같은 다른 3D 모양 표현과 비교할 때 삼각형 메쉬는 더 일관된 표현을 제공합니다. 제어 가능하고 작동하기 쉽고 더 컴팩트하며 최신 렌더링 파이프라인에 직접 적용할 수 있어 더 적은 기본 요소로 더 높은 시각적 품질을 달성할 수 있습니다
이전 연구자들은 볼륨을 사용하려고 시도했습니다. 픽셀, 포인트 클라우드 및 신경과 같은 표현 방법 필드는 3D 모델을 생성하는 데 사용됩니다. 이러한 표현 방법은 등가곡면 처리를 위한 Marching Cubes 알고리즘을 사용하는 등 다운스트림 응용 프로그램에서 사용하기 위해 후처리를 통해 메시로 변환되어야 합니다. 불행하게도 이 접근 방식은 다음과 같은 문제로 이어질 수 있습니다. 너무 조밀하고 너무 세밀하게 메쉬된 메쉬, 종종 아래 표시된 것과 같이 과도한 스무딩 및 등가곡면 처리로 인해 울퉁불퉁한 오류가 발생하는 경우가 많습니다.
이에 비해 3D 모델링 전문가가 모델링한 3D 메쉬는 표현이 더 컴팩트합니다. 더 적은 수의 삼각형으로 선명한 디테일을 유지합니다.
많은 연구자들은 오랫동안 삼각형 메쉬를 자동으로 생성하는 작업을 해결하여 3D 자산 생성 프로세스를 더욱 단순화하기를 희망해 왔습니다.
최근 논문에서 연구원들은 메시 표현을 삼각형 집합으로 직접 생성하는 새로운 솔루션인 MeshGPT를 제안했습니다.
논문 링크는 https://nihalsid.github.io/mesh-gpt/static/MeshGPT.pdf
Transformer 언어 생성 모델에서 영감을 받아 다음을 채택했습니다. 삼각형 메쉬를 삼각형 시퀀스로 합성하는 직접 시퀀스 생성 방법
텍스트 생성 패러다임에 따라 연구자는 먼저 삼각형 어휘를 학습하고 삼각형은 잠재 양자화 임베딩으로 인코딩됩니다. 학습된 삼각형 임베딩이 로컬 기하학적 및 위상적 특징을 보존하도록 장려하기 위해 그래프 컨벌루션 인코더를 사용합니다. 그런 다음 이러한 삼각형 임베딩은 삼각형을 나타내는 토큰 시퀀스를 처리하여 삼각형의 정점 좌표를 생성하는 ResNet 디코더에 의해 디코딩됩니다. 마지막으로 연구원들은 학습된 어휘를 기반으로 GPT 기반 아키텍처를 훈련하여 메쉬를 나타내는 일련의 삼각형을 자동으로 생성하고 명확한 가장자리와 높은 충실도의 이점을 달성했습니다.
ShapeNet 데이터세트의 여러 범주에 대한 실험에서는 MeshGPT가 기존 기술에 비해 생성된 3D 메시의 품질을 크게 향상시켜 형상 적용 범위가 평균 9% 향상되고 FID 점수가 30점 향상되었습니다.
MeshGPT는 소셜 미디어 플랫폼에서도 열띤 토론을 불러일으켰습니다.
누군가는 "이것은 정말 혁명적인 아이디어입니다."라고 말했습니다.한 네티즌은 하이라이트를 지적했습니다. 이 방법의 장점은 다른 3D 모델링 방법의 가장 큰 장애물인 편집 기능을 극복했다는 것입니다.
누군가는 1990년대 이후 해결되지 않은 모든 문제가 트랜스포머: 에서 영감을 받을 수 있을 것이라고 과감하게 예측했습니다.
3D/영화 제작 관련 산업에 종사하는 사용자 중 진로에 대한 고민을 표현한 사용자도 있습니다. 그러나 일부 사람들은 다음과 같은 지적을 했습니다. 종이에 따르면 이 방법은 아직 대규모 적용 단계에 이르지 못했다. 전문 모델러는 5분 이내에 이러한 메쉬를 완전히 생성할 수 있습니다.
이 논평자는 다음 단계는 LLM이 3D 시드 생성을 제어하고 이미지 모델을 Autoregressive 부분에 추가하는 것일 수 있다고 제안했습니다. 건축. 이 지점에 도달하면 게임 및 기타 장면을 위한 3D 자산 제작을 대규모로 자동화할 수 있습니다. 다음으로 MeshGPT 논문의 연구 내용을 살펴보겠습니다. 대규모 언어 모델의 발전에 영감을 받아 연구원들은 삼각형 메시를 삼각형 시퀀스로 자동 회귀적으로 생성하는 시퀀스 기반 방법을 개발했습니다. 이 방법은 날카로운 모서리와 높은 충실도를 갖춘 깨끗하고 일관되며 컴팩트한 메시를 생성합니다. 연구원들은 먼저 삼각형을 인코딩하고 디코딩할 수 있도록 수많은 3D 개체 메시에서 기하학적 어휘 임베딩을 배웠습니다. 그런 다음 학습된 임베딩 어휘를 기반으로 그리드 생성을 위한 Transformer가 인덱스 예측을 위해 자동 회귀 방식으로 학습됩니다. 삼각형 어휘를 배우기 위해 연구원들은 메쉬와 그 이웃의 삼각형에서 작동하는 그래프 컨벌루션 인코더를 채택하여 풍부한 기하학적 특징을 추출하고 3D 모양의 복잡한 세부 사항을 캡처했습니다. 이러한 특징은 잔여 양자화를 통해 코드북에 임베딩(Embedding)으로 양자화되어 그리드 표현의 시퀀스 길이를 효과적으로 줄입니다. 정렬 후 이러한 포함된 정보는 재구성 손실에 따라 1차원 ResNet에 의해 디코딩됩니다. 이 단계는 Transformer의 후속 교육을 위한 기반을 마련합니다. 다음으로 연구원들은 이러한 양자화된 기하학적 임베딩을 사용하여 GPT와 유사한 순수 디코더 변환기를 훈련했습니다. 메시 삼각형에서 기하학적 임베딩 시퀀스를 추출하고 변환기를 훈련하여 시퀀스의 다음 임베딩 코드북 인덱스를 예측합니다. 훈련 후 변환기는 자동 회귀 샘플링을 통해 임베딩 시퀀스를 예측한 다음 디코딩할 수 있습니다. 이러한 임베딩은 사람이 그린 메쉬와 유사하게 효율적이고 불규칙한 삼각형을 나타내는 새롭고 다양한 메쉬 구조를 생성합니다. MeshGPT는 그래프 컨볼루션 인코더를 사용하여 메시 표면을 처리하고 기하학적 이웃 정보를 사용하여 3D 모양의 복잡한 세부 사항을 나타내는 강력한 특징을 캡처한 다음 잔차 양자화 방법을 사용하여 이러한 특징을 양자화합니다. 코드북 임베딩 . 이 접근 방식은 단순한 벡터 양자화에 비해 더 나은 재구성 품질을 보장합니다. MeshGPT는 재구성 손실에 따라 ResNet을 통해 양자화된 임베딩을 정렬하고 디코딩합니다. 이 연구에서는 Transformer 모델을 사용하여 사전 훈련된 코드북 어휘 라이브러리에서 토큰 인덱스로 그리드 시퀀스를 생성합니다. 훈련 중에 이미지 인코더는 메시 표면에서 특징을 추출하고 이를 표면 임베딩 세트로 양자화합니다. 이러한 임베딩은 타일링되고 시작 및 종료 토큰으로 표시된 다음 위의 GPT 유형 변환기 모델에 공급됩니다. 디코더는 교차 엔트로피 손실로 최적화되어 각 임베딩에 대한 후속 코드북 인덱스를 예측합니다. 이 연구에서는 MeshGPT를 일반적인 메시 생성 방법과 비교하는 실험을 수행했습니다.
그림 6, 그림 7 및 표 1에서 볼 수 있듯이 MeshGPT는 4개 범주 모두에서 기준 방법보다 성능이 뛰어납니다. MeshGPT는 더 미세한 기하학적 세부 사항으로 선명하고 컴팩트한 메시를 생성할 수 있습니다. 구체적으로, MeshGPT는 Polygen에 비해 더 복잡한 세부 사항을 가진 모양을 생성할 수 있으며, Polygen은 추론 중에 오류가 누적될 가능성이 더 높으며, AtlasNet은 종종 접히는 아티팩트로 인해 다양성과 모양 품질이 저하됩니다. BSPNet의 평면 BSP 사용은 낮습니다. 나무는 특이한 삼각측량 패턴을 사용하여 덩어리진 모양을 생성하는 경향이 있습니다. GET3D는 우수한 상위 수준 모양 구조를 생성하지만 너무 많은 삼각형과 불완전한 평면이 있습니다.
이 연구를 통해 사용자는 MeshGPT에서 생성된 메시의 품질을 평가할 수 있습니다. AtlasNet, Polygen 및 BSPNet보다. 대부분의 사용자는 GET3D에 비해 MeshGPT에서 생성된 형상 품질(68%)과 삼각측량 품질(73%)을 선호했습니다.
다시 쓴 내용은 참신한 형태입니다. 그림 8에 표시된 것처럼 MeshGPT는 훈련 데이터 세트를 넘어서는 새로운 모양을 생성할 수 있으므로 모델이 기존 모양을 검색하는 것 이상의 작업을 수행하도록 보장합니다
모양 완성. 아래 그림 9에 표시된 것처럼 MeshGPT는 주어진 로컬 모양을 기반으로 여러 가능한 완성을 추론하고 여러 모양 가설을 생성할 수도 있습니다.
방법 개요
실험 결과
위 내용은 Transformer는 3D 모델링에 혁명을 일으키고 MeshGPT 생성 효과는 전문 모델러, 네티즌에게 경고합니다: 혁명적인 아이디어의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!