생성 AI 대형 모델은 OpenAI의 노력의 초점입니다. OpenAI는 이미 올해 초 텍스트 기반 3D 모델을 생성하는 POINT-E뿐만 아니라 텍스트 생성 이미지 모델인 DALL-E를 출시했습니다.
최근 OpenAI 연구팀은 3D 생성 모델을 업그레이드하고 3D 자산 합성을 위한 조건부 생성 모델인 Shap・E를 새롭게 출시했습니다. 현재 관련 모델 가중치, 추론 코드 및 샘플이 오픈 소스로 제공되어 있습니다.
먼저 세대효과를 살펴보겠습니다. 텍스트를 기반으로 이미지를 생성하는 것과 유사하게 Shap・E에서 생성된 3D 개체 모델은 "구속되지 않음"에 중점을 둡니다. 예를 들어, 바나나처럼 생긴 비행기:
나무처럼 생긴 의자:
그리고 전형적인 예인 아보카도처럼 생긴 의자:
물론 야채 한 그릇과 같은 몇 가지 일반적인 물체의 3차원 모델을 생성할 수도 있습니다. 이 기사는 NeRF 및 텍스처 메시로 렌더링될 수 있는 3D 공간 잠재 확산 모델의 암시적 기능입니다.
동일한 데이터 세트, 모델 아키텍처 및 훈련 계산을 고려할 때 Shap・E는 유사한 명시적 생성 모델보다 성능이 뛰어납니다. 연구원들은 순수 텍스트 조건부 모델이 다양하고 흥미로운 객체를 생성할 수 있다는 것을 발견했으며, 이는 암시적 표현 생성의 잠재력도 보여줍니다.
단일 출력 표현을 생성하는 3D 생성 모델 작업과 달리 Shap-E는 암시적 함수의 매개변수를 직접 생성할 수 있습니다. Shap-E 훈련은 두 단계로 나뉩니다. 첫 번째는 3D 자산을 암시적 함수의 매개변수에 결정론적으로 매핑하는 인코더 훈련이고, 두 번째는 인코더 출력에 대한 조건부 확산 모델을 훈련하는 것입니다. 3D와 텍스트 데이터가 결합된 대규모 데이터 세트에 대해 학습하면 모델은 몇 초 만에 복잡하고 다양한 3D 자산을 생성할 수 있습니다. 포인트 클라우드 명시적 생성 모델인 Point・E와 비교하여 Shap-E는 고차원, 다중 표현 출력 공간을 모델링하고 더 빠르게 수렴하며 동등하거나 더 나은 샘플 품질을 달성합니다.
연구 배경이 문서는 3D 표현을 위한 두 가지 암시적 신경 표현(INR)에 중점을 둡니다. INR은 유연하고 표현력이 풍부하지만 데이터 세트의 모든 샘플에 대해 INR을 얻는 데는 비용이 많이 듭니다. 또한 각 INR에는 많은 수치 매개변수가 있을 수 있으며 이로 인해 다운스트림 생성 모델을 훈련할 때 어려움을 겪을 수 있습니다. 암시적 디코더가 포함된 자동 인코더를 사용하여 이러한 문제를 해결함으로써 기존 생성 기술로 직접 모델링되는 더 작은 잠재 표현을 얻을 수 있습니다. 대안적인 접근 방식은 메타 학습을 사용하여 대부분의 매개 변수를 공유하는 INR 데이터 세트를 만든 다음 이러한 INR의 자유 매개 변수에 대해 확산 모델 또는 정규화된 흐름을 훈련하는 것입니다. 또한 그라디언트 기반 메타 학습이 필요하지 않을 수 있으며 대신 Transformer 인코더를 직접 훈련하여 3D 객체의 여러 뷰에 따라 조정된 NeRF 매개변수를 생성해야 한다는 제안도 있었습니다. 연구원들은 위의 방법을 결합하고 확장하여 마침내 다양한 복잡한 3D 암시적 표현을 위한 조건부 생성 모델이 된 Shap・E를 얻었습니다. 먼저 Transformer 기반 인코더를 교육하여 3D 자산에 대한 INR 매개변수를 생성한 다음 인코더 출력에 대한 확산 모델을 교육합니다. 이전 접근 방식과 달리 NeRF와 메시를 모두 나타내는 INR이 생성되므로 다양한 방식으로 렌더링하거나 다운스트림 3D 애플리케이션으로 가져올 수 있습니다. 수백만 개의 3D 자산 데이터세트에 대해 교육을 받으면 우리 모델은 텍스트 프롬프트 조건에서 식별 가능한 다양한 샘플을 생성할 수 있습니다. Shap-E는 최근 제안된 명시적 3D 생성 모델인 Point·E보다 빠르게 수렴합니다. 동일한 모델 아키텍처, 데이터 세트 및 컨디셔닝 메커니즘을 사용하여 유사하거나 더 나은 결과를 얻을 수 있습니다. 연구원은 먼저 암시적 표현을 생성하도록 인코더를 교육한 다음 인코더에서 생성된 잠재 표현에 대한 확산 모델을 교육합니다. 이는 주로 다음 두 단계로 완료됩니다. 1 알려진 3D 자산의 조밀하고 명시적인 표현을 바탕으로 암시적 함수의 매개변수를 생성하여 인코더를 훈련합니다. 인코더는 3D 자산의 잠재 표현을 생성한 다음 선형으로 투영하여 다층 퍼셉트론(MLP)의 가중치를 얻습니다. 2 인코더를 데이터 세트에 적용한 다음 잠재 데이터 세트에 대한 확산을 훈련합니다. 모델은 이미지나 텍스트 설명을 조건으로 합니다. 연구원들은 해당 렌더링, 포인트 클라우드 및 텍스트 캡션을 사용하여 대규모 3D 자산 데이터 세트에서 모든 모델을 훈련했습니다. 3D 인코더 인코더 아키텍처는 아래 그림 2에 나와 있습니다. 잠재 확산 생성 모델은 변환기 기반 Point・E 확산 아키텍처를 사용하지만 포인트 클라우드 대신 잠재 벡터 시퀀스를 사용합니다. 잠재 함수 모양의 시퀀스는 1024×1024이며 1024개의 토큰 시퀀스로 변환기에 입력됩니다. 여기서 각 토큰은 MLP 가중치 행렬의 다른 행에 해당합니다. 따라서 이 모델은 계산적으로 기본 Point·E 모델과 거의 동일합니다(즉, 컨텍스트 길이와 너비가 동일합니다). 이를 기반으로 입력 및 출력 채널이 추가되어 고차원 공간에서 샘플을 생성합니다. 인코더 평가 연구원들은 인코더 교육 과정 전반에 걸쳐 두 가지 렌더링 기반 측정항목을 추적했습니다. 먼저 재구성된 이미지와 실제 렌더링된 이미지 사이의 PSNR(최고 신호 대 잡음비)을 평가합니다. 또한 3D 자산의 의미론적으로 관련된 세부 사항을 캡처하는 인코더의 능력을 측정하기 위해 재구성된 NeRF 및 STF 렌더링을 위한 CLIP R-Precision은 가장 큰 Point·E 모델에서 생성된 메시를 인코딩하여 재평가되었습니다. 아래 표 1은 다양한 훈련 단계에서 이 두 측정항목의 결과를 추적합니다. 증류는 NeRF 재구성 품질에 해를 끼치는 반면, 미세 조정은 복원뿐만 아니라 NeRF 품질을 약간 향상시키는 동시에 STF 렌더링 품질을 크게 향상시키는 것을 알 수 있습니다.
연구원이 제안한 잠재 확산 모델은 Point・E와 동일한 아키텍처, 훈련 데이터 세트 및 조건부 패턴을 가지고 있습니다. Point·E와의 비교는 명시적 표현보다는 암시적 신경 표현 생성의 효과를 구별하는 데 더 유용합니다. 아래 그림 4에서는 샘플 기반 평가 지표에 대한 이러한 방법을 비교합니다. 정성적 샘플은 아래 그림 5에 나와 있으며, 이러한 모델은 종종 동일한 텍스트 프롬프트에 대해 다양한 품질의 샘플을 생성하는 것을 볼 수 있습니다. 학습이 끝나기 전에 텍스트 조건 Shap·E는 평가에서 악화되기 시작합니다. 연구진은 아래 그림 6(a)에서 볼 수 있듯이 Shap·E와 Point·E가 유사한 실패 사례를 공유하는 경향이 있음을 발견했습니다. 이는 훈련 데이터, 모델 아키텍처 및 조건화된 이미지가 선택된 표현 공간보다 생성된 샘플에 더 큰 영향을 미친다는 것을 의미합니다. 우리는 두 이미지 조건 모델 사이에 여전히 질적인 차이가 있음을 관찰할 수 있습니다. 예를 들어 아래 그림 6(b)의 첫 번째 행에서 Point・E는 벤치의 작은 간격을 무시하는 반면 Shap・E는 모델을 만들어 보세요. 이 기사에서는 포인트 클라우드가 얇은 특징이나 간격을 잘 표현하지 못하기 때문에 이러한 특정 불일치가 발생한다고 가정합니다. 또한 표 1에서는 Point·E 샘플에 적용할 때 3D 인코더가 CLIP R-Precision을 약간 감소시키는 것으로 나타났습니다.
다른 방법과의 비교 아래 표 2에서 연구원들은 CLIP R-Precision 측정 기준에 따라 Shape・E를 더 넓은 범위의 3D 생성 기술과 비교했습니다.
Shap-E는 간단한 속성을 가진 많은 단일 개체 프롬프트를 이해할 수 있지만 개념을 결합하는 능력에는 제한이 있습니다. 아래 그림 7에서 볼 수 있듯이 이 모델은 여러 속성을 서로 다른 개체에 바인딩하기 어렵게 만들고 세 개 이상의 개체가 요청될 때 올바른 수의 개체를 효율적으로 생성하지 못합니다. 이는 쌍을 이루는 훈련 데이터가 충분하지 않기 때문일 수 있으며 주석이 달린 더 큰 3D 데이터 세트를 수집하거나 생성하여 해결할 수 있습니다. 또한 Shap・E는 인식 가능한 3D 자산을 생성하지만 이는 종종 거칠게 보이거나 디테일이 부족합니다. 아래 그림 3은 인코더가 때때로 상세한 텍스처(예: 선인장의 줄무늬)를 잃는 것을 보여줍니다. 이는 향상된 인코더가 손실된 생성 품질 중 일부를 복원할 수 있음을 시사합니다.
더 기술적이고 실험적인 세부 사항은 원본 논문을 참조하세요.
방법 개요
실험 결과
제한 사항 및 전망
위 내용은 OpenAI 텍스트 생성 3D 모델이 업그레이드되어 몇 초 만에 모델링이 완료되어 Point·E보다 활용도가 높습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!