>  기사  >  기술 주변기기  >  확산 모델과 NeRF를 결합한 Tsinghua Wensheng은 SOTA를 달성하기 위한 새로운 3D 방법을 제안했습니다.

확산 모델과 NeRF를 결합한 Tsinghua Wensheng은 SOTA를 달성하기 위한 새로운 3D 방법을 제안했습니다.

王林
王林앞으로
2024-01-02 16:52:351161검색

텍스트를 이용해 3D 그래픽을 합성하는 AI 모델에 새로운 SOTA가 생겼습니다!

최근 칭화대학교 류용진 교수 연구팀은 확산 모델을 기반으로 한 빈센트 3D의 새로운 방식을 제안했습니다.

다른 관점 사이의 일관성과 프롬프트 단어와의 매칭 모두 이전에 비해 크게 향상되었습니다.

확산 모델과 NeRF를 결합한 Tsinghua Wensheng은 SOTA를 달성하기 위한 새로운 3D 방법을 제안했습니다.Pictures

빈센트 3D(Vincent 3D)는 3D AIGC의 뜨거운 연구 콘텐츠로 학계와 업계에서 폭넓은 관심을 받고 있습니다.

유용진 교수 연구팀이 제안한 새로운 모델은 TICD(Text-Image Conditioned Diffusion)로, T3Bench 데이터 세트에서 SOTA 수준에 도달했습니다.

관련 논문이 출판되었으며 코드는 곧 오픈소스로 공개될 예정입니다.

평가 결과가 SOTA에 도달했습니다

연구팀은 TICD 방법의 효과를 평가하기 위해 먼저 정성적 실험을 수행하고 이전의 몇 가지 더 나은 방법을 비교했습니다.

결과에 따르면 TICD 방식으로 생성된 3D 그래픽은 품질이 더 좋고 그래픽이 더 선명하며 프롬프트 단어와의 일치도가 더 높은 것으로 나타났습니다.

확산 모델과 NeRF를 결합한 Tsinghua Wensheng은 SOTA를 달성하기 위한 새로운 3D 방법을 제안했습니다.Pictures

이러한 모델의 성능을 추가로 평가하기 위해 팀은 T3Bench 데이터 세트에서 이러한 방법으로 TICD를 정량적으로 테스트했습니다.

결과에 따르면 TICD는 단일 객체, 배경이 있는 단일 객체, 다중 객체의 세 가지 프롬프트 세트에서 가장 좋은 결과를 얻었으며 생성 품질과 텍스트 정렬 모두에서 전반적인 이점을 입증했습니다.

확산 모델과 NeRF를 결합한 Tsinghua Wensheng은 SOTA를 달성하기 위한 새로운 3D 방법을 제안했습니다.Pictures

또한 이러한 모델의 텍스트 정렬을 추가로 평가하기 위해 연구팀은 3D 개체가 렌더링한 그림과 원래 프롬프트 단어 간의 CLIP 코사인 유사성도 테스트했으며 그 결과는 다음과 같습니다. 여전히 TICD의 성능은 최적입니다.

확산 모델과 NeRF를 결합한 Tsinghua Wensheng은 SOTA를 달성하기 위한 새로운 3D 방법을 제안했습니다.

그렇다면 TICD 방식은 어떻게 이런 효과를 얻을 수 있을까요?

NeRF 감독에 앞서 멀티뷰 일관성을 통합합니다

현재 주류 3D 텍스트 생성 방법은 대부분 사전 훈련된 2D 확산 모델을 사용하여 SDS(Score Distillation Sampling)를 통해 NeRF(Neural Radiation Field)를 최적화하여 새로운 3D 모델을 생성합니다.

그러나 이 사전 훈련된 확산 모델이 제공하는 감독은 입력 텍스트 자체로 제한되며 여러 뷰 간의 일관성을 제한하지 않으며 생성된 기하학적 구조가 불량한 등의 문제를 일으킬 수 있습니다.

이전 확산 모델에 다중 시점 일관성을 도입하기 위해 최근 일부 연구에서는 다중 시점 데이터를 사용하여 2D 확산 모델을 미세 조정하지만 여전히 세분화된 시점 간 연속성이 부족합니다.

이 문제를 해결하기 위해 TICD 방법은 텍스트 조건 및 이미지 조건 멀티뷰 이미지를 NeRF 최적화 감독 신호에 통합하여 각각 3D 정보와 프롬프트 단어의 정렬과 서로 다른 뷰 간의 강력한 상관 관계를 보장합니다. 3D 객체의 일관성은 생성된 3D 모델의 품질을 효과적으로 향상시킵니다.

확산 모델과 NeRF를 결합한 Tsinghua Wensheng은 SOTA를 달성하기 위한 새로운 3D 방법을 제안했습니다.Pictures

작업 흐름에서 TICD는 먼저 직교 참조 카메라 관점의 여러 세트를 샘플링하고 NeRF를 사용하여 해당 참조 뷰를 렌더링한 다음 이러한 참조 뷰에 텍스트 기반 조건부 확산 모델을 적용하여 콘텐츠와 텍스트의 전반적인 일관성.

이를 바탕으로 여러 참조 카메라 관점 세트를 선택하고 각 관점에 대해 추가로 새로운 관점에서 뷰를 렌더링합니다. 그런 다음 두 뷰와 관점 간의 포즈 관계를 새로운 조건으로 사용하고 이미지 기반 조건부 확산 모델을 사용하여 서로 다른 관점 간의 세부 사항의 일관성을 제한합니다.

두 가지 확산 모델의 감독 신호를 결합하여 TICD는 NeRF 네트워크의 매개변수를 업데이트하고 최종 NeRF 모델이 얻어질 때까지 반복적으로 최적화하여 고품질의 기하학적으로 명확하고 텍스트와 일치하는 3D 콘텐츠를 렌더링할 수 있습니다.

또한 TICD 방식은 기존 방식이 특정 텍스트 입력 시 발생할 수 있는 기하학적 정보의 소멸, 잘못된 기하학적 정보의 과도한 생성, 색상 혼동 등의 문제를 효과적으로 제거할 수 있습니다.

논문 주소: https://www.php.cn/link/8553adf92deaf5279bcc6f9813c8fdcc


위 내용은 확산 모델과 NeRF를 결합한 Tsinghua Wensheng은 SOTA를 달성하기 위한 새로운 3D 방법을 제안했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제