최근 Vincent의 비디오 모델 Sora는 생성 AI 모델의 새로운 물결을 일으켰고, 모델의 다중 모드 기능이 널리 주목을 받았습니다.
이제 AI 모델은 3D 콘텐츠 생성에서 새로운 혁신을 이루었습니다.
영상 생성 및 영상 생성 프로젝트를 성공적으로 런칭한 후, 영상 콘텐츠 생성을 전문으로 하는 Stability AI는 이제 3D 분야로 확장을 위해 노력하고 있습니다. 최신 뉴스에 따르면 회사는 중국 팀 VAST와 협력하여 TripoSR이라는 단일 이미지 생성 3D 모델 프로젝트를 공동으로 오픈 소스화했습니다. 이번 움직임은 디지털 콘텐츠 생성 분야에서 Stability AI의 선도적인 위치를 더욱 공고히 하고 사용자에게 더욱 다양하고 혁신적인 제품 경험을 제공합니다.
TripoSR은 단일 이미지에서 0.5초 만에 고품질 3D 모델을 생성할 수 있으며 GPU를 실행하지 않아도 됩니다.
TripoSR 모델 코드: https://github.com/VAST-AI-Research/TripoSR
TripoSR 모델 가중치: https://huggingface.co/stabilityai/TripoSR
TripoSR 데모: https://huggingface.co/spaces/stabilityai/TripoSR
NVIDIA A100에서 TripoSR을 테스트했을 때 약 0.5초 만에 텍스처가 포함된 고품질 스케치 3D 메시 모델을 생성할 수 있었습니다. OpenLRM과 같은 3D 모델 도구에 대한 다른 오픈 소스 이미지를 능가합니다. 속도 외에도 TripoSR은 GPU 유무에 관계없이 사용자가 완벽하게 사용할 수 있습니다.
TripoSR은 Adobe가 2023년 11월 출시한 LRM에서 영감을 받았습니다. 이는 영상 생성을 위한 3D Large Reconstruction Model(LRM)을 위한 혁신적인 기술입니다. LRM은 단 몇 초 만에 단일 입력 이미지에서 해당 3D 모델을 생성할 수 있다는 점에서 독특합니다. 이 기술은 효율성과 정확성 측면에서 획기적이며 사용자는 평면 이미지를 사실적인 3차원 모델로 쉽게 변환할 수 있습니다. TripoSR은 이 기술을 기반으로 더욱 개발되고 최적화되어 사용자가 놀라운 3차원 장면을 보다 빠르고 정확하게 만들 수 있습니다. LRM
LRM을 결합함으로써 Tusheng 3D 모델 작업을 시퀀스 간 번역 작업으로 돌파하고 공식화합니다. 입력 이미지와 출력 3D 모델을 두 가지 다른 언어로 상상하면 Tusheng 3D 작업이 이해될 수 있는 프로세스는 다음과 같습니다. 이미지 언어를 3D 모델 언어로 변환합니다. 이미지 언어의 "단어"(언어 모델의 토큰 및 비디오 모델의 패치와 유사)는 사용자 입력 이미지가 분할되는 작은 조각인 반면 LRM 방법에서는 3D의 "단어"입니다. 모델 언어는 "triplane"의 3차원 표현에 있는 각 작은 블록에 대해 LRM이 수행하는 작업은 이미지 언어의 "단어"를 3D 모델 언어의 "단어"로 번역하는 것입니다. 이미지를 입력하고 3D 모델을 출력합니다.
transformer 아키텍처의 지원으로 LRM은 백만 개 이상의 공개 3D 데이터에 대한 교육을 받았으며 경이로운 그래픽 3D 효과와 효율성을 입증하여 학계와 산업계에 큰 반향을 일으켰습니다. 그러나 관련 코드와 모델은 오픈 소스가 아니며, 막대한 교육 비용(1주일 동안 128개의 A100을 실행)도 소규모 연구 조직을 어렵게 만들었습니다. 이러한 요인으로 인해 이 기술의 민간 개발이 크게 방해되었습니다.
이번 Tripo AI와 Stability AI는 LRM의 최초 고품질 오픈 소스 구현인 TripoSR을 공동 출시했습니다. TripoSR은 사용자가 제공한 이미지를 기반으로 거의 실시간으로 고품질 3D 모델을 생성할 수 있어 3D 생성 인공 지능 분야.
Stability의 블로그와 기술 보고서에 따르면 이 모델은 LRM의 원래 알고리즘을 기반으로 하며 Objaverse 데이터 세트의 정밀하게 필터링 및 렌더링된 하위 집합과 일련의 모델 및 훈련 개선 기능을 통해 제한된 훈련 데이터의 일반화를 크게 향상시킵니다. 3D 재구성의 충실도도 향상됩니다. TripoSR이 등장하기 전까지 학계 및 오픈 소스 커뮤니티에는 강력한 일반화 기능을 갖춘 개방적이고 빠르며 강력한 3D 생성 기본 모델 및 프레임워크가 부족했습니다. threestudio와 같은 오픈 소스 프로젝트가 널리 주목을 받고 있지만 3D 모델 생성은 긴 최적화 및 계산 시간이 필요한 기술(예: 증류 점수 샘플링)로 인해 느리고 리소스 집약적입니다. Stability AI가 이전에 이 경로를 따라 출시한 Stable Zero123 프로젝트와 threestudio에서의 통합 시도는 어느 정도 진전을 이루었지만 여전히 이러한 문제를 완전히 해결하지 못했습니다.
TripoSR 오픈 소스를 통해 전 세계 연구자, 개발자 및 창의적인 작업자가 가장 진보된 3D 생성 AI 모델에 액세스할 수 있으며, 이를 통해 다양한 기업이 3D 콘텐츠를 사용하여 보다 복잡한 제품과 서비스를 만들고 3D 산업의 새로운 창의적 가능성을 탐색할 수 있습니다. 더욱 활발하고 경쟁적인 시장.性 차트는 3D 성능 F-SCORE(높을수록 좋음)와 추론 시간(낮을수록 좋음) 간의 관계를 보여줍니다.
3D 콘텐츠 생성 기술은 최근 몇 년 동안 컴퓨터 그래픽 및 컴퓨터 비전 분야에서 꾸준한 발전을 경험해 왔습니다. 지난 1년여 동안 특히 대규모 공개 3D 데이터 세트의 출현과 2D 이미지 및 비디오 분야의 강력한 생성 모델의 발전으로 3D 생성 기술은 엄청나게 빠른 발전을 이루며 업계의 광범위한 관심을 끌었습니다. . 이러한 맥락에서 Google 연구팀이 제안한 DreamFusion과 같은 SDS(Score Distillation Sampling) 기반 기술은 다양한 관점에서 3D 모델을 생성하는 데 획기적인 발전을 이루었지만 여전히 생성 시간이 길고 실제 적용에 어려움을 겪고 있습니다. 생성된 모델과 같은 제약 조건을 세밀하게 제어합니다.반면, 이번에 출시된 TripoSR과 같은 대규모 3D 데이터 세트와 대규모 확장 가능한 모델 아키텍처를 기반으로 하는 생성 기술 솔루션은 다양한 3D 데이터 세트를 생성하는 과정을 효율적으로 수행할 수 있는 능력을 보여줍니다. 생성 과정에서 3D 모델 결과에 대한 빠른 추론과 쉽고 정밀한 제어가 필요합니다. 이러한 유형의 기술의 출현은 3D 생성 기술의 급속한 발전을 위한 새로운 길을 열어줄 뿐만 아니라 업계에서 더 넓은 적용을 위한 새로운 가능성을 제공합니다.
이미지 및 데이터 소스: TripoSR: 단일 이미지에서 빠른 3D 개체 재구성
이번에 주목할 만한 점은 Stability AI Tripo AI 공동 오픈 소스입니다. Tripo AI의 연구 기관인 VAST AI Research는 3D 콘텐츠 생성 분야의 최첨단 연구팀으로 창립 이래 오픈 소스 커뮤니티 기여에 전념해 왔으며, 높은 수준의 코드와 가중치를 지속적으로 오픈 소스화해 왔습니다. Wonder3D, CSD, TGS 등 양질의 연구작업을 수행합니다.Tripo는 VAST가 2023년 12월부터 출시한 범용 3D 생성 모델입니다(www.tripo3d.ai). 텍스트나 그림으로부터 8초 만에 3D 메시 모델을 생성하고, 5분 만에 다듬을 수 있으며, 생성된 모델의 품질은 형상 및 재질 측면에서 수동 수준에 가깝습니다. VAST AI Research 블로그에 따르면 3D 생성 분야에서 AI의 급속한 발전에는 인간 경험에 대한 의존에서 벗어나 더 큰 데이터, 더 확장 가능한 모델 및 강력한 컴퓨팅을 최대한 활용하는 "보편적 접근 방식"이 필요합니다. 와서 "배우십시오". 이러한 "보편적 접근 방식"에는 여러 양식에 대한 훈련 데이터 통합, 여러 양식에 대한 제어 조건 통합, 여러 양식에 공통적인 생성 모델 인프라가 포함되어야 합니다.
이 목표를 달성하려면 VAST는 작업이 표현, 모델, 데이터라는 세 가지 방향에서 이루어져야 한다고 믿습니다. 그 중에서 "표현"의 선택이 중요합니다. 기존 그래픽 파이프라인과의 호환성을 보장하면서 유연하고 계산 친화적인 3D 표현을 찾는 것이 필요합니다. 또한, 3D 표현을 언어 토큰과 유사한 형태로 변환하는 "3D 토크나이저"를 탐색하는 것도 유망한 방향이며, 이는 기존 이해 및 생성 모델을 3D 분야에 적용하는 데 도움이 될 수 있습니다. "모델" 수준에서 VAST의 연구는 다른 양식의 대형 모델에 대한 사전 지식, 설계 지침 및 교육 경험을 최대한 활용하여 모델의 3D 데이터 학습 능력을 향상시키는 것을 목표로 합니다. "데이터" 수준의 과제는 무시할 수 없습니다. 고품질의 다양한 기본 3D 데이터 세트 리소스가 부족하여 모델의 최종 성능과 일반화 기능이 제한됩니다. TripoSR을 통해 생성 AI 모델의 3D 방향 잠재력을 확인할 수 있으며, 2024년에는 3D 생성 분야에서 더 많은 새로운 탐구가 이루어지길 기대합니다. 참조 링크:https://stability.ai/news/triposr-3d- Generation?utm_source=x&utm_medium=website&utm_campaign=blog
위 내용은 0.5초, GPU 불필요, Stability AI 및 중국 팀 VAST 오픈 소스 단일 이미지로 3D 모델 TripoSR 생성의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!