찾다
기술 주변기기일체 포함0.5초, GPU 불필요, Stability AI 및 중국 팀 VAST 오픈 소스 단일 이미지로 3D 모델 TripoSR 생성

최근 Vincent의 비디오 모델 Sora는 생성 ​​AI 모델의 새로운 물결을 일으켰고, 모델의 다중 모드 기능이 널리 주목을 받았습니다.

이제 AI 모델은 3D 콘텐츠 생성에서 새로운 혁신을 이루었습니다.

영상 생성 및 영상 생성 프로젝트를 성공적으로 런칭한 후, 영상 콘텐츠 생성을 전문으로 하는 Stability AI는 이제 3D 분야로 확장을 위해 노력하고 있습니다. 최신 뉴스에 따르면 회사는 중국 팀 VAST와 협력하여 TripoSR이라는 단일 이미지 생성 3D 모델 프로젝트를 공동으로 오픈 소스화했습니다. 이번 움직임은 디지털 콘텐츠 생성 분야에서 Stability AI의 선도적인 위치를 더욱 공고히 하고 사용자에게 더욱 다양하고 혁신적인 제품 경험을 제공합니다.

0.5秒,无需GPU,Stability AI与华人团队VAST开源单图生成3D模型TripoSR

TripoSR은 단일 이미지에서 0.5초 만에 고품질 3D 모델을 생성할 수 있으며 GPU를 실행하지 않아도 됩니다. 0.5秒,无需GPU,Stability AI与华人团队VAST开源单图生成3D模型TripoSR

  • TripoSR 모델 코드: https://github.com/VAST-AI-Research/TripoSR

  • TripoSR 모델 가중치: https://huggingface.co/stabilityai/TripoSR

  • TripoSR 데모: https://huggingface.co/spaces/stabilityai/TripoSR

NVIDIA A100에서 TripoSR을 테스트했을 때 약 0.5초 만에 텍스처가 포함된 고품질 스케치 3D 메시 모델을 생성할 수 있었습니다. OpenLRM과 같은 3D 모델 도구에 대한 다른 오픈 소스 이미지를 능가합니다. 속도 외에도 TripoSR은 GPU 유무에 관계없이 사용자가 완벽하게 사용할 수 있습니다.

TripoSR은 Adobe가 2023년 11월 출시한 LRM에서 영감을 받았습니다. 이는 영상 생성을 위한 3D Large Reconstruction Model(LRM)을 위한 혁신적인 기술입니다. LRM은 단 몇 초 만에 단일 입력 이미지에서 해당 3D 모델을 생성할 수 있다는 점에서 독특합니다. 이 기술은 효율성과 정확성 측면에서 획기적이며 사용자는 평면 이미지를 사실적인 3차원 모델로 쉽게 변환할 수 있습니다. TripoSR은 이 기술을 기반으로 더욱 개발되고 최적화되어 사용자가 놀라운 3차원 장면을 보다 빠르고 정확하게 만들 수 있습니다. LRM

LRM을 결합함으로써 Tusheng 3D 모델 작업을 시퀀스 간 번역 작업으로 돌파하고 공식화합니다. 입력 이미지와 출력 3D 모델을 두 가지 다른 언어로 상상하면 Tusheng 3D 작업이 이해될 수 있는 프로세스는 다음과 같습니다. 이미지 언어를 3D 모델 언어로 변환합니다. 이미지 언어의 "단어"(언어 모델의 토큰 및 비디오 모델의 패치와 유사)는 사용자 입력 이미지가 분할되는 작은 조각인 반면 LRM 방법에서는 3D의 "단어"입니다. 모델 언어는 "triplane"의 3차원 표현에 있는 각 작은 블록에 대해 LRM이 수행하는 작업은 이미지 언어의 "단어"를 3D 모델 언어의 "단어"로 번역하는 것입니다. 이미지를 입력하고 3D 모델을 출력합니다.

transformer 아키텍처의 지원으로 LRM은 백만 개 이상의 공개 3D 데이터에 대한 교육을 받았으며 경이로운 그래픽 3D 효과와 효율성을 입증하여 학계와 산업계에 큰 반향을 일으켰습니다. 그러나 관련 코드와 모델은 오픈 소스가 아니며, 막대한 교육 비용(1주일 동안 128개의 A100을 실행)도 소규모 연구 조직을 어렵게 만들었습니다. 이러한 요인으로 인해 이 기술의 민간 개발이 크게 방해되었습니다.

이번 Tripo AI와 Stability AI는 LRM의 최초 고품질 오픈 소스 구현인 TripoSR을 공동 출시했습니다. TripoSR은 사용자가 제공한 이미지를 기반으로 거의 실시간으로 고품질 3D 모델을 생성할 수 있어 3D 생성 인공 지능 분야. 0.5秒,无需GPU,Stability AI与华人团队VAST开源单图生成3D模型TripoSR

Stability의 블로그와 기술 보고서에 따르면 이 모델은 LRM의 원래 알고리즘을 기반으로 하며 Objaverse 데이터 세트의 정밀하게 필터링 및 렌더링된 하위 집합과 일련의 모델 및 훈련 개선 기능을 통해 제한된 훈련 데이터의 일반화를 크게 향상시킵니다. 3D 재구성의 충실도도 향상됩니다. TripoSR이 등장하기 전까지 학계 및 오픈 소스 커뮤니티에는 강력한 일반화 기능을 갖춘 개방적이고 빠르며 강력한 3D 생성 기본 모델 및 프레임워크가 부족했습니다. threestudio와 같은 오픈 소스 프로젝트가 널리 주목을 받고 있지만 3D 모델 생성은 긴 최적화 및 계산 시간이 필요한 기술(예: 증류 점수 샘플링)로 인해 느리고 리소스 집약적입니다. Stability AI가 이전에 이 경로를 따라 출시한 Stable Zero123 프로젝트와 threestudio에서의 통합 시도는 어느 정도 진전을 이루었지만 여전히 이러한 문제를 완전히 해결하지 못했습니다.

TripoSR 오픈 소스를 통해 전 세계 연구자, 개발자 및 창의적인 작업자가 가장 진보된 3D 생성 AI 모델에 액세스할 수 있으며, 이를 통해 다양한 기업이 3D 콘텐츠를 사용하여 보다 복잡한 제품과 서비스를 만들고 3D 산업의 새로운 창의적 가능성을 탐색할 수 있습니다. 더욱 활발하고 경쟁적인 시장.性 차트는 3D 성능 F-SCORE(높을수록 좋음)와 추론 시간(낮을수록 좋음) 간의 관계를 보여줍니다.

0.5秒,无需GPU,Stability AI与华人团队VAST开源单图生成3D模型TripoSR

3D 콘텐츠 생성 기술은 최근 몇 년 동안 컴퓨터 그래픽 및 컴퓨터 비전 분야에서 꾸준한 발전을 경험해 왔습니다. 지난 1년여 동안 특히 대규모 공개 3D 데이터 세트의 출현과 2D 이미지 및 비디오 분야의 강력한 생성 모델의 발전으로 3D 생성 기술은 엄청나게 빠른 발전을 이루며 업계의 광범위한 관심을 끌었습니다. . 이러한 맥락에서 Google 연구팀이 제안한 DreamFusion과 같은 SDS(Score Distillation Sampling) 기반 기술은 다양한 관점에서 3D 모델을 생성하는 데 획기적인 발전을 이루었지만 여전히 생성 시간이 길고 실제 적용에 어려움을 겪고 있습니다. 생성된 모델과 같은 제약 조건을 세밀하게 제어합니다.

반면, 이번에 출시된 TripoSR과 같은 대규모 3D 데이터 세트와 대규모 확장 가능한 모델 아키텍처를 기반으로 하는 생성 기술 솔루션은 다양한 3D 데이터 세트를 생성하는 과정을 효율적으로 수행할 수 있는 능력을 보여줍니다. 생성 과정에서 3D 모델 결과에 대한 빠른 추론과 쉽고 정밀한 제어가 필요합니다. 이러한 유형의 기술의 출현은 3D 생성 기술의 급속한 발전을 위한 새로운 길을 열어줄 뿐만 아니라 업계에서 더 넓은 적용을 위한 새로운 가능성을 제공합니다.

0.5秒,无需GPU,Stability AI与华人团队VAST开源单图生成3D模型TripoSR                              이미지 및 데이터 소스: TripoSR: 단일 이미지에서 빠른 3D 개체 재구성

0.5秒,无需GPU,Stability AI与华人团队VAST开源单图生成3D模型TripoSR

이번에 주목할 만한 점은 Stability AI Tripo AI 공동 오픈 소스입니다. Tripo AI의 연구 기관인 VAST AI Research는 3D 콘텐츠 생성 분야의 최첨단 연구팀으로 창립 이래 오픈 소스 커뮤니티 기여에 전념해 왔으며, 높은 수준의 코드와 가중치를 지속적으로 오픈 소스화해 왔습니다. Wonder3D, CSD, TGS 등 양질의 연구작업을 수행합니다.

Tripo는 VAST가 2023년 12월부터 출시한 범용 3D 생성 모델입니다(www.tripo3d.ai). 텍스트나 그림으로부터 8초 만에 3D 메시 모델을 생성하고, 5분 만에 다듬을 수 있으며, 생성된 모델의 품질은 형상 및 재질 측면에서 수동 수준에 가깝습니다. VAST AI Research 블로그에 따르면 3D 생성 분야에서 AI의 급속한 발전에는 인간 경험에 대한 의존에서 벗어나 더 큰 데이터, 더 확장 가능한 모델 및 강력한 컴퓨팅을 최대한 활용하는 "보편적 접근 방식"이 필요합니다. 와서 "배우십시오". 이러한 "보편적 접근 방식"에는 여러 양식에 대한 훈련 데이터 통합, 여러 양식에 대한 제어 조건 통합, 여러 양식에 공통적인 생성 모델 인프라가 포함되어야 합니다.

이 목표를 달성하려면 VAST는 작업이 표현, 모델, 데이터라는 세 가지 방향에서 이루어져야 한다고 믿습니다. 그 중에서 "표현"의 선택이 중요합니다. 기존 그래픽 파이프라인과의 호환성을 보장하면서 유연하고 계산 친화적인 3D 표현을 찾는 것이 필요합니다. 또한, 3D 표현을 언어 토큰과 유사한 형태로 변환하는 "3D 토크나이저"를 탐색하는 것도 유망한 방향이며, 이는 기존 이해 및 생성 모델을 3D 분야에 적용하는 데 도움이 될 수 있습니다.

"모델" 수준에서 VAST의 연구는 다른 양식의 대형 모델에 대한 사전 지식, 설계 지침 및 교육 경험을 최대한 활용하여 모델의 3D 데이터 학습 능력을 향상시키는 것을 목표로 합니다. "데이터" 수준의 과제는 무시할 수 없습니다. 고품질의 다양한 기본 3D 데이터 세트 리소스가 부족하여 모델의 최종 성능과 일반화 기능이 제한됩니다.

TripoSR을 통해 생성 AI 모델의 3D 방향 잠재력을 확인할 수 있으며, 2024년에는 3D 생성 분야에서 더 많은 새로운 탐구가 이루어지길 기대합니다.

참조 링크:

https://stability.ai/news/triposr-3d- Generation?utm_source=x&utm_medium=website&utm_campaign=blog

위 내용은 0.5초, GPU 불필요, Stability AI 및 중국 팀 VAST 오픈 소스 단일 이미지로 3D 모델 TripoSR 생성의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
이 기사는 机器之心에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제
라마 3.1 대 라마 3 : 어느 것이 더 낫습니까?라마 3.1 대 라마 3 : 어느 것이 더 낫습니까?Apr 15, 2025 am 10:53 AM

메타의 라마 3.1 70B 및 라마 3 70B : 상세한 비교 Meta는 최근 70b 매개 변수 모델을 포함하여 LLAMA 3.1을 더 크고 작은 변형과 함께 출시했습니다. 이 업그레이드는 불과 3 개월 전에 LLAMA 3 릴리스를 따릅니다. 라마 3.1

7 ai ppt 제조업체는 무료로 시작할 수 있습니다!7 ai ppt 제조업체는 무료로 시작할 수 있습니다!Apr 15, 2025 am 10:51 AM

프리젠 테이션 파워 : 7 무료 AI 기반 PowerPoint 메이커 최종 1 년간의 학생이든, 뛰어난 캡 스톤 프로젝트를 제작하든 바쁜 전문 저글링 회의 및 프레젠테이션이든 첫 인상을주는 것이 가장 중요합니다.

Power Bi Semantic 모델은 무엇입니까?Power Bi Semantic 모델은 무엇입니까?Apr 15, 2025 am 10:46 AM

소개 시나리오를 상상해보십시오. 귀하의 팀은 다양한 소스의 대규모 데이터 세트에 압도 당합니다. 의미있는 프레젠테이션을 위해이 정보를 통합, 정렬 및 분석하는 것은 어려운 일입니다. 이곳은 파워 바이 의미 론적 모델 (PBISM) EX

Llama Index 및 Monsterapi를 사용하여 AI 에이전트를 구축하는 방법Llama Index 및 Monsterapi를 사용하여 AI 에이전트를 구축하는 방법Apr 15, 2025 am 10:44 AM

AI 에이전트 : Llamaindex와 Monsterapi에 의해 구동되는 AI의 미래 AI 에이전트는 우리가 기술과 어떻게 상호 작용하는지 혁명을 일으킬 준비가되어 있습니다. 이러한 자율 시스템은 인간 행동을 모방하고, 추론, 의사 결정이 필요한 작업을 수행하며,

인간의 개입없이 LLM을 훈련시키는 7 가지 방법인간의 개입없이 LLM을 훈련시키는 7 가지 방법Apr 15, 2025 am 10:38 AM

자율 AI 잠금 해제 : 7 자체 훈련 LLM을위한 7 가지 방법 AI 시스템이 복잡한 개념을 독립적으로 마스터하는 어린이들과 마찬가지로 AI 시스템이 인간의 개입없이 배우고 진화하는 미래를 상상해보십시오. 이것은 공상 과학이 아닙니다. 그것은 자기의 약속입니다

AI 및 NLG로 재무보고 혁신 - 분석 VidhyaAI 및 NLG로 재무보고 혁신 - 분석 VidhyaApr 15, 2025 am 10:35 AM

AI 기반 재무보고 : 자연어 생성을 통한 통찰력 혁명 오늘날의 역동적 인 비즈니스 환경에서, 정확하고시기 적절한 재무 분석은 전략적 의사 결정에 가장 중요합니다. 전통적인 재무보고

이 Google Deepmind 로봇이 2028 년 올림픽에서 플레이할까요?이 Google Deepmind 로봇이 2028 년 올림픽에서 플레이할까요?Apr 15, 2025 am 10:16 AM

Google Deepmind의 탁구 로봇 : 스포츠 및 로봇 공학의 새로운 시대 파리 2024 올림픽은 끝났을 지 모르지만 Google Deepmind 덕분에 스포츠와 로봇 공학의 새로운 시대가 시작되었습니다. 그들의 획기적인 연구 ( "인간 수준의 경쟁 달성

Gemini Flash 1.5 모델을 사용하여 Food Vision WebApp 구축Gemini Flash 1.5 모델을 사용하여 Food Vision WebApp 구축Apr 15, 2025 am 10:15 AM

Gemini Flash의 효율성 및 확장 성 잠금 해제 1.5 : Flask Food Vision WebApp 빠르게 진화하는 AI 환경에서 효율성과 확장 성이 가장 중요합니다. 개발자는 비용과 대기 시간을 최소화하는 고성능 모델을 점점 더 많이 찾습니다.

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
4 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
4 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
4 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
1 몇 달 전By尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

VSCode Windows 64비트 다운로드

VSCode Windows 64비트 다운로드

Microsoft에서 출시한 강력한 무료 IDE 편집기

에디트플러스 중국어 크랙 버전

에디트플러스 중국어 크랙 버전

작은 크기, 구문 강조, 코드 프롬프트 기능을 지원하지 않음

SublimeText3 Linux 새 버전

SublimeText3 Linux 새 버전

SublimeText3 Linux 최신 버전

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

DVWA

DVWA

DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는