NUS 중국 팀이 최신 모델 출시: 빠르고 정확한 단일 뷰 3D 재구성!-일체 포함-php.cn

집

기술 주변기기

일체 포함

NUS 중국 팀이 최신 모델 출시: 빠르고 정확한 단일 뷰 3D 재구성!

王林

Apr 26, 2023 pm 05:37 PM

3d개발하다

2D 이미지의 3D 재구성은 항상 CV 분야의 하이라이트였습니다.

이 문제를 극복하기 위해 다양한 모델이 개발되었습니다.

오늘 싱가포르 국립대학교의 학자들은 이 오랜 문제를 해결하기 위해 공동으로 논문을 발표하고 새로운 프레임워크인 Anything-3D를 개발했습니다.

NUS 중국 팀이 최신 모델 출시: 빠르고 정확한 단일 뷰 3D 재구성!

문서 주소: https://arxiv.org/pdf/2304.10261.pdf

Meta의 "모든 것을 분할" 모델의 도움으로 Anything-3D는 분할된 모든 객체를 직접 생성합니다. 살아 있는 .

NUS 중국 팀이 최신 모델 출시: 빠르고 정확한 단일 뷰 3D 재구성!

또한 Zero-1-to-3 모델을 사용하면 다양한 각도에서 코기들을 얻을 수 있습니다.

NUS 중국 팀이 최신 모델 출시: 빠르고 정확한 단일 뷰 3D 재구성!

캐릭터를 3D로 재구성할 수도 있습니다.

NUS 중국 팀이 최신 모델 출시: 빠르고 정확한 단일 뷰 3D 재구성!

이것은 진정한 혁신이라고 할 수 있습니다.

무엇이든 3D로!

현실 세계에서는 다양한 사물과 환경이 다양하고 복잡합니다. 따라서 제한 없이 단일 RGB 이미지에서 3D 재구성을 수행하는 데는 많은 어려움이 따릅니다.

여기서 싱가포르 국립 대학교의 연구원들은 일련의 시각적 언어 모델과 SAM(Segment-Anything) 개체 분할 모델을 결합하여 다기능의 안정적인 시스템인 Anything-3D를 생성했습니다.

단일한 관점에서 3D 재구성 작업을 완료하는 것이 목적입니다.

그들은 BLIP 모델을 사용하여 텍스처 설명을 생성하고, SAM 모델을 사용하여 이미지에서 개체를 추출한 다음 텍스트 → 이미지 확산 모델 Stable Diffusion을 사용하여 개체를 Nerf(신경 방사선장)에 배치합니다.

이후 실험에서 Anything-3D는 강력한 3차원 재구성 기능을 보여주었습니다. 정확할 뿐만 아니라 다양한 응용 분야에 적용할 수 있습니다.

Anything-3D는 기존 방식의 한계를 해결하는 데 확실한 효과가 있습니다. 연구원들은 다양한 데이터 세트에 대한 테스트와 평가를 통해 이 새로운 프레임워크의 장점을 입증했습니다.

NUS 중국 팀이 최신 모델 출시: 빠르고 정확한 단일 뷰 3D 재구성!

위 사진에는 '혀를 내밀고 수천 마일을 달리는 코기', '고급 자동차에 몸을 맡기는 은빛 날개 여신상', '들판의 갈색 소'가 보입니다. 머리에 파란색 밧줄을 달고 있다."

Anything-3D 프레임워크가 어떤 환경에서든 촬영한 싱글 뷰 이미지를 능숙하게 3D 형태로 복원하고 텍스처를 생성할 수 있다는 예비 시연입니다.

이 새로운 프레임워크는 카메라 관점과 개체 속성의 큰 변화에도 불구하고 항상 매우 정확한 결과를 제공합니다.

2D 이미지에서 3D 물체를 재구성하는 것은 컴퓨터 비전 분야의 핵심 주제이며, 로봇공학, 자율주행, 증강현실, 가상현실, 3D 프린팅 등 분야에 큰 영향을 미친다는 사실을 꼭 아셔야 합니다.

최근 몇 년 동안 좋은 진전이 있었지만 구조화되지 않은 환경에서 단일 이미지 객체 재구성 작업은 여전히 시급히 해결해야 할 매우 매력적인 문제입니다.

현재 연구자들은 단일 2차원 이미지에서 하나 이상의 객체에 대한 3차원 표현을 생성하는 임무를 맡고 있습니다. 표현 방법에는 포인트 클라우드, 그리드 또는 볼륨 표현이 포함됩니다.

그러나 이 문제는 근본적으로 사실이 아닙니다.

2차원 투영으로 인해 발생하는 본질적인 모호성으로 인해 물체의 3차원 구조를 명확하게 결정하는 것은 불가능합니다.

모양, 크기, 질감 및 외관의 큰 차이와 함께 자연 환경에서 물체를 재구성하는 것은 매우 복잡합니다. 또한 실제 이미지의 객체는 종종 가려져 있어 가려진 부분을 정확하게 재구성하는 데 방해가 됩니다.

동시에 조명, 그림자 등의 변수도 물체의 모양에 큰 영향을 미칠 수 있으며, 각도와 거리의 차이도 2D 투영에 큰 변화를 가져올 수 있습니다.

어려움은 그만, 이제 Anything-3D가 등장할 시간입니다.

논문에서 연구진은 시각적 언어 모델과 객체 분할 모델을 통합하여 2D 객체를 쉽게 3D로 변환하는 획기적인 시스템 프레임워크를 자세히 소개했습니다.

이렇게 하면 강력한 기능과 강력한 적응성을 갖춘 시스템이 가능해집니다. 단일 뷰 재구성? 쉽습니다.

연구원들은 두 모델을 결합하면 주어진 이미지의 3차원 질감과 기하학을 검색하고 결정하는 것이 가능하다고 말합니다.

Anything-3D는 BLIP 모델(Bootstrapping Language-Image Model)을 사용하여 이미지의 텍스트 설명을 사전 학습한 다음 SAM 모델을 사용하여 객체의 분포 영역을 식별합니다.

다음으로 분할된 개체와 텍스트 설명을 사용하여 3D 재구성 작업을 수행합니다.

즉, 본 논문에서는 사전 학습된 2D 텍스트 → 이미지 확산 모델을 활용하여 이미지의 3D 합성을 수행합니다. 또한 연구진은 이미지 전용 Nerf를 훈련시키기 위해 분별 증류를 사용했습니다.

NUS 중국 팀이 최신 모델 출시: 빠르고 정확한 단일 뷰 3D 재구성!

위 그림은 3D 이미지를 생성하는 전체 과정입니다. 왼쪽 상단 모서리는 2D 원본 이미지입니다. 먼저 SAM을 통해 코기를 분할한 다음 BLIP을 통해 텍스트 설명을 생성한 다음 분수 증류를 사용하여 Nerf를 생성합니다.

다양한 데이터 세트에 대한 엄격한 실험을 통해 연구원들은 이 접근 방식의 효율성과 적응성을 입증하는 동시에 정확성, 견고성 및 일반화 기능 측면에서 기존 방법을 능가했습니다.

연구원들은 또한 자연 환경에서 3D 객체 재구성의 기존 과제에 대해 포괄적이고 심층적인 분석을 수행하고 새로운 프레임워크가 이러한 문제를 어떻게 해결할 수 있는지 탐구했습니다.

궁극적으로 기본 모델에 제로 거리 비전과 언어 이해 기능을 통합함으로써 새로운 프레임워크는 다양한 실제 이미지에서 개체를 재구성하고 정확하고 복잡하며 널리 적용 가능한 3D 표현을 생성할 수 있습니다.

Anything-3D는 3D 객체 재구성 분야의 획기적인 발전이라고 할 수 있습니다.实 아래에 더 많은 예가 나와 있습니다.

NUS 중국 팀이 최신 모델 출시: 빠르고 정확한 단일 뷰 3D 재구성! 멋진 검정색 인테리어 Xiaobai Porsche, 밝은 주황색 굴착기 크레인, 녹색 모자 작은 노란색 고무 오리

NUS 중국 팀이 최신 모델 출시: 빠르고 정확한 단일 뷰 3D 재구성! 시대 눈물 바랜 대포, 돼지 귀여운 미니 돼지 저금통 , cinnabar red four-legged highchair

이 새로운 프레임워크는 단일 뷰 이미지에서 영역을 대화형으로 식별하고 최적화된 텍스트 임베딩으로 2D 개체를 나타낼 수 있습니다. 궁극적으로 3D 인식 분별 증류 모델은 고품질 3D 개체를 효율적으로 생성하는 데 사용됩니다.

결론적으로 Anything-3D는 단일 보기 이미지에서 자연스러운 3D 객체를 재구성할 수 있는 잠재력을 보여줍니다.

연구원들은 새로운 프레임워크의 3D 재구성 품질이 더욱 완벽해질 수 있다고 말하며, 연구원들은 생성 품질 향상을 위해 끊임없이 노력하고 있습니다.

또한 연구원들은 새로운 뷰 합성, 오류 재구성 등 3D 데이터 세트에 대한 정량적 평가가 현재 제공되지 않지만 향후 반복 작업에 포함될 것이라고 밝혔습니다.

동시에 연구원의 궁극적인 목표는 이 프레임워크를 확장하여 희소 뷰에서 객체 복구를 포함하여 보다 실용적인 상황에 적응하는 것입니다.

저자 소개

Wang은 현재 싱가포르 국립대학교(NUS) ECE학과의 임기 조교수입니다.

싱가포르국립대학교에 입사하기 전 그는 Stevens Institute of Technology의 CS학과 조교수로 재직했습니다. Stevens에 합류하기 전에 저는 일리노이 대학교 Urbana-Champaign의 Beckman Institute에서 Thomas Huang 교수의 이미지 형성 그룹에서 박사후 연구원으로 일했습니다.

Wang은 Pascal Fua 교수의 지도 하에 Ecole Polytechnique Fédérale de Lausanne(EPFL)의 컴퓨터 비전 연구소에서 박사 학위를 받았으며, 2010년 홍콩 폴리테크닉 대학교에서 컴퓨터 과학 분야에서 일류 우등 학사 학위를 받았습니다. .

NUS 중국 팀이 최신 모델 출시: 빠르고 정확한 단일 뷰 3D 재구성!

위 내용은 NUS 중국 팀이 최신 모델 출시: 빠르고 정확한 단일 뷰 3D 재구성!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

외삽에 대한 포괄적 인 가이드Apr 15, 2025 am 11:38 AM

소개 매일 몇 주 만에 작물의 진행 상황을 관찰하는 농부가 있다고 가정합니다. 그는 성장률을보고 몇 주 안에 식물이 얼마나 키가 커질 수 있는지에 대해 숙고하기 시작합니다. Th

소프트 AI의 부상과 오늘날 비즈니스의 의미Apr 15, 2025 am 11:36 AM

Soft AI-대략적인 추론, 패턴 인식 및 유연한 의사 결정을 사용하여 구체적이고 좁은 작업을 수행하도록 설계된 AI 시스템으로 정의 된 것은 모호성을 수용하여 인간과 같은 사고를 모방하려고합니다. 그러나 이것이 바이러스의 의미는 무엇입니까?

AI 국경을위한 진화 보안 프레임 워크Apr 15, 2025 am 11:34 AM

클라우드 컴퓨팅이 클라우드 네이티브 보안 도구로의 전환이 필요했기 때문에 AI는 AI의 고유 한 요구를 위해 특별히 설계된 새로운 유형의 보안 솔루션을 요구합니다. 클라우드 컴퓨팅 및 보안 수업의 상승이 배웠습니다 th

3 가지 방법 생성 AI 기업가를 증폭시킵니다 : 평균을 조심하십시오!Apr 15, 2025 am 11:33 AM

기업가와 AI 및 생성 AI를 사용하여 비즈니스를 개선합니다. 동시에, 모든 기술과 마찬가지로 생성 AI를 기억하는 것이 중요합니다. 앰프는 앰프입니다. 엄격한 2024 연구 o

Andrew Ng의 모델 임베딩에 대한 새로운 단기 과정Apr 15, 2025 am 11:32 AM

임베딩 모델의 힘 잠금 해제 : Andrew Ng의 새로운 코스에 대한 깊은 다이빙 기계가 완벽한 정확도로 질문을 이해하고 응답하는 미래를 상상해보십시오. 이것은 공상 과학이 아닙니다. AI의 발전 덕분에 R이되었습니다

대형 언어 모델 (LLMS)에서 환각이 불가피합니까?Apr 15, 2025 am 11:31 AM

대형 언어 모델 (LLM) 및 환각의 피할 수없는 문제 Chatgpt, Claude 및 Gemini와 같은 AI 모델을 사용했을 것입니다. 이들은 대규모 텍스트 데이터 세트에 대해 교육을받은 강력한 AI 시스템의 대형 언어 모델 (LLM)의 예입니다.

60% 문제 - AI 검색이 트래픽을 배출하는 방법Apr 15, 2025 am 11:28 AM

최근의 연구에 따르면 AI 개요는 산업 및 검색 유형에 따라 유기 트래픽이 15-64% 감소 할 수 있습니다. 이러한 급격한 변화로 인해 마케팅 담당자는 디지털 가시성에 관한 전체 전략을 재고하게합니다. 새로운

AI R & D의 중심에 인간 번성을하는 MIT Media LabApr 15, 2025 am 11:26 AM

Elon University의 Digital Future Center를 상상 한 최근 보고서는 거의 300 명의 글로벌 기술 전문가를 조사했습니다. 결과적인 보고서 인‘2035 년에 인간이되는 것’은 대부분 AI 시스템의 심화가 T에 대한 우려가 있다고 결론지었습니다.

See all articles