2D 이미지의 3D 재구성은 항상 CV 분야의 하이라이트였습니다.
이 문제를 극복하기 위해 다양한 모델이 개발되었습니다.
오늘 싱가포르 국립대학교의 학자들은 이 오랜 문제를 해결하기 위해 공동으로 논문을 발표하고 새로운 프레임워크인 Anything-3D를 개발했습니다.
문서 주소: https://arxiv.org/pdf/2304.10261.pdf
Meta의 "모든 것을 분할" 모델의 도움으로 Anything-3D는 분할된 모든 객체를 직접 생성합니다. 살아 있는 .
또한 Zero-1-to-3 모델을 사용하면 다양한 각도에서 코기들을 얻을 수 있습니다.
캐릭터를 3D로 재구성할 수도 있습니다.
이것은 진정한 혁신이라고 할 수 있습니다.
현실 세계에서는 다양한 사물과 환경이 다양하고 복잡합니다. 따라서 제한 없이 단일 RGB 이미지에서 3D 재구성을 수행하는 데는 많은 어려움이 따릅니다.
여기서 싱가포르 국립 대학교의 연구원들은 일련의 시각적 언어 모델과 SAM(Segment-Anything) 개체 분할 모델을 결합하여 다기능의 안정적인 시스템인 Anything-3D를 생성했습니다.
단일한 관점에서 3D 재구성 작업을 완료하는 것이 목적입니다.
그들은 BLIP 모델을 사용하여 텍스처 설명을 생성하고, SAM 모델을 사용하여 이미지에서 개체를 추출한 다음 텍스트 → 이미지 확산 모델 Stable Diffusion을 사용하여 개체를 Nerf(신경 방사선장)에 배치합니다.
이후 실험에서 Anything-3D는 강력한 3차원 재구성 기능을 보여주었습니다. 정확할 뿐만 아니라 다양한 응용 분야에 적용할 수 있습니다.
Anything-3D는 기존 방식의 한계를 해결하는 데 확실한 효과가 있습니다. 연구원들은 다양한 데이터 세트에 대한 테스트와 평가를 통해 이 새로운 프레임워크의 장점을 입증했습니다.
위 사진에는 '혀를 내밀고 수천 마일을 달리는 코기', '고급 자동차에 몸을 맡기는 은빛 날개 여신상', '들판의 갈색 소'가 보입니다. 머리에 파란색 밧줄을 달고 있다."
Anything-3D 프레임워크가 어떤 환경에서든 촬영한 싱글 뷰 이미지를 능숙하게 3D 형태로 복원하고 텍스처를 생성할 수 있다는 예비 시연입니다.
이 새로운 프레임워크는 카메라 관점과 개체 속성의 큰 변화에도 불구하고 항상 매우 정확한 결과를 제공합니다.
2D 이미지에서 3D 물체를 재구성하는 것은 컴퓨터 비전 분야의 핵심 주제이며, 로봇공학, 자율주행, 증강현실, 가상현실, 3D 프린팅 등 분야에 큰 영향을 미친다는 사실을 꼭 아셔야 합니다.
최근 몇 년 동안 좋은 진전이 있었지만 구조화되지 않은 환경에서 단일 이미지 객체 재구성 작업은 여전히 시급히 해결해야 할 매우 매력적인 문제입니다.
현재 연구자들은 단일 2차원 이미지에서 하나 이상의 객체에 대한 3차원 표현을 생성하는 임무를 맡고 있습니다. 표현 방법에는 포인트 클라우드, 그리드 또는 볼륨 표현이 포함됩니다.
그러나 이 문제는 근본적으로 사실이 아닙니다.
2차원 투영으로 인해 발생하는 본질적인 모호성으로 인해 물체의 3차원 구조를 명확하게 결정하는 것은 불가능합니다.
모양, 크기, 질감 및 외관의 큰 차이와 함께 자연 환경에서 물체를 재구성하는 것은 매우 복잡합니다. 또한 실제 이미지의 객체는 종종 가려져 있어 가려진 부분을 정확하게 재구성하는 데 방해가 됩니다.
동시에 조명, 그림자 등의 변수도 물체의 모양에 큰 영향을 미칠 수 있으며, 각도와 거리의 차이도 2D 투영에 큰 변화를 가져올 수 있습니다.
어려움은 그만, 이제 Anything-3D가 등장할 시간입니다.
논문에서 연구진은 시각적 언어 모델과 객체 분할 모델을 통합하여 2D 객체를 쉽게 3D로 변환하는 획기적인 시스템 프레임워크를 자세히 소개했습니다.
이렇게 하면 강력한 기능과 강력한 적응성을 갖춘 시스템이 가능해집니다. 단일 뷰 재구성? 쉽습니다.
연구원들은 두 모델을 결합하면 주어진 이미지의 3차원 질감과 기하학을 검색하고 결정하는 것이 가능하다고 말합니다.
Anything-3D는 BLIP 모델(Bootstrapping Language-Image Model)을 사용하여 이미지의 텍스트 설명을 사전 학습한 다음 SAM 모델을 사용하여 객체의 분포 영역을 식별합니다.
다음으로 분할된 개체와 텍스트 설명을 사용하여 3D 재구성 작업을 수행합니다.
즉, 본 논문에서는 사전 학습된 2D 텍스트 → 이미지 확산 모델을 활용하여 이미지의 3D 합성을 수행합니다. 또한 연구진은 이미지 전용 Nerf를 훈련시키기 위해 분별 증류를 사용했습니다.
위 그림은 3D 이미지를 생성하는 전체 과정입니다. 왼쪽 상단 모서리는 2D 원본 이미지입니다. 먼저 SAM을 통해 코기를 분할한 다음 BLIP을 통해 텍스트 설명을 생성한 다음 분수 증류를 사용하여 Nerf를 생성합니다.
다양한 데이터 세트에 대한 엄격한 실험을 통해 연구원들은 이 접근 방식의 효율성과 적응성을 입증하는 동시에 정확성, 견고성 및 일반화 기능 측면에서 기존 방법을 능가했습니다.
연구원들은 또한 자연 환경에서 3D 객체 재구성의 기존 과제에 대해 포괄적이고 심층적인 분석을 수행하고 새로운 프레임워크가 이러한 문제를 어떻게 해결할 수 있는지 탐구했습니다.
궁극적으로 기본 모델에 제로 거리 비전과 언어 이해 기능을 통합함으로써 새로운 프레임워크는 다양한 실제 이미지에서 개체를 재구성하고 정확하고 복잡하며 널리 적용 가능한 3D 표현을 생성할 수 있습니다.
Anything-3D는 3D 객체 재구성 분야의 획기적인 발전이라고 할 수 있습니다.实 아래에 더 많은 예가 나와 있습니다.
멋진 검정색 인테리어 Xiaobai Porsche, 밝은 주황색 굴착기 크레인, 녹색 모자 작은 노란색 고무 오리
시대 눈물 바랜 대포, 돼지 귀여운 미니 돼지 저금통 , cinnabar red four-legged highchair
이 새로운 프레임워크는 단일 뷰 이미지에서 영역을 대화형으로 식별하고 최적화된 텍스트 임베딩으로 2D 개체를 나타낼 수 있습니다. 궁극적으로 3D 인식 분별 증류 모델은 고품질 3D 개체를 효율적으로 생성하는 데 사용됩니다.
결론적으로 Anything-3D는 단일 보기 이미지에서 자연스러운 3D 객체를 재구성할 수 있는 잠재력을 보여줍니다.
연구원들은 새로운 프레임워크의 3D 재구성 품질이 더욱 완벽해질 수 있다고 말하며, 연구원들은 생성 품질 향상을 위해 끊임없이 노력하고 있습니다.
또한 연구원들은 새로운 뷰 합성, 오류 재구성 등 3D 데이터 세트에 대한 정량적 평가가 현재 제공되지 않지만 향후 반복 작업에 포함될 것이라고 밝혔습니다.
동시에 연구원의 궁극적인 목표는 이 프레임워크를 확장하여 희소 뷰에서 객체 복구를 포함하여 보다 실용적인 상황에 적응하는 것입니다.
Wang은 현재 싱가포르 국립대학교(NUS) ECE학과의 임기 조교수입니다.
싱가포르국립대학교에 입사하기 전 그는 Stevens Institute of Technology의 CS학과 조교수로 재직했습니다. Stevens에 합류하기 전에 저는 일리노이 대학교 Urbana-Champaign의 Beckman Institute에서 Thomas Huang 교수의 이미지 형성 그룹에서 박사후 연구원으로 일했습니다.
Wang은 Pascal Fua 교수의 지도 하에 Ecole Polytechnique Fédérale de Lausanne(EPFL)의 컴퓨터 비전 연구소에서 박사 학위를 받았으며, 2010년 홍콩 폴리테크닉 대학교에서 컴퓨터 과학 분야에서 일류 우등 학사 학위를 받았습니다. .
위 내용은 NUS 중국 팀이 최신 모델 출시: 빠르고 정확한 단일 뷰 3D 재구성!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!