>기술 주변기기 >일체 포함 >2초만에 두 장의 사진을 3D로 재구성! 이 AI 도구는 GitHub, 네티즌에서 인기가 있습니다: Sora는 잊어버리세요

2초만에 두 장의 사진을 3D로 재구성! 이 AI 도구는 GitHub, 네티즌에서 인기가 있습니다: Sora는 잊어버리세요

WBOY
WBOY앞으로
2024-03-07 08:40:02808검색

사진 2장만 , 추가 데이터를 측정할 필요가 없습니다. -

Dangdang, 완전한 3D 곰이 있습니다:

2초만에 두 장의 사진을 3D로 재구성! 이 AI 도구는 GitHub, 네티즌에서 인기가 있습니다: Sora는 잊어버리세요

DUSt3R이라는 새로운 도구는 얼마 지나지 않아 매우 인기가 있습니다. 출시되어 GitHub 인기 목록에서 2위를 차지했습니다.

2초만에 두 장의 사진을 3D로 재구성! 이 AI 도구는 GitHub, 네티즌에서 인기가 있습니다: Sora는 잊어버리세요

A 네티즌은 실제로 테스트하고 사진 두 장을 찍어 전체 과정을 2초도 채 걸리지 않았습니다!

(3D 영상 외에 깊이 영상, 신뢰도 영상, 포인트 클라우드 영상도 동시에 제공 가능)

2초만에 두 장의 사진을 3D로 재구성! 이 AI 도구는 GitHub, 네티즌에서 인기가 있습니다: Sora는 잊어버리세요

이 친구는 너무 놀라서 이렇게 말했습니다.

모두들잊으세요 먼저 소라에 대해서 뭐, 이게 바로 우리가 실제로 보고 만질 수 있는 거거든요.

2초만에 두 장의 사진을 3D로 재구성! 이 AI 도구는 GitHub, 네티즌에서 인기가 있습니다: Sora는 잊어버리세요

실험에 따르면 DUSt3R은 단안/다중 깊이 추정 및 상대 포즈 추정의 세 가지 작업에서 SOTA를 달성하는 것으로 나타났습니다.

작가팀(핀란드 알토대학교 + 네이버랩스 인공지능연구소 유럽지부 소속)의 '선언문'도 추진력이 넘칩니다.

우리는 세상을 더 이상 3D 비주얼로 해결하기 어렵지 않게 만들고 싶습니다. 작업.

그럼 어떻게 됐나요?

“올인원”

다시점 스테레오 재구성(MVS) 작업의 경우 첫 번째 단계는 내부 및 외부 매개변수를 포함한 카메라 매개변수를 추정하는 것입니다.

이 작업은 지루하고 번거롭지만 3차원 공간에서 이후의 픽셀 삼각 측량에 필수적이며 더 나은 성능을 제공하는 거의 모든 MVS 알고리즘에서 분리할 수 없는 부분입니다.

이 기사의 연구에서 저자 팀이 소개한 DUSt3R은 완전히 다른 접근 방식을 채택했습니다.

It카메라 보정이나 시점 포즈에 대한 사전 정보가 필요하지 않으며 임의 이미지의 조밀하거나 제약 없는 3D 재구성을 완료할 수 있습니다.

여기에서 팀은 쌍안 재구성 문제를 점 플롯 회귀로 공식화하여 단안 및 양안 재구성 상황을 통합합니다.

2개 이상의 입력 이미지가 제공되는 경우 모든 포인트 이미지 쌍은 간단하고 효과적인 전역 정렬 전략을 통해 공통 참조 프레임으로 표현됩니다.

아래 그림과 같이 알 수 없는 카메라 포즈와 본질적인 특징을 가진 일련의 사진이 주어지면 DUSt3R은 해당 포인트 맵 세트를 출력합니다. 이를 통해 일반적으로 동시에 추정하기 어려운 다양한 기하학적 양을 직접 복구할 수 있습니다. 카메라 매개변수, 픽셀 대응, 깊이 맵 및 완전히 일관된 3D 재구성 효과.

2초만에 두 장의 사진을 3D로 재구성! 이 AI 도구는 GitHub, 네티즌에서 인기가 있습니다: Sora는 잊어버리세요

(저자는 DUSt3R이 단일 입력 이미지에도 적합함을 상기시킵니다.)

특정 네트워크 아키텍처 측면에서 DUSt3R은 표준 Transformer 인코더 및 디코더를 기반으로 하며, 이는 by CroCo (3D 비전 작업을 위한 자기 감독 사전 훈련에 대한 교차 연구를 통해 에서 영감을 얻어 단순 회귀 손실을 사용하여 훈련했습니다.

아래 그림과 같이 장면의 두 가지 보기 (I1, I2)는 먼저 공유 ViT 인코더를 사용하여 Siamese 방식으로 인코딩됩니다.

결과 토큰 표현

(F1 및 F2)은 두 개의 Transformer 디코더로 전달되며, 이는 교차 관심을 통해 지속적으로 정보를 교환합니다.

2초만에 두 장의 사진을 3D로 재구성! 이 AI 도구는 GitHub, 네티즌에서 인기가 있습니다: Sora는 잊어버리세요

마지막으로 두 개의 회귀 헤드는 두 개의 해당 포인트 맵과 관련 신뢰도 맵을 출력합니다.

핵심은 두 점 플롯이 첫 번째 이미지의 동일한 좌표계로 표현되어야 한다는 것입니다.

여러 작업이 SOTA에 수여되었습니다

실험에서는 먼저 7Scenes(실내 장면 7개) 및 Cambridge Landmarks(야외 장면 8개) 데이터 세트에 대한 절대 포즈 추정 작업에서 DUSt3R의 성능을 평가했습니다. 회전 오류 (값이 작을수록 좋음) .

저자는 기존의 다른 특징 매칭 및 엔드투엔드 방법과 비교할 때 DUSt3R의 성능이 놀랍다고 말했습니다.

2초만에 두 장의 사진을 3D로 재구성! 이 AI 도구는 GitHub, 네티즌에서 인기가 있습니다: Sora는 잊어버리세요

첫째, 시각적 포지셔닝 훈련을 받은 적이 없고, 두 번째로 훈련 과정에서 쿼리 이미지와 데이터베이스 이미지를 접한 적이 없기 때문입니다.

두 번째는 10개의 무작위 프레임에서 수행되는 다중 뷰 포즈 회귀 작업입니다. 결과 DUST3R은 두 데이터 세트 모두에서 최상의 결과를 얻었습니다.

2초만에 두 장의 사진을 3D로 재구성! 이 AI 도구는 GitHub, 네티즌에서 인기가 있습니다: Sora는 잊어버리세요

단안 깊이 추정 작업에서 DUSt3R은 자체 감독 기준보다 성능이 뛰어나고 가장 발전된 감독 기준과 동등한 성능으로 실내 및 실외 장면도 잘 포착할 수 있습니다.

2초만에 두 장의 사진을 3D로 재구성! 이 AI 도구는 GitHub, 네티즌에서 인기가 있습니다: Sora는 잊어버리세요

DUST3R은 다중 뷰 깊이 추정에서도 좋은 성능을 발휘합니다.

2초만에 두 장의 사진을 3D로 재구성! 이 AI 도구는 GitHub, 네티즌에서 인기가 있습니다: Sora는 잊어버리세요

다음은 두 그룹이 제공한 3D 재구성 효과입니다. 느낌을 주기 위해 두 개의 이미지만 입력됩니다.

(1)

2초만에 두 장의 사진을 3D로 재구성! 이 AI 도구는 GitHub, 네티즌에서 인기가 있습니다: Sora는 잊어버리세요

(2)

2초만에 두 장의 사진을 3D로 재구성! 이 AI 도구는 GitHub, 네티즌에서 인기가 있습니다: Sora는 잊어버리세요

네티즌 실제 측정: 두 장의 사진이 겹치지 않으면 괜찮습니다. 한 네티즌이 DUSt3R에게 내용이 겹치지 않게 두 장의 이미지를 주었습니다. 그 결과 몇 초 안에 정확한 3D 뷰도 출력되었습니다.

2초만에 두 장의 사진을 3D로 재구성! 이 AI 도구는 GitHub, 네티즌에서 인기가 있습니다: Sora는 잊어버리세요

(사진은 그의 사무실이라 훈련 중에 본 적이 없나 봐요)

2초만에 두 장의 사진을 3D로 재구성! 이 AI 도구는 GitHub, 네티즌에서 인기가 있습니다: Sora는 잊어버리세요 이에 대해 일부 네티즌들은 이 방식이 거기서는 '객관적인 측정'이 아니라 좀 더 AI처럼 행동한다는 의미라는 반응을 보였다.

2초만에 두 장의 사진을 3D로 재구성! 이 AI 도구는 GitHub, 네티즌에서 인기가 있습니다: Sora는 잊어버리세요또한, 어떤 사람들은

입력 이미지를 두 대의 카메라로 촬영할 때 이 방법이 여전히 작동하는지

궁금하십니까? 일부 네티즌들이 실제로 시도해 보았는데, 그 대답은

yes!

2초만에 두 장의 사진을 3D로 재구성! 이 AI 도구는 GitHub, 네티즌에서 인기가 있습니다: Sora는 잊어버리세요

Portal:


[1] Paper https://arxiv.org/abs/2312.14132

[2] 코드 https://github.com/naver/dust3r

위 내용은 2초만에 두 장의 사진을 3D로 재구성! 이 AI 도구는 GitHub, 네티즌에서 인기가 있습니다: Sora는 잊어버리세요의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제