"유일하고 진정한 탐험 여행은 낯선 땅을 방문하는 것이 아니라 다른 사람의 눈을 통해 우주를 관찰하는 것입니다." - 마르셀 프루스트
다른 사람의 눈으로 세상을 바라보는 이 공상과학, 시적인 (그리고 무서운) 아이디어가 실현되었습니다!
'블랙미러' 시즌1 '너의 모든 역사'
이제 눈의 반사만으로 사람이 관찰하고 있는 사물을 입체적으로 재구성할 수 있다. .
네, 이게 바로 블랙미러입니다.
최근 메릴랜드 대학의 한 팀은 눈 반사가 포함된 인물 사진을 사용하여 카메라로 포착할 수 없는 장면을 포착하는 새로운 방법을 제안했습니다. 카메라를 사용하여 3차원 재구성을 수행합니다.
논문 주소: https://arxiv.org/abs/2306.09348
프로젝트 주소: https://world-from-eyes.github.io/
눈 반사를 사용하여 방사선장 재구성을 생성하시겠습니까? 이 아이디어는 미친 것처럼 보일 수도 있지만 실제로는 충분한 이론적 근거를 가지고 있습니다.
저자는 인간의 눈은 반사율이 높기 때문에 머리의 움직임을 포착하는 일련의 프레임에서 눈의 반사만을 이용하여 사람들이 관찰하는 3D 장면을 재구성하고 렌더링하는 것이 가능하다고 말했습니다.
이 컨셉이 그야말로 '블랙미러'이고, 이 글이 공개된 지 불과 몇 시간 만에 '블랙미러'의 새 시즌이 예고된 점을 감안하면, 이러한 우연은 단순히 '블랙미러'의 존재를 의심하게 만든다. 거울" 》감독님도 이 논문을 눈치채셨나요? (개머리)
오늘 블랙미러 시즌6가 시작됩니다
이 연구 결과가 나오자마자 네티즌들은 열광했습니다.
자 이제 거의 다 왔네요?
이게 2000년대 공각기동대의 한 장면 아닌가요? 이 모든 상상이 현실이 되었습니다!
100% 블레이드 러너, 지금 사본을 주세요.
Jules Verne의 "Brother Kip"이 실현됩니다!
물론 일부 사람들은 이에 대해 공포감을 표명했습니다. 이 기술은 수사 및 증거 수집과 같은 용도로 사용되어서는 안됩니다.
오늘날 우리는 이미 Varjo 시선 추적 카메라, Apple의 VisionPro 및 기타 헤드셋을 보유하고 있습니다. 이러한 장치는 이 신기술과 결합하여 수많은 새로운 공상 과학 소설을 포착할 수 있습니다. 곧 현실이 될지도...
연구팀은 인간의 눈에 나타나는 작은 빛의 반사를 이용하여 고정된 카메라 위치에서 촬영한 이미지를 사용할 수 있는 방법을 개발했습니다. 이미지 시퀀스는 인간이 관찰한(직접 본 것이 아닌) 장면을 재구성하는 데 사용됩니다.
그러나 관찰된 반사에 대한 방사선장을 단순히 훈련시키는 것만으로는 다음과 같은 여러 가지 이유로 충분하지 않습니다. 1) 각막 위치 지정에 내재된 노이즈, 2) 홍채 질감의 복잡성, 3) 각 이미지에 캡처된 방사선의 양 저해상도 반사.
이러한 과제를 해결하기 위해 팀은 인간 홍채를 기반으로 한 방사형 텍스처 정규화 손실의 도움을 받아 훈련 과정 중에 각막 자세 최적화 및 홍채 텍스처 분해를 도입했습니다.
카메라를 움직여야 하는 기존의 신경장 훈련 방법과 달리 카메라를 고정된 시점에 배치하고 전적으로 사용자의 움직임에 의존하는 방식입니다.
이 작업은 눈의 자세와 홍채와 장면 반사 사이에 얽힌 텍스처를 정확하게 추정하기 어렵기 때문에 어렵습니다.
이 문제를 해결하기 위해 저자는 눈 자세, 장면을 설명하는 방사선장, 관찰자의 눈 홍채 질감을 공동으로 최적화했습니다.
구체적으로 주요 기여는 세 가지입니다.
1. 새로운 3차원 재구성
은 눈 이미지에서 관찰자의 세계를 재구성하는 3D 장면을 제안합니다. 이전의 기초 작업과 신경 렌더링의 최근 발전을 결합한 것입니다.
2. 홍채의 방사형 사전
홍채 텍스처 분해의 방사형 사전이 도입되어 재구성된 방사선장의 품질이 크게 향상됩니다.
3. 각막 자세 최적화
눈 자세 추정의 노이즈를 완화하고 인간의 눈에서 특징을 추출하는 고유한 과제를 극복하기 위해 각막 자세 최적화 프로세스가 개발되었습니다.
결과는 이 새로운 방법을 사용하면 사진을 이동하여 눈의 반사에서 장면의 다양한 관점을 얻을 수 있으며 최종적으로 완전한 장면 재구성을 달성할 수 있음을 보여줍니다.
더 놀라운 점은 마일리 사이러스와 레이디 가가의 뮤직비디오도 활용해 그들의 눈에 보이는 장면을 재현하려 했다는 점입니다.
저자들은 마일리의 눈에 나타난 물체를 성공적으로 재구성했으며, 레이디 가가의 눈을 통해 사람의 상체가 보이는 것 같다고 말했습니다.
그러나 이러한 영상의 품질이 충분히 높지 않기 때문에 재구성 결과의 정확성을 단정할 수는 없습니다.
레이디 가가
마일리 사이러스
건강한 성인의 각막 기하학은 거의 동일하다는 것은 잘 알려져 있습니다.
따라서 영상 속 사람의 각막 픽셀 크기만 계산하면 눈 위치를 정확하게 계산할 수 있습니다.
다음으로 저자는 카메라에서 광선을 가져와 반사하여 눈의 기하학적 구조에 근접하게 하여 눈에 반사되는 방사선장을 훈련합니다.
재구성에 나타나는 인간 눈의 홍채를 피하기 위해 저자는 홍채 텍스처를 학습한 2차원 텍스처 매핑도 훈련하여 텍스처 분해를 수행했습니다. ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ
실험 평가 합성 데이터 평가먼저, 저자 통과 인간의 눈 모델을 블렌더 장면에 배치하고 합성 데이터를 평가했습니다.
아래 사진은 눈 반사만을 이용해 재구성한 장면을 보여줍니다.실생활에서 각막을 완벽하게 추정할 수 없기 때문에 저자는 추정된 각막 반경 노이즈에 대한 각막 위치 최적화의 견고성을 평가했습니다.
실제 데이터에서 발생할 수 있는 깊이 추정 오류를 시뮬레이션하기 위해 저자는 다양한 노이즈 수준을 사용하여 각 이미지에서 크기를 조정하여 관찰된 각막 반경 r_img를 손상시킵니다.노이즈가 증가함에 따라 저자가 제안한 포즈 최적화 재구성은 포즈 최적화가 없는 재구성에 비해 재구성된 기하학 및 색상 측면에서 더 강력하다는 점에 주목할 가치가 있습니다.
투영된 각막에서 이미지의 초기 타원까지의 적합성이 완벽하지 않기 때문에 이는 실제 시나리오에서 포즈 최적화가 중요하다는 것을 증명합니다.
또한 텍스처 분해가 있는 경우와 없는 경우의 정량적 비교를 통해 SSIM 및 LPIPS 측면에서 저자의 방법이 텍스처 분해에서 더 나은 성능을 발휘하는 것으로 나타났습니다.
설정에서 반사와 장면 자체 사이의 조명 차이가 매우 크기 때문에 작성자가 PSNR을 계산하지 않았다는 점은 주목할 가치가 있습니다.
실제 평가
저자는 시야의 사실성을 보장하기 위해 촬영에 Sony RX IV 카메라를 선택하고 Adobe Lightroom을 사용하여 이미지를 후처리하여 이미지를 줄였습니다. 각막 반사. 동시에 작가는 캐릭터의 양쪽에 광원을 추가하여 대상 물체를 조명했다.
이 과정에서 팀이 각 장면에서 5~15프레임의 이미지를 캡처할 수 있도록 사진을 찍는 사람은 카메라 시야 내에서 움직여야 합니다.
장면 조명의 넓은 동적 범위로 인해 저자는 관찰된 반사에서 정보 손실을 방지하기 위해 모든 실험에서 16비트 이미지를 사용합니다.
평균적으로 각막은 각 이미지 영역의 약 0.1%만 차지하는 반면 대상 물체는 홍채 텍스처와 인터리브된 약 20x20픽셀을 차지합니다.
데이터 처리
저자는 먼저 이미지의 각막 중심과 반경을 추정하여 각막의 초기 위치 추정치를 얻습니다.
그런 다음 카메라의 평균 깊이와 초점 거리의 직접적인 근사치를 사용하여 각막의 3차원 위치를 계산하고 표면 법선을 계산합니다.
이 프로세스를 자동화하기 위해 저자는 Grounding Dino를 사용하여 눈의 경계 상자를 찾고 ELLSeg를 사용하여 홍채에 타원 맞춤을 수행합니다.
각막은 일반적으로 폐색되어 있지만 폐색되지 않은 영역만 필요하므로 Segment Anything을 사용하여 홍채에 대한 분할 마스크를 얻을 수 있습니다.
Real Results
아래 그림의 결과에서 볼 수 있듯이 저자의 방법은 실제 인물 사진에서 3D 장면을 재구성할 수 있습니다. 각막 위치 및 부정확성의 기하학적 추정.
각막 경계가 흐릿하기 때문에 이미지에서 정확한 위치를 지정하는 것이 매우 어렵습니다.
또한 녹색, 파란색과 같은 특정 눈 색상의 경우 홍채 질감이 더 밝아지기 때문에 3D 재구성도 더 어렵습니다.
또한 명시적인 모델링 텍스처가 없으면 재구성된 그림에 "떠다니는 개체"가 더 많이 나타납니다.
이러한 문제를 해결하려면 방사형 정규화 정도를 높여 재구성 품질을 향상할 수 있습니다.
그러나 이 방법에는 여전히 두 가지 주요 제한 사항이 있습니다.
우선, 현재 실제 결과는 얼굴 확대, 장면 조명을 위한 추가 광원 사용 등과 같은 "실험실 설정"을 기반으로 합니다. 보다 자유로운 환경에서는 낮은 센서 해상도, 더 작은 동적 범위, 모션 블러와 같은 더 큰 문제에 직면해야 합니다.
두 번째로, 홍채 질감(예: 일정한 질감, 방사형으로 일정한 색상)에 대한 현재 가정이 지나치게 단순화될 수 있으므로 눈이 크게 회전하면 방법이 실패할 수 있습니다.
공저자 Kevin Zhang은 현재 메릴랜드 대학교에서 박사 과정을 밟고 있습니다.
Brandon Y. Feng은 메릴랜드 대학교에서 컴퓨터 과학 박사 학위를 받았으며 그의 연구 관심 분야는 컴퓨터 이미징, 중간 수준 비전 및 컴퓨터 사진 분야입니다. 그는 혼합 현실에서 자연 과학에 이르기까지 다양한 응용 분야를 통해 이미지 및 3D 데이터 처리를 위한 기계 학습 알고리즘을 개발했습니다.
Jia-Bin Huang은 메릴랜드 대학의 부교수이며 이전에 UIUC에서 박사 학위를 받았습니다. 연구 관심 분야는 컴퓨터 비전, 컴퓨터 그래픽 및 기계 학습의 교차점에 중점을 두고 있습니다.
위 내용은 안구 반사를 통해 3D 세계가 잠금 해제되어 Black Mirror가 현실이 됩니다! 메릴랜드 차이니즈의 신작, SF 팬들을 놀라게 하다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!