AIxiv 칼럼은 본 사이트에서 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 이 사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 한 2,000개 이상의 보고서가 접수되어 학술 교류 및 보급을 효과적으로 촉진하고 있습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
연기와 같은 동적 3차원 물리적 현상을 효율적이고 고품질로 재구성하는 것은 관련 과학 연구에서 중요한 문제이며, 공기 역학적 설계 검증, 기상 3차원 관측 및 기타 분야에서 폭넓은 응용 가능성을 가지고 있습니다. 시간이 지남에 따라 변하는 3차원 밀도 시퀀스를 집합적으로 재구성함으로써 과학자들은 현실 세계의 다양하고 복잡한 물리적 현상을 더 잘 이해하고 검증할 수 있습니다.
그림 1은 과학 연구에서 역동적인 3차원 물리적 현상을 관찰하는 것의 중요성을 보여줍니다. 사진은 상업용 트럭 개체에 대한 공기 역학적 실험을 수행하는 세계 최대 풍동 NFAC를 보여줍니다.
그러나 현실 세계에서 동적 3D 밀도장을 고품질로 빠르게 획득하고 재구성하는 것은 상당히 어렵습니다. 첫째, 3차원 정보는 일반적인 2차원 이미지 센서(예: 카메라)를 통해 직접 측정하기가 어렵습니다. 또한, 고속으로 변화하는 동적 현상은 물리적 획득 능력에 대한 요구가 높습니다. 단일 3차원 밀도 필드의 완전한 샘플링은 매우 짧은 시간 내에 차단되어야 합니다. 그렇지 않으면 3차원 밀도 필드 자체가 변경됩니다. 여기서 근본적인 과제는 측정 샘플 자체와 동적 3차원 밀도 필드 재구성 결과 사이의 정보 격차를 해결하는 방법입니다.
현재 주류 연구 작업은 측정 샘플의 정보 부족을 보완하기 위해 사전 지식을 사용합니다. 계산 비용이 높고 사전 조건이 충족되지 않으면 재구성 품질이 떨어집니다. 주류 연구 아이디어와 달리 절강대학교 컴퓨터 지원 설계 및 그래픽 시스템 국가 핵심 연구소 연구팀은 문제 해결의 열쇠는 단위 측정 샘플의 정보 내용을 늘리는 데 있다고 믿습니다.
연구팀은 AI를 사용하여 재구성 알고리즘을 최적화할 뿐만 아니라 AI를 사용하여 물리적 수집 방법을 설계하여 동일한 목표에 따라 완전 자동 소프트웨어 및 하드웨어 공동 최적화를 달성함으로써 본질적으로 대상 개체에 대한 정보의 양을 늘립니다. 단위 측정 샘플에서. 인공지능은 실제 세계의 물리적 광학 현상을 시뮬레이션함으로써 구조화된 빛을 투사하는 방법, 해당 이미지를 수집하는 방법, 샘플 북에서 동적 3차원 밀도장을 재구성하는 방법을 결정할 수 있습니다. 결국 연구팀은 단일 3차원 밀도장(공간 해상도 128x128x128)을 모델링하기 위해 구조화된 조명 패턴의 수를 줄이기 위해 단일 프로젝터와 소수의 카메라(1 또는 3개)가 포함된 경량 하드웨어 프로토타입만을 사용했습니다. 초당 40개의 3차원 밀도 필드를 효율적으로 획득할 수 있습니다.
팀은 디코더 입력의 일부로 로컬 입력 조명을 사용하고 다양한 카메라에서 캡처한 다양한 재료에서 디코더 매개변수를 공유하여 재구성 알고리즘에서 경량의 1차원 디코더를 혁신적으로 제안하여 네트워크의 복잡성을 크게 줄였습니다. 계산 속도를 향상시킵니다. 서로 다른 카메라의 디코딩 결과를 융합하기 위해 간단한 구조의 3D U-Net 융합 네트워크를 설계했습니다. 단일 3차원 밀도 필드의 최종 재구성에는 9.2밀리초밖에 걸리지 않습니다. SOTA 연구 작업에 비해 재구성 속도는 2~3배 증가하여 3차원 밀도 필드의 실시간 고품질 재구성을 달성합니다. . 관련 연구 논문 "Real-time Acquisition and Reconstruction of Dynamic Volumes with Neural Structured Illumination"이 컴퓨터 비전 분야 최고 국제학술대회인 CVPR 2024에 게재되었습니다.
논문 링크: https://svbrdf.github.io/publications/realtimedynamic/realtimedynamic.pdf
연구 홈페이지: https://svbrdf.github.io/publications/realtimedynamic/project. html
관련 작품은 수집 과정에서 조명 조절 여부에 따라 다음 두 가지로 나눌 수 있습니다.
제어 불가능한 조명을 기반으로 한 첫 번째 유형의 작업은 특별한 광원이 필요하지 않으며 수집 과정에서 조명을 제어하지 않기 때문에 수집 조건에 대한 요구 사항이 느슨합니다[2,3]. 단시점 카메라는 3차원 구조의 2차원 투영을 캡처하기 때문에 서로 다른 3차원 구조를 고품질로 구별하기가 어렵습니다. 이에 대해 한 가지 아이디어는 밀집된 카메라 어레이나 라이트 필드 카메라를 사용하는 등 수집되는 시야각 샘플 수를 늘리는 것인데, 이로 인해 하드웨어 비용이 높아집니다. 또 다른 아이디어는 여전히 관점 영역을 드물게 샘플링하고 경험적 사전 지식, 물리적 규칙 또는 기존 데이터에서 학습된 사전 지식과 같은 다양한 유형의 사전 정보를 통해 정보 격차를 채우는 것입니다. 실제로 선험적 조건이 충족되지 않으면 이러한 유형의 방법으로 재구성한 결과의 품질이 저하됩니다. 게다가 실시간 재구성을 지원하기에는 계산 오버헤드가 너무 비쌉니다.
두 번째 유형의 작업은 제어 가능한 조명을 사용하여 수집 과정에서 조명 조건을 적극적으로 제어합니다[4,5]. 이러한 작업은 조명을 인코딩하여 실제 세계를 보다 적극적으로 조사하고 사전 의존도를 줄여 재구성 품질을 향상시킵니다. 단일 램프를 사용하는지, 여러 램프를 동시에 사용하는지에 따라 관련 작업은 다시 스캐닝 방식과 조명 다중화 방식으로 분류됩니다. 동적 물리적 객체의 경우 전자는 값비싼 하드웨어를 사용하여 높은 스캔 속도를 달성하거나 획득 부담을 줄이기 위해 결과의 무결성을 희생해야 합니다. 후자는 여러 광원을 동시에 프로그래밍하여 수집 효율성을 크게 향상시킵니다. 그러나 고품질의 빠른 실시간 밀도 필드의 경우 기존 방법의 샘플링 효율성은 여전히 불충분합니다 [5].
절강대학교 팀의 작업은 두 번째 범주에 속합니다. 대부분의 기존 작업과 달리 이 연구 작업은 인공 지능을 사용하여 물리적 획득(예: 신경 구조 광)과 계산 재구성을 공동으로 최적화함으로써 효율적이고 고품질의 동적 3차원 밀도 필드 모델링을 달성합니다.
하드웨어 프로토타입
연구팀은 상업용 프로젝터 1대(BenQ X3000: 해상도 1920×1080, 속도 240fps)와 산업용 카메라 3대(Basler acA1440-220umQGR: 해상도 1440×1080, 속도 240fps)를 제작했습니다. (그림 3에 표시). 미리 훈련된 6개의 구조광 패턴이 프로젝터를 통해 주기적으로 투사되고, 3대의 카메라가 동시에 촬영되며, 카메라에서 수집된 이미지를 기반으로 동적 3차원 밀도 필드 재구성이 수행됩니다. 컬렉션 개체에 대한 4개 장치의 각도는 다양한 시뮬레이션 실험을 통해 시뮬레이션한 후 선택된 최적의 배열입니다.
그림 3: 컬렉션 하드웨어 프로토타입. (a) 카메라와 프로젝터를 동기화하는 데 사용되는 무대에 세 개의 흰색 태그가 있는 하드웨어 프로토타입의 실제 사진입니다. (b) 카메라, 프로젝터 및 피사체 간의 기하학적 관계에 대한 개략도(평면도).
소프트웨어 처리
R&D 팀은 인코더, 디코더 및 집계 모듈로 구성된 심층 신경망을 설계합니다. 인코더의 가중치는 획득 중 구조화된 광 강도 분포와 직접적으로 일치합니다. 디코더는 단일 픽셀에서 측정된 샘플을 입력으로 사용하여 1차원 밀도 분포를 예측하고 이를 3차원 밀도 필드에 보간합니다. 집계 모듈은 각 카메라에 해당하는 디코더에서 예측한 여러 개의 3차원 밀도 필드를 최종 결과로 결합합니다. 훈련 가능한 구조광과 경량의 1차원 디코더를 사용함으로써 본 연구는 구조광 패턴, 2차원 사진 및 3차원 밀도 필드 사이의 본질적인 관계를 더 쉽게 학습할 수 있어 중간에 과적합될 가능성이 줄어듭니다. . 아래 그림 4는 전체 파이프라인을 보여주고, 그림 5는 관련 네트워크 구조를 보여줍니다.
그림 4: 전역 획득 및 재구성 파이프라인(a), 구조화된 조명 패턴에서 1차원 국부 입사광으로의 재처리(b) 및 예측된 1차원 밀도 분포에서 다시 3차원 밀도 분포로의 재처리 차원 밀도 필드(c) 샘플링 프로세스. 이 연구는 사전 최적화된 구조적 조명 패턴(예: 인코더의 가중치)이 먼저 투영되는 시뮬레이션/실제 3차원 밀도 필드로 시작됩니다. 각 카메라 뷰의 각 유효 픽셀에 대해 모든 측정값과 리샘플링된 국부 입사광이 디코더에 공급되어 해당 카메라 광선의 1차원 밀도 분포를 예측합니다. 그러면 한 카메라의 모든 밀도 분포가 수집되어 단일 3차원 밀도 필드로 리샘플링됩니다. 다중 카메라의 경우 본 연구에서는 각 카메라의 예측 밀도장을 융합하여 최종 결과를 얻습니다. 그림 5: 네트워크의 3가지 주요 구성 요소인 인코더, 디코더 및 집계 모듈의 아키텍처.
결과 표시
그림 6은 네 가지 동적 장면에 대한 이 방법의 부분 재구성 결과를 보여줍니다. 동적 물안개를 생성하기 위해 연구원들은 액체 물이 담긴 병에 드라이아이스를 추가하여 물안개를 생성하고 밸브를 통한 흐름을 제어하고 고무 튜브를 사용하여 수집 장치로 추가 유도했습니다.
그림 6: 다양한 동적 장면의 재구성 결과. 각 행은 특정 물안개 시퀀스에서 재구성된 프레임의 선택된 부분에 대한 시각화 결과입니다. 장면의 물안개 소스 수는 위에서 아래로 각각 1, 1, 3, 2입니다. 좌측 상단의 주황색 표시와 같이 A, B, C는 각각 3개의 입력 카메라에서 수집된 영상에 해당하며, D는 재구성 결과 렌더링 관점과 유사한 실제 참조 영상이다. 타임스탬프는 왼쪽 하단에 표시됩니다. 자세한 동적 재구성 결과는 논문 동영상을 참조하세요. 본 연구의 정확성과 품질을 검증하기 위해 연구팀은 이 방법을 실제 정적 개체에 대한 관련 SOTA 방법과 비교했습니다(그림 7 참조). 그림 7은 또한 다양한 카메라 번호에서 재구성 품질을 비교합니다. 모든 재구성 결과는 동일한 새로운 미획득 관점에서 구성되며 세 가지 평가 지표를 통해 정량적으로 평가됩니다. 그림 7에서 볼 수 있듯이 획득 효율의 최적화 덕분에 이 방법의 재구성 품질이 SOTA 방법보다 우수합니다. 그림 7: 실제 정적 개체에 대한 다양한 기술 비교. 왼쪽부터 오른쪽으로 광학 레이어 절단 방법[4], 이 방법(3개의 카메라), 이 방법(이중 카메라), 이 방법(단일 카메라), 단일 카메라 아래에서 손으로 설계한 구조광을 사용함[5], SOTA의 PINF [3] 및 GlobalTrans [2] 방법의 재구성 결과 시각화. 광학 슬라이스 결과를 벤치마크로 삼고 다른 모든 결과의 경우 정량적 오류는 해당 이미지의 오른쪽 하단에 나열되며 세 가지 측정항목 SSIM/PSNR/RMSE(×0.01)로 평가됩니다. 재구성된 모든 밀도 필드는 입력되지 않은 뷰를 사용하여 렌더링됩니다. #v는 획득된 뷰 수를 나타내고 #p는 사용된 구조광 패턴 수를 나타냅니다. 연구팀은 동적 시뮬레이션 데이터에 대한 다양한 방법의 재구성 품질도 정량적으로 비교했습니다. 그림 8은 시뮬레이션된 연기 시퀀스의 재구성 품질 비교를 보여줍니다. 자세한 프레임별 재구성 결과는 논문 영상을 참조하세요. 그림 8: 시뮬레이션된 연기 시퀀스에 대한 다양한 방법 비교. 왼쪽부터 실제 값, 이 방법의 재구성 결과, PINF [3] 및 GlobalTrans [2]입니다. 입력 뷰와 새 뷰의 렌더링 결과가 각각 첫 번째 행과 두 번째 행에 표시됩니다. 정량적 오류 SSIM/PSNR/RMSE(×0.01)는 해당 이미지의 오른쪽 하단에 표시됩니다. 재구성된 전체 시퀀스의 평균 오류에 대해서는 논문의 보충 자료를 참조하세요. 또한 전체 시퀀스의 동적 재구성 결과는 종이 비디오를 참조하십시오. 미래 전망 연구팀은 이 방법을 보다 진보된 획득 장비(예: 라이트 필드 프로젝터[6])에 적용하여 동적 획득 재구성을 수행할 계획입니다. 또한 팀은 더 풍부한 광학 정보(예: 편광 상태)를 수집하여 수집에 필요한 구조화된 조명 패턴과 카메라의 수를 더욱 줄일 수 있기를 바라고 있습니다. 또한, 이 방법을 NeRF 등의 신경 표현과 결합하는 것도 팀이 관심을 갖고 있는 향후 개발 방향 중 하나입니다. 마지막으로, AI가 후처리 소프트웨어에 국한되지 않고 물리적 획득 및 계산 재구성 설계에 보다 적극적으로 참여할 수 있도록 하면 물리적 인식 능력을 더욱 향상시키기 위한 새로운 아이디어를 제공하고 궁극적으로 다양한 객체의 효율적이고 고품질 모델링을 달성할 수 있습니다. 복잡한 물리적 현상. 참고 자료: [1] 세계 최대의 풍동 내부 https://youtu.be/ubyxYHFv2qw?si=KK994cXtARP3Atwn [2]. 프란츠, 바바라 솔렌탈러 및 Nils Thuerey. CVPR, 페이지 1632–1642, 2021. [3] Mengyu Chu, Lingjie Liu, Quan Zheng, Erik Franz, HansPeter Seidel, Christian. Theobalt 및 Rhaleb Zayer는 희소 데이터를 사용하여 연기 재구성을 위한 신경장에 정보를 제공했습니다. ACM Transactions on Graphics, 41(4):1–14, 2022. [4]. Paul Debevec, 그래픽에 대한 ACM 거래 인수, 24(3):812–815, 2005. [5]. . Belhumeur 및 Ravi Ramamoorthi. 패턴 분석 및 기계 지능에 대한 IEEE 거래, 35(3):1–1, 2013. [6]. Lin, Haoyang Zhou, Chong Zeng, Yaxin Yu, Kun Zhou 및 Hongzhi Wu. 단일 뷰 형태 및 반사율 획득을 위한 통합 공간 각도 구조 조명, 2023년 206~215페이지.
위 내용은 CVPR 2024 | 절강대학교는 신경 구조광의 도움으로 동적 3차원 현상의 실시간 획득 및 재구성을 실현합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!