AIxiv 칼럼은 본 사이트에서 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 이 사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 한 2,000개 이상의 보고서가 접수되어 학술 교류 및 보급을 효과적으로 촉진하고 있습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
논문의 첫 번째 저자는 Sun Yat-sen 컴퓨터 과학부 석사 과정 2년차 Chen Jiahao입니다. 그의 연구 방향은 신경 렌더링 및 3차원 재구성입니다. 그의 지도교수는 Li Guanbin입니다. 그 논문은 그의 첫 작품이었다. 논문의 교신저자는 박사 과정 지도교수이자 전국 우수 청년 기금(National Outstanding Youth Fund) 수혜자인 Sun Yat-sen 대학교 컴퓨터 공학부 및 인간-기계-객체 지능 통합 연구소의 Li Guanbin 교수입니다. 팀의 주요 연구 분야는 시각적 인식, 장면 모델링, 이해 및 생성입니다. 현재까지 그는 150개 이상의 CCF 카테고리 A/CAS 영역 1 논문을 출판했으며 Google Scholar에서 12,000회 이상 인용되었습니다. 그는 Wu Wenjun 인공지능 우수 청소년상 및 기타 영예를 수상했습니다. NeRF(Neural Radiance Fields)는 제안된 이후 새로운 관점 합성 및 3차원 재구성에 탁월한 성능을 발휘하여 큰 주목을 받았습니다. NeRF의 렌더링 품질이나 실행 속도를 향상시키려는 많은 작업이 있지만 실제적인 문제는 거의 언급되지 않습니다. 모델링할 장면에 예상치 못한 일시적인 간섭이 나타나면 NeRF에 미치는 영향을 제거하는 방법 NeRF? 본 글에서는 쑨원대학교, 카디프대학교, 펜실베이니아대학교, Simou Technology의 연구진이 이에 대해 심층적인 연구를 진행하고, 이 문제를 해결하기 위한 새로운 패러다임을 제안했습니다. 이 방법은 기존 방식의 장단점을 요약하고 기존 기술의 적용 아이디어를 확장함으로써 다양한 장면에서 정적 요소와 일시적 요소를 정확하게 구분하고 NeRF의 렌더링 품질을 향상시킬 수 있을 뿐만 아니라 CVPR 2024 최우수 논문 후보로 선정되었습니다.
- 논문 링크: https://arxiv.org/abs/2403.17537
- 프로젝트 링크: https://www.sysu-hcp.net/projects/cv/132.html
이 작업을 함께 이해해 봅시다.
새로운 관점 합성은 컴퓨터 비전과 그래픽에서 중요한 작업입니다. 알고리즘 모델은 주어진 다시점 이미지와 카메라 포즈를 사용하여 대상 포즈에 해당하는 이미지를 생성해야 합니다. . NeRF는 이 작업에서 중요한 혁신을 이루었지만 그 효율성은 정적 장면의 가정과 관련이 있습니다.
특히 NeRF에서는 촬영 과정에서 모델링할 장면이 고정되어 있어야 하며 다중 뷰 이미지 콘텐츠가 일관되어야 합니다. 실제로는 이 요구 사항을 충족하기 어렵습니다. 예를 들어, 야외 촬영 시에는 렌즈 안에서 차량이나 행인이 무작위로 움직일 수 있고, 실내 촬영 시에는 물체나 그림자가 의도치 않게 렌즈를 가리는 경우가 있습니다. 이러한 유형의 장면 외부에서 움직임이나 불일치를 나타내는 요소를 일시적인 산만함이라고 부릅니다. 이를 제거할 수 없다면 NeRF의 렌더링 결과에 아티팩트가 발생할 것입니다.
(일시적인 간섭(노란색 상자)이 있으면 의사하내시경 검사가 많이 발생할 수 있습니다. 현재 과도 간섭 문제를 해결하는 방법은 크게 두 가지 유형으로 나눌 수 있습니다.
첫 번째 방법은 의미론적 분할과 같은 기존 분할 모델을 사용하여 선택 항목과 관련된 마스크를 명시적으로 얻은 다음 NeRF를 훈련할 때 해당 픽셀을 마스크합니다. 이러한 방법은 정확한 분할 결과를 생성할 수 있지만 보편적이지 않습니다. 이는 선택 항목과 관련된 사전 지식(객체 카테고리, 초기 마스크 등)을 미리 알아야 하고 모델이 이러한 선택 항목을 식별할 수 있기 때문입니다. 첫 번째 방법과 다르게
두 번째 방법은 경험적 알고리즘을 사용하여 NeRF를 훈련할 때 일시적인 산만함을 암시적으로 처리하며 사전 지식이 필요하지 않습니다. 이러한 방법은 보다 일반적이지만 설계 복잡성과 높은 수준의 잘못된 자세로 인해 일시적인 선택 요소와 정적 장면 요소를 정확하게 분리할 수 없습니다. 예를 들어, 일시적인 픽셀에 해당하는 색상 질감은 서로 다른 시야각에서 일관되지 않기 때문에 이 픽셀의 예측 값과 실제 값 사이의 색상 잔차는 NeRF를 훈련할 때 정적 픽셀의 잔차보다 더 큰 경우가 많습니다. 그러나 장면의 고주파수 정적 세부 사항에도 피팅이 어렵기 때문에 과도한 잔차가 있을 수 있습니다. 따라서 잔류 임계값을 설정하여 일시적인 간섭을 제거하는 일부 방법은 고주파수 정적 세부 사항을 쉽게 잃을 수 있습니다.
기존 방법과 본 논문에서 제안하는 휴리스틱 가이드 분할(HuGS)의 비교. 정적 장면이 일시적인 방해 요인에 의해 방해를 받는 경우, (a) 분할 기반 방법은 사전 지식에 의존하고 예상치 못한 일시적 개체(예: 피자)를 식별할 수 없기 때문에 관련 아티팩트가 발생합니다. 방법은 더 일반적이지만 충분히 정확하지 않습니다(예: 고주파 정적 식탁보 텍스처가 손실됨). (c) HuGS는 두 가지 장점을 결합하고 일시적인 산만함과 정적 장면 요소를 정확하게 분리할 수 있으므로 NeRF의 결과가 크게 향상됩니다.
분할 모델 기반 방법은 정확하지만 보편적이지 않으며, 휴리스틱 알고리즘 기반 방법은 보편적이지만 부정확합니다. 서로의 장점을 보완하고 보완하는 것이 정확하고 보편적인가요?
그래서 논문의 저자는 "강좌를 위한 말"을 모티브로 휴리스틱 기반 세분화(HuGS)라는
새로운 패러다임을 제안했습니다. HuGS는 손으로 디자인한 휴리스틱과 큐 기반 분할 모델을 교묘하게 결합하여 추가적인 사전 지식 없이도 장면의 일시적인 선택 요소와 정적 요소를 정확하게 구별할 수 있습니다.
구체적으로 HuGS는 먼저 휴리스틱 알고리즘을 사용하여 다시점 이미지에서 정적 과도 요소를 대략적으로 구별하고 대략적인 단서를 출력한 다음 대략적인 단서를 사용하여 분할 모델을 안내하여 보다 정확한 분할 마스크를 생성합니다. NeRF를 훈련할 때 이러한 마스크는 일시적인 픽셀을 보호하고 NeRF에 대한 일시적인 선택 요소의 영향을 제거하는 데 사용됩니다. HuGS 디자인 아이디어.
구체적인 구현 측면에서 논문의 저자
는 HuGS의 분할 모델으로 SAM(Segment Anything Model)을 선택했습니다. SAM은 현재 점, 상자, 마스크와 같은 다양한 유형의 프롬프트 입력을 수용하고 해당 인스턴스 분할 마스크를 출력할 수 있는 가장 진보된 프롬프트 기반 분할 모델입니다. 휴리스틱 알고리즘에 대해서는 저자가 심층 분석 후
결합 휴리스틱을 제안했습니다. SfM(Structure-from-Motion) 기반 휴리스틱을 사용하여 장면의 고주파수 정적 세부 정보를 캡처합니다. , A 색상 잔여 휴리스틱을 기반으로 한 휴리스틱은 저주파 정적 세부 정보를 캡처하는 데 사용됩니다. 두 휴리스틱에 의해 출력된 대략적인 정적 마스크는 서로 다르며, 이들의 결합은 SAM을 보다 정확한 정적 마스크로 안내하는 데 사용됩니다. 이 두 가지 휴리스틱을 완벽하게 결합함으로써 HuGS는 다양한 텍스처 세부 사항에 직면했을 때 다양한 유형의 정적 요소를 강력하게 식별할 수 있습니다.
HuGS 흐름도. (a) 일시적인 산만한 요소가 있는 정적 장면에서 순서가 지정되지 않은 다중 뷰 이미지가 주어지면 HuGS는 먼저 두 가지 경험적 정보를 얻습니다. (b) SfM 기반 휴리스틱 알고리즘은 SfM을 사용하여 정적 특징점 과 일시적 특징점 을 구별한 다음 희소 정적 특징점을 힌트로 사용합니다. SAM 가이드 조밀한 정적 마스크를 생성합니다. (c) 색상 잔차 기반 휴리스틱은 부분적으로 훈련된(즉, 수천 번의 반복으로만 훈련된) NeRF에 의존합니다. 예측된 이미지와 실제 이미지 사이의 색상 잔차를 사용하여 또 다른 정적 마스크 세트를 생성할 수 있습니다. (d) 두 개의 서로 다른 마스크의 조합은 궁극적으로 SAM이 (e) 각 이미지에 대해 정확한 정적 마스크를 생성하도록 안내합니다. SfM은 2차원 영상을 3차원 구조로 재구성하는 기술입니다. SfM은 이미지의 2D 특징을 추출한 후 특징에 대한 매칭 및 기하학적 검증을 수행하고 희박한 3D 포인트 클라우드를 재구성합니다. SfM은 NeRF에서 이미지 카메라 포즈를 추정하는 데 자주 사용되며, 논문 작성자는 SfM이 장면의 정적 요소와 일시적 요소를 구별하는 데에도 사용될 수 있다는 사실을 발견했습니다. 특정 2차원 특징점에 대한 일치 개수를 동일한 3차원 포인트 클라우드 점에 해당하는 다른 2차원 특징점 개수라고 가정하면 정적 영역에서 2차원 특징점에 대한 일치 개수가 계산됩니다. 임시 영역의 일치점 수보다 큽니다. 이 결과를 바탕으로 일치 항목 수에 대한 임계값을 설정하여 정적 특징점을 필터링한 다음 SAM을 사용하여 정적 특징점을 정적 마스크로 변환할 수 있습니다. 이 결과의 정확성을 검증하기 위해 논문 작성자는 Kubric 데이터 세트에 대한 통계를 수행했습니다. 아래 그림에서 볼 수 있듯이, 서로 다른 이미지 영역에서 특징점 일치 개수에 상당한 차이가 있습니다. 또 다른 시각화에서는 합리적인 임계값 설정을 통해 정적 특징점을 유지하면서 일시적인 특징점을 제거할 수 있음을 보여줍니다.
왼쪽 그림은 서로 다른 이미지 영역에서 일치하는 특징점 수의 히스토그램입니다. 정적 영역 특징점의 일치 수는 [0,200] 간격으로 균등하게 분포되어 있으며, 과도 영역 특징은 다음과 같습니다. 포인트 일치하는 항목 수가 0에 가까워지고 [0,10] 간격에 집중됩니다. 오른쪽 그림은 Threshold가 변화함에 따라 필터링 후 이미지 영역별 잔여 특징점 밀도를 곡선 차트로 나타낸 것입니다. 과도 영역의 점 밀도는 선형적으로 감소하고 임계값이 0.2보다 큰 후에는 거의 0이 됩니다. 임계값이 증가함에 따라 서로 다른 관점에서 두 이미지의 나머지 특징점 분포를 시각화했습니다. 과도 영역에 남아 있는 특징점은 점차 제거되지만 정적 영역의 특징점은 대부분 그대로 유지됩니다. Color Residual Based Heuristic SfM 기반 휴리스틱은 대부분의 장면에서 잘 수행되지만 정적 부드러운 텍스처를 잘 캡처할 수 없습니다. 이는 Smooth 텍스처에는 중요한 기능이 부족하고 캡처하기 어렵기 때문입니다. SfM의 특징 추출 알고리즘으로 인식됩니다. 저주파수 텍스처를 식별할 수 있도록 논문 작성자는 색상 잔차를 기반으로 한 휴리스틱 알고리즘을 도입했습니다. 먼저 원본 다중 뷰 이미지에 대해 NeRF를 부분적으로 훈련합니다(즉, 수천 개의 텍스처만 반복). 배), 과소적합 모델을 얻은 다음 렌더링된 이미지와 대상 이미지 사이의 색상 잔차를 가져옵니다. 배경 소개에서 언급했듯이 저주파 정적 텍스처 영역의 색상 잔차는 다른 유형의 영역의 잔차보다 작으므로 색상 잔차에 임계값을 설정하여 저주파 정적 텍스처와 관련된 대략적인 마스크를 얻을 수 있습니다. . 색상 잔류로 얻은 마스크는 SfM으로 얻은 마스크로 보완되어 완전한 결과를 얻을 수 있습니다.
두 가지 휴리스틱 알고리즘의 조합으로, (a)는 입력 대상 이미지이고 (d)는 단 5,000회 반복의 NeRF 렌더링 결과입니다. SfM 기반 휴리스틱으로 인한 정적 마스크(b)는 고주파 정적 세부 사항(예: 상자 질감)을 캡처하는 반면 정적 부드러운 부분(예: 흰색 의자 등받이)은 누락합니다. 색상 잔차 기반 휴리스틱에서 파생된 정적 마스크(e)와 유도 SAM에서만 파생된 분할 마스크(f)는 반대 효과를 얻습니다. 그들의 결합(c)은 모든 정적 요소를 포괄하면서 일시적인 방해 요소(예: 분홍색 풍선)를 구별합니다.
여기에는 두 개의 서로 다른 실제 장면에서 HuGS의 시각적 분할 과정과 정적 마스크를 적용한 기본 모델 Mip-NeRF 360이 나와 있습니다. 필름 전후의 렌더링 결과 비교. 휴리스틱과 SAM의 결합을 통해 HuGS는 정확한 정적 마스크를 생성할 수 있으며, Mip-NeRF 360은 정적 마스크를 적용한 후 많은 수의 아티팩트를 제거하고 RGB 및 깊이 맵의 렌더링 품질이 크게 향상됩니다.
여기에는 3개의 데이터 세트와 2개의 기준 모델에 대한 종이 방법의 실험 결과와 기존 방법과의 비교가 나와 있습니다. 기존 방법은 일시적인 산만함으로 인한 아티팩트를 제거하지 못하거나 정적 텍스처 세부 사항을 너무 많이 삭제합니다. 대조적으로, 우리의 방법은 아티팩트를 효과적으로 제거하면서 정적 세부 사항을 더 잘 보존할 수 있습니다.
논문 작성자는 이를 Kubric 데이터세트의 기존 분할 알고리즘과도 비교했습니다. 실험 결과에 따르면 사전 지식이 제공되더라도 의미론적 분할 및 비디오 분할과 같은 기존 분할 모델은 기존 분할 모델 중 어느 것도 이 작업을 위해 설계되지 않았기 때문에 여전히 성능이 좋지 않은 것으로 나타났습니다. 기존의 휴리스틱 기반 방법은 과도 간섭원의 위치를 대략적으로 찾을 수 있지만 더 정확한 분할 결과를 얻을 수는 없습니다. 반면, HuGS는 휴리스틱 알고리즘과 분할 모델을 결합하여 추가적인 사전 지식 없이 일시적인 선택 요소와 정적 장면 요소를 정확하게 분리합니다.
논문의 저자는 다양한 구성 요소를 제거하여 각 구성 요소가 HuGS에 미치는 영향도 확인했습니다. 결과는 SfM 기반 휴리스틱이 결여된 모델 (b)는 파란색 상자에서 저주파 정적 텍스처를 잘 재구성하지 못하는 반면, 색상 잔차 기반 휴리스틱이 결여된 모델 (c) 및 (d)는 노란색을 잃음을 보여줍니다. 색상 상자에 고주파 정적 세부 정보가 포함되어 있습니다. 이에 비해 전체 방법(f)은 최상의 수치 측정항목 및 시각화 결과를 제공합니다.
이 논문은 NeRF 실제 훈련에서 일반적인 과도 간섭 문제를 효과적으로 해결하는 새로운 경험적 안내 분할 패러다임을 제안합니다. 이 방법은 손으로 디자인한 휴리스틱과 최첨단 세분화 모델의 상호 보완적인 강점을 전략적으로 결합함으로써 사전 지식 없이도 다양한 장면에서 일시적인 선택 요소를 매우 정확하게 세분화합니다. 신중하게 설계된 휴리스틱을 통해 우리의 방법은 고주파 및 저주파 정적 장면 요소를 강력하게 캡처할 수 있습니다. 수많은 실험을 통해 이 방법의 발전이 입증되었습니다. 위 내용은 CVPR 최고의 논문 후보 | 추가 사전 지식 없이 경험적 분할을 사용하여 일시적인 간섭을 제거하는 NeRF의 새로운 혁신의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!