>  기사  >  기술 주변기기  >  자율주행 분야에서 Gaussian Splatting이 인기를 끌면서 NeRF가 폐기되기 시작한 이유는 무엇입니까?

자율주행 분야에서 Gaussian Splatting이 인기를 끌면서 NeRF가 폐기되기 시작한 이유는 무엇입니까?

WBOY
WBOY앞으로
2024-01-17 14:57:051303검색

앞서 작성 및 저자의 개인적인 이해

3차원 가우시안 스플래팅(3DGS)은 최근 몇 년간 명시적 방사선장 및 컴퓨터 그래픽 분야에서 등장한 혁신적인 기술입니다. 이 혁신적인 방법은 수백만 개의 3D 가우스를 사용하는 것이 특징이며, 이는 주로 암시적 좌표 기반 모델을 사용하여 공간 좌표를 픽셀 값에 매핑하는 NeRF(Neural Radiation Field) 방법과 매우 다릅니다. 명시적인 장면 표현과 미분 가능한 렌더링 알고리즘을 갖춘 3D GS는 실시간 렌더링 기능을 보장할 뿐만 아니라 전례 없는 수준의 제어 및 장면 편집 기능을 제공합니다. 이는 3D GS를 차세대 3D 재구성 및 표현을 위한 잠재적인 게임 체인저로 자리매김합니다. 이를 위해 우리는 3D GS 분야의 최신 개발 및 주요 기여에 대한 최초의 체계적인 개요를 제공합니다. 먼저, 3D GS 출현의 기본 원리와 공식을 구체적으로 살펴보고 그 의의를 이해하는 토대를 마련한다. 그런 다음 3D GS의 실용성에 대해 심도 있게 논의합니다. 실시간 성능을 촉진함으로써 3D GS는 가상 현실에서 대화형 미디어 등에 이르기까지 다양한 응용 프로그램을 열어줍니다. 또한, 대표적인 3D GS 모델에 대한 비교분석을 실시하고, 다양한 벤치마크 과제를 통해 평가하여 성능과 실용성을 부각시켰습니다. 검토는 현재의 과제를 식별하고 이 분야의 향후 연구를 위한 잠재적인 방법을 제안하는 것으로 마무리됩니다. 이 설문조사를 통해 우리는 신입 연구원과 숙련된 연구원 모두에게 가치 있는 자원을 제공하여 방사선 분야에 대한 적용 가능하고 명확한 표현에 대한 추가 탐구와 발전을 촉진하는 것을 목표로 합니다.

开始弃用NeRF?为什么Gaussian Splatting在自动驾驶场景如此受欢迎?

독자들이 3D GS의 급속한 발전을 따라갈 수 있도록 돕기 위해 3D GS에 대한 첫 번째 설문 리뷰를 제공합니다. 우리는 주로 arxiv에서 이 주제에 관한 가장 중요한 최신 문헌을 체계적이고 시기적절하게 수집했습니다. 이 기사의 목표는 3D GS의 초기 개발, 이론적 기초 및 새로운 응용 분야에 대한 포괄적인 최신 분석을 제공하여 해당 분야의 혁신적인 잠재력을 강조하는 것입니다. 3D GS의 초기 단계이지만 빠르게 발전하는 특성을 고려하여, 이 설문조사는 또한 이 분야의 현재 과제와 미래 전망을 식별하고 논의하는 것을 목표로 합니다. 우리는 3D GS가 촉진할 수 있는 진행 중인 연구 방향과 잠재적 발전에 대한 통찰력을 제공합니다. 본 리뷰가 학문적 지식을 제공할 뿐만 아니라 이 분야의 추가 연구와 혁신을 촉진할 수 있기를 바랍니다. 이 글의 구성은 다음과 같습니다. (그림 2) 모든 콘텐츠는 최신 문헌 및 연구 결과를 기반으로 하며 독자들에게 3D GS에 대한 포괄적이고 시의적절한 정보를 제공하는 것을 목표로 합니다.

开始弃用NeRF?为什么Gaussian Splatting在自动驾驶场景如此受欢迎?

배경 소개

이 섹션에서는 장면 렌더링의 핵심 개념인 복사장의 간략한 공식을 소개합니다. 방사선장은 두 가지 주요 유형으로 나타낼 수 있습니다. 직접적이지만 계산이 많이 필요한 렌더링을 위해 신경망을 사용하는 NeRF와 같은 암시적 유형과 더 빠른 액세스를 위해 개별 구조를 사용하지만 더 적은 메모리를 사용하는 메시와 같은 명시적 유형입니다. 다음으로 장면 재구성, 렌더링 등 관련 영역과의 연관성을 더 자세히 살펴보겠습니다.

문제 정의

Radiation Field: Radiation Field는 3차원 공간에서 빛의 분포를 표현한 것으로, 빛이 환경의 표면 및 재료와 상호 작용하는 방식을 포착합니다. 수학적으로 방사선장은 공간의 한 지점과 구형 좌표로 지정된 방향을 음이 아닌 방사선 값에 매핑하는 함수로 설명할 수 있습니다. 방사선장은 암시적 또는 명시적 표현으로 캡슐화될 수 있으며, 각 표현에는 특정 장면 표현 및 렌더링 이점이 있습니다.

암시적 방사장: 암시적 방사장은 장면의 기하학적 구조를 명시적으로 정의하지 않고 장면의 빛 분포를 나타냅니다. 딥러닝 시대에는 신경망을 사용하여 연속적인 볼륨 장면 표현을 학습하는 경우가 많습니다. 가장 대표적인 사례가 NeRF이다. NeRF에서는 MLP 네트워크를 사용하여 일련의 공간 좌표와 시야 방향을 색상 및 밀도 값에 매핑합니다. 모든 지점의 휘도는 명시적으로 저장되지 않고 신경망을 쿼리하여 실시간으로 계산됩니다. 따라서 함수는 다음과 같이 작성할 수 있습니다.

开始弃用NeRF?为什么Gaussian Splatting在自动驾驶场景如此受欢迎?

이 형식을 사용하면 체적 광선 이동으로 인해 렌더링하는 동안 계산 부하가 높아지더라도 복잡한 장면을 간결하고 차별화 가능한 표현이 가능합니다.

명시적 방사선장: 대조적으로 명시적 방사선장은 복셀 그리드 또는 점 집합과 같은 개별 공간 구조의 광 분포를 직접적으로 나타냅니다. 구조의 각 요소는 공간 내 해당 위치에 대한 방사선 정보를 저장합니다. 이 접근 방식을 사용하면 방사 측정 데이터에 더 직접적이고 더 빠르게 액세스할 수 있지만 메모리 사용량이 늘어나고 해상도가 낮아질 수 있습니다. 명시적 방사선장 표현의 일반적인 형식은 다음과 같이 작성할 수 있습니다.

开始弃用NeRF?为什么Gaussian Splatting在自动驾驶场景如此受欢迎?

DataStructure는 보는 방향에 따라 방사선을 수정하는 기능인 그리드 또는 포인트 클라우드일 수 있습니다.

두 세계의 최고 3D 가우스 스플래팅: 3D GS는 암시적 방사선장에서 명시적 방사선장으로의 전환을 나타냅니다. 3D 가우스를 유연하고 효율적인 표현으로 활용하여 두 방법의 장점을 모두 활용합니다. 이러한 가우스 계수는 신경망 기반 최적화와 명시적 구조화된 데이터 저장의 장점을 결합하여 장면을 정확하게 표현하도록 최적화되었습니다. 이 하이브리드 접근 방식은 특히 복잡한 장면과 고해상도 출력에 대해 더 빠른 훈련과 실시간 성능을 통해 고품질 렌더링을 달성하는 것을 목표로 합니다. 3D 가우스 표현은 다음과 같이 공식화됩니다.

开始弃用NeRF?为什么Gaussian Splatting在自动驾驶场景如此受欢迎?

상황 및 용어

많은 기술과 연구 분야가 3D GS와 밀접하게 관련되어 있으며 이에 대해 아래에서 간략하게 설명합니다.

장면 재구성 및 렌더링: 대략적으로 말하면 장면 재구성에는 이미지 또는 기타 데이터 모음에서 장면의 3D 모델을 만드는 작업이 포함됩니다. 렌더링은 컴퓨터가 읽을 수 있는 정보(예: 장면의 3D 개체)를 픽셀 기반 이미지로 변환하는 데 초점을 맞춘 보다 구체적인 용어입니다. 초기 기술은 사실적인 이미지를 생성하기 위해 광장을 기반으로 했습니다. SfM(Structure-from-Motion) 및 MVS(Multi-view Stereo) 알고리즘은 이미지 시퀀스에서 3D 구조를 추정하여 해당 분야를 더욱 발전시킵니다. 이러한 역사적 방법은 보다 복잡한 장면 재구성 및 렌더링 기술의 토대를 마련했습니다.

방사장을 사용한 신경 렌더링: 신경 렌더링은 딥 러닝과 기존 그래픽 기술을 결합하여 사실적인 이미지를 만듭니다. 초기 시도에서는 CNN(컨볼루션 신경망)을 사용하여 하이브리드 가중치 또는 텍스처 공간 솔루션을 추정했습니다. 복사장은 공간의 각 지점을 통해 각 방향으로 이동하는 빛의 양을 설명하는 함수를 나타냅니다. NeRF는 신경망을 사용하여 방사선장을 모델링하여 상세하고 사실적인 장면 렌더링을 가능하게 합니다.

볼륨 표현 및 레이 행진: 볼륨 표현은 물체와 장면을 표면뿐만 아니라 재료나 빈 공간으로 채워진 볼륨으로도 모델링합니다. 이 방법을 사용하면 안개, 연기 또는 반투명 재질과 같은 현상을 보다 정확하게 렌더링할 수 있습니다. Ray-Marching은 볼륨을 통과하는 빛의 경로를 점진적으로 추적하여 이미지를 렌더링하기 위해 볼륨 표현과 함께 사용되는 기술입니다. NeRF는 동일한 볼류메트릭 레이 행진 정신을 공유하고 합성 이미지의 품질을 향상시키기 위해 중요도 샘플링 및 위치 인코딩을 도입합니다. 고품질 결과를 제공하는 반면, 볼륨 광선 이동은 계산 비용이 많이 들기 때문에 3D GS와 같은 보다 효율적인 방법을 찾아야 합니다.

포인트 기반 렌더링: 포인트 기반 렌더링은 기존 다각형 대신 점을 사용하여 3D 장면을 시각화하는 기술입니다. 이 접근 방식은 복잡하거나 구조화되지 않았거나 희박한 기하학적 데이터를 렌더링하는 데 특히 효과적입니다. 포인트는 학습 가능한 신경 설명자와 같은 추가 속성으로 향상되고 효율적으로 렌더링될 수 있지만 이 접근 방식은 렌더링 시 구멍이나 앨리어싱 효과와 같은 문제가 발생할 수 있습니다. 3D GS는 이방성 가우스를 사용하여 장면을 보다 연속적이고 응집력 있게 표현함으로써 이 개념을 확장합니다.

명시적 방사선장을 위한 3D 가우스

3D GS는 신경 구성 요소에 의존하지 않는 획기적인 실시간 고해상도 이미지 렌더링입니다.

새로운 관점 합성을 위한 3D 가우스 학습

수백만 개의 최적화된 3D 가우스로 표현되는 장면을 생각해 보세요. 목표는 지정된 카메라 포즈를 기반으로 이미지를 생성하는 것입니다. NeRF는 계산적으로 체적 광선 이동을 요구하고 각 픽셀에 대해 3D 공간 점을 샘플링하여 이 작업을 수행한다는 점을 기억하세요. 이 모드에서는 고해상도 이미지 합성이 어렵고 실시간 렌더링 속도를 얻을 수 없습니다. 이와는 대조적으로 3D GS는 먼저 이러한 3D 가우스를 픽셀 기반 이미지 평면에 투영합니다. 이 프로세스를 "스플래팅"이라고 합니다(그림 3a). 그런 다음 3D GS는 이러한 가우스를 정렬하고 각 픽셀의 값을 계산합니다. 그림에서 볼 수 있듯이 NeRF와 3D GS의 렌더링은 서로 역과정으로 볼 수 있습니다. 다음에서는 3D GS에서 장면 표현의 가장 작은 요소인 3D 가우스의 정의부터 시작합니다. 다음으로 미분 가능한 렌더링을 위해 이러한 3D 가우스를 사용하는 방법을 설명합니다. 마지막으로 빠른 렌더링의 핵심인 3D GS에서 사용되는 가속 기술을 소개합니다.

3차원 가우시안의 특성: 3차원 가우시안의 특성은 중심(위치) μ, 불투명도 α, 3차원 공분산 행렬 ∑ 및 색상 c입니다. 뷰 종속 모양의 경우 c는 구형 고조파로 표시됩니다. 모든 속성은 역전파를 통해 학습 가능하고 최적화됩니다.

절두체 선별: 지정된 카메라 포즈가 주어지면 이 단계에서는 카메라 절두체 외부에 어떤 3D 가우시안이 있는지 결정합니다. 이렇게 하면 특정 뷰 외부의 3D 가우스가 후속 계산에 포함되지 않으므로 계산 리소스가 절약됩니다.

Splatting: ** 이 단계에서는 렌더링을 위해 3D 가우스(타원체)를 2D 이미지 공간(타원체)에 투영합니다. 보기 변환 W와 3D 공분산 행렬 Σ가 주어지면 투영된 2D 공분산 행렬 Σ'는 다음 공식을 사용하여 계산됩니다.

开始弃用NeRF?为什么Gaussian Splatting在自动驾驶场景如此受欢迎?

여기서 J는 사영 변환의 아핀 근사의 야코비 행렬입니다.

픽셀 렌더링: 3D GS의 최종 버전을 살펴보기 전에 먼저 작동 방식을 더 깊이 이해하기 위해 더 단순한 형태를 자세히 설명합니다. 3D GS는 여러 기술을 활용하여 병렬 컴퓨팅을 촉진합니다. 픽셀의 위치가 주어지면 그런 다음 알파 합성을 사용하여 해당 픽셀의 최종 색상을 계산합니다.

开始弃用NeRF?为什么Gaussian Splatting在自动驾驶场景如此受欢迎?

학습된 색상은 어디에 있고 최종 불투명도는 학습된 불투명도와 가우스 값의 산물입니다.

开始弃用NeRF?为什么Gaussian Splatting在自动驾驶场景如此受欢迎?

여기서 x′ 및 μ는 투영 공간의 좌표입니다. 필요한 정렬 목록을 생성하는 것이 병렬화하기 어렵다는 점을 고려하면 설명된 렌더링 프로세스는 NeRF에 비해 느릴 수 있으며 이는 정당한 문제입니다. 실제로 이러한 우려는 타당합니다. 이 간단한 픽셀별 접근 방식을 사용하면 렌더링 속도가 크게 영향을 받을 수 있습니다. 실시간 렌더링을 달성하기 위해 3DGS는 병렬 컴퓨팅을 수용하기 위해 몇 가지 양보를 했습니다.

타일(패치): 각 픽셀에 대한 가우스 계수를 파생하는 계산 비용을 피하기 위해 3D GS는 정확도를 픽셀 수준에서 패치 수준 세부 정보로 전송합니다. 특히 3D GS는 처음에 이미지를 원본 용지에서 "타일"이라고 불리는 여러 개의 겹치지 않는 블록으로 나눕니다. 그림 3b는 타일을 보여줍니다. 각 타일은 16×16 픽셀로 구성됩니다. 3D GS는 투영된 가우스 맵과 교차하는 타일을 추가로 결정합니다. 투영된 가우스가 여러 타일을 포함할 수 있다고 가정하면 논리적 접근 방식은 가우스를 복사하여 각 복사본에 관련 타일의 식별자(예: 타일 ID)를 할당하는 것으로 구성됩니다.

병렬 렌더링: 복사 후 3D GS는 개별 타일 ID를 각 가우시안의 뷰 변환에서 얻은 깊이 값과 결합합니다. 이렇게 하면 정렬되지 않은 바이트 목록이 생성됩니다. 여기서 상위 비트는 타일 ID를 나타내고 하위 비트는 깊이를 나타냅니다. 이렇게 하면 정렬된 목록을 렌더링(예: 알파 합성)에 직접 사용할 수 있습니다. 그림 3c와 3d는 이러한 개념을 시각적으로 보여줍니다. 각 타일과 픽셀 렌더링이 독립적으로 발생하므로 이 프로세스가 병렬 컴퓨팅에 이상적이라는 점을 강조할 가치가 있습니다. 또 다른 이점은 각 타일의 픽셀이 공통 공유 메모리에 액세스할 수 있고 균일한 읽기 순서를 유지하므로 알파 합성을 더 효율적으로 병렬로 수행할 수 있다는 것입니다. 원본 논문의 공식 구현에서 프레임워크는 타일과 픽셀 처리를 각각 CUDA 프로그래밍 아키텍처의 블록 및 스레드와 유사하게 처리합니다.

开始弃用NeRF?为什么Gaussian Splatting在自动驾驶场景如此受欢迎?

간단히 말하면, 3D GS는 높은 수준의 이미지 합성 품질을 유지하면서 계산 효율성을 향상시키기 위해 전처리 단계에서 여러 가지 근사치를 도입합니다.

3D 가우스 스플래팅 최적화

3D GS의 핵심에는 장면의 본질을 정확하게 포착하여 자유 시점 렌더링을 촉진하는 대규모 3D 가우시안 컬렉션을 구축하도록 설계된 최적화 프로세스가 있습니다. 한편으로, 3D 가우시안의 속성은 주어진 장면의 질감에 적응하기 위해 차별화 가능한 렌더링을 통해 최적화되어야 합니다. 반면, 주어진 장면을 잘 표현할 수 있는 3차원 가우시안의 수는 미리 알 수 없습니다. 유망한 접근 방식 중 하나는 신경망이 자동으로 3D 가우스 밀도를 학습하도록 하는 것입니다. 각 가우시안의 속성을 최적화하는 방법과 가우시안의 밀도를 제어하는 ​​방법을 다룹니다. 이 두 프로세스는 최적화 작업흐름에 인터리브되어 있습니다. 최적화 중에 수동으로 설정한 하이퍼파라미터가 많기 때문에 명확성을 위해 대부분의 하이퍼파라미터 기호를 생략했습니다.

매개변수 최적화

손실 함수: 이미지 합성이 완료되면 렌더링된 이미지와 GT의 차이로 손실을 계산합니다.

开始弃用NeRF?为什么Gaussian Splatting在自动驾驶场景如此受欢迎?

3D-GS의 손실 함수는 다음과 같습니다. NeRF와는 약간 다릅니다. 시간이 많이 걸리는 레이 행진으로 인해 NeRF는 일반적으로 이미지 수준이 아닌 픽셀 수준에서 계산됩니다.

매개변수 업데이트: 3D 가우스의 대부분의 속성은 역전파를 통해 직접 최적화될 수 있습니다. 공분산 행렬 Σ를 직접 최적화하면 일반적으로 공분산 행렬과 관련된 물리적 해석을 따르지 않는 비양수 준정부호 행렬이 생성된다는 점에 유의해야 합니다. 이 문제를 피하기 위해 3D GS는 쿼터니언 q와 3D 벡터 s를 최적화하도록 선택합니다. q와 s는 각각 회전과 크기 조정을 나타냅니다. 이 접근 방식을 사용하면 공분산 행렬 ∑을 다음과 같이 재구성할 수 있습니다.

开始弃用NeRF?为什么Gaussian Splatting在自动驾驶场景如此受欢迎?

밀도 제어

초기화: 3D GS는 초기 SfM 세트 또는 무작위로 초기화된 희소 점에서 시작됩니다. 그런 다음 점 밀도화 및 가지치기를 사용하여 3차원 가우시안의 밀도를 제어합니다.

점 밀도화: 점 밀도화 단계에서 3D GS는 장면의 세부 사항을 더 잘 포착하기 위해 가우스 밀도를 적응적으로 증가시킵니다. 이 프로세스에서는 기하학적 특징이 누락되거나 가우스 분포가 너무 분산된 영역에 특히 주의를 기울입니다. 큰 뷰 공간 위치 기울기(즉, 특정 임계값 이상)를 나타내는 가우스를 대상으로 특정 횟수의 반복 후에 밀도화가 수행됩니다. 여기에는 재구성이 부족한 영역에서 작은 가우스를 복제하거나 과도하게 재구성된 영역에서 큰 가우스를 분할하는 작업이 포함됩니다. 복제를 위해 가우시안 복사본이 생성되어 위치 그라데이션 쪽으로 이동됩니다. 분할의 경우 두 개의 작은 가우스가 하나의 큰 가우스를 대체하여 특정 요소만큼 크기를 줄입니다. 이 단계에서는 3D 공간에서 가우스의 최적 분포 및 표현을 추구하여 재구성의 전반적인 품질을 향상시킵니다.

점 가지치기: 점 가지치기 단계에는 중복되거나 영향력이 덜한 가우시안을 제거하는 작업이 포함되며, 이는 어느 정도 정규화 프로세스로 간주될 수 있습니다. 이 단계는 거의 투명한 가우스(지정된 임계값 아래의 α)와 월드 공간이나 뷰 공간에서 너무 큰 가우스를 제거하여 수행됩니다. 또한 입력 카메라 근처의 가우시안 밀도가 비합리적으로 증가하는 것을 방지하기 위해 특정 횟수의 반복 후에 가우시안의 알파 값이 0에 가깝게 설정됩니다. 이를 통해 과도한 가우시안을 제거하면서 필요한 가우시안 밀도 증가를 제어할 수 있습니다. 이 프로세스는 계산 리소스를 절약하는 데 도움이 될 뿐만 아니라 모델의 가우시안에 의한 장면 표현이 정확하고 효율적으로 유지되도록 보장합니다.

응용 분야 및 작업

3D GS의 혁신적인 잠재력은 이론적, 계산적 발전을 훨씬 뛰어넘습니다. 이 섹션에서는 로봇 공학, 장면 재구성 및 표현, AI 생성 콘텐츠, 자율 주행 및 기타 과학 분야와 같이 3D GS가 상당한 영향을 미치는 다양한 선구적인 응용 분야를 살펴봅니다. 3D GS의 적용은 그 다양성과 혁신적인 잠재력을 보여줍니다. 여기에서는 가장 주목할만한 응용 분야 중 일부를 간략히 설명하고 3D GS가 각 분야에서 어떻게 새로운 개척지를 형성하고 있는지에 대한 통찰력을 제공합니다.

SLAM

SLAM은 로봇 공학 및 자율 시스템의 핵심 컴퓨팅 문제입니다. 여기에는 로봇이나 장치가 환경의 레이아웃을 매핑하면서 알 수 없는 환경에서 자신의 위치를 ​​이해하는 과제가 포함됩니다. SLAM은 자율주행차, 증강현실, 로봇 내비게이션 등 다양한 애플리케이션에서 매우 중요합니다. SLAM의 핵심은 미지의 환경에 대한 지도를 생성하고 지도에서 기기의 위치를 ​​실시간으로 파악하는 것이다. 따라서 SLAM은 계산 집약적인 장면 표현 기술에 큰 도전 과제이며 3D GS를 위한 좋은 테스트베드이기도 합니다.

3D GS는 혁신적인 장면 표현 방식으로 SLAM 분야에 진출합니다. 기존 SLAM 시스템은 일반적으로 점/표면 클라우드 또는 복셀 메시를 사용하여 환경을 나타냅니다. 이와 대조적으로 3D GS는 이방성 가우스를 활용하여 환경을 더 잘 표현합니다. 이 표현은 여러 가지 이점을 제공합니다. 1) 효율성: 3D 가우시안의 밀도를 적응적으로 제어하여 공간 데이터를 간결하게 표현하고 계산 부하를 줄입니다. 2) 정확도: 이방성 가우스를 사용하면 보다 상세하고 정확한 환경 모델링이 가능하며, 특히 복잡하거나 동적으로 변화하는 장면에 적합합니다. 3) 적응성: 3D GS는 다양한 규모와 복잡한 환경에 적응할 수 있으므로 다양한 SLAM 애플리케이션에 적합합니다. 여러 혁신적인 연구에서는 SLAM에서 3D 가우스 스플래싱을 사용하여 이 패러다임의 잠재력과 다양성을 입증했습니다.

동적 장면 모델링

동적 장면 모델링은 시간에 따라 변화하는 장면의 입체적 구조와 모습을 포착하고 표현하는 과정을 말합니다. 여기에는 장면에 있는 개체의 형상, 동작 및 시각적 측면을 정확하게 반영하는 디지털 모델을 만드는 것이 포함됩니다. 동적 장면 모델링은 가상 및 증강 현실, 3D 애니메이션, 컴퓨터 비전을 포함한 다양한 애플리케이션에서 매우 중요합니다. 4D GS(4D Gaussian Scattering)는 3D GS의 개념을 동적 장면으로 확장합니다. 시간적 차원을 통합하여 시간이 지남에 따라 변화하는 장면을 표현하고 렌더링할 수 있습니다. 이 패러다임은 고품질의 시각적 출력을 유지하면서 동적 장면을 실시간으로 렌더링하는 데 있어 상당한 개선을 제공합니다.

AIGC

AIGC는 특히 컴퓨터 비전, 자연어 처리 및 기계 학습 분야에서 인공 지능 시스템에 의해 자율적으로 생성되거나 크게 변경된 디지털 콘텐츠를 의미합니다. AIGC는 인위적으로 생성된 콘텐츠를 시뮬레이션, 확장 또는 향상하는 기능을 특징으로 하며, 사실적인 이미지 합성부터 동적 내러티브 생성에 이르기까지 다양한 애플리케이션을 가능하게 합니다. AIGC의 의의는 엔터테인먼트, 교육, 기술 개발 등 다양한 분야에서 변화를 가져올 수 있는 잠재력에 있습니다. 이는 진화하는 디지털 콘텐츠 제작 환경의 핵심 요소로, 확장 가능하고 사용자 정의가 가능하며 기존 방법보다 더 효율적인 대안을 제공합니다.

3D GS의 이 명확한 기능은 실시간 렌더링 기능과 전례 없는 수준의 제어 및 편집을 촉진하여 AIGC 애플리케이션과의 관련성을 높입니다. 3D GS의 명시적 장면 표현 및 미분 가능한 렌더링 알고리즘은 가상 현실, 대화형 미디어 및 기타 분야의 응용 프로그램에 중요한 고품질, 실시간 및 편집 가능한 콘텐츠를 생성하기 위한 AIGC의 요구 사항을 완벽하게 충족합니다.

자율 운전

자율 운전은 사람의 개입 없이 차량이 탐색하고 작동할 수 있도록 설계되었습니다. 이러한 차량에는 카메라, LiDAR, 레이더 등의 센서 제품군과 고급 알고리즘, 기계 학습 모델 및 강력한 컴퓨팅 성능이 결합되어 있습니다. 핵심 목표는 환경을 감지하고, 정보에 입각한 결정을 내리고, 안전하고 효율적으로 기동을 실행하는 것입니다. 자율주행은 인간의 실수를 줄여 도로 안전을 향상하고, 운전할 수 없는 사람들을 위한 이동성을 향상시키며, 교통 흐름을 최적화하여 교통 혼잡과 환경에 미치는 영향을 줄이는 등 교통을 변화시킬 수 있는 잠재력을 가지고 있습니다.

자율주행차가 안전하게 운전하려면 주변 환경을 감지하고 해석해야 합니다. 여기에는 운전 장면을 실시간으로 재구성하고, 정적 및 동적 개체를 정확하게 식별하고, 공간적 관계와 동작을 이해하는 것이 포함됩니다. 동적 운전 시나리오에서는 다른 차량, 보행자 또는 동물과 같은 움직이는 물체로 인해 환경이 끊임없이 변화합니다. 실시간으로 이러한 장면을 정확하게 재구성하는 것은 안전한 탐색에 중요하지만 관련 요소의 복잡성과 가변성으로 인해 어려운 일입니다. 자율 주행에서 3D GS는 LiDAR와 같은 센서에서 얻은 데이터 포인트를 응집력 있고 연속적인 표현으로 혼합하여 장면을 재구성하는 데 사용할 수 있습니다. 이는 다양한 밀도의 데이터 포인트를 처리하고 장면의 정적 배경과 동적 개체를 부드럽고 정확하게 재구성하는 데 특히 유용합니다. 현재까지 3D Gaussian을 활용하여 역동적인 주행/거리 장면을 모델링하고 장면 재구성에서 기존 방법에 비해 뛰어난 성능을 보이는 작품은 거의 없습니다.

성능 비교

이 섹션에서는 이전에 논의한 여러 3D GS 알고리즘의 성능을 보여줌으로써 보다 실증적인 증거를 제공합니다. 많은 작업에서 3D GS를 다양하게 적용하고 각 작업에 대한 맞춤형 알고리즘 설계가 결합되어 단일 작업 또는 데이터세트 내에서 모든 3D GS 알고리즘을 균일하게 비교하는 것은 비실용적입니다. 따라서 심층적인 성능 평가를 위해 3D GS 분야의 대표 과제 3개를 선정한다. 달리 명시하지 않는 한 공연은 주로 원본 논문에서 파생됩니다.

포지셔닝 성능

开始弃用NeRF?为什么Gaussian Splatting在自动驾驶场景如此受欢迎?

정적 장면 렌더링 성능

开始弃用NeRF?为什么Gaussian Splatting在自动驾驶场景如此受欢迎?

동적 장면 렌더링 성능

开始弃用NeRF?为什么Gaussian Splatting在自动驾驶场景如此受欢迎?

주행 장면 렌더링 성능

开始弃用NeRF?为什么Gaussian Splatting在自动驾驶场景如此受欢迎?

디지털 휴먼 퍼포먼스

开始弃用NeRF?为什么Gaussian Splatting在自动驾驶场景如此受欢迎?

향후 연구 방향

3D GS에 대한 후속 작업이 최근 몇 달 동안 상당한 진전을 이루었지만 여전히 극복해야 할 몇 가지 과제가 있다고 생각합니다.

  • 데이터 효율적인 3D GS 솔루션: 제한된 데이터 포인트에서 새로운 보기를 생성하고 장면을 재구성하는 것은 특히 최소한의 입력으로 현실감과 사용자 경험을 향상시킬 수 있는 잠재력을 가지고 있기 때문에 큰 관심을 끌고 있습니다. 최근의 발전에서는 이 기능을 용이하게 하기 위해 깊이 정보, 조밀한 확률 분포 및 픽셀-가우스 매핑을 사용하는 방법이 연구되었습니다. 그러나 이 분야에 대한 추가 탐사가 여전히 시급히 필요합니다. 또한, 3D GS의 중요한 문제점은 관측 데이터가 부족한 지역에서 인공물이 발생한다는 점이다. 희박한 데이터로 인해 재구성이 부정확해지는 경우가 많기 때문에 이러한 문제는 방사선장 렌더링의 일반적인 제한 사항입니다. 따라서 이러한 희박한 영역에서 새로운 데이터 보간 또는 통합 방법을 개발하는 것은 향후 연구를 위한 유망한 방법을 나타냅니다.
  • 메모리 효율적인 3D GS 솔루션: 3D GS는 탁월한 기능을 보여주지만 확장성은 특히 NeRF 기반 접근 방식과 함께 배치할 때 상당한 문제를 야기합니다. 후자는 학습된 MLP의 매개변수만 저장하는 단순성이라는 이점을 갖습니다. 이러한 확장성 문제는 컴퓨팅 및 메모리 요구 사항이 크게 증가하는 대규모 장면 관리의 맥락에서 점점 더 심각해집니다. 따라서 훈련 단계와 모델 저장 중에 메모리 활용을 최적화하는 것이 시급합니다. 보다 효율적인 데이터 구조를 탐색하고 고급 압축 기술을 조사하는 것은 이러한 한계를 해결할 수 있는 유망한 방법입니다.
  • 고급 렌더링 알고리즘: 3D GS의 현재 렌더링 파이프라인은 미래 지향적이며 더욱 최적화될 수 있습니다. 예를 들어, 간단한 가시성 알고리즘으로 인해 가우스 깊이/블렌딩 순서가 크게 전환될 수 있습니다. 이는 향후 연구를 위한 중요한 기회, 즉 고급 렌더링 알고리즘 구현을 강조합니다. 이러한 향상된 방법은 주어진 장면에서 빛과 재료 속성의 복잡한 상호 작용을 보다 정확하게 시뮬레이션하는 것을 목표로 해야 합니다. 유망한 접근 방식에는 기존 컴퓨터 그래픽의 확립된 원칙을 3D GS의 특정 컨텍스트에 동화하고 적용하는 것이 포함될 수 있습니다. 이와 관련하여 향상된 렌더링 기술이나 하이브리드 모델을 3D GS의 현재 계산 프레임워크에 통합하려는 지속적인 노력이 주목할 만합니다. 또한 역 렌더링 및 그 응용에 대한 탐구는 연구를 위한 비옥한 기반을 제공합니다.
  • 최적화 및 정규화: 이방성 가우스는 복잡한 형상을 나타내는 데 유용하지만 시각적 결함을 생성할 수 있습니다. 예를 들어, 특히 뷰 의존적 모양이 있는 영역에서 이러한 대형 3D 가우스는 시각적 요소가 갑자기 나타나거나 사라져 몰입감을 깨뜨리는 팝인 아티팩트를 유발할 수 있습니다. 3D GS의 정규화 및 최적화에는 상당한 탐구 잠재력이 있습니다. 앤티앨리어싱을 도입하면 가우스 깊이와 혼합 순서의 급격한 변화를 완화할 수 있습니다. 최적화 알고리즘이 향상되어 공간의 가우스 계수를 더 잘 제어할 수 있습니다. 또한 최적화 프로세스에 정규화를 통합하면 수렴 속도를 높이고 시각적 노이즈를 완화하거나 이미지 품질을 향상시킬 수 있습니다. 더욱이 이렇게 많은 수의 하이퍼파라미터는 3D GS의 일반화에 영향을 미치므로 해결책이 시급합니다.
  • 메시 재구성의 3D 가우스: 메시 재구성에서 3D GS의 잠재력과 볼륨 및 표면 표현 스펙트럼에서의 위치는 아직 완전히 탐구되지 않았습니다. 가우스 프리미티브가 메쉬 재구성 작업에 어떻게 적합한지 연구가 시급히 필요합니다. 이러한 탐구는 체적 렌더링과 기존 표면 기반 방법 간의 격차를 해소하여 새로운 렌더링 기술 및 응용 프로그램에 대한 통찰력을 제공할 수 있습니다.
  • 더 많은 가능성으로 3D GS 강화: 3D GS의 엄청난 잠재력에도 불구하고 3D GS의 전체 응용 분야는 아직 대부분 탐구되지 않은 상태입니다. 탐구해야 할 유망한 방법 중 하나는 특정 응용 프로그램에 맞게 조정된 언어적 및 물리적 속성과 같은 추가 속성으로 3D 가우스를 향상시키는 것입니다. 또한 최근 연구에서는 카메라 자세 추정, 손-물체 상호 작용 캡처, 불확실성 정량화 등 여러 영역에서 3D GS의 기능이 밝혀지기 시작했습니다. 이러한 예비 연구 결과는 학제간 학자들이 3D GS를 더 깊이 탐구할 수 있는 중요한 기회를 제공합니다.

결론

우리가 아는 한, 이 리뷰는 혁신적인 명시적 방사선장 및 컴퓨터 그래픽 기술인 3D GS에 대한 최초의 포괄적인 개요를 제공합니다. 이는 실시간 렌더링 및 향상된 제어 가능성에서 3D GS의 장점을 강조하면서 기존 NeRF 방법의 패러다임 전환을 설명합니다. 우리의 상세한 분석은 실제 응용 프로그램, 특히 실시간 성능이 필요한 응용 프로그램에서 3D GS의 장점을 보여줍니다. 향후 연구 방향과 해당 분야의 미해결 과제에 대한 통찰력을 제공합니다. 전반적으로 3D GS는 3D 재구성 및 표현의 향후 개발에 상당한 영향을 미칠 것으로 예상되는 혁신적인 기술입니다. 본 설문조사는 빠르게 발전하고 있는 이 분야에 대한 추가적인 탐구와 발전을 촉진하기 위한 기본적인 자원 역할을 하기 위한 것입니다.

开始弃用NeRF?为什么Gaussian Splatting在自动驾驶场景如此受欢迎?

원본 링크: https://mp.weixin.qq.com/s/jH4g4Cx87nPUYN8iKaKcBA

위 내용은 자율주행 분야에서 Gaussian Splatting이 인기를 끌면서 NeRF가 폐기되기 시작한 이유는 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제