Neural Radiance Fields가 2020년에 제안된 이후 관련 논문의 수가 기하급수적으로 증가했습니다. 이는 3차원 재구성의 중요한 분기 방향이 되었을 뿐만 아니라 자율화를 위한 중요한 도구로서 연구 분야에서도 점차 활발해졌습니다. 운전.
NeRF는 지난 2년 동안 갑자기 등장했습니다. 주로 특징점 추출 및 일치, 에피폴라 기하학 및 삼각측량, PnP 플러스 번들 조정 및 기존 CV 재구성 파이프라인의 기타 단계를 건너뛰고 심지어 메시 재구성, 매핑 및 2D 입력 이미지에서 직접 복사장을 학습한 다음, 복사장에서 실제 사진에 가까운 렌더링 이미지를 출력합니다. 즉, 신경망을 기반으로 한 암시적 3D 모델을 지정된 관점에서 2D 이미지에 맞추고 새로운 관점 합성과 기능을 모두 갖도록 만듭니다. NeRF의 개발은 자율주행과도 밀접한 관련이 있으며, 이는 특히 실제 장면 재구성 및 자율주행 시뮬레이터의 적용에 반영됩니다. NeRF는 사진 수준의 이미지를 렌더링하는 데 능숙하므로 NeRF로 모델링된 거리 장면은 자율 주행을 위한 매우 사실적인 훈련 데이터를 제공할 수 있습니다. NeRF 지도를 편집하여 현실에서 캡처하기 어려운 다양한 코너에 건물, 차량 및 보행자를 결합할 수 있습니다. 케이스는 인식, 계획, 장애물 회피와 같은 알고리즘의 성능을 테스트하는 데 사용될 수 있습니다. 따라서 NeRF는 3D 재구성의 한 분야이자 모델링 도구입니다. NeRF를 마스터하는 것은 재구성이나 자율 주행을 수행하는 연구자에게 없어서는 안 될 기술이 되었습니다.
오늘은 네르프와 자율주행에 관련된 내용을 정리해보겠습니다. 약 11개의 기사를 통해 네르프와 자율주행의 과거와 현재를 살펴보겠습니다.
2.Mip-NeRF 360
3.Instant-NGP
대형 프레임워크는 여전히 동일하다는 것을 알 수 있습니다. 가장 중요한 차이점은 NGP가 장면 표현으로 매개변수화된 복셀 그리드를 선택했다는 것입니다. 학습을 통해 복셀에 저장된 매개변수는 장면 밀도의 모양이 됩니다. MLP의 가장 큰 문제점은 속도가 느리다는 것입니다. 장면을 고품질로 재구성하기 위해서는 상대적으로 큰 네트워크가 필요한 경우가 많으며, 각 샘플링 포인트마다 네트워크를 통과하는 데 많은 시간이 걸립니다. 그리드 내 보간이 훨씬 빨라졌습니다. 그러나 그리드가 고정밀 장면을 표현하려면 고밀도 복셀이 필요하므로 메모리 사용량이 매우 높아집니다. NVIDIA는 장면 내에서 공백인 곳이 많다는 점을 고려하여 장면을 표현하기 위해 희소 구조를 제안했습니다. F2-NeRF: 자유 카메라 궤적을 사용한 빠른 신경 복사 현장 훈련
종이 링크: https://totoro97.github.io /projects/f2-nerf/
는 F2-NeRF(Fast)라고 불리는 새로운 그리드 기반 NeRF를 제안합니다. 무료 NeRF)는 임의의 입력 카메라 궤적을 달성할 수 있는 새로운 뷰 합성을 위한 것이며 훈련하는 데 몇 분 밖에 걸리지 않습니다. Instant NGP, Plenoxels, DVGO 또는 TensoRF와 같은 기존의 빠른 그리드 기반 NeRF 교육 프레임워크는 주로 제한된 장면을 위해 설계되었으며 공간 워핑을 사용하여 무한한 장면을 처리합니다. 널리 사용되는 기존의 두 가지 공간 워핑 방법은 전방 궤적 또는 360° 객체 중심 궤적만을 대상으로 하며 임의의 궤적을 처리할 수 없습니다. 이 글에서는 무한한 장면을 처리하기 위한 공간 워핑 메커니즘에 대한 심층적인 연구를 수행합니다. 우리는 또한 그리드 기반 NeRF 프레임워크에서 임의의 궤적을 처리할 수 있는 관점 워핑(perspective warpping)이라는 새로운 공간 워핑 방법을 제안합니다. 광범위한 실험을 통해 F2-NeRF는 수집된 두 개의 표준 데이터 세트와 새로운 자유 궤도 데이터 세트에 대해 동일한 관점 워핑을 사용하여 고품질 이미지를 렌더링할 수 있음을 보여줍니다.NeRF(Neural Radiation Field)가 새로운 관점에서 3D 장면 이미지를 합성하는 놀라운 능력이 입증되었습니다. 그러나 널리 배포된 그래픽 하드웨어의 기능과 일치하지 않는 레이 행진을 기반으로 하는 특수한 볼륨 렌더링 알고리즘에 의존합니다. 본 논문에서는 표준 렌더링 파이프라인을 통해 새로운 이미지를 효율적으로 합성할 수 있는 새로운 질감의 다각형 기반 NeRF 표현을 소개합니다. NeRF는 텍스처가 이진 불투명도와 특징 벡터를 나타내는 다각형 세트로 표시됩니다. z-버퍼를 사용하는 전통적인 다각형 렌더링은 각 픽셀이 최종 픽셀 색상을 생성하기 위해 프래그먼트 셰이더에서 실행되는 작은 뷰 종속 MLP에 의해 해석되는 특성을 갖는 이미지를 생성합니다. 이 접근 방식을 통해 NeRF는 대규모 픽셀 수준 병렬성을 제공하는 전통적인 다각형 래스터화 파이프라인을 사용하여 렌더링할 수 있으며, 휴대폰을 포함한 다양한 컴퓨팅 플랫폼에서 대화형 프레임 속도를 가능하게 합니다.
저희 실시간 시각적 위치 파악 및 NeRF 매핑 작업이 CVPR2023에 포함되었습니다.
Co-SLAM: 신경 실시간 SLAM을 위한 공동 좌표 및 희소 파라메트릭 인코딩
Paper link : https://arxiv.org/pdf/2304.14377.pdf
Co-SLAM은 카메라 추적 및 고충실도 표면 재구성을 위해 신경 암시적 표현을 사용하는 실시간 RGB-D SLAM 시스템입니다. Co-SLAM은 장면을 다중 해상도 해시 그리드로 표현하여 로컬 기능을 빠르게 수렴하고 표현하는 기능을 활용합니다. 또한 Co-SLAM은 표면 일관성 사전 문제를 통합하기 위해 블록 인코딩 방법을 사용하여 관찰되지 않은 영역에서 장면 완성을 강력하게 완료할 수 있음을 입증합니다. 우리의 공동 인코딩은 Co-SLAM의 속도, 고충실도 재구성 및 표면 일관성의 장점을 결합합니다. Co-SLAM은 광선 샘플링 전략을 통해 모든 키프레임에 대한 조정을 전역적으로 묶을 수 있습니다.
현재 최고의 NeRF 표면 재구성 방법(CVPR2023)
다시 작성된 내용은 다음과 같습니다. 다음과 같습니다: 이미지 기반 신경 렌더링은 신경 표면을 재구성하여 조밀한 3D 구조를 복구할 수 있는 것으로 나타났습니다. 그러나 현재의 방법으로는 실제 장면의 세부 구조를 복구하는 데 여전히 어려움이 있습니다. 이 문제를 해결하기 위해 본 연구에서는 다중 해상도 3D 해시 그리드의 표현 기능과 신경 표면 렌더링을 결합한 Neuralangelo라는 방법을 제안합니다. 이 접근 방식의 두 가지 핵심 요소는 다음과 같습니다.
(1) 평활화 작업으로 고차 도함수를 계산하기 위한 수치적 기울기와 (2) 다양한 세부 수준에서 해시 그리드의 대략적인 최적화를 제어합니다.
깊이와 같은 보조 입력 없이도 Neuralangelo는 다중 뷰 이미지에서 조밀한 3D 표면 구조를 효과적으로 복구할 수 있습니다. 이전 방법에 비해 충실도가 크게 향상되어 RGB 비디오 캡처에서 상세한 대규모 장면 재구성이 가능합니다!
최초의 오픈 소스 자율 주행 NeRF 시뮬레이션 도구입니다.
다시 작성해야 할 내용은 다음과 같습니다. https://arxiv.org/pdf/2307.15058.pdf
자율주행차는 일반적인 상황에서도 원활하게 주행할 수 있으며, 현실감 있는 센서 시뮬레이션이 이를 해결하는 역할을 할 것이라는 것이 일반적으로 받아들여지고 있습니다. 남은 코너 상황 핵심 역할. 이를 위해 MARS에서는 신경 방사선장을 기반으로 한 자율주행 시뮬레이터를 제안합니다. 기존 작품과 비교하여 MARS는 세 가지 특징을 가지고 있습니다. (1) 인스턴스 인식. 시뮬레이터는 인스턴스의 정적(예: 크기 및 모양) 특성과 동적(예: 궤적) 특성을 별도로 제어할 수 있도록 별도의 네트워크를 사용하여 전경 인스턴스와 배경 환경을 별도로 모델링합니다. (2) 모듈성. 시뮬레이터를 사용하면 다양한 최신 NeRF 관련 백본, 샘플링 전략, 입력 모드 등을 유연하게 전환할 수 있습니다. 이 모듈형 설계가 NeRF 기반 자율 주행 시뮬레이션의 학문적 발전과 산업적 배치를 촉진할 수 있기를 바랍니다. (3) 진짜. 시뮬레이터는 최적의 모듈 선택을 통해 최첨단 사실적 결과를 얻을 수 있도록 설정되었습니다.
가장 중요한 점은 오픈 소스입니다!
"NERF 및 3D Occupancy Networks, AD2023 Challenge"Uniocc : 기하학적 및 시맨틱 렌더링을 통한 시력 중심적 3D 점유 예측을 다시 작성 해야하는 컨텐츠에 대한
논문 링크: https://arxiv.org/abs/2306.09117
UniOCC는 비전 중심의 3D 점유 예측 방법입니다. 기존 점유 예측 방법은 주로 3D 점유 레이블을 사용하여 3D 공간의 투영 기능을 최적화합니다. 그러나 이러한 레이블의 생성 프로세스는 복잡하고 비용이 많이 들고 3D 의미 주석에 의존하며 복셀 해상도에 의해 제한되며 세분화된 공간을 제공할 수 없습니다. . 의미론. 이 문제를 해결하기 위해 본 논문에서는 공간 기하학적 제약 조건을 명시적으로 적용하고 볼륨 레이 렌더링을 통해 세분화된 의미론적 감독을 보완하는 새로운 UniOcc(Unified Occupancy) 예측 방법을 제안합니다. 이 접근 방식은 모델 성능을 크게 향상시키고 수동 주석 비용을 절감할 수 있는 가능성을 보여줍니다. 3D 점유 라벨링의 복잡성을 고려하여 예측 정확도를 향상시키기 위해 라벨이 지정되지 않은 데이터를 활용하는 깊이 감지 교사-학생(DTS) 프레임워크를 추가로 도입합니다. 우리의 솔루션은 단일 모델의 공식 순위 목록에서 51.27%의 mIoU 점수를 달성하여 이번 챌린지
10.Wowaoao에서 제작한 Unisim
문서 링크: https://arxiv.org/pdf/2308.01898.pdf
자율 운전의 대중화를 방해하는 중요한 이유는 아직 안전이 부족하다는 것입니다. 현실 세계는 너무 복잡합니다. 특히 롱테일 효과의 경우 더욱 그렇습니다. 경계 시나리오는 안전 운전에 매우 중요하며 다양하지만 접하기 어렵습니다. 이러한 시나리오는 접하기 어렵고, 현실 세계에서 테스트하는 것은 비용이 많이 들고 위험하기 때문에 이러한 시나리오에서 자율주행 시스템의 성능을 테스트하는 것은 매우 어렵습니다.
이 문제를 해결하기 위해 업계와 학계 모두 주목하기 시작했습니다. 시뮬레이션 시스템 개발에 힘쓰고 있습니다. 초기에 시뮬레이션 시스템은 주로 다른 차량/보행자의 움직임 동작을 시뮬레이션하고 자율 주행 계획 모듈의 정확성을 테스트하는 데 중점을 두었습니다. 최근 몇 년 동안 연구의 초점은 점차 센서 수준 시뮬레이션, 즉 LiDAR 및 카메라 이미지와 같은 원시 데이터를 생성하여 인식, 예측에서 계획에 이르기까지 자율 주행 시스템의 엔드 투 엔드 테스트를 달성하는 시뮬레이션으로 옮겨졌습니다. .
이전 작업과 달리 UniSim은 처음으로 두 가지를 모두 달성했습니다.
높은 현실감:
다시 작성해야 하는 내용은 시뮬레이션 시스템의 구축입니다.
UniSim은 먼저 디지털 세계에서 수집된 데이터에서 시작됩니다 재구성 자동차, 보행자, 도로, 건물, 교통 표지판을 포함한 자율 주행 장면. 그런 다음
시뮬레이션을 위해 재구성된 장면을 제어하여 몇 가지 희귀한 핵심 장면을 생성하세요. 폐쇄 루프 시뮬레이션
UniSim은 폐쇄 루프 시뮬레이션 테스트를 수행할 수 있습니다. 첫째, UniSim은 자동차의 동작을 제어하여 현재 차선에서 자동차가 갑자기 다가오는 등 위험하고 희귀한 장면을 만들 수 있습니다. 그런 다음 UniSim은 시뮬레이션하여 해당 데이터를 생성하고 자율 주행 시스템을 실행하고 경로 계획 결과에 따라 무인 차량이 다음 지정된 위치로 이동하고 장면을 업데이트합니다. 다른 차량) 위치) 그런 다음 계속해서 시뮬레이션하고 자율 주행 시스템을 실행하며 가상 세계 상태를 업데이트합니다. 이 폐쇄 루프 테스트를 통해 자율 주행 시스템과 시뮬레이션 환경이 상호 작용하여 다음과 같은 장면을 만들 수 있습니다. 원본 데이터와 전혀 다름
위 내용은 NeRF와 자율주행의 과거와 현재, 10편에 가까운 논문 요약!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!