>  기사  >  기술 주변기기  >  UniOcc: 기하학적 및 의미론적 렌더링으로 비전 중심 점유 예측을 통합합니다!

UniOcc: 기하학적 및 의미론적 렌더링으로 비전 중심 점유 예측을 통합합니다!

王林
王林앞으로
2023-09-16 20:29:10634검색

원제: UniOcc: 기하학적 및 의미적 렌더링을 통한 시각 중심 3D 점유 예측 통합

논문을 보려면 다음 링크를 클릭하십시오: https://arxiv.org/pdf/2306.09117.pdf

UniOcc: 기하학적 및 의미론적 렌더링으로 비전 중심 점유 예측을 통합합니다!

Paper 아이디어:

이 기술 보고서에서는 CVPR 2023 nuScenes Open Dataset Challenge에서 비전 중심 3D 점유 예측 궤적을 위한 UniOCC라는 솔루션을 제안합니다. 기존 점유 예측 방법은 주로 3차원 체적 공간의 투영된 특성을 최적화하기 위해 3차원 점유 라벨을 사용하는 데 중점을 둡니다. 그러나 이러한 레이블의 생성 프로세스는 매우 복잡하고 비용이 많이 들고(3D 의미 주석에 의존) 복셀 해상도에 의해 제한되며 세밀한 공간 의미를 제공할 수 없습니다. 이러한 한계를 해결하기 위해 우리는 공간적 기하학적 제약을 명시적으로 부과하고 볼륨 레이 렌더링을 통해 세분화된 의미론적 감독을 보완하는 새로운 UniOcc(Unified Occupancy) 예측 방법을 제안합니다. 우리의 방법은 모델 성능을 크게 향상시키고 수동 주석 비용을 줄이는 데 좋은 잠재력을 보여줍니다. 3D 점유에 주석을 다는 작업의 수고로움을 고려하여 우리는 레이블이 지정되지 않은 데이터를 사용하여 예측 정확도를 향상시키기 위해 깊이 인식 교사 학생(DTS) 프레임워크를 제안합니다. 우리 솔루션은 공식 단일 모델 순위에서 51.27% mIoU를 달성하여 이번 챌린지에서 3위를 차지했습니다.

Network Design:

이 챌린지에서 본 논문은 볼륨 렌더링을 활용하여 감독을 통합하는 일반적인 솔루션인 UniOcc를 제안합니다. 2D 및 3D 표현을 통해 다중 카메라 점유 예측 모델을 개선합니다. 이 논문은 새로운 모델 아키텍처를 설계하지 않지만 기존 모델[3, 18, 20]을 다용도 및 플러그 앤 플레이 방식으로 향상시키는 데 중점을 둡니다.

다음과 같이 다시 작성됨: 이 논문은 표현을 NeRF 스타일 표현으로 업그레이드하여 볼륨 렌더링을 사용하여 2D 의미론적 및 깊이 맵을 생성하는 기능을 구현합니다[1, 15, 21]. 이를 통해 2D 픽셀 수준에서 세밀한 감독이 가능합니다. 3차원 복셀을 광선 샘플링하여 렌더링된 2차원 픽셀 의미 및 깊이 정보를 얻을 수 있습니다. 기하학적 폐색 관계와 의미론적 일관성 제약 조건을 명시적으로 통합함으로써 이 문서는 모델에 대한 명시적인 지침을 제공하고 이러한 제약 조건을 준수하도록 보장합니다. UniOcc는 값비싼 3D 의미론적 주석에 대한 의존도를 줄일 수 있는 잠재력이 있다는 점은 언급할 가치가 있습니다. 3D 점유 레이블이 없는 경우 볼륨 렌더링 감독만 사용하여 훈련한 모델은 3D 레이블 감독을 사용하여 훈련한 모델보다 성능이 훨씬 뛰어납니다. 이는 저렴한 2D 분할 레이블에서 장면 표현을 직접 학습할 수 있으므로 값비싼 3D 의미 주석에 대한 의존도를 줄이는 흥미로운 잠재력을 강조합니다. 또한 SAM [6] 및 [14,19]과 같은 고급 기술을 활용하면 2D 분할 주석 비용을 더욱 줄일 수 있습니다.

이 글에서는 자기주도형 훈련 방법인 DTS(Depth Sensing Teacher-Student) 프레임워크도 소개합니다. 기존의 Mean Teacher와 달리 DTS는 교사 모델의 심층 예측을 향상하여 레이블이 지정되지 않은 데이터를 활용하면서 안정적이고 효과적인 교육을 달성합니다. 또한 본 논문에서는 모델의 성능을 향상시키기 위해 간단하면서도 효과적인 몇 가지 기술을 적용합니다. 여기에는 훈련 시 눈에 보이는 마스크 사용, 더 강력한 사전 훈련된 백본 네트워크 사용, 복셀 해상도 증가, 테스트 시간 데이터 증대(TTA) 구현이 포함됩니다.

UniOcc: 기하학적 및 의미론적 렌더링으로 비전 중심 점유 예측을 통합합니다! 다음은 UniOcc 프레임워크의 개요입니다. 사진 1

UniOcc: 기하학적 및 의미론적 렌더링으로 비전 중심 점유 예측을 통합합니다!사진 2. 깊이를 인식하는 교사-학생 프레임워크.

실험 결과:

UniOcc: 기하학적 및 의미론적 렌더링으로 비전 중심 점유 예측을 통합합니다!

UniOcc: 기하학적 및 의미론적 렌더링으로 비전 중심 점유 예측을 통합합니다!

인용:

Pan, M., Liu, L., Liu, J., Huang, P., Wang, L., Zhang, S. , Xu, S., Lai, Z., Yang, K. (2023). UniOcc: 비전 중심의 3D 점유 예측으로 기하학적 및 의미론적 렌더링을 통합합니다. ArXiv. /abs/2306.09117

UniOcc: 기하학적 및 의미론적 렌더링으로 비전 중심 점유 예측을 통합합니다!원본링크 : https://mp.weixin.qq.com/s/iLPHMtLzc5z0f4bg_W1vIg

위 내용은 UniOcc: 기하학적 및 의미론적 렌더링으로 비전 중심 점유 예측을 통합합니다!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제