집 >기술 주변기기 >일체 포함 >여러 SOTA! OV-Uni3DETR: 카테고리, 장면 및 양식 전반에 걸쳐 3D 감지의 일반화 가능성 향상(Tsinghua & HKU)

여러 SOTA! OV-Uni3DETR: 카테고리, 장면 및 양식 전반에 걸쳐 3D 감지의 일반화 가능성 향상(Tsinghua & HKU)

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB앞으로: 2024-04-11 19:46:18675검색

본 논문에서는 3D 객체 감지 분야, 특히 Open-Vocabulary를 위한 3D 객체 감지 분야에 대해 논의합니다. 기존 3D 객체 감지 작업에서 시스템은 일반적으로 포인트 클라우드 또는 RGB 이미지에 의존하는 실제 장면 3D 경계 상자 및 의미 범주 레이블에서 객체의 위치를 예측해야 합니다. 2D 객체 감지 기술은 편재성과 속도로 인해 우수한 성능을 발휘하지만, 관련 연구에 따르면 3D 범용 감지 기술의 개발은 이에 비해 뒤떨어져 있는 것으로 나타났습니다. 현재 대부분의 3D 객체 감지 방법은 여전히 완전 지도 학습에 의존하고 있으며 특정 입력 모드에서 완전히 주석이 달린 데이터로 제한되며 실내 또는 실외 장면에서 훈련 중에 나타나는 카테고리만 인식할 수 있습니다.

이 백서에서는 3D 범용 개체 감지가 직면한 과제에 주로 다음이 포함된다는 점을 지적합니다. 기존 3D 감지기는 폐쇄형 어휘 집계로만 작동할 수 있으므로 이미 본 카테고리만 감지할 수 있습니다. 훈련 중에 획득되지 않은 새로운 클래스 객체 인스턴스를 식별하고 찾으려면 Open-Vocabulary의 3D 객체 감지가 시급히 필요합니다. 기존 3D 감지 데이터세트는 2D 데이터세트에 비해 크기와 범주가 제한되어 있어 새 개체를 찾는 일반화 능력이 제한됩니다. 또한 3D 도메인에서 사전 훈련된 이미지-텍스트 모델이 부족하여 Open-Vocabulary 3D 감지 문제가 더욱 악화됩니다. 동시에 다중 모드 3D 감지를 위한 통합 아키텍처가 부족하며 기존 3D 감지기는 대부분 특정 입력 양식(포인트 클라우드, RGB 이미지 또는 둘 다)용으로 설계되어 데이터의 효과적인 활용을 방해합니다. 다양한 양식과 장면(실내 또는 실외)으로 인해 새로운 대상에 대한 일반화 능력이 제한됩니다.

위 문제를 해결하기 위해 본 논문에서는 OV-Uni3DETR이라는 통합 다중 모드 3D 검출기를 제안합니다. 감지기는 훈련 중에 포인트 클라우드, 정확한 3D 상자 주석이 포함된 포인트 클라우드, 포인트 클라우드 정렬 3D 감지 이미지, 2D 상자 주석만 포함된 2D 감지 이미지 등 다중 모드 및 다중 소스 데이터를 활용할 수 있습니다. 이 다중 모드 학습 방법을 통해 OV-Uni3DETR은 추론 중에 모든 양식의 데이터를 처리하고, 테스트 중에 모드 전환을 달성하고, 기본 범주와 새 범주를 탐지하는 데 탁월한 성능을 발휘할 수 있습니다. 통합 구조를 통해 OV-Uni3DETR은 Open-Vocabulary 기능을 통해 실내 및 실외 장면을 감지할 수 있으므로 카테고리, 장면 및 양식 전반에 걸쳐 3D 감지기의 보편성이 크게 향상됩니다.

또한 새로운 카테고리를 식별하기 위해 검출기를 일반화하는 방법과 3D 상자 주석이 없는 수많은 2D 검출 이미지로부터 학습하는 방법에 대한 문제를 목표로 논문에서는 주기적 모드 전파라는 방법을 제안합니다.—— 이를 통해 접근 방식에서는 두 문제를 모두 해결하기 위해 2D와 3D 양식 간에 지식이 전파됩니다. 이 접근 방식을 통해 2D 검출기의 풍부한 의미 지식을 3D 도메인으로 전파하여 새로운 상자를 발견하는 데 도움을 줄 수 있으며, 3D 검출기의 기하학적 지식을 사용하여 2D 검출 이미지에서 객체의 위치를 파악하고 분류 레이블을 일치시킬 수 있습니다. 매칭을 통해 .

이 논문의 주요 공헌에는 다양한 양식과 다양한 장면에서 모든 범주의 대상을 감지할 수 있는 통합 개방형 어휘 3D 감지기 제안, 실내 및 실외 장면 아키텍처를 위한 통합 다중 모드 감지기 제안이 포함됩니다. 2D와 3D 양식 간의 지식 전파 루프 개념이 제안되었습니다. 이러한 혁신을 통해 OV-Uni3DETR은 여러 3D 감지 작업에서 최첨단 성능을 달성하고 Open-Vocabulary 설정에서 이전 방법보다 훨씬 뛰어난 성능을 발휘합니다. 이러한 결과는 OV-Uni3DETR이 향후 3D 기본 모델 개발을 위해 중요한 단계를 밟았음을 보여줍니다.

多个SOTA ！OV-Uni3DETR：提高3D检测在类别、场景和模态之间的普遍性（清华&港大）

OV-Uni3DETR 방법에 대한 자세한 설명

Multi-Modal Learning

多个SOTA ！OV-Uni3DETR：提高3D检测在类别、场景和模态之间的普遍性（清华&港大）

이 기사에서는 클라우드 데이터와 이미지 데이터를 통합하여 3D 타겟 탐지 작업에 특화된 다중 모드 학습 프레임워크를 소개합니다. 감지 성능을 향상시킵니다. 이 프레임워크는 추론 중에 누락될 수 있는 특정 센서 양식을 처리할 수 있습니다. 즉, 테스트 중에 모드를 전환하는 기능도 있습니다. 3D 포인트 클라우드 기능과 2D 이미지 기능을 포함한 두 가지 다른 양식의 기능이 특정 네트워크 구조를 통해 추출되고 통합됩니다. 요소 처리 및 카메라 매개변수 매핑 후 이러한 기능은 후속 대상 감지 작업을 위해 융합됩니다.

핵심 기술 포인트에는 3D 컨볼루션 및 배치 정규화를 사용하여 다양한 모드의 기능을 정규화하고 통합하여 기능 수준의 불일치로 인해 특정 모드가 무시되는 것을 방지하는 것이 포함됩니다. 또한 모드를 무작위로 전환하는 학습 전략을 통해 모델이 단일 모드에서만 데이터를 유연하게 처리할 수 있으므로 모델의 견고성과 적응성이 향상됩니다.

궁극적으로 아키텍처는 클래스 예측, 2D 및 3D 경계 상자 회귀, 가중 회귀 손실에 대한 불확실성 예측의 손실을 결합하여 전체 감지 프로세스를 최적화하는 복합 손실 함수를 활용합니다. 이러한 다중 모드 학습 방법은 기존 카테고리의 탐지 성능을 향상시킬 뿐만 아니라, 다양한 유형의 데이터를 융합하여 새로운 카테고리에 대한 일반화 능력도 향상시킵니다. 다중 모달 아키텍처는 궁극적으로 2D 및 3D 개체 감지를 위한 클래스 레이블, 4D 2D 상자 및 7D 3D 상자를 예측합니다. 3D 박스 회귀에서는 L1 손실과 분리된 IoU 손실이 사용되며, 2D 박스 회귀에서는 L1 손실과 GIOU 손실이 사용됩니다. Open-Vocabulary 설정에는 새로운 카테고리 샘플이 있어 샘플 훈련의 난이도가 높아집니다. 따라서 불확실성 예측 多个SOTA ！OV-Uni3DETR：提高3D检测在类别、场景和模态之间的普遍性（清华&港大） 이 도입되어 L1 회귀 손실에 가중치를 부여하는 데 사용됩니다. 객체 감지 학습의 손실은 다음과 같습니다.

일부 3D 장면의 경우 단일 단안 이미지 대신 다중 뷰 이미지가 있을 수 있습니다. 각각에 대해 이미지 특징이 추출되고 해당 투영 행렬을 사용하여 복셀 공간에 투영됩니다. 복셀 공간의 여러 이미지 특징을 합산하여 다중 모드 특징을 얻습니다. 이 접근 방식은 다양한 양식의 정보를 결합하여 새로운 범주에 대한 모델의 일반화 능력을 향상시키고 다양한 입력 조건에서 적응성을 향상시킵니다.

지식 전파: 2D—3D

소개된 다중 모드 학습을 기반으로 Open-Vocabulary의 3D 감지를 위해 "지식 전파: 多个SOTA ！OV-Uni3DETR：提高3D检测在类别、场景和模态之间的普遍性（清华&港大） "라는 방법이 구현됩니다. Open-Vocabulary 학습의 핵심 문제는 훈련 과정에서 수동으로 레이블이 지정되지 않은 새로운 범주를 식별하는 것입니다. 포인트 클라우드 데이터를 얻는 것이 어렵기 때문에 포인트 클라우드 분야에서는 아직 사전 훈련된 시각 언어 모델이 개발되지 않았습니다. 포인트 클라우드 데이터와 RGB 이미지 간의 모달 차이로 인해 3D 감지에서 이러한 모델의 성능이 제한됩니다.

多个SOTA ！OV-Uni3DETR：提高3D检测在类别、场景和模态之间的普遍性（清华&港大）

이 문제를 해결하기 위해 사전 훈련된 2D Open-Vocabulary 검출기의 의미 지식을 활용하고 새로운 카테고리에 해당하는 3D 경계 상자를 생성하는 것이 제안되었습니다. 이렇게 생성된 3D 상자는 훈련 중에 사용할 수 있는 제한된 3D Ground Truth 라벨을 보완합니다.

구체적으로 먼저 2DOpen-Vocabulary 감지기를 사용하여 2D 경계 상자 또는 인스턴스 마스크를 생성하세요. 2D 도메인에서 사용할 수 있는 데이터와 주석이 더 풍부하다는 점을 고려하면 이렇게 생성된 2D 상자는 더 높은 위치 지정 정확도를 달성하고 더 넓은 범위의 범주를 포괄할 수 있습니다. 그런 다음 이 2D 상자는 多个SOTA ！OV-Uni3DETR：提高3D检测在类别、场景和模态之间的普遍性（清华&港大） 를 통해 3D 공간에 투영되어 해당 3D 상자를 얻습니다. 구체적인 작업은

을 사용하여 3D 점을 2D 공간에 투영하고, 2D 상자 내에서 점을 찾은 다음, 2D 상자 내에서 이러한 점을 클러스터링하여 이상값을 제거하여 해당 3D 상자를 얻는 것입니다. 사전 훈련된 2D 감지기가 있기 때문에 생성된 3D 상자 세트에서 레이블이 지정되지 않은 새로운 객체를 발견할 수 있습니다. 이러한 방식으로 3DOpen-Vocabulary 감지는 2D 도메인에서 생성된 3D 상자로 전파되는 풍부한 의미 지식을 통해 크게 촉진됩니다. 다중 뷰 이미지의 경우 3D 상자가 별도로 생성되고 최종 사용을 위해 함께 통합됩니다.

추론 중에 포인트 클라우드와 이미지가 모두 사용 가능한 경우 유사한 방식으로 3D 상자를 추출할 수 있습니다. 이렇게 생성된 3D 상자는 3DOpen-Vocabulary 탐지 결과의 한 형태로도 볼 수 있습니다. 이러한 3D 상자는 다중 모드 3D 변환기의 예측에 추가되어 가능한 누락된 객체를 보완하고 3D NMS(비최대 억제)를 통해 겹치는 경계 상자를 필터링합니다. 사전 학습된 2D 검출기에 의해 할당된 신뢰도 점수는 미리 정해진 상수로 체계적으로 나누어 해당 3D 상자의 신뢰도 점수로 재해석됩니다.

실험

多个SOTA ！OV-Uni3DETR：提高3D检测在类别、场景和模态之间的普遍性（清华&港大）

이 표는 SUN RGB-D 및 ScanNet 데이터 세트에서 Open-Vocabulary3D 객체 감지를 위한 OV-Uni3DETR의 성능을 보여줍니다. 실험 설정은 CoDA와 완전히 동일하며, 사용된 데이터는 공식적으로 출시된 CoDA 코드에서 가져온 것입니다. 성과 지표에는 새로운 클래스 평균 정확도 多个SOTA ！OV-Uni3DETR：提高3D检测在类别、场景和模态之间的普遍性（清华&港大） , 기본 클래스 평균 정확도 및 모든 클래스 평균 정확도 가 포함됩니다. 입력 유형에는 포인트 클라우드(P), 이미지(I) 및 이들의 조합(P+I)이 포함됩니다.

이러한 결과를 분석하여 다음 사항을 관찰할 수 있습니다.

다중 모드 입력의 장점: 포인트 클라우드와 이미지의 조합을 입력으로 사용할 때 OV-Uni3DETR은 두 데이터 세트의 모든 평가 지표에서 잘 수행됩니다. 모든 측면에서 가장 높은 점수를 얻었으며, 특히 새 카테고리의 평균 정확도가 가장 크게 향상되었습니다. 이는 포인트 클라우드와 이미지를 결합하면 보이지 않는 클래스를 감지하는 모델의 능력은 물론 전반적인 감지 성능을 크게 향상시킬 수 있음을 보여줍니다.
다른 방법과의 비교: 다른 포인트 클라우드 기반 방법(예: Det-PointCLIP, Det-PointCLIPv2, Det-CLIP, 3D-CLIP 및 CoDA)과 비교하여 OV-Uni3DETR은 모든 평가에서 우수한 성능을 나타냅니다. 측정항목 뛰어난 성능. 이는 Open-Vocabulary3D 객체 감지 작업을 처리하는 데 있어 OV-Uni3DETR의 효율성을 입증하며, 특히 다중 모드 학습 및 지식 보급 전략을 활용하는 데 있어 더욱 그렇습니다.
이미지와 포인트 클라우드 입력 비교: 이미지(I)만을 입력으로 사용하는 OV-Uni3DETR의 성능은 포인트 클라우드(P)를 입력으로 사용하는 것보다 낮지만 여전히 좋은 감지 기능을 보여줍니다. 이는 단일 모달 데이터에 대한 OV-Uni3DETR 아키텍처의 유연성과 적응성을 입증하고 감지 성능을 향상시키기 위해 여러 모달 데이터를 융합하는 것의 중요성을 강조합니다.
새 카테고리에 대한 성능: OV-Uni3DETR의 새 카테고리 평균 정확도에 대한 성능은 특히 주목할 만하며 이는 개방형 어휘 감지에 특히 중요합니다. SUN RGB-D 데이터 세트에서는 포인트 클라우드 및 이미지 입력을 사용할 때 12.96%에 도달했고, ScanNet 데이터 세트에서는 15.21%에 도달했는데, 이는 다른 방법보다 훨씬 높아 인식 훈련 과정에 영향을 미치지 않음을 보여줍니다. 내가 본 카테고리의 기능.

일반적으로 OV-Uni3DETR은 통합 다중 모달 학습 아키텍처를 통해 Open-Vocabulary3D 객체 감지 작업에서 탁월한 성능을 보여주며, 특히 포인트 클라우드와 이미지 데이터를 결합할 때 새로운 감지 기능을 효과적으로 향상시킬 수 있습니다. 카테고리는 다중 모드 입력 및 지식 전파 전략의 효과와 중요성을 입증합니다.

多个SOTA ！OV-Uni3DETR：提高3D检测在类别、场景和模态之间的普遍性（清华&港大）

이 표는 KITTI 및 nuScenes 데이터세트에서 Open-Vocabulary3D 객체 감지를 위한 OV-Uni3DETR의 성능을 보여주며, 훈련 과정에서 본(기본) 카테고리와 보이지 않는(신규) 카테고리를 포괄합니다. KITTI 데이터 세트의 경우 훈련 중에 "자동차" 및 "자전거 타는 사람" 범주가 표시되는 반면 "보행자" 범주는 새로운 것입니다. 성능은 중간 난이도에서 多个SOTA ！OV-Uni3DETR：提高3D检测在类别、场景和模态之间的普遍性（清华&港大）

측정법을 사용하고 11개의 회상 위치를 사용하여 측정됩니다. NuScenes 데이터 세트의 경우 "자동차, 트레일러, 건설 차량, 오토바이, 자전거"는 보이는 카테고리이고 나머지 5개는 보이지 않는 카테고리입니다. AP 지표 외에도 NDS(NuScenes 탐지 점수)도 보고되어 탐지 성능을 종합적으로 평가합니다.

이러한 결과를 분석하면 다음과 같은 결론에 도달합니다.

멀티모달 입력의 중요한 장점: 포인트 클라우드(P) 또는 이미지(I)만 입력으로 사용하는 경우에 비해 포인트 클라우드와 이미지(P+I)를 모두 입력으로 사용하는 경우 OV - Uni3DETR 모든 평가 지표에서 가장 높은 점수를 받았습니다. 이 결과는 보이지 않는 범주에 대한 감지 기능과 전반적인 감지 성능을 향상시키는 데 있어 다중 모드 학습의 중요한 이점을 강조합니다.
공개 어휘 탐지의 효율성: OV-Uni3DETR은 특히 KITTI 데이터 세트의 "보행자" 카테고리와 nuScenes 데이터 세트의 "novel" 카테고리에서 보이지 않는 카테고리를 처리하는 데 탁월한 성능을 보여줍니다. 이는 모델이 새로운 카테고리에 대한 강력한 일반화 능력을 갖고 있으며 효과적인 개방형 어휘 탐지 솔루션임을 보여줍니다.
다른 방법과의 비교: 다른 포인트 클라우드 기반 방법(예: Det-PointCLIP, Det-PointCLIPv2 및 3D-CLIP)과 비교하여 OV-Uni3DETR은 보이는 것과 보이지 않는 것을 감지하는 데 있어 상당한 성능 향상을 보여줍니다. 카테고리. 이는 Open-Vocabulary3D 개체 감지 작업 처리의 발전을 보여줍니다.
이미지 입력과 포인트 클라우드 입력 비교: 이미지 입력을 사용하는 성능은 포인트 클라우드 입력을 사용하는 것보다 약간 낮지만 이미지 입력은 여전히 상대적으로 높은 감지 정확도를 제공할 수 있으며 이는 OV-Uni3DETR의 적응성을 보여줍니다. 아키텍처와 유연성.
종합 평가 지표: NDS 평가 지표 결과에서 OV-Uni3DETR이 인식 정확도에서 좋은 성능을 발휘할 뿐만 아니라, 특히 포인트 클라우드 및 이미지와 결합할 때 전반적인 감지 품질에서도 높은 점수를 달성한다는 것을 알 수 있습니다. 데이터.

OV-Uni3DETR은 특히 보이지 않는 카테고리와 다중 모드 데이터를 처리할 때 Open-Vocabulary3D 개체 감지에 탁월한 성능을 보여줍니다. 이러한 결과는 다중 모드 입력 및 지식 전파 전략의 효율성과 3D 객체 감지 작업의 일반화 능력을 향상시키는 OV-Uni3DETR의 잠재력을 검증합니다.

Discussion

多个SOTA ！OV-Uni3DETR：提高3D检测在类别、场景和模态之间的普遍性（清华&港大）

이 논문은 통합 다중 모드 3D 감지기인 OV-Uni3DETR을 제안하여 개방형 어휘 3D 객체 감지 분야에 상당한 진전을 가져왔습니다. 이 방법은 다중 모드 데이터(포인트 클라우드 및 이미지)를 활용하여 탐지 성능을 향상시키고, 2D에서 3D로의 지식 전파 전략을 통해 보이지 않는 범주에 대한 모델의 인식 기능을 효과적으로 확장합니다. 여러 공개 데이터세트에 대한 실험 결과는 특히 포인트 클라우드와 이미지 입력을 결합할 때 신규 클래스와 기본 클래스에서 OV-Uni3DETR의 탁월한 성능을 보여줍니다. 이는 새로운 클래스의 감지 기능을 크게 향상시키는 동시에 전반적인 감지 성능도 새로운 수준에 도달했습니다. 키.

장점 측면에서 OV-Uni3DETR은 먼저 3D 타겟 감지 성능을 향상시키는 다중 모드 학습의 잠재력을 보여줍니다. 포인트 클라우드와 이미지 데이터를 통합함으로써 모델은 각 양식의 보완적인 기능을 학습할 수 있으므로 풍부한 장면과 다양한 대상 카테고리를 보다 정확하게 감지할 수 있습니다. 둘째, OV-Uni3DETR은 2D에서 3D 지식 전달 메커니즘을 도입함으로써 풍부한 2D 이미지 데이터와 사전 훈련된 2D 감지 모델을 활용하여 훈련 과정에서 볼 수 없었던 새로운 범주를 식별하고 찾을 수 있습니다. 모델의 일반화 능력. 또한 이 방법은 Open-Vocabulary 감지를 처리하는 강력한 기능을 보여 주며 3D 감지 분야에 새로운 연구 방향과 잠재적인 응용 프로그램을 제공합니다.

단점으로는 OV-Uni3DETR이 여러 측면에서 장점을 입증했지만 몇 가지 잠재적인 한계도 있습니다. 첫째, 다중 모드 학습은 성능을 향상시킬 수 있지만 데이터 수집 및 처리의 복잡성도 증가시킵니다. 특히 실제 응용 프로그램에서는 서로 다른 모달 데이터의 동기화 및 등록이 문제가 될 수 있습니다. 둘째, 지식 전파 전략은 2D 데이터를 효과적으로 활용하여 3D 감지를 지원할 수 있지만 이 방법은 고품질 2D 감지 모델과 정확한 3D-2D 정렬 기술에 의존할 수 있으므로 일부 복잡한 환경에서는 보장하기 어려울 수 있습니다. 또한 극히 드문 일부 범주의 경우 Open-Vocabulary 감지라도 인식 정확도 문제에 직면할 수 있으며, 이를 해결하려면 추가 연구가 필요합니다.

OV-Uni3DETR은 혁신적인 다중 모드 학습 및 지식 전파 전략을 통해 Open-Vocabulary3D 객체 감지 분야에서 상당한 진전을 이루었습니다. 몇 가지 잠재적인 한계가 있지만 그 장점은 3D 검사 기술의 개발 및 응용 확대를 촉진하는 데 있어 이 방법의 큰 잠재력을 보여줍니다. 향후 연구에서는 이러한 한계를 극복하는 방법과 이러한 전략을 더 넓은 범위의 3D 인식 작업에 적용하는 방법을 추가로 탐색할 수 있습니다.

결론

본 논문에서는 통합 다중 모드 개방형 어휘 3D 검출기인 OV-Uni3DETR을 주로 제안했습니다. 다중 모달 학습 및 순환 모달 지식 전파의 도움으로 OV-Uni3DETR은 새로운 클래스를 잘 식별하고 찾아 모달 통합 및 장면 통합을 달성할 수 있습니다. 실험은 개방형 및 폐쇄형 어휘 환경, 실내 및 실외 장면, 모달 데이터 입력 모두에서 강력한 기능을 보여줍니다. 다중 모드 환경에서 통합된 개방형 어휘 3D 감지를 목표로 하는 우리의 연구가 유망하지만 일반적인 3D 컴퓨터 비전의 도전적인 방향에 따라 후속 연구를 주도할 것이라고 믿습니다.

위 내용은 여러 SOTA! OV-Uni3DETR: 카테고리, 장면 및 양식 전반에 걸쳐 3D 감지의 일반화 가능성 향상(Tsinghua & HKU)의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

架构循环传感器

성명：

이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

이전 기사：AI 보안업체 TrojAI, 추가 시드펀딩 받아다음 기사：AI 보안업체 TrojAI, 추가 시드펀딩 받아