>  기사  >  기술 주변기기  >  DetZero: Waymo는 수동 주석에 필적하는 3D 감지 목록에서 1위를 차지했습니다!

DetZero: Waymo는 수동 주석에 필적하는 3D 감지 목록에서 1위를 차지했습니다!

WBOY
WBOY앞으로
2023-12-04 11:33:52740검색

DetZero: Waymo는 수동 주석에 필적하는 3D 감지 목록에서 1위를 차지했습니다!DetZero: Waymo는 수동 주석에 필적하는 3D 감지 목록에서 1위를 차지했습니다!

이 기사에서는 Waymo의 공개 데이터 세트에 대한 포괄적인 연구 및 평가를 통해 DetZero가 연속적이고 완전한 객체 궤적 시퀀스를 생성하고 장기적인 포인트 클라우드를 최대한 활용할 수 있는 오프라인 3D 객체 감지 알고리즘 프레임워크 세트를 제안합니다. 기능은 인식된 결과의 품질을 크게 향상시킵니다. 동시에 WOD 3D 객체 감지 순위에서는 85.15mAPH(L2) 성능으로 1위를 차지했다. 또한 DetZero는 온라인 모델 교육을 위한 고품질 자동 라벨링을 제공할 수 있으며 그 결과는 수동 라벨링 수준에 도달하거나 심지어 초과했습니다.

논문 링크: https://arxiv.org/abs/2306.06023

다시 작성해야 할 내용: 코드 링크: https://github.com/PJLab-ADG/DetZero

방문해주세요. 홈페이지 링크: https://superkoma.github.io/detzero-page

1 소개

데이터 주석의 효율성을 높이기 위해 새로운 방법을 연구했습니다. 이 방법은 딥러닝과 비지도 학습을 기반으로 하며 주석이 달린 데이터를 자동으로 생성할 수 있습니다. 라벨이 지정되지 않은 대량의 데이터를 사용하여 자율 주행 인식 모델을 훈련하여 도로 위의 물체를 인식하고 감지할 수 있습니다. 이 방법은 데이터 라벨링 비용을 절감할 수 있을 뿐만 아니라 후처리 효율성도 향상시킬 수 있습니다. 실험에서는 Waymo의 오프라인 3D 객체 감지 방법인 3DAL[]을 비교 기준으로 사용했으며, 그 결과 제안한 방법의 정확성과 효율성이 크게 향상되었음을 보여줍니다. 우리는 이 방법이 미래 자율주행 기술에서 중요한 역할을 할 것이라고 믿습니다

  1. 객체 감지(Detection): 소량의 연속 포인트 클라우드 프레임 데이터를 입력하고 각 프레임에서 3D 객체의 경계 상자 및 카테고리 정보를 출력합니다.
  2. 다중 대상 추적(Tracking): 각 프레임에서 감지된 개체를 연결하여 개체 시퀀스를 형성하고 고유한 개체 ID를 할당합니다.
  3. 동작 분류(Motion Classification): 개체 궤적 특성을 기반으로 객체의 모션 상태(정지 또는 이동)
  4. 객체 중심 정제: 이전 모듈에서 예측한 모션 상태를 기반으로 정지 객체와 이동 객체 각각의 시계열 포인트 클라우드 특징을 추출하여 정확한 경계 상자를 예측합니다. 마지막으로 최적화된 3D 바운딩 박스는 포즈 매트릭스를 통해 객체가 위치한 각 프레임의 좌표계로 다시 전송됩니다.
그러나 많은 주류 온라인 3D 객체 감지 방법은 포인트 클라우드의 시간적 맥락 특성을 활용하여 기존 오프라인 3D 감지 방법보다 더 나은 결과를 얻었습니다. 그러나 이러한 방법들은 긴 시퀀스 포인트 클라우드의 특성을 효과적으로 활용하지 못한다는 점을 깨달았습니다. 현재의 표적 탐지 및 추적 알고리즘은 주로 경계 상자 수준(박스 수준)의 성능 지표에 중점을 두며 온라인 3D 탐지 알고리즘을 통과합니다. TTA는 여러 모델과 융합한 후 생성된 다수의 중복 프레임을 추적 알고리즘의 입력으로 사용하므로 일반적으로 궤적 분할, ID 전환, 잘못된 연관 등의 심각한 문제가 발생하기 쉽습니다. 완전한 객체 시퀀스로 인해 객체에 해당하는 장기 포인트 클라우드 기능의 활용을 방해합니다. 아래 그림에 표시된 것처럼 객체의 원래 궤적은 여러 하위 시퀀스(T1, T2, T3)로 분할되어 T1 세그먼트의 특징이 더 많은 정보를 T2와 T3 간에 공유할 수 없게 됩니다. T4 세그먼트에서도 손실된 조각을 불러올 수 없습니다. T5 조각의 최적화된 프레임은 원래 FP 위치로 이동한 후에도 FP로 유지됩니다.

  1. 객체 시퀀스의 품질은 다운스트림 최적화 모델에 큰 영향을 미칩니다.

동작 상태 분류에 기반한 최적화 모델은 객체의 시간적 특성을 완전히 활용하지 못합니다. 예를 들어, 강체의 크기는 시간이 지나도 일정하게 유지되며, 다양한 각도에서 데이터를 캡처하여 보다 정확한 크기 추정을 얻을 수 있습니다. 객체의 모션 궤적은 궤적의 부드러움에 반영되는 특정 운동학적 제약 조건을 따라야 합니다. . 아래 그림 (a)와 같이 동적 객체의 경우 슬라이딩 윈도우 기반 최적화 메커니즘은 객체 형상의 일관성을 고려하지 않고 여러 인접 프레임의 시계열 포인트 클라우드 정보를 통해 경계 상자만 업데이트하므로 결과적으로 예측된 기하학적 크기에 편차가 발생합니다. (b)의 예에서는 객체의 모든 포인트 클라우드를 모아 조밀한 시계열 포인트 클라우드 특징을 얻을 수 있으며, 각 프레임별로 바운딩 박스의 정확한 기하학적 크기를 예측할 수 있습니다. DetZero: Waymo는 수동 주석에 필적하는 3D 감지 목록에서 1위를 차지했습니다!

  1. 움직임 상태를 기반으로 한 최적화 모델은 물체의 크기를 예측하고(a), 기하학적 최적화 모델은 다양한 관점에서 모든 포인트 클라우드를 모아 물체의 크기를 예측합니다(b)
  2. 2 방법

    본 논문에서는 DetZero라는 새로운 오프라인 3D 객체 감지 알고리즘 프레임워크를 제안합니다. 이 프레임워크에는 다음과 같은 특징이 있습니다. (1) 다중 프레임 3D 감지기와 오프라인 추적기를 업스트림 모듈로 사용하여 정확하고 완전한 개체 추적을 제공하고 개체 시퀀스의 높은 리콜(트랙 수준 리콜)에 중점을 둡니다. (2) 다운스트림 모듈 여기에는 장기 포인트 클라우드 기능을 사용하여 정교한 기하학적 치수, 부드러운 모션 궤적 위치 및 업데이트된 신뢰 점수를 포함하여 객체의 다양한 속성을 학습하고 예측하는 주의 메커니즘을 기반으로 한 최적화 모델이 포함되어 있습니다.

    DetZero: Waymo는 수동 주석에 필적하는 3D 감지 목록에서 1위를 차지했습니다!

    2.1 완전한 객체 시퀀스

    공용 CenterPoint[]를 기본 탐지기로 사용하여 더 많은 탐지 후보 프레임을 제공하기 위해 세 가지 측면에서 이를 향상했습니다. (1) 다른 프레임 포인트 클라우드 조합을 입력으로 사용하여 성능을 최대화합니다. (2) 포인트 클라우드 밀도 정보를 사용하여 원래 포인트 클라우드 기능과 복셀 기능을 2단계 모듈로 융합하여 첫 번째 단계의 경계 결과를 최적화합니다. (3) 다중 추론 단계 데이터 확대(TTA)를 사용합니다. -모델 결과 융합(Ensemble) 및 기타 기술을 사용하여 모델의 복잡한 환경에 대한 적응성을 향상시킵니다. 오프라인 추적 모듈에는 2단계 상관 전략이 도입되어 잘못된 매칭을 줄입니다. 신뢰도가 높은 그룹은 연관이 기존 궤적을 업데이트하고 업데이트되지 않은 궤적은 낮은 그룹과 연결됩니다. 동시에 객체 궤적의 길이는 시퀀스가 ​​끝날 때까지 지속될 수 있어 ID 전환 문제를 피할 수 있습니다. 또한 추적 알고리즘을 역으로 수행하여 다른 궤적 세트를 생성하고 위치 유사성을 통해 연결한 다음 마지막으로 WBF 전략을 사용하여 성공적으로 일치하는 궤적을 융합하여 시퀀스의 시작과 끝의 무결성을 더욱 향상시킵니다. 마지막으로, 차별화된 객체 시퀀스의 경우 각 프레임의 해당 포인트 클라우드가 추출되어 저장됩니다. 업데이트되지 않은 중복 상자와 일부 짧은 시퀀스는 다운스트림 최적화 없이 최종 출력에 직접 병합됩니다.

    2.2 속성 예측 기반 객체 최적화 모듈

    기존 객체 중심 최적화 모델은 기하학적 형태의 일관성, 인접한 순간의 객체 움직임 등 서로 다른 모션 상태의 객체 간의 상관 관계를 무시했습니다. 이러한 관찰을 바탕으로 우리는 전통적인 경계 상자 회귀 작업을 세 가지 모듈로 분해합니다. 각각 객체의 기하학, 위치 및 신뢰도 속성을 예측합니다.

    다중 뷰 기하학적 상호 작용: 다중 뷰에서 객체 포인트 클라우드를 결합하여 다음을 보완할 수 있습니다. 전체 물체의 모양과 모양. 먼저, 객체 포인트 클라우드를 서로 다른 위치의 로컬 프레임과 정렬하기 위해 로컬 좌표 변환을 수행하고 바운딩 박스의 정보 표현을 강화하기 위해 바운딩 박스의 6개 표면에 대한 각 점의 투영 거리를 계산한 다음 직접적으로 서로 다른 프레임의 모든 포인트 클라우드를 병합합니다. 다중 뷰 기하학적 특징의 키와 값으로, t 샘플은 단일 뷰 기하학적 특징에 대한 쿼리로 객체 시퀀스에서 무작위로 선택됩니다. 기하학적 쿼리는 self-attention 레이어로 전송되어 서로의 차이점을 확인한 다음, 필요한 관점의 기능을 보완하고 정확한 기하학적 크기를 예측하기 위해 cross-attention 레이어로 전송됩니다.
    1. 로컬 위치와 전역 위치 간의 상호 작용: 객체 시퀀스의 상자를 원점으로 무작위로 선택하고, 다른 모든 상자와 해당 객체 포인트 클라우드를 이 좌표계로 전송하고, 각 경계의 중심점에 대한 각 점의 합을 계산합니다. 상자 8개의 꼭지점 사이의 거리는 전역 위치 기능의 키이자 값으로 사용됩니다. 객체 시퀀스의 각 샘플은 위치 쿼리로 사용되며 현재 위치와 다른 위치 사이의 상대적 거리를 결정하기 위해 self-attention 레이어로 전송됩니다. 그런 다음 이는 교차 주의 레이어에 입력되어 컨텍스트 관계를 시뮬레이션합니다. 전역 위치에 대해 로컬이며 이 좌표계를 예측합니다. 각 초기 중심점과 실제 중심점 사이의 오프셋과 방향 각도 차이를 예측합니다.
    2. 신뢰도 최적화: 분류 분기는 객체가 TP인지 FP인지 분류하는 데 사용됩니다. IoU 회귀 분기는 기하학적 모델과 위치 모델에 의해 최적화된 후 객체와 Ground Truth Box 사이의 IoU 크기를 예측합니다. 최종 신뢰도 점수는 이 두 분기의 기하 평균입니다.
    3 실험

    3.1 주요 성능

    DetZero는 85.15mAPH(L2)로 Waymo 3D 탐지 리더보드에서 가장 좋은 결과를 얻었습니다. 두 방법 모두 긴 시리즈 포인트 클라우드를 처리하는 방법과 비교했을 때 가장 좋습니다. 고급 다중 모드 융합 3D 감지기인 DetZero는 상당한 성능 이점을 입증했습니다.

    Waymo 3D 감지 순위 결과, 모든 결과는 TTA 또는 앙상블 기술을 사용합니다. †는 오프라인 모델을 의미하고 ‡ 포인트 클라우드 이미지 융합 모델을 의미하며 *는 익명 제출을 나타냅니다. 결과

    DetZero: Waymo는 수동 주석에 필적하는 3D 감지 목록에서 1위를 차지했습니다!마찬가지로 감지 프레임의 정확성과 객체 추적 시퀀스의 무결성 덕분에 Waymo 3D 추적 순위에서 75.05 MOTA(L2)로 첫 번째 성과를 달성했습니다.

    Waymo 3D 추적 순위, *는 결과의 익명 제출을 나타냅니다

    3.2 Ablation 실험

    우리가 제안한 각 모듈의 역할을 더 잘 검증하기 위해 Waymo 검증 세트에 대해 Ablation 실험을 수행했으며, 더욱 엄격한 IoU 임계값을 측정 기준으로 채택했습니다

    DetZero: Waymo는 수동 주석에 필적하는 3D 감지 목록에서 1위를 차지했습니다!Waymo에서 확인됨 We 차량 및 보행자에 대해 이를 수행하고 IoU 임계값에 대해 표준 값(0.7 및 0.5)과 엄격한 값(0.8 및 0.6)을 선택했습니다. 동시에 동일한 감지 결과 세트에 대해 추적기와 최적화를 선택했습니다. 3DAL과 DetZero에서 각각 교차 조합 검증을 수행한 결과 DetZero의 트래커와 옵티마이저가 더 나은 성능을 발휘하는 것으로 입증되었으며 둘의 조합이 더 큰 장점을 보였습니다.

    다양한 업스트림 및 다운스트림 모듈 조합의 교차 검증 실험, 아래 첨자 1과 2는 각각 3DAL과 DetZero를 나타내고 표시기는 3D APH입니다.

    DetZero: Waymo는 수동 주석에 필적하는 3D 감지 목록에서 1위를 차지했습니다!저희 오프라인 추적기는 개체 시퀀스의 무결성에 더 많은 주의를 기울입니다. 둘의 MOTA 성능은 작지만 Recall@track의 성능이 최종 최적화 성능의 큰 차이를 일으키는 이유 중 하나입니다

    오프라인 트래커(Trk2)와 3DAL 트래커(Trk1)의 성능 비교 of MOTA 및 Recall@track

    DetZero: Waymo는 수동 주석에 필적하는 3D 감지 목록에서 1위를 차지했습니다! 또한 이는 다른 최신 트래커와 비교할 때 입증됩니다.

    Recall@track은 추적 알고리즘에 의해 처리된 시퀀스 리콜이고, 3D APH는 트래킹 알고리즘에 의해 처리된 최종 성능입니다. 동일한 최적화 모델

    DetZero: Waymo는 수동 주석에 필적하는 3D 감지 목록에서 1위를 차지했습니다!

    3.3 일반화 성능

    최적화 모델이 특정 업스트림 결과 집합에 고정적으로 적용될 수 있는지 확인하기 위해 다양한 성능을 갖는 업스트림 탐지 추적 결과를 입력으로 선택했습니다. 결과는 우리가 상당한 성능 개선을 달성했음을 보여주며, 업스트림 모듈이 점점 더 완전한 개체 시퀀스를 호출할 수 있는 한, 우리의 최적화 프로그램은 최적화를 위해 시계열 포인트 클라우드의 특성을 효과적으로 활용할 수 있음을 더욱 입증합니다

    Waymo 검증 세트 일반화 성능 검증, 지표는 3D APH

    DetZero: Waymo는 수동 주석에 필적하는 3D 감지 목록에서 1위를 차지했습니다!

    3.4 인간 라벨링 능력과의 비교

    우리는 3DAL의 실험 설정을 기반으로 지정된 5개의 시퀀스에 대한 DetZero의 AP 성능을 단일 프레임을 기준으로 비교하여 보고할 것입니다. 인간 성능은 다시 라벨링된 결과와 원래의 정답 라벨링 결과의 일관성으로 측정됩니다. 3DAL 및 인간과 비교하여 DetZero는 다양한 성능 지표에서 장점을 보여주었습니다.

    차량 카테고리에 대한 다양한 IoU 임계값에서 3D AP와 BEV AP의 성능 비교

    DetZero: Waymo는 수동 주석에 필적하는 3D 감지 목록에서 1위를 차지했습니다! 고품질 자동 주석 결과가 대체할 수 있는지 확인하기 위해 매뉴얼 주석 결과는 온라인 모델 훈련에 사용되었으며 Waymo 검증 세트에 대해 준지도 학습 검증을 수행했습니다. 학습 데이터 중 10%를 교사 모델(DetZero)의 학습 데이터로 무작위로 선택하고, 나머지 90%의 데이터에 대해 추론을 수행하여 자동 주석 결과를 얻었으며, 이는 학생 모델의 레이블로 사용됩니다. 우리는 학생 모델로 단일 프레임 CenterPoint를 선택했습니다. 차량 카테고리에서는 90% 자동 라벨과 10% 실제 라벨을 사용한 학습 결과가 100% 실제 라벨을 사용한 학습 결과에 가깝지만, 보행자 카테고리에서는 자동 라벨을 사용한 모델의 결과가 이미 더 좋습니다. 자동 라벨링이 온라인 모델 훈련에 사용될 수 있음을 보여주는 결과

    Waymo 검증 세트에 대한 준 감독 실험 결과

    DetZero: Waymo는 수동 주석에 필적하는 3D 감지 목록에서 1위를 차지했습니다!

    3.5 시각화된 결과

    빨간색 상자는 업스트림 입력을 나타냅니다. 파란색 상자는 최적화된 모델을 나타냅니다. 출력 결과

    첫 번째 줄은 업스트림 입력 결과를 나타내고, 두 번째 줄은 최적화 모델의 출력 결과를 나타내며, 점선 안의 객체는 이전과 이전의 뚜렷한 차이가 있는 위치를 나타냅니다. 최적화 후DetZero: Waymo는 수동 주석에 필적하는 3D 감지 목록에서 1위를 차지했습니다!DetZero: Waymo는 수동 주석에 필적하는 3D 감지 목록에서 1위를 차지했습니다!

    원본 링크: https://mp.weixin.qq.com/s/HklBecJfMOUCC8gclo-t7Q

위 내용은 DetZero: Waymo는 수동 주석에 필적하는 3D 감지 목록에서 1위를 차지했습니다!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제