최근 몇 년 동안 확산 모델은 생성 작업에서 매우 성공적이었으며 자연스럽게 타겟 탐지 작업으로 확장되었습니다. 노이즈 상자에서 개체 상자로 이동하는 방식으로 타겟 탐지를 모델링합니다. 프로세스. 훈련 단계에서 대상 상자는 실측 상자에서 무작위 분포로 확산되고, 모델은 실측 상자에 노이즈를 추가하는 이 프로세스를 역전시키는 방법을 학습합니다. 추론 단계에서 모델은 무작위로 생성된 대상 상자 세트를 점진적인 방식으로 출력 결과로 구체화합니다. 고정된 학습 가능한 쿼리 세트에 의존하는 기존 객체 감지 방법과 비교할 때 3DifFusionDet은 객체 감지를 위해 학습 가능한 쿼리가 필요하지 않습니다.
3DifFusionDet 프레임워크는 3D 타겟 감지를 노이즈가 많은 3D 상자에서 타겟 상자로의 노이즈 제거 확산 프로세스로 표현합니다. 이 프레임워크에서 Ground Truth 상자는 무작위 분포 확산으로 훈련되고 모델은 역잡음 과정을 학습합니다. 추론하는 동안 모델은 무작위로 생성된 상자 세트를 점진적으로 개선합니다. 특징 정렬 전략에 따라 점진적인 개선 방법은 LiDAR-카메라 융합에 중요한 기여를 할 수 있습니다. 반복적인 정제 프로세스 역시 다양한 수준의 정확성과 속도를 요구하는 다양한 탐지 환경에 프레임워크를 적용함으로써 뛰어난 적응성을 보여줍니다. KITTI는 실제 트래픽 타겟 인식을 위한 벤치마크입니다. KITTI는 초기 탐지기에 비해 좋은 성능을 얻을 수 있음을 보여줍니다.
3DifFusionDet의 주요 기여는 다음과 같습니다.
3D 객체 감지의 경우 카메라와 LiDAR는 두 가지 보완 센서 유형입니다. LiDAR 센서는 3D 위치 파악에 중점을 두고 3D 구조에 대한 풍부한 정보를 제공하는 반면, 카메라는 풍부한 의미론적 특징을 파생할 수 있는 색상 정보를 제공합니다. 카메라와 LiDAR의 데이터를 융합하여 3D 물체를 정확하게 감지하기 위해 많은 노력이 이루어져 왔습니다. 최첨단 방법은 주로 LiDAR 기반 3D 물체 감지기를 기반으로 하며 LiDAR 기반 감지 방법의 성능이 카메라보다 훨씬 우수하기 때문에 LiDAR 감지 프로세스의 다양한 단계에 이미지 정보를 통합하려고 노력합니다. 기반 방법. LiDAR 기반 및 카메라 기반 감지 시스템의 복잡성으로 인해 두 모드를 결합하면 필연적으로 계산 비용과 추론 시간 지연이 증가합니다. 따라서 다중 모드 정보를 효과적으로 융합하는 문제가 남아 있습니다.
확산 모델은 관찰된 데이터를 노이즈를 도입하여 점차적으로 해체하고, 그 과정을 역전시켜 원본 데이터를 복원하는 생성 모델입니다. 확산 모델과 노이즈 제거 점수 매칭은 최근 컴퓨터 비전 애플리케이션에 대한 관심을 불러일으킨 노이즈 제거 확산 확률 모델(Ho, Jain, and Abbeel 2020a)을 통해 연결됩니다. 이는 그래프 생성, 언어 이해, 강력한 학습 및 시간 데이터 모델링과 같은 많은 분야에 적용되었습니다.
확산 모델은 이미지 생성 및 합성에서 큰 성공을 거두었습니다. 일부 선구자 작품은 이미지 분할 작업에 확산 모델을 채택합니다. 이러한 필드와 비교하면 객체 감지 잠재력이 아직 완전히 활용되지 않았습니다. 확산 모델을 사용한 객체 감지에 대한 이전 접근 방식은 2D 경계 상자로 제한되었습니다. 2D 감지에 비해 3D 감지는 더 풍부한 대상 공간 정보를 제공하고 정확한 깊이 인식 및 볼륨 이해를 달성할 수 있습니다. 이는 주변 차량의 정확한 거리와 방향을 식별해야 하는 자율 주행과 같은 응용 분야에 중요합니다. 자율주행과 같은 애플리케이션에 사용됩니다.
그림 1은 3DifFusionDet의 전체 아키텍처를 보여줍니다. RGB 이미지 및 포인트 클라우드를 포함한 다중 모드 입력을 허용합니다. DiffusionDet과 마찬가지로 전체 모델을 특징 추출 부분과 특징 디코딩 부분으로 나누면 각 반복 단계에서 원본 3D 특징에 직접 적용하기 어려울 것입니다. 특징 추출 부분은 원래 입력 X에서 깊은 특징 표현을 추출하기 위해 한 번만 실행되는 반면, 특징 디코딩 구성요소는 이 깊은 특징을 조건으로 하고 잡음이 있는 상자에서 점진적으로 상자 예측을 도출하도록 훈련됩니다. 두 가지 양식이 제공하는 보완 정보를 최대한 활용하기 위해 각 양식의 인코더와 디코더가 분리되어 있습니다. 또한 이미지 디코더와 포인트 클라우드 디코더는 각각 노이즈 박스를 생성하는 확산 모델을 사용하여 2D 및 3D 기능을 개선하기 위해 별도로 학습됩니다. 이 두 기능 분기의 연결은 단순히 연결하면 정보가 클리핑되어 성능이 저하됩니다. 이를 위해 이러한 기능을 심층적으로 정렬하기 위해 다중 헤드 교차 주의 메커니즘이 도입되었습니다. 이러한 정렬된 특징은 감지 헤드에 입력되어 노이즈를 생성하지 않고 최종 참값을 예측합니다.
포인트 클라우드 인코더의 경우 추출에는 복셀 기반 방법이 사용되고 처리에는 스파스 기반 방법이 사용됩니다. 복셀 기반 방법은 LiDAR 포인트를 복셀로 변환합니다. 다른 일련의 점 특징 추출 방법(예: 점 기반 방법)과 비교하여 이러한 방법은 포인트 클라우드를 동일한 간격의 3D 그리드로 이산화하여 원본 3D 형상 정보를 최대한 유지하면서 메모리 요구 사항을 줄입니다. 희소성 기반 처리 방법은 네트워크의 계산 효율성을 향상시키는 데 도움이 됩니다. 이러한 이점은 확산 모델의 상대적으로 높은 계산 요구 사항의 균형을 맞춥니다.
2D 기능과 비교하여 3D 기능에는 추가 차원이 포함되어 있어 학습이 더욱 어려워집니다. 이를 염두에 두고 원본 모달리티에서 특징을 추출하는 것 외에도 추출된 이미지 특징을 포인트 인코더에 대한 또 다른 입력으로 추가하는 융합 경로가 추가되어 정보 교환을 촉진하고 보다 다양한 소스로부터의 학습을 활용합니다. LiDAR 센서의 점이 이미지 평면에 투영되는 PointFusion 전략이 사용됩니다. 그런 다음 이미지 특징과 해당 지점의 연결이 VoxelNet 아키텍처에 의해 공동 처리됩니다.
기능 디코더. 추출된 이미지 특징과 추출된 포인트 특징은 해당 이미지 및 포인트 디코더에 대한 입력으로 사용됩니다. 또한 각 디코더는 고유하게 생성된 노이즈 박스 또는 의 입력을 결합하고 해당 추출된 기능 외에도 2D 및 3D 기능을 각각 개선하는 방법을 학습합니다.
Sparse RCNN에서 영감을 받은 이미지 디코더는 2D 제안 상자 컬렉션에서 입력을 받고 이미지 인코더에서 생성된 기능 맵에서 RoI 기능을 자릅니다. 포인트 디코더는 3D 제안 상자 모음에서 입력을 받고 이미지 인코더에서 생성된 기능 맵에서 RoI 기능을 자릅니다. 포인트 디코더의 경우 입력은 포인트 인코더
Cross Attention 모듈에서 생성된 기능 맵에서 3D RoI 기능을 자르기 위한 3D 제안 상자 세트입니다. 두 가지 기능 분기를 디코딩한 후에는 이를 결합하는 방법이 필요합니다. 간단한 접근 방식은 두 기능 분기를 연결하여 간단히 연결하는 것입니다. 이 방법은 너무 거칠어 보이며 모델에 정보 전단이 발생하여 성능이 저하될 수 있습니다. 따라서 그림 1과 같이 이러한 기능을 심층적으로 정렬하고 개선하기 위해 다중 헤드 교차 주의 메커니즘이 도입되었습니다. 구체적으로, 포인트 디코더의 출력은 k와 v의 소스로 처리되는 반면 이미지 디코더의 출력은 q에 투영됩니다.
KITTI 3D 객체 감지 벤치마크에서 수행된 실험입니다. 검출 성능(IoU = 0.7)을 측정하기 위한 표준 KITTI 평가 프로토콜에 따라 표 1은 KITTI 검증 세트의 최첨단 방법과 비교하여 3DifFusionDet 방법의 평균 정밀도(mAP) 점수를 보여줍니다. 의 성능을 보고하며 [diffusionDet, difficileist]에 따라 각 작업에 대해 가장 성능이 좋은 두 모델을 굵은 글씨로 표시합니다.
표 1의 결과에 따르면, 본 연구의 방법은 기준선에 비해 상당한 성능 향상을 보여줍니다. D=4일 때 이 방법은 더 짧은 추론 시간으로 대부분의 기본 모델보다 성능이 뛰어납니다. D를 8로 더 높이면 추론 시간은 길어지지만 모든 모델 중에서 가장 좋은 성능을 얻습니다. 이러한 유연성은 이 방법이 광범위한 잠재적 응용 프로그램을 가지고 있음을 보여줍니다
절제 실험먼저, 이미지 RoI 정렬 분기 및 인코더 기능 융합을 유지해야 할 필요성이 입증되었습니다. 확산 모델을 사용하여 카메라 및 LiDAR에서 3D 객체 감지기를 설계하려면 생성된 노이즈 3D 상자를 융합 3D 기능에 대한 입력으로 직접 적용하는 것이 가장 간단한 접근 방식입니다. 그러나 이 접근 방식은 표 2에 표시된 것처럼 정보 전단으로 인해 성능 저하가 발생할 수 있습니다. 이를 사용하여 포인트 클라우드 RoIAlign을 인코딩된 3D 기능 아래에 배치하는 것 외에도 인코딩된 2D 기능 아래에 RoIAlign 이미지를 배치하는 두 번째 분기도 생성합니다. 크게 향상된 성능은 두 모드에서 제공되는 보완 정보를 더 잘 활용할 수 있음을 시사합니다.
그런 다음 다양한 융합 전략의 영향을 분석합니다. 학습된 2D 및 3D 표현 기능이 주어지면 이를 더 효과적으로 결합할 수 있는 방법은 무엇입니까? 2D 기능과 비교하여 3D 기능은 추가 차원을 가지므로 학습 과정이 더욱 어려워집니다. LiDAR 센서의 포인트를 이미지 특징에 투영하고 이를 해당 포인트와 연결하여 공동 처리함으로써 이미지 특징에서 포인트 특징으로의 정보 흐름 경로를 추가합니다. 이것이 VoxelNet 아키텍처입니다. 표 3에서 볼 수 있듯이 이 융합 전략은 감지 정확도에 큰 이점을 제공합니다
융합이 필요한 또 다른 부분은 디코딩 후 두 기능 분기를 연결하는 것입니다. 여기서는 이러한 기능을 심층적으로 정렬하고 개선하기 위해 다중 헤드 교차 주의 메커니즘이 적용됩니다. 이 외에도 연결 연산, 합산 연산, 직접 곱 연산, 다층 퍼셉트론(MLP) 사용과 같은 보다 직접적인 방법도 연구되었습니다. 결과를 표 4에 나타내었다. 그 중 Cross-Attention 메커니즘은 거의 동일한 학습 및 추론 속도로 최고의 성능을 보여줍니다.
정확도와 추론 속도 간의 균형을 연구하세요. 다양한 제안 상자와 D를 선택하는 경우의 영향은 3D 감지 정확도와 초당 프레임(FPS)을 비교하여 표시됩니다. 제안 상자 수는 100, 300개 중에서 선택되고 D는 1, 4, 8 중에서 선택됩니다. 실행 시간은 배치 크기가 1인 단일 NVIDIA RTX A6000 GPU에서 평가됩니다. 제안 상자 수를 100개에서 300개로 늘리면 대기 시간 비용을 무시할 수 있을 정도로 정확도가 크게 향상되는 것으로 나타났습니다(1.3FPS 대 1.2FPS). 반면에 탐지 정확도가 높을수록 추론 시간이 길어집니다. D를 1에서 8로 변경하면 3D 감지 정확도가 날카로운(Easy: 87.1mAP에서 90.5mAP)에서 상대적으로 느린(Easy: 90.5AP에서 91.3mAP)로 증가하는 반면 FPS는 계속 감소합니다.
사례 연구 및 향후 연구 이 기사에서는 고유한 속성을 기반으로 3DifFusionDet의 잠재적인 용도에 대해 논의합니다. 일반적으로 정확하고 견고한 실시간 추론은 객체 감지 작업의 세 가지 요구 사항입니다. 자율 주행 차량에 대한 인식 분야에서 인식 모델은 고속으로 주행하는 자동차가 관성으로 인해 속도를 줄이거나 방향을 변경하려면 추가 시간과 거리를 소비해야 한다는 점을 고려하면 실시간 요구 사항에 특히 민감합니다. 더 중요한 것은 편안한 승차감을 보장하기 위해서는 안전을 전제로 가속도의 절대값을 최소화하면서 최대한 부드럽게 주행해야 한다는 점이다. 주요 장점 중 하나는 다른 유사한 자율주행차 제품에 비해 승차감이 더 부드럽다는 것입니다. 이를 위해서는 자율주행차가 가속, 감속, 회전 시 빠르게 반응해야 합니다. 자동차의 반응이 빠를수록 후속 조작 및 조정을 위한 공간이 더 넓어집니다. 이는 감지된 대상의 가장 정확한 분류나 위치를 먼저 얻는 것보다 더 중요합니다. 자동차가 반응하기 시작하면 여전히 행동 방식을 조정할 시간과 거리가 남아 있으며, 이는 더 정확한 추가 결정을 내리는 데 사용될 수 있습니다. 추정된 결과는 자동차의 운전 동작을 미세 조정하는 데 사용됩니다.
다시 작성한 내용은 다음과 같습니다. 표 4의 결과에 따르면 추론 단계 크기가 작을 때 우리의 3DifFusionDet 모델은 추론을 빠르게 수행하고 상대적으로 높은 정확도를 얻을 수 있습니다. 이러한 초기 인식은 자율주행차가 새로운 반응을 개발할 수 있을 만큼 정확합니다. 추론 단계 수가 증가함에 따라 보다 정확한 객체 감지를 생성하고 응답을 더욱 세부적으로 조정할 수 있습니다. 탐지에 대한 이러한 점진적인 접근 방식은 우리 작업에 이상적으로 적합합니다. 또한, 우리 모델은 추론 중에 제안 상자 수를 조정할 수 있으므로 작은 단계에서 얻은 사전 정보를 활용하여 실시간 제안 상자 수를 최적화할 수 있습니다. 표 4의 결과에 따르면, 서로 다른 선험적 제안 프레임에서의 성능도 다릅니다. 따라서 이러한 적응형 검출기를 개발하는 것은 유망한 작업입니다
자율 주행 자동차를 제외하고 이 논문의 모델은 특히 검출기가 In을 기반으로 하는 경우 연속 반응 공간에서 짧은 추론 시간이 필요한 모든 실제 시나리오와 기본적으로 일치합니다. 감지 결과가 움직이는 장면. 3DifFusionDet은 확산 모델의 속성을 활용하여 거의 정확한 실제 공간 관심 영역을 신속하게 찾아 기계가 새로운 작업과 자체 최적화를 시작하도록 촉발할 수 있습니다. 후속 고정밀 퍼셉트론은 기계 작동을 더욱 미세 조정합니다. 이러한 동작 감지기에 모델을 배포하기 위한 하나의 열린 질문은 더 큰 단계의 이전 추론과 더 작은 단계의 최신 추론 간의 추론 정보를 결합하기 위한 전략이며, 이는 또 다른 열린 질문입니다.
이 기사에서는 강력한 LiDAR 및 카메라 융합 기능을 갖춘 3DifFusionDet이라는 새로운 3D 객체 감지기를 소개합니다. 3D 객체 감지를 생성적 노이즈 제거 프로세스로 공식화하는 것은 3D 객체 감지에 확산 모델을 적용한 첫 번째 작업입니다. 잡음 제거 프로세스 프레임워크를 생성하는 맥락에서 이 연구는 가장 효과적인 카메라 LiDAR 융합 정렬 전략을 탐색하고 두 모드에서 제공되는 보완 정보를 완전히 활용하기 위한 융합 정렬 전략을 제안합니다. 성숙한 감지기와 비교할 때 3DifFusionDet은 성능이 뛰어나 객체 감지 작업에서 확산 모델의 광범위한 응용 가능성을 보여줍니다. 강력한 학습 결과와 유연한 추론 모델 덕분에 광범위한 잠재적 용도가 있습니다
원본 링크: https://mp.weixin.qq.com/s/0Fya4RYelNUU5OdAQp9DVA
위 내용은 다 퍼뜨려? 3DifFusionDet: 확산 모델이 LV 융합 3D 타겟 감지에 들어갑니다!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!