자율주행은 예측단계에서 산업화 단계로의 점진적인 전환이다. 구체적인 성능은 네 가지로 나눌 수 있다. 우선, 빅데이터의 맥락에서 데이터 세트의 규모가 급격히 확장되고 있기 때문에, 이전에 소규모 데이터 세트로 개발된 프로토타입의 세부 사항은 크게 걸러지고, 대규모에서 효과적일 수 있는 작업만 이루어지게 됩니다. -스케일 데이터가 남습니다. 두 번째는 단안 장면에서 다중 뷰 장면으로 초점이 전환되어 복잡성이 증가하는 것입니다. 그런 다음 출력 공간을 이미지 공간에서 BEV 공간으로 이동하는 등 애플리케이션 친화적인 설계를 지향하는 경향이 있습니다.
드디어 우리는 순수하게 정확성을 추구하는 것에서 추론 속도를 동시에 고려하는 방향으로 나아갔습니다. 동시에 자율주행 시나리오에서는 신속한 대응이 필요하므로 성능 요구 사항에서는 속도도 고려해야 합니다. 또한 엣지 장치에 배포하는 방법에 대해서도 더 많은 고려가 이루어집니다.
또 다른 배경은 지난 10년 동안 딥 러닝을 중심으로 시각적 인식이 급속도로 발전해 왔으며 분류, 탐지, 세분화와 같은 주류 방향에서 상당히 성숙한 패러다임이 있었습니다. . 자율 주행 시나리오의 시각적 인식 개발 과정에서 기능 인코딩의 대상 정의, 인식 패러다임 및 감독과 같은 측면은 이러한 주류 방향을 크게 끌어왔으므로 자율 주행 인식을 적용하기 전에 이러한 주류 방향을 탐색해야 합니다. 약간.
이러한 배경에서 그림 1과 같이 작년에 대규모 데이터 세트에 대한 3D 타겟 탐지 작업이 많이 등장했습니다(빨간색으로 표시된 것이 첫 번째 알고리즘입니다).
그림 1 지난 1년간 3D 타겟 탐지 개발
시각적 인식과 차이 주류 시각 인식의 차이는 주로 주어진 목표 정의 공간의 차이에 있습니다. 주류 시각 인식의 목표는 이미지 공간에서 정의되는 반면 자율 주행 장면의 목표는 3차원 공간에서 정의됩니다. 입력이 모두 이미지인 경우 3차원 공간에서 결과를 얻으려면 Lift 과정이 필요합니다. 이는 자율주행을 위한 시각적 인식의 핵심 문제입니다.
Lift 객체 문제를 해결하는 방법은 입력, 중간 특성 및 출력으로 나눌 수 있습니다. 입력 수준의 예로는 이미지를 사용하여 깊이 정보를 추론한 다음 사용하는 것입니다. 깊이 정보를 사용하여 이미지의 RGB 값을 3차원 공간에 투영하여 컬러 포인트 클라우드를 얻은 다음 포인트 클라우드 감지 관련 작업을 수행합니다.
현재 더 유망한 것은 DETR3D와 같은 기능 수준 변환 또는 기능 수준 리프트입니다. 모두 기능 수준에서 공간 변경을 수행합니다. 기능 수준 변환의 장점은 반복 추출을 피할 수 있다는 것입니다. 이미지 수준 기능 및 계산을 통해 출력 수준 탐색 결과의 융합 문제를 피할 수도 있습니다. 물론 기능 수준 변환에는 일반적으로 이상한 OP가 사용되어 배포가 불편해지는 등 몇 가지 일반적인 문제가 있습니다.
현재 기능 수준에서 상대적으로 견고한 Lift 프로세스는 주로 깊이 및 주의 메커니즘 전략을 기반으로 하며 대표적인 것은 각각 BEVDet 및 DETR3D입니다. 깊이 기반 전략은 이미지의 각 지점의 깊이를 계산한 후 카메라의 이미징 모델에 따라 특징을 3차원 공간에 투영하여 리프트 프로세스를 완료하는 것입니다. 어텐션 메커니즘 기반 전략은 3차원 공간의 객체를 쿼리로 미리 정의하고, 내부 및 외부 매개변수를 통해 3차원 공간의 중간점에 해당하는 영상 특징을 키와 값으로 찾은 후, 주의를 통해 3차원 물체를 계산합니다.
현재의 모든 알고리즘은 깊이 기반이든 주의 기반이든 기본적으로 카메라 모델에 크게 의존하므로 보정에 대한 민감도가 높고 일반적으로 계산 프로세스가 복잡합니다. 카메라 모델을 포기한 알고리즘은 견고성이 부족한 경우가 많으므로 이러한 측면은 아직 완전히 성숙되지 않았습니다.
시간적 정보는 표적 탐지 효과를 효과적으로 향상시킬 수 있습니다. 자율주행 시나리오에서는 목표의 속도가 현재 시나리오의 주요 인식 목표 중 하나이기 때문에 타이밍은 더 깊은 의미를 갖습니다. 속도의 초점은 변화에 있으며, 단일 프레임 데이터에는 변화 정보가 충분하지 않으므로 시간 차원의 변화 정보를 제공하는 모델링이 필요합니다. 기존 포인트 클라우드 시계열 모델링 방법은 여러 프레임의 포인트 클라우드를 입력으로 혼합하여 상대적으로 조밀한 포인트 클라우드를 얻을 수 있어 탐지가 더 정확해졌습니다. 또한 다중 프레임 포인트 클라우드에는 연속 정보가 포함되어 있으며 나중에 네트워크 훈련 과정에서 BP를 사용하여 연속 정보가 필요한 속도 추정과 같은 작업을 해결하기 위해 이 연속 정보를 추출하는 방법을 학습합니다.
시각 인식의 타이밍 모델링 방법은 주로 BEVDet4D와 BEVFormer에서 나왔습니다. BEVDet4D는 단순히 두 프레임의 기능을 융합함으로써 후속 네트워크에 대한 지속적인 정보를 제공합니다. 다른 경로는 attention을 기반으로 하며, 단일 시간 프레임과 반시계 방향 특징을 모두 쿼리 대상으로 제공한 후 Attention을 통해 이 두 가지 특징을 동시에 쿼리하여 타이밍 정보를 추출합니다.
레이더 인식에 비해 자율주행 시각적 인식의 가장 큰 단점 중 하나는 깊이 추정의 정확성입니다. "확률적 및 기하학적 깊이: 관점에서 객체 감지" 논문에서는 GT 방법을 대체하여 다양한 요인이 성능 점수에 미치는 영향을 연구합니다. 분석의 주요 결론은 정확한 깊이 추정이 상당한 성능 향상을 가져올 수 있다는 것입니다.
그러나 깊이 추정은 현재 시각적 인식의 주요 병목 현상입니다. 현재 개선을 위한 두 가지 주요 아이디어가 있습니다. 하나는 PGD의 기하학적 제약 조건을 사용하여 예측된 깊이 맵을 개선하는 것입니다. 다른 하나는 보다 강력한 깊이 추정치를 얻기 위해 LiDAR를 감독으로 사용하는 것입니다.
현재 프로세스 측면에서 뛰어난 솔루션인 BEVDepth는 훈련 과정에서 LiDAR가 제공하는 깊이 정보를 활용하여 변경 과정에서 깊이 추정을 감독하는 동시에 인식의 주요 작업을 수행합니다.
멀티태스크는 이러한 계산을 통해 자원을 절약하거나 계산 추론을 가속화하는 목적을 달성할 수 있습니다. . 그러나 현재의 방법들은 기본적으로 통합된 특징을 얻은 후 서로 다른 수준에서 특징을 처리하는 것만으로 멀티태스킹을 달성하는 데 공통적인 문제가 있는데, 이는 태스크 병합 이후 성능이 저하된다는 점이다. 멀티모달리티(Multimodality)는 전체 판단에서 직접 융합할 수 있는 형태를 찾아 단순 융합을 이루는 점에서도 거의 보편적이다.
BEVDet 네트워크는 그림 2에 표시됩니다. 특징 추출 프로세스는 주로 추출된 이미지 공간의 특징을 특징으로 변환하는 것입니다. 그런 다음 이 특징을 추가로 인코딩하여 예측에 사용할 수 있는 특징을 얻고 마지막으로 조밀한 예측을 사용하여 목표를 예측합니다.
그림 2 BEVDet 네트워크 구조
관점 변경 모듈 프로세스는 두 단계로 나누어집니다. 먼저 변환할 형상의 크기를 VxCxHxW라고 가정하고 예측합니다. 이미지 공간에서 분류 방식으로 각 픽셀에 대해 D차원 깊이 분포를 얻은 다음 이 두 기능을 사용하여 서로 다른 깊이를 렌더링하여 시각적 특징을 얻은 다음 카메라 모델을 사용하여 이를 투영할 수 있습니다. 3차원 공간으로, 3차원 공간을 복셀화한 후, BEV 특징을 얻기 위해 스플랫(splat) 과정을 수행합니다.
관점 변경 모듈의 매우 중요한 기능은 데이터 속도 저하에서 상호 격리 역할을 한다는 것입니다. 구체적으로, 카메라의 내부 매개변수를 통해 좌표를 유지하기 위해 영상 공간의 한 점에 데이터 증대를 적용하면 이를 3차원 공간에 투영하여 카메라 좌표계의 한 점을 얻을 수 있습니다. 즉, 카메라 좌표계의 좌표가 확대 전후에 변경되지 않아 상호 격리 효과가 있는 것입니다. 상호 격리의 단점은 이미지 공간의 확대가 BEV 공간 학습을 정규화하지 않는다는 것입니다. 장점은 BEV 공간 학습의 견고성을 향상시킬 수 있습니다
실험에서 결론적으로 몇 가지 중요한 점을 얻을 수 있습니다. 첫째, BEV 공간 인코더를 사용한 후에는 알고리즘이 과적합에 빠질 가능성이 더 높습니다. 또 다른 결론은 BEV 공간의 확장이 이미지 공간의 확장보다 성능에 더 큰 영향을 미칠 것이라는 점이다.
BEV 공간의 타겟 크기와 카테고리 높이 사이에도 상관 관계가 있습니다. 동시에 타겟 간의 작은 중첩 길이로 인해 일부 문제가 발생하는 것으로 관찰되었습니다. 이미지 공간이 최적이 아닙니다. 동시 가속 전략의 핵심은 병렬 컴퓨팅 방법을 사용하여 서로 다른 소규모 컴퓨팅 작업에 독립적인 스레드를 할당하여 병렬 컴퓨팅 가속의 목적을 달성하는 것입니다. 장점은 추가적인 그래픽 메모리 오버헤드가 없다는 것입니다.
BEVDet4D 네트워크 구조는 그림 3에 나와 있습니다. 이 네트워크의 주요 초점은 역시간 프레임의 특징을 현재 프레임에 적용하는 방법입니다. 입력 특징을 보유 객체로 선택하지만 대상 변수가 BEV 공간에 정의되어 있으므로 이 이미지 특징을 선택하지 않습니다. , 및 이미지의 특성은 직접적인 타이밍 모델링에 적합하지 않습니다. 동시에, BEV 인코더 뒤에 있는 특징은 BEV 인코더에서 연속적인 특징을 추출해야 하기 때문에 연속 융합 특징으로 선택되지 않습니다.
관점 변경 모듈에서 출력되는 특징이 상대적으로 희박하다는 점을 고려하여 관점 변경 후 추가 BEV 인코더를 연결하여 예비 BEV 특징을 추출한 후 시계열 모델링을 수행합니다. 타이밍 융합 중에는 타이밍 융합을 완료하기 위해 시계 반대 방향 프레임의 기능을 현재 바늘과 연결하기만 하면 됩니다. 실제로 여기서는 타이밍 기능을 추출하는 작업을 BEV에 맡깁니다.
그림 3 BEVDet4D 네트워크 구조
네트워크 구조에 맞는 대상 변수를 어떻게 설계하나요? 그 전에 먼저 네트워크의 몇 가지 주요 특성을 이해해야 합니다. 첫 번째는 기능의 수용 필드입니다. 네트워크는 BP를 통해 학습하므로 기능의 수용 필드는 출력 공간에 의해 결정됩니다.
자율주행 인식 알고리즘의 출력 공간은 일반적으로 자율주행차 주변의 특정 범위 내의 공간으로 정의됩니다. 특징 맵은 연속 공간의 균일하게 분포되고 모서리 정렬된 이산 샘플로 간주할 수 있습니다. . 특징 맵의 수용 필드는 자가 차량 주변의 특정 범위 내에서 정의되므로 자가 차량의 움직임에 따라 변경됩니다. 따라서 서로 다른 두 시간 노드에서 특징 맵의 수용 필드는 특정 값을 갖습니다. 세계 좌표계의 값. 특정 오프셋.
두 특징을 직접 접합하면 두 특징 맵에서 정적 대상의 위치가 다르며 두 특징 맵에서 동적 대상의 오프셋은 자체 오프셋의 오프셋과 같습니다. test plus 세계 좌표계에서 위쪽 동적 대상의 오프셋입니다. 패턴 일관성의 원리에 따르면, 스플라이싱된 특징에서 타겟의 오프셋은 차량과 관련되므로 네트워크의 학습 목표를 설정할 때 이들에서 타겟의 위치 변화가 되어야 합니다. 두 개의 기능 맵.
다음 수식에 따르면 학습 목표는 셀프 테스트 이동과 관련이 없으며 세계 좌표계에서 목표의 이동에만 관련이 있음을 추론할 수 있습니다.
위에서 도출한 학습 목표와 현재 주류 방식의 학습 목표의 차이점은 시간 구성 요소가 제거되고 속도가 변위/시간과 동일하다는 점입니다. 그러나 이 두 기능은 시간 관련 기능을 제공하지 않습니다. 단서가 있으므로 이것을 배우면 속도 목표를 위해서는 네트워크가 시간 구성 요소를 정확하게 추정해야 하므로 학습 난이도가 높아집니다. 실제로 훈련 과정에서 두 프레임 사이의 시간을 상수 값으로 설정할 수 있습니다. BP를 학습하면 일정한 시간 간격 네트워크를 학습할 수 있습니다.
시간 영역 확대에서는 훈련 과정에서 서로 다른 시간 간격을 무작위로 사용합니다. 서로 다른 시간 간격에서 두 그림의 목표 오프셋도 다르며 학습의 목표 오프셋도 다릅니다. , 다양한 오프셋에서 모델의 루팡 효과를 달성하기 위해. 동시에 모델은 대상의 오프셋에 대해 특정 민감도를 갖습니다. 즉, 간격이 너무 작으면 두 프레임 사이의 변화가 너무 작으면 감지하기 어렵습니다. 따라서 테스트 중에 적절한 시간 간격을 선택하면 모델의 일반화 성능을 효과적으로 향상시킬 수 있습니다.
이 기사에서는 그림 4와 같이 레이더를 사용하여 강력한 깊이 추정치를 얻습니다. 변경 모듈에서 깊이 분포를 감독하기 위해 포인트 클라우드를 사용합니다. 이 감독은 대상이 제공하는 깊이 감독에 비해 밀도가 높지만 모든 픽셀에 도달하지는 않습니다. 그러나 이 깊이 추정의 일반화 성능을 향상시키기 위해 더 많은 샘플을 제공할 수 있습니다.
그림 4 BEVDepth 네트워크 구조
이 작업의 또 다른 측면은 추정을 위해 특징과 깊이를 두 개의 분기로 나누고, 깊이 추정 분기에 잔차를 추가하는 것입니다. 깊이 추정 분기의 수용 필드를 개선하기 위한 네트워크입니다. 연구자들은 카메라의 내부 및 외부 매개변수의 정확성으로 인해 상황과 깊이가 잘못 정렬될 것이라고 믿습니다. 깊이 추정 네트워크가 충분히 강력하지 않으면 정확도가 어느 정도 손실될 수 있습니다.
마지막으로 이 카메라의 내부 매개변수는 깊이 추정 분기 입력으로 사용되며 NSE와 유사한 방법을 사용하여 채널 수준에서 입력 기능의 채널을 조정하므로 다른 카메라에 대한 네트워크의 응답을 효과적으로 향상시킬 수 있습니다. 견고성의 내부 매개변수.
우선, 자율주행에 대한 시각적 인식은 궁극적으로 배포에 도움이 되며, 배포 중에는 데이터 문제와 모델 문제가 수반됩니다. 데이터 문제에는 다양성 문제와 데이터 주석이 포함됩니다. 수동 주석은 매우 비용이 많이 들기 때문에 향후 자동 주석이 달성될 수 있는지 알아볼 것입니다.
현재 동적 대상의 라벨링은 전례가 없습니다. 정적 대상의 경우 3D 재구성을 통해 부분 또는 반자동 라벨링을 얻을 수 있습니다. 모델 측면에서 현재 모델 설계는 보정에 견고하지 않거나 보정에 민감합니다. 따라서 모델을 보정에 견고하게 만들거나 보정에 독립적으로 만드는 방법도 생각해 볼 가치가 있는 문제입니다.
다른 하나는 네트워크 구조 가속화 문제입니다. 일반 OP를 사용하여 관점 변화를 달성할 수 있습니까? 이 문제는 네트워크 가속화 프로세스에 영향을 미칩니다.
위 내용은 자율주행을 위한 시지각 기술 로드맵에 대한 간략한 분석의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!