이 문서는 자율 주행 응용 분야에서 현재 다중 모드 대형 언어 모델(MLLM)의 주요 과제를 해결하는 데 전념합니다. 즉, MLLM을 2D 이해에서 3D 공간으로 확장합니다. 질문. 자율주행차(AV)가 3D 환경에 대해 정확한 결정을 내려야 하기 때문에 이러한 확장은 특히 중요합니다. 3D 공간 이해는 정보에 입각한 결정을 내리고 미래 상태를 예측하며 환경과 안전하게 상호 작용하는 차량의 능력에 직접적인 영향을 미치기 때문에 AV에 매우 중요합니다.
현재 다중 모달 대형 언어 모델(예: LLaVA-1.5)은 일반적으로 시각적 인코더의 해상도 제한, LLM 시퀀스 길이 제한으로 인해 낮은 해상도의 이미지 입력(예:)만 처리할 수 있습니다. 그러나 자율 주행 애플리케이션에는 차량이 환경을 인식하고 장거리에서 안전한 결정을 내릴 수 있도록 고해상도 다중 뷰 비디오 입력이 필요합니다. 게다가 기존의 많은 2D 모델 아키텍처는 광범위한 컴퓨팅 및 스토리지 리소스가 필요하기 때문에 이러한 입력을 효율적으로 처리하는 데 어려움을 겪고 있습니다. 이러한 문제를 해결하기 위해 연구자들은 새로운 모델 아키텍처와 스토리지 리소스를 개발하기 위해 노력하고 있습니다.
이러한 맥락에서 본 논문에서는 Q-Former 스타일 디자인을 활용한 새로운 3D MLLM 아키텍처를 제안합니다. 이 아키텍처는 교차 주의 디코더를 사용하여 고해상도 시각적 정보를 희소 쿼리로 압축하므로 고해상도 입력으로 더 쉽게 확장할 수 있습니다. 이 아키텍처는 모두 희소 3D 쿼리 메커니즘을 활용하므로 DETR3D, PETR(v2), StreamPETR 및 Far3D와 같은 뷰 모델 제품군과 유사합니다. 이러한 쿼리에 3D 위치 인코딩을 추가하고 다중 뷰 입력과 상호 작용함으로써 우리의 아키텍처는 3D 공간 이해를 달성하고 이를 통해 2D 이미지에서 사전 훈련된 지식을 더 잘 활용합니다.
모델 아키텍처의 혁신 외에도 이 기사에서는 더욱 까다로운 벤치마크인 OmniDrive-nuScenes도 제안합니다. 벤치마크는 3D 공간 이해와 장거리 추론이 필요한 다양한 복잡한 작업을 다루며, 솔루션과 궤적을 시뮬레이션하여 결과를 평가하는 반사실적 추론 벤치마크를 도입합니다. 이 벤치마크는 현재 개방형 평가에서 단일 전문가 궤적으로 편향되는 문제를 효과적으로 보완하여 전문가 궤적에 대한 과적합을 방지합니다.
이 문서에서는 LLM 에이전트를 기반으로 효과적인 3D 추론 및 계획 모델을 제공하고 자율 주행 분야의 추가 발전을 촉진하는 더욱 까다로운 벤치마크를 구축하는 포괄적인 엔드투엔드 자율 주행 프레임워크인 OmniDrive를 소개합니다. 구체적인 기여는 다음과 같습니다.
본 글에서 제안하는 OmniDrive-Agent는 Q-Former와 쿼리 기반 3차원 인식 모델의 장점을 결합하여 3차원 공간정보를 멀티에서 효율적으로 획득하는 방법이다. -이미지 기능 보기, 자율 주행 시 3D 인식 및 계획 작업 해결. 전체적인 아키텍처는 그림에 나와 있습니다.
이 아키텍처 설계를 통해 OmniDrive-Agent는 다시점 이미지에서 풍부한 3차원 공간 정보를 효율적으로 얻고 이를 LLM과 결합하여 텍스트 생성을 통해 3차원 공간 인식을 제공할 수 있습니다. 자율주행은 새로운 솔루션을 제시합니다.
저자의 방법은 다중 작업 학습 및 시간 모델링의 이점을 활용합니다. 다중 작업 학습에서 저자는 각 인식 작업에 대해 특정 Q-Former3D 모듈을 통합하고 통합된 초기화 전략을 채택할 수 있습니다(cref{Training Strategy} 참조). 다양한 작업에서 운송업체 쿼리는 다양한 교통 요소에 대한 정보를 수집할 수 있습니다. 저자의 구현에서는 중심선 구성 및 3D 개체 감지와 같은 작업을 다룹니다. 훈련 및 추론 단계에서 이러한 모듈은 동일한 3D 위치 인코딩을 공유합니다. 우리의 방법은 중심선 구성 및 3D 객체 감지와 같은 작업을 강화합니다. 훈련 및 추론 단계에서 이러한 모듈은 동일한 3D 위치 인코딩을 공유합니다. 우리의 방법은 중심선 구성 및 3D 객체 감지와 같은 작업을 강화합니다. 훈련 및 추론 단계에서 이러한 모듈은 동일한 3D 위치 인코딩을 공유합니다.
시간 모델링과 관련하여 저자는 상위 k 분류 점수와 함께 인지 쿼리를 메모리 뱅크에 저장하고 프레임별로 전파합니다. 전파된 쿼리는 교차 주의를 통해 현재 프레임의 지각 쿼리 및 반송파 쿼리와 상호 작용하여 비디오 입력에 대한 모델의 처리 기능을 확장합니다.
OmniDrive-Agent의 훈련 전략은 2D 사전 훈련과 3D 미세 조정의 두 단계로 나뉩니다. 초기 단계에서 저자는 Q-Former 및 벡터 쿼리를 초기화하기 위해 먼저 2D 이미지 작업에 대해 다중 모드 대형 모델(MLLM)을 사전 훈련했습니다. 감지 쿼리를 제거한 OmniDrive 모델은 이미지를 기반으로 텍스트를 생성할 수 있는 표준 시각적 언어 모델로 간주할 수 있습니다. 따라서 저자는 LLaVA v1.5의 훈련 전략과 데이터를 사용하여 558K 이미지 및 텍스트 쌍에 대한 OmniDrive를 사전 훈련했습니다. 사전 훈련 중에는 Q-Former를 제외한 모든 매개변수가 고정된 상태로 유지됩니다. 그 후, LLaVA v1.5의 명령어 튜닝 데이터 세트를 사용하여 MLLM을 미세 조정했습니다. 미세 조정 중에 이미지 인코더는 고정된 상태로 유지되며 다른 매개변수를 훈련할 수 있습니다.
3D 미세 조정 단계에서는 모델의 2D 의미 이해 기능을 최대한 유지하면서 모델의 3D 위치 지정 기능을 향상시키는 것이 목표입니다. 이를 위해 저자는 원본 Q-Former에 3D 위치 인코딩 및 타이밍 모듈을 추가했습니다. 이 단계에서 저자는 LoRA 기술을 사용하여 작은 학습률로 시각적 인코더와 대규모 언어 모델을 미세 조정하고 상대적으로 큰 학습률로 Q-Former3D를 훈련시킵니다. 이 두 단계에서 OmniDrive-Agent의 손실 계산에는 BLIP-2의 대조 학습 및 매칭 손실을 고려하지 않고 텍스트 생성 손실만 포함됩니다.
다중 모달 대형 모델 에이전트 운전을 벤치마킹하기 위해 저자는 고품질 시각적 질문 답변(QA)이 포함된 nuScenes 데이터 세트를 기반으로 하는 새로운 벤치마크인 OmniDrive-nuScenes를 제안합니다. 3D 영역의 인식, 추론 및 계획 작업.
OmniDrive-nuScenes의 하이라이트는 GPT-4를 사용하여 질문과 답변을 생성하는 완전 자동화된 QA 생성 프로세스입니다. LLaVA와 유사하게 우리의 파이프라인은 3D 인식 주석을 GPT-4에 대한 상황별 정보로 제공합니다. 이를 바탕으로 저자는 GPT-4가 3D 환경을 더 잘 이해할 수 있도록 교통 규칙 및 계획 시뮬레이션을 추가 입력으로 사용합니다. 저자의 벤치마크는 모델의 인식 및 추론 능력을 테스트할 뿐만 아니라 주의력, 반사실적 추론 및 개방 루프 계획과 관련된 장기 문제를 통해 모델의 실제 공간 이해 및 3D 공간에서의 계획 능력에 도전합니다. 이러한 문제에는 운전 계획이 필요하기 때문입니다. 다음 몇 초 안에 정답에 도달하도록 시뮬레이션됩니다.
오프라인 질의응답 생성 과정과 더불어 저자는 다양한 포지셔닝 질문의 온라인 생성 과정도 제안한다. 이 프로세스는 모델의 3D 공간 이해 및 추론 능력을 향상시키기 위한 암시적 데이터 향상 방법으로 볼 수 있습니다.
오프라인 QA 생성 프로세스에서 저자는 상황에 맞는 정보를 사용하여 nuScenes에서 QA 쌍을 생성합니다. 먼저, 저자는 GPT-4를 사용하여 장면 설명을 생성하고, 3개 관점의 전면 뷰와 3개 관점의 후면 뷰를 두 개의 독립적인 이미지로 접합하여 GPT-4에 입력합니다. GPT-4는 프롬프트 입력을 통해 날씨, 시간, 장면 유형 등의 정보를 설명하고 각 시야각의 방향을 식별하는 동시에 시야각에 따른 설명을 피하고 내용을 상대적으로 설명합니다. 자기 차량의 위치.
다음으로, GPT-4V가 교통 요소 간의 상대적 공간 관계를 더 잘 이해할 수 있도록 저자는 객체와 차선 간의 관계를 파일 트리 형태의 구조로 표현하고, 객체의 3D 경계 상자를 기반으로, 해당 정보를 자연어 설명으로 변환합니다.
그런 다음 저자는 차선 유지, 왼쪽 차선 변경, 오른쪽 차선 변경 등 다양한 운전 의도를 시뮬레이션하여 궤적을 생성하고 깊이 우선 검색 알고리즘을 사용하여 차선 중앙선을 연결하여 가능한 모든 주행 경로를 생성했습니다. 또한 저자는 nuScenes 데이터 세트에서 자율주행차 궤적을 클러스터링하고 대표적인 주행 경로를 선택하여 시뮬레이션 궤적의 일부로 사용했습니다.
마지막으로 오프라인 QA 생성 프로세스에서 다양한 상황별 정보를 결합하여 작성자는 장면 설명, 주의 대상 인식, 반사실적 추론 및 의사결정 계획을 포함한 여러 유형의 QA 쌍을 생성할 수 있습니다. GPT-4는 시뮬레이션과 전문가의 궤적을 기반으로 위협 개체를 식별하고, 주행 경로의 안전성을 추론하여 합리적인 운전 제안을 제공할 수 있습니다.
자율 운전 데이터 세트의 3D 인식 주석을 최대한 활용하기 위해 저자는 훈련 과정에서 온라인으로 수많은 위치 지정 작업을 생성했습니다. 이러한 작업은 다음을 포함하여 모델의 3D 공간 이해 및 추론 기능을 향상시키기 위해 설계되었습니다.
OmniDrive-nuScenes 데이터 세트에는 장면 설명, 개방 루프 계획 및 반사실 추론 작업이 포함됩니다. 각 작업은 다양한 측면에 중점을 두므로 단일 지표를 사용하여 평가하기가 어렵습니다. 따라서 저자는 다양한 작업에 대해 서로 다른 평가 기준을 설계했습니다.
장면 설명 관련 작업(예: 장면 설명, 주의 객체 선택)에서 저자는 METEOR, ROUGE, CIDEr 등 일반적으로 사용되는 언어 평가 지표를 사용하여 문장 유사성을 평가합니다. 개루프 계획 작업에서 저자는 충돌률과 도로 경계 교차율을 사용하여 모델 성능을 평가했습니다. 반사실적 추론 작업을 위해 저자는 GPT-3.5를 사용하여 예측에서 키워드를 추출하고 이러한 키워드를 지상 진실과 비교하여 다양한 사고 범주에 대한 정밀도와 재현율을 계산합니다.
위 표는 반사실 추론 성능 평가, 개방 루프 계획 등 계획 관련 작업에 대한 절제 연구 결과를 보여줍니다.
전체 모델인 Q-Former3D는 반사실적 추론과 개방 루프 계획 작업 모두에서 뛰어난 성능을 발휘합니다. 반사실적 추론 작업에서 모델은 "빨간 신호등 위반" 및 "접근 가능 영역 위반" 범주 모두에서 각각 57.6%/58.3% 및 48.5%/58.6%의 높은 정밀도와 재현율을 보여주었습니다. 동시에 이 모델은 '충돌' 카테고리에서 가장 높은 재현율(72.6%)을 달성했습니다. 개루프 계획 작업에서 Q-Former3D는 평균 충돌률과 도로 경계 교차율 모두에서 각각 3.79%와 4.59%에 도달하여 좋은 성능을 보였습니다.
온라인 훈련 데이터(No Online)를 제거한 후, 반사실 추론 작업에서 "빨간불 위반" 범주의 회상률은 증가했지만(65.6%) 전반적인 성능은 약간 감소했습니다. 충돌 및 통과 가능 영역 위반의 정밀도 및 재현율은 전체 모델보다 약간 낮은 반면, 개루프 계획 작업의 평균 충돌률은 4.93%로 증가했으며, 평균 도로 경계 횡단률은 4.02%로 떨어졌습니다. , 이는 온라인 훈련 데이터의 중요성을 모델의 전반적인 계획 성능 향상의 중요성에 반영합니다.
건축 절제 실험에서 Q-Former2D 버전은 "Red Light Violation" 카테고리에서 가장 높은 정밀도(58.3%)와 높은 재현율(61.1%)을 달성했지만, 다른 카테고리에서는 성능이 전체만큼 좋지 않았습니다. 특히 "충돌" 및 "접근 가능한 지역 위반" 카테고리에 대한 리콜이 크게 감소했습니다. 개루프 계획 작업에서 평균 충돌률과 도로 경계 교차율은 각각 3.98%와 6.03%로 전체 모델보다 높았습니다.
Dense BEV 아키텍처를 사용하는 모델은 모든 범주의 반사실적 추론 작업에서 더 나은 성능을 발휘하지만 전체 재현율은 낮습니다. 개방형 계획 작업에서 평균 충돌률과 도로 경계 교차율은 각각 4.43%와 8.56%에 달했습니다.
시간적 모듈이 제거되면(No Temporal) 반사실적 추론 작업에서 모델의 성능이 크게 떨어지며, 특히 평균 충돌률은 6.07%로 증가하고 도로 경계 통과율은 5.83%에 도달합니다.
지각 감독 측면에서 차선 선 감독(차선 없음)을 제거한 후 "충돌" 범주의 모델 재현율이 크게 감소한 반면, 다른 범주의 반사실 추론 작업 및 개방 루프 계획 작업의 성능은 비교적 안정적인. 객체 및 차선에 대한 3D 인식 감독(No Object & Lane)을 완전히 제거한 후, 반사실적 추론 작업의 각 범주에 대한 정확도와 재현율이 감소했으며, 특히 "충돌" 범주의 재현율이 53.2%로 떨어졌습니다. 개루프 계획 작업에서 평균 충돌률과 도로 경계 교차율은 각각 6.77%와 8.43%로 증가하여 전체 모델보다 상당히 높았습니다.
위의 실험 결과에서 볼 수 있듯이 완전한 모델은 반사실 추론 및 개방 루프 계획 작업에서 잘 수행됩니다. 온라인 훈련 데이터, 시간 모듈, 차선 및 객체에 대한 3D 인식 감독은 모델 성능을 향상시키는 데 중요한 역할을 합니다. 전체 모델은 효율적인 계획 및 의사 결정을 위해 다중 모드 정보를 효과적으로 활용할 수 있으며, 절제 실험 결과는 자율 주행 작업에서 이러한 구성 요소의 핵심 역할을 추가로 검증합니다.
동시에 NuScenes-QA의 성능을 살펴보겠습니다. 이는 개방 루프 계획 작업에서 OmniDrive의 성능을 보여주고 이를 기존의 다른 방법과 비교합니다. 결과에 따르면 OmniDrive++(풀 버전)는 모든 지표, 특히 개루프 계획의 평균 오류, 충돌률 및 도로 경계 교차율에서 다른 방법보다 우수한 성능을 달성하는 것으로 나타났습니다.
OmniDrive++ 성능: OmniDrive++ 모델은 예측 시간 1초, 2초, 3초에서 각각 0.14, 0.29, 0.55미터의 L2 평균 오차를 가지며, 최종 평균 오차는 0.33미터에 불과합니다. 또한 본 모델의 평균 충돌률과 평균 도로경계 교차율도 각각 0.30%, 3.00%에 달해 다른 방법에 비해 훨씬 낮은 수치를 보였다. 특히 충돌률 측면에서 OmniDrive++는 1초와 2초 예측 기간 모두에서 충돌률 0을 달성하여 뛰어난 계획 및 장애물 회피 기능을 완벽하게 입증했습니다.
다른 방법과의 비교: UniAD, BEV-Planner++ 및 Ego-MLP와 같은 다른 고급 벤치마크 모델과 비교하여 OmniDrive++는 모든 주요 지표에서 더 나은 성능을 발휘합니다. UniAD가 고급 명령과 차량 상태 정보를 사용할 때 L2 평균 오류는 0.46m인 반면, OmniDrive++는 동일한 설정에서 0.33m의 훨씬 낮은 오류를 나타냅니다. 동시에 OmniDrive++의 충돌률과 도로 경계 교차율도 UniAD보다 현저히 낮으며, 특히 충돌률이 거의 절반으로 감소합니다.
BEV-Planner++와 비교하여 OmniDrive++의 L2 오류는 모든 예측 기간에서 크게 감소하며, 특히 3초 예측 기간에서는 오류가 0.57미터에서 0.55미터로 감소합니다. 동시에 충돌률과 도로 경계 교차율 측면에서도 OmniDrive++가 BEV-Planner++보다 우수합니다. 충돌률은 0.34%에서 0.30%로, 도로 경계 교차율은 3.16%에서 3.00%로 감소했습니다.
절제 실험: OmniDrive 아키텍처의 주요 모듈이 성능에 미치는 영향을 추가로 평가하기 위해 저자는 OmniDrive 모델의 다양한 버전의 성능도 비교했습니다. OmniDrive(고급 명령 및 자차 상태 정보를 사용하지 않음)는 예측 오류, 충돌률, 도로 경계 교차율 측면에서 완전 모델에 비해 현저히 열등하며, 특히 3초 예측 기간에 L2 오류가 도달함 2.84미터, 평균 충돌률은 3.79%에 달합니다.
OmniDrive 모델만 사용했을 때(고급 명령 및 차량 상태 정보 제외) 예측 오류, 충돌률, 도로 경계 교차율이 개선되었으나, 완성 모델과 비교하면 여전히 격차가 있습니다. 이는 상위 명령과 자가 차량 상태 정보의 통합이 모델의 전반적인 계획 성능 향상에 중요한 영향을 미친다는 것을 보여준다.
전체적으로 실험 결과는 개방 루프 계획 작업에서 OmniDrive++의 탁월한 성능을 명확하게 보여줍니다. OmniDrive++는 다중 모드 정보, 상위 수준 명령 및 자가 차량 상태 정보를 통합하여 복잡한 계획 작업에서 보다 정확한 경로 예측과 낮은 충돌률 및 도로 경계 교차율을 달성하여 강력한 자율 주행 계획 및 의사 결정을 위한 정보를 제공합니다. 지원하다.
저자가 제안한 OmniDrive 에이전트와 OmniDrive-nuScenes 데이터세트는 다중 모드 대형 모델 분야에 새로운 패러다임을 제시하며, 3D 환경에서 주행 문제를 해결하고 이러한 모델 평가는 포괄적인 벤치마크를 제공합니다. 그러나 각각의 새로운 방법과 데이터 세트에는 장점과 단점이 있습니다.
OmniDrive 에이전트는 2D 사전 훈련과 3D 미세 조정이라는 2단계 훈련 전략을 제안합니다. 2D 사전 학습 단계에서는 LLaVA v1.5의 이미지-텍스트 쌍 데이터 세트를 사용하여 Q-Former 및 캐리어 쿼리를 사전 학습함으로써 이미지 특징과 대규모 언어 모델 간의 더 나은 정렬이 달성됩니다. 3차원 미세 조정 단계에서는 모델의 3차원 위치 파악 능력을 향상시키기 위해 3차원 위치 정보 인코딩과 시간 모듈을 도입합니다. LoRA를 활용하여 시각적 인코더와 언어 모델을 미세 조정함으로써 OmniDrive는 2D 의미론에 대한 이해를 유지하는 동시에 3D 위치 파악 능력을 향상시킵니다. 이 단계적 훈련 전략은 다중 모드 대형 모델의 잠재력을 완전히 활용하여 3D 주행 시나리오에서 더 강력한 인식, 추론 및 계획 기능을 제공합니다. 반면, OmniDrive-nuScenes는 대형 모델 구동 능력을 평가하기 위해 특별히 설계된 새로운 벤치마크입니다. 완전히 자동화된 QA 생성 프로세스는 인식부터 계획까지 다양한 작업을 다루는 GPT-4를 통해 고품질 질문-답변 쌍을 생성합니다. 또한 온라인으로 생성된 포지셔닝 작업은 모델에 대한 암시적 데이터 향상을 제공하여 3D 환경을 더 잘 이해하는 데 도움이 됩니다. 이 데이터 세트의 장점은 모델의 인식 및 추론 능력을 테스트할 뿐만 아니라 장기적인 문제를 통해 모델의 공간 이해 및 계획 능력을 평가한다는 것입니다. 이 포괄적인 벤치마크는 미래의 다중 모드 대형 모델 개발을 위한 강력한 지원을 제공합니다.
그러나 OmniDrive 에이전트와 OmniDrive-nuScenes 데이터세트에도 몇 가지 단점이 있습니다. 첫째, OmniDrive 에이전트는 3D 미세 조정 단계에서 전체 모델을 미세 조정해야 하므로 훈련 리소스 요구 사항이 높아 훈련 시간과 하드웨어 비용이 크게 늘어납니다. 또한 OmniDrive-nuScenes의 데이터 생성은 질문의 품질과 다양성을 보장하지만 생성된 질문이 강력한 자연어 기능을 갖춘 모델에 더 기울어지게 만들어 GPT-4에 전적으로 의존합니다. 실제 운전 능력보다는 언어 특성에 따라 벤치마크 테스트에 더 의존합니다. OmniDrive-nuScenes는 포괄적인 QA 벤치마크를 제공하지만 운전 시나리오에 대한 적용 범위는 여전히 제한적입니다. 데이터세트에 포함된 교통 규칙 및 계획 시뮬레이션은 nuScenes 데이터세트에만 기반을 두고 있기 때문에 생성된 문제가 현실 세계의 다양한 운전 시나리오를 완벽하게 표현하기가 어렵습니다. 또한 데이터 생성 프로세스의 고도로 자동화된 특성으로 인해 생성된 질문은 필연적으로 데이터 편향 및 신속한 설계의 영향을 받습니다.
저자가 제안한 OmniDrive 에이전트와 OmniDrive-nuScenes 데이터세트는 3D 운전 장면의 다중 모드 대형 모델 연구에 새로운 관점과 평가 벤치마크를 제공합니다. OmniDrive 에이전트의 2단계 훈련 전략은 2D 사전 훈련과 3D 미세 조정을 성공적으로 결합하여 인식, 추론 및 계획이 뛰어난 모델을 만듭니다. 새로운 QA 벤치마크인 OmniDrive-nuScenes는 대형 주행 모델을 평가하기 위한 포괄적인 지표를 제공합니다. 그러나 모델의 교육 리소스 요구 사항을 최적화하고, 데이터 세트 생성 프로세스를 개선하고, 생성된 질문이 실제 운전 환경을 보다 정확하게 나타내도록 하려면 추가 연구가 여전히 필요합니다. 전반적으로, 저자의 방법과 데이터 세트는 운전 분야에서 다중 모드 대형 모델 연구를 발전시키는 데 큰 의미가 있으며 향후 작업을 위한 견고한 기반을 마련합니다.
위 내용은 LLM이 모두 완료되었습니다! OmniDrive: 3D 인식 및 추론 계획 통합(NVIDIA 최신)의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!