집 >기술 주변기기 >일체 포함 >'폐쇄 루프'를 향하여 | PlanAgent: MLLM 기반 자율 주행의 폐쇄 루프 계획을 위한 새로운 SOTA!

'폐쇄 루프'를 향하여 | PlanAgent: MLLM 기반 자율 주행의 폐쇄 루프 계획을 위한 새로운 SOTA!

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB원래의: 2024-06-08 21:30:27610검색

중국과학원 자동화 연구소의 심층 강화 학습 팀은 Li Auto 및 다른 사람들과 함께 다중 모달 대형 언어 모델MLLM - PlanAgent를 기반으로 자율 주행을 위한 새로운 폐쇄 루프 계획 프레임워크를 제안했습니다. 이 방법은 장면에 대한 조감도와 그래프 기반 텍스트 프롬프트를 입력으로 취하고, 다중 모드 대형 언어 모델의 다중 모드 이해 및 상식 추론 기능을 활용하여 장면 이해부터 생성까지 계층적 추론을 수행합니다. 수평 및 수직 이동 지침을 작성하고 플래너가 요구하는 지침을 추가로 생성합니다. 이 방법은 대규모의 까다로운 nuPlan 벤치마크에서 테스트되었으며 실험에서는 PlanAgent가 일반 시나리오와 롱테일 시나리오 모두에서 최첨단(SOTA) 성능을 달성하는 것으로 나타났습니다. 기존 LLM(Large Language Model) 방법과 비교하면 PlanAgent에 필요한 장면 설명 토큰의 양은 약 1/3에 불과합니다.

논문 정보

논문 제목: PlanAgent: A Multi-modal Large Language Agent for Closed loop Vehicle Motion Planning
논문 출판 단위: Institute of Automation, Chinese Academy of Sciences, Li Auto, Tsinghua University, Beijing Aerospace University
논문 주소:https://arxiv.org/abs/2406.01587

1 소개

자율주행의 핵심 모듈 중 하나인 모션 계획의 핵심은 안전과 편안함을 위한 최적의 궤적을 생성하는 것입니다. PDM[1] 알고리즘과 같은 규칙 기반 알고리즘은 일반적인 시나리오를 처리하는 데는 효과적이지만 보다 복잡한 운전 작업이 필요한 롱테일 시나리오에는 대처하기 어려운 경우가 많습니다[2]. 학습 기반 알고리즘[2,3]은 롱테일 상황에서 종종 과적합되어 nuPlan의 성능이 규칙 기반 방법 PDM만큼 좋지 않습니다.

최근 대형 언어 모델의 개발로 자율주행 계획에 새로운 가능성이 열렸습니다. 최근 일부 연구에서는 대규모 언어 모델의 강력한 추론 기능을 사용하여 자율 주행 알고리즘의 계획 및 제어 기능을 향상시키려는 시도를 하고 있습니다. 그러나 그들은 몇 가지 문제에 직면했습니다. (1) 실험 환경은 실제 폐쇄 환경 시나리오를 기반으로 하지 못했습니다. (2) 지도 세부 사항이나 동작 상태를 나타내기 위해 많은 좌표 번호가 사용되었으므로 필요한 토큰 수가 크게 늘어났습니다. (3) ) 대규모 언어 모델에서 직접 궤적점을 생성하여 안전성을 확보하기는 어렵습니다. 위와 같은 문제를 해결하기 위해 본 논문에서는 PlanAgent 방식을 제안한다.

2 방법

MLLM 기반 폐쇄 루프 계획 에이전트의 PlanAgent 프레임워크는 그림 1에 나와 있습니다. 이 논문에서는 자율 주행의 복잡한 문제를 해결하기 위한 세 가지 모듈을 설계합니다.

장면 정보 추출 모듈 ( 환경 변환 모듈): 효율적인 장면 정보 표현을 달성하기 위해 차선 정보와 함께 다중 모드 입력을 추출할 수 있는 환경 정보 추출 모듈을 설계합니다.
추론 모듈: 장면 이해와 상식 추론을 달성하기 위해 멀티 모달 대형 언어 모델 MLLM을 사용하여 합리적이고 안전한 플래너 코드를 생성하는 추론 모듈을 설계합니다.
반사 모듈: 안전한 계획을 보장하기 위해 시뮬레이션을 통해 기획자를 검증하고 불합리한 MLLM 제안을 필터링할 수 있는 반사 메커니즘이 설계되었습니다.

迈向『闭环』| PlanAgent：基于MLLM的自动驾驶闭环规划新SOTA！

그림 1 장면 정보 추출/추론/반영 모듈을 포함한 PlanAgent의 전체 프레임워크

2.1 환경 정보 추출 모듈

대형 언어 모델의 프롬프트 단어(prompt)가 출력을 생성합니다. 왜냐하면 품질은 중요한 영향을 미치기 때문입니다. MLLM의 생성 품질을 향상시키기 위해 장면 정보 추출 모듈은 장면 컨텍스트 정보를 추출하고 이를 BEV(Bird View) 이미지 및 텍스트 표현으로 변환하여 MLLM의 입력과 일치시킬 수 있습니다. 먼저, 본 논문에서는 MLLM의 글로벌 현장 이해 능력을 향상시키기 위해 장면 정보를 BEV(Bird Escape) 이미지로 변환합니다. 동시에 도로 정보는 그림 2와 같이 그래픽으로 표현되어야 합니다. 이를 기반으로 주요 차량 동작 정보가 추출되므로 MLLM은 자신의 위치와 가장 관련성이 높은 영역에 집중할 수 있습니다.

迈向『闭环』| PlanAgent：基于MLLM的自动驾驶闭环规划新SOTA！

그림 2 그래프 표현을 기반으로 한 텍스트 프롬프트 설명

2.2 추론 모듈

자율주행 계획 프로세스에 대형 언어 모델의 추론 능력을 어떻게 도입하고, 상식적인 추론 능력을 갖춘 계획 시스템을 구현하는 것이 핵심 문제입니다. 본 논문에서 설계된 방법은 현재 장면 정보와 사전 정의된 시스템 메시지가 포함된 사용자 메시지를 입력으로 받아 계층적 사고 체인에서 여러 차례의 추론을 통해 지능형 운전자 모델(IDM)의 플래너 코드를 생성할 수 있습니다. 결과적으로 PlanAgent는 상황별 학습을 통해 MLLM의 강력한 추론 기능을 자율 주행 계획 작업에 내장할 수 있습니다.

이 중 사용자 메시지에는 BEV 인코딩과 그래프 표현을 기반으로 추출된 주변 차량 움직임 정보가 포함되어 있습니다. 시스템 메시지에는 그림 3과 같이 작업 정의, 상식 지식 및 사고 체인 단계가 포함됩니다.

迈向『闭环』| PlanAgent：基于MLLM的自动驾驶闭环规划新SOTA！

그림 3 시스템 프롬프트 템플릿

프롬프트 정보를 얻은 후 MLLM은 장면 이해, 모션 지침 및 코드 생성의 세 가지 수준에서 현재 장면에 대해 추론하고 최종적으로 플래너 코드를 생성합니다. . PlanAgent에서는 자동차 추종, 중앙선, 속도 제한, 최대 가속도 및 최대 감속도 매개 변수 코드가 생성되고, 특정 장면의 순간 가속도가 IDM에 의해 생성되고 최종적으로 궤적이 생성됩니다.

迈向『闭环』| PlanAgent：基于MLLM的自动驾驶闭环规划新SOTA！

2.3 Reflection 모듈

위 두 모듈을 통해 MLLM의 장면에 대한 이해와 추론 능력이 강화됩니다. 그러나 MLLM의 환상은 여전히 자율주행의 안전성에 도전 과제를 제기하고 있습니다. "도약하기 전에 두 번 생각하는" 인간의 의사 결정 과정에서 영감을 받은 이 기사는 알고리즘 설계에 반사 메커니즘을 추가합니다. MLLM으로 생성된 플래너를 시뮬레이션하고, 충돌 가능성, 주행 거리, 편안함 등의 지표를 통해 플래너의 주행 점수를 평가합니다. 점수가 특정 임계값 τ보다 낮으면 MLLM에서 생성된 플래너가 부적절함을 나타내며 MLLM에 플래너 재생성을 요청하게 됩니다.

3 실험 및 결과

본 논문에서는 PlanAgent의 성능을 평가하기 위해 대규모 실제 장면을 위한 폐쇄 루프 계획 플랫폼인 nuPlan[4]을 대상으로 폐쇄 루프 계획 실험을 수행합니다. 다음과 같이.

3.1 3.1 주요 실험

테이블 1 Nuplan 's VAL14 및 Test-Hard Benchmarks의 Planagent와 기타 알고리즘의 비교 표 1에 표시된이 기사는 Planagent와 비교할 것입니다. 세 가지 범주의 최첨단 알고리즘을 사용하고 nuPlan의 두 가지 벤치마크인 val14 및 test-hard에서 테스트합니다. PlanAgent는 다른 방법에 비해 경쟁력 있고 일반화 가능한 결과를 보여줍니다.

迈向『闭环』| PlanAgent：基于MLLM的自动驾驶闭环规划新SOTA！ 경쟁 결과: 일반적인 시나리오 val14 벤치마크에서 PlanAgent는 다른 규칙 기반, 학습 기반 및 대규모 언어 모델 기반 방법보다 성능이 뛰어나 NR-CLS 및 R-CLS 점수 모두에서 최고를 달성합니다.

일반화 가능한 결과: PDM-Closed[1]로 대표되는 규칙 기반 방법이나 planTF[2]로 대표되는 학습 기반 방법 모두 val14와 test-hard에서 동시에 좋은 성능을 발휘할 수 없습니다. 이 두 가지 유형의 방법과 비교하여 PlanAgent는 일반적인 시나리오에서 성능을 보장하면서 롱테일 시나리오를 극복할 수 있습니다.

표 2 시나리오를 설명하기 위해 다양한 방법에서 사용하는 토큰 비교

동시에 PlanAgent는 표 2와 같이 다른 대형 모델 기반 방법보다 적은 양의 토큰을 사용합니다. 아마도 -Driver[5] 또는 LLM-ASSIST[6]의 GPT 1/3만 필요할 것입니다. 이는 PlanAgent가 더 적은 토큰으로 장면을 더 효과적으로 설명할 수 있음을 보여줍니다. 이는 비공개 소스 대규모 언어 모델을 사용할 때 특히 중요합니다.

3.2 절제 실험 迈向『闭环』| PlanAgent：基于MLLM的自动驾驶闭环规划新SOTA！

표 3 장면 추출 모듈의 다양한 부분에 대한 절제 실험

표 4 계층적 사고 사슬의 여러 부분에 대한 절제 실험

迈向『闭环』| PlanAgent：基于MLLM的自动驾驶闭环规划新SOTA！

표 3과 표 4에서 볼 수 있듯이 본 논문에서는 장면 정보 추출 모듈과 추론 모듈의 여러 부분에 대한 절제 실험을 수행했으며, 그리고 실험을 통해 개별 모듈의 효율성과 필요성이 입증되었습니다. BEV 이미지와 그래프 표현을 통해 MLLM의 장면에 대한 이해도를 높이고, 계층적 사고 체인을 통해 장면에 대한 MLLM의 추론 능력을 높일 수 있습니다.

표 5 다양한 언어 모델에서의 PlanAgent 실험

迈向『闭环』| PlanAgent：基于MLLM的自动驾驶闭环规划新SOTA！

동시에, 표 5에 표시된 것처럼 이 기사에서는 테스트를 위해 일부 오픈 소스 대규모 언어 모델을 사용합니다. 실험 결과에 따르면 Test-hard NR-CLS 벤치마크에서 다양한 대형 언어 모델을 사용하는 PlanAgent는 PDM-Closed보다 각각 4.1%, 5.1%, 6.7% 더 높은 운전 점수를 달성할 수 있는 것으로 나타났습니다. 이는 다양한 다중 모드 대형 언어 모델과 PlanAgent의 호환성을 보여줍니다.

3.3 시각적 분석

회전교차로 교통상황

PDM은 바깥쪽 차선을 중앙선으로 선택하고, 차량이 바깥쪽 차선으로 주행하다 차량이 합류할 때 정체됩니다. PlanAgent는 차량이 합류하고 있다고 판단하고 합리적인 좌측 차선 변경 명령을 출력한 후 로터리 내부 차선을 중앙선으로 선택하는 측면 동작을 생성하고 차량은 내부 차선을 따라 주행합니다.

迈向『闭环』| PlanAgent：基于MLLM的自动驾驶闭环规划新SOTA！

교차로 정지선 주차 장면

PDM은 신호등 카테고리를 자동차 추종 카테고리로 선택했습니다. PlanAgent는 합리적인 지시를 출력하고 정지선을 차량 추종 유형으로 선택합니다.

4 결론

본 논문에서는 PlanAgent라는 자율주행을 위한 새로운 MLLM 기반 폐쇄 루프 계획 프레임워크를 제안합니다. 본 방법에서는 도로의 그래프 표현을 기반으로 BEV 이미지를 추출하고 주변 차량의 움직임 정보를 추출하는 장면 정보 추출 모듈을 도입합니다. 동시에 MLLM이 장면 정보를 이해하고 동작 명령을 생성하며 최종적으로 플래너 코드를 생성하도록 안내하는 계층적 구조의 추론 모듈을 제안합니다. 또한 PlanAgent는 인간의 의사결정을 모방하여 반영하고, 궤적 점수가 임계값보다 낮을 때 다시 계획을 세워 의사결정의 안전성을 높입니다. 다중 모드 대형 모델을 기반으로 하는 자율주행 폐쇄 루프 계획 에이전트인 PlanAgent는 nuPlan 벤치마크의 폐쇄 루프 계획에서 SOTA 성능을 달성했습니다.

위 내용은 '폐쇄 루프'를 향하여 | PlanAgent: MLLM 기반 자율 주행의 폐쇄 루프 계획을 위한 새로운 SOTA!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

for Token Reflection 算法 https 自动化 idm gpt prompt

성명：

이전 기사：LLaVA를 모듈식으로 재구성하세요. 1~2개의 파일을 추가하여 구성 요소를 교체하세요. 오픈 소스 TinyLLaVA Factory가 여기에 있습니다.다음 기사：LLaVA를 모듈식으로 재구성하세요. 1~2개의 파일을 추가하여 구성 요소를 교체하세요. 오픈 소스 TinyLLaVA Factory가 여기에 있습니다.