대규모 언어 모델은 지능형 운전의 새로운 지평을 열었고, 인간과 같은 사고력과 인지 능력을 부여했습니다. 이 기사에서는 자율 주행(AD)에서 LLM(대형 언어 모델)의 잠재력을 심층적으로 살펴봅니다. 그런 다음 시뮬레이션 환경에서 폐쇄 루프 자율 주행을 실현할 수 있는 LLM 기반 AD 프레임워크인 DriveMLM이 제안되었습니다. 구체적으로 다음과 같은 사항이 있습니다.
마지막으로 DriveMLM에 대한 광범위한 실험을 수행한 결과 DriveMLM은 CARLA Town05 Long에서 76.1점의 드라이빙 점수를 달성했으며 동일한 설정에서 Apollo 기준선을 4.7점 초과하여 DriveMLM의 효과가 입증되었습니다. 우리는 이 연구가 LLM 자율주행의 기준이 될 수 있기를 바랍니다.
최근 몇 년 동안 자율 주행(AD)은 그림 1b에서 볼 수 있듯이 전통적인 규칙 기반 시스템에서 데이터 기반 엔드 투 엔드 시스템으로 상당한 발전을 이루었습니다. 전통적인 규칙 시스템은 사전 지식에 의해 제공되는 사전 정의된 규칙 세트에 의존합니다(그림 1a 참조). 이러한 시스템의 발전에도 불구하고 전문 지식의 한계나 훈련 데이터의 다양성으로 인해 여전히 한계를 겪고 있습니다. 이로 인해 인간 운전자는 이러한 상황을 직관적으로 처리할 수 있지만 코너 상황을 처리하기가 어렵습니다. 이러한 기존 규칙 기반 또는 데이터 기반 AD 플래너와 비교할 때 웹 규모 텍스트 말뭉치를 사용하여 훈련된 LLM(대형 언어 모델)은 광범위한 세계 지식, 강력한 논리적 추론 및 고급 인지 기능을 갖추고 있습니다. 이러한 기능을 통해 AD 시스템의 잠재적인 기획자로 자리매김하여 자율 주행에 대한 인간과 유사한 접근 방식을 제공합니다.
최근 일부 연구에서는 LLM을 AD 시스템에 통합하여 운전 시나리오에 대한 언어 기반 결정을 생성하는 데 중점을 두었습니다. 그러나 이러한 방법은 실제 환경이나 실제 시뮬레이션에서 폐쇄 루프 주행을 수행하는 데에는 한계가 있습니다. LLM의 출력은 주로 언어와 개념으로 이루어져 있어 차량 제어에 사용할 수 없기 때문입니다. 기존의 모듈형 AD 시스템에서는 높은 수준의 전략적 목표와 낮은 수준의 제어 행동 간의 격차를 행동 계획 모듈을 통해 연결하고, 이 모듈의 의사 결정 상태는 후속 동작 계획 및 동작 계획을 통해 차량 제어 신호로 쉽게 변환될 수 있습니다. 제어. 이는 LLM을 행동 계획 모듈의 의사 결정 상태에 맞추고 실제 환경에서 실행될 수 있는 행동 계획을 위해 정렬된 LLM을 사용하여 LLM 기반 폐쇄 루프 AD 시스템을 추가로 설계하도록 동기를 부여합니다. 현실적인 시뮬레이션 환경.
이를 바탕으로 현실적인 시뮬레이션 환경에서 폐쇄 루프 자율 주행을 구현할 수 있는 최초의 LLM 기반 AD 프레임워크인 DriveMLM을 제안했습니다. 이를 달성하기 위해 우리는 세 가지 핵심 설계를 가지고 있습니다. (1) Apollo 시스템의 행동 계획 모듈의 의사 결정 상태를 연구하고 이를 LLM이 쉽게 처리할 수 있는 형식으로 변환합니다. (2) 다중 시점 이미지, 라이더 포인트 클라우드, 교통 규칙, 시스템 메시지 및 사용자 지침을 포함한 현재 다중 모드 입력을 수용하고 결정 상태를 예측할 수 있는 다중 모드 LLM(MLLM) 플래너가 개발되었습니다. 행동 계획-상태 정렬을 위한 충분한 훈련 데이터를 확보하기 위해 CARLA에서 280시간의 운전 데이터를 수동으로 수집하고 효율적인 데이터 엔진을 통해 이를 의사 결정 상태와 해당 설명 주석으로 변환했습니다. 이러한 설계를 통해 우리는 운전 시나리오와 사용자 요구에 따라 결정을 내릴 수 있는 MLLM 플래너를 얻을 수 있으며, 그 결정은 폐쇄 루프 주행을 위한 차량 제어 신호로 쉽게 변환될 수 있습니다.
DriveMLM에는 다음과 같은 장점이 있습니다. (1) 일관된 의사 결정 상태 덕분에 DriveMLM은 기존 모듈형 AD 시스템(예: Apollo)과 쉽게 통합되어 큰 변경이나 수정 없이 폐쇄 루프 주행을 달성할 수 있습니다. (2) 언어 지침을 입력으로 사용함으로써 우리 모델은 사용자 요구(예: 자동차 추월)와 상위 수준 시스템 메시지(예: 기본 운전 논리 정의)를 처리할 수 있습니다. 이를 통해 DriveMLM은 더욱 유연해지고 다양한 운전 상황과 곡선에 적응할 수 있습니다. (3) 해석 가능성을 제공하고 다양한 결정을 설명할 수 있습니다. 이는 모델의 행동과 선택을 사용자에게 설명할 수 있기 때문에 모델의 투명성과 신뢰성을 향상시킵니다.
요약하면 DriveMLM의 주요 기여는 다음과 같습니다.
DriveMLM 프레임워크는 LLM(대형 언어 모델)의 세계 지식과 추론 기능을 자율 주행(AD) 시스템에 통합하여 현실적인 시뮬레이션 환경에서 폐쇄 루프 주행을 달성합니다. 그림 3에 표시된 것처럼 이 프레임워크에는 세 가지 주요 설계가 있습니다. (1) 행동 계획 상태 정렬. 이 부분은 LLM의 언어 결정 출력을 Apollo와 같은 성숙한 모듈형 AD 시스템의 행동 계획 모듈과 일치시킵니다. 이러한 방식으로 LLM의 출력은 차량 제어 신호로 쉽게 변환될 수 있습니다. (2) MLLM 플래너. 이는 다중 모드 마커와 다중 모드 LLM(MLLM) 디코더의 조합입니다. 다중 모드 태거는 다양한 입력(예: 다중 뷰 이미지, LiDAR, 교통 규칙 및 사용자 요구 사항)을 통합 태그로 변환하고 MLLM 디코더는 통합 태그를 기반으로 결정을 내립니다. (3) 효율적인 데이터 수집 전략. LLM 기반 자율주행을 위한 맞춤형 데이터 수집 방식을 도입해 의사결정 상태, 의사결정 설명, 사용자 명령 등 종합적인 데이터 세트를 보장합니다.
추론 프로세스 중에 DriveMLM 프레임워크는 다중 모드 데이터를 활용하여 운전 결정을 내립니다. 이러한 데이터에는 서라운드 이미지와 포인트 클라우드가 포함됩니다. 시스템 메시지는 작업 정의, 트래픽 규칙 및 결정 상태 정의의 모음입니다. 이러한 토큰은 해당 설명과 함께 결정 상태 토큰을 생성하는 MLLM 디코더에 입력됩니다. 마지막으로 결정 상태는 동작 계획 및 제어 모듈에 입력됩니다. 이 모듈은 차량 제어의 최종 궤적을 계산합니다.DriveMLM의 MLLM 플래너는 다중 모달 토크나이저와 MLLM 디코더의 두 가지 구성 요소로 구성됩니다. 두 모듈은 긴밀하게 협력하여 다양한 입력을 처리하여 운전 결정을 정확하게 결정하고 해당 결정에 대한 설명을 제공합니다.
다중 모달 토크나이저. 이 토크나이저는 다양한 형태의 입력을 효율적으로 처리하도록 설계되었습니다. 시간 둘러보기 이미지의 경우: 임시 QFormer를 사용하여 타임스탬프 -T에서 0(현재 타임스탬프)까지 둘러보기 이미지를 처리합니다. LiDAR 데이터의 경우 먼저 SPT(Sparse Pyramid Transformer) 백본에 대한 입력으로 포인트 클라우드를 입력하여 LiDAR 기능을 추출합니다. 시스템 메시지 및 사용자 지침의 경우 이를 일반 텍스트 데이터로 처리하고 LLM의 토큰 임베딩 레이어를 사용하여 임베딩을 추출합니다.
MLLM 디코더. 디코더는 토큰화된 입력을 결정 상태 및 결정 해석으로 변환하는 핵심입니다. 이를 위해 표 1과 같이 LLM 기반 AD를 위한 시스템 메시지 템플릿을 설계했습니다. 볼 수 있듯이 시스템 메시지에는 AD 작업에 대한 설명, 교통 규칙, 결정 상태 정의 및 각 모달 정보가 병합되는 위치를 나타내는 자리 표시자가 포함되어 있습니다. 이 접근 방식은 다양한 양식과 소스의 입력을 원활하게 통합합니다.
출력은 결정 상태(표 1의 Q2 참조)와 결정 설명(표 1의 Q3 참조)을 제공하도록 형식화되어 의사 결정 과정에 투명성과 명확성을 제공합니다. 지도 방법과 관련하여 우리 프레임워크는 다음 토큰 예측에서 교차 엔트로피 손실을 사용하는 일반적인 관행을 따릅니다. 이러한 방식으로 MLLM 계획자는 다양한 센서 및 소스의 데이터에 대한 자세한 이해 및 처리를 개발하고 이를 적절한 결정 및 해석으로 변환할 수 있습니다.
CARLA 시뮬레이터에서 다양한 시나리오의 의사결정 상태와 설명 주석을 생성할 수 있는 데이터 생성 패러다임을 제안합니다. 이 파이프라인은 LLM 기반 AD 시스템 교육에 대한 결정 상태와 자세한 설명이 부족한 기존 운전 데이터의 한계를 해결할 수 있습니다. 우리의 파이프라인은 데이터 수집과 데이터 주석이라는 두 가지 주요 구성 요소로 구성됩니다.
데이터 수집은 현실성을 유지하면서 의사결정의 다양성을 높이도록 설계되었습니다. 첫째, 시뮬레이션 환경에서 다양한 도전적인 시나리오를 구축한다. 안전한 운전에는 복잡한 운전 행동이 필요합니다. 숙련된 운전자이든 상담원이든 전문가는 접근 가능한 여러 위치 중 한 곳에서 발생하는 이러한 시나리오를 통해 안전하게 운전하도록 요청받습니다. 특히 전문가가 무작위로 운전 요구 사항을 제안하고 그에 따라 운전할 때 상호작용 데이터가 생성된다. 전문가가 목적지까지 안전하게 운전하면 데이터가 기록됩니다.
데이터 주석은 주로 의사결정과 해석에 중점을 둡니다. 첫째, 속도 및 경로 결정 상태는 직접 작성한 규칙을 사용하여 전문가의 운전 궤적을 기반으로 자동으로 주석이 추가됩니다. 둘째, 설명 주석은 장면을 기반으로 먼저 생성되며 근처의 현재 요소에 의해 동적으로 정의됩니다. 셋째, 생성된 설명 주석은 수동 주석을 통해 개선되고 GPT-3.5를 통해 다양성이 확장됩니다. 또한 인간 요청의 실행 또는 거부를 포함하여 상호 작용 콘텐츠도 인간 어노테이터에 의해 구체화됩니다. 이러한 방식으로 우리는 비용이 많이 드는 프레임별 결정 상태 주석을 피하고 설명 주석을 처음부터 수동으로 작성하는 비용이 많이 드는 것을 방지하여 데이터 주석 프로세스 속도를 크게 높입니다.
교육을 위해 280시간의 운전 데이터를 수집했습니다. 데이터에는 CARLA의 8개 지도(Town01, Town02, Town03, Town04, Town06, Town07, Town10HD, Town12)에서 수집된 다양한 날씨 및 조명 조건의 50km 경로와 30가지 운전 시나리오가 포함되어 있습니다. 평균적으로 각 장면에는 각 맵에 무작위로 트리거되는 약 200개의 트리거 포인트가 있습니다. 각 상황은 운전 시 일반적이거나 드물게 안전이 중요한 상황입니다. 이러한 시나리오에 대한 자세한 내용은 보충 정보에 제공됩니다. 각 프레임에 대해 전면, 후면, 왼쪽, 오른쪽의 4개 카메라에서 이미지를 수집하고 자아 차량 중앙에 추가된 LiDAR 센서에서 포인트 클라우드를 수집합니다. 우리가 수집하는 모든 데이터에는 시나리오를 성공적으로 추진하는 데 필요한 상응하는 해석과 정확한 결정이 있습니다.
표 2는 자연어를 활용하여 이해를 돕기 위해 설계된 이전 데이터 세트와의 비교를 보여줍니다. 우리 데이터에는 두 가지 고유한 특성이 있습니다. 첫 번째는 행동 계획 상태의 일관성입니다. 이를 통해 MLLM 플래너의 출력을 제어 신호로 변환하여 프레임워크가 폐쇄 루프 주행에서 차량을 제어할 수 있습니다. 두 번째는 대인관계 상호작용 주석이다. 이는 인간이 제공하는 자연어 지시와 그에 따른 결정 및 해석이 특징입니다. 인간의 명령을 이해하고 그에 따라 대응하는 능력을 향상시키는 것이 목표입니다.
우리는 공개적으로 가장 널리 사용되고 현실적인 시뮬레이션 벤치마크인 CARLA에서 폐쇄 루프 주행을 평가합니다. 성능 비교를 위해 CARLA에서 폐쇄 루프 주행을 수행할 수 있는 최첨단 방법이 포함되어 있습니다. 오픈 소스 Apollo는 CARLA에서도 기준선으로 평가되었습니다. 우리의 접근 방식 외에 다른 어떤 LLM 기반 접근 방식도 배포 및 평가 준비 상태를 보여주지 못했습니다. 모든 방법은 Town05 장기 벤치마크에서 평가되었습니다.
표 4에는 운전 점수, 경로 완료 및 위반 점수가 나열되어 있습니다. Apollo는 규칙 기반 접근 방식이지만 성능은 최근의 엔드투엔드 접근 방식과 거의 비슷합니다. DriveMLM은 운전 점수에서 다른 모든 방법보다 훨씬 뛰어납니다. 이는 DriveMLM이 하드 드라이브를 안전하게 통과하기 위해 상태 전환을 처리하는 데 더 적합하다는 것을 의미합니다. 표 4의 마지막 열은 MPI 평가 결과를 보여줍니다. 에이전트는 모든 경로를 완료해야 하므로 이 지표는 보다 포괄적인 운전 성과를 보여줍니다. 즉, 테스트 중인 에이전트는 모든 경로의 모든 상황에 직면하게 됩니다. Thinktwice는 Interfuser보다 더 나은 DS를 구현하지만 정지선을 자주 건너기 때문에 MPI가 낮습니다. 그러나 이러한 행동에 대한 CARLA의 처벌은 미미합니다. 대조적으로 MPI는 모든 교통 위반을 인수로 간주합니다. DriveMLM은 또한 다른 모든 방법 중에서 가장 높은 MPI를 달성하여 더 많은 상황을 피할 수 있어 더 안전한 운전 경험을 제공할 수 있음을 나타냅니다.
우리는 개방 루프 평가를 사용하여 결정 예측 및 설명 예측 작업을 포함한 운전 지식을 평가합니다. Table 3은 예측된 결정 쌍의 정확도와 결정으로 예측된 각 결정 유형에 대한 F1 점수, 그리고 예측으로 설명되는 BLEU-4, CIDEr, METEOR을 보여줍니다. Apollo의 경우 Town05에서 수동으로 수집한 장면이 표 3의 모델에 대한 입력으로 재생됩니다. 재생의 각 타임스탬프에서 해당 모델 상태 및 출력은 메트릭 계산을 위한 예측으로 저장됩니다. 다른 방법의 경우 해당 이미지를 입력 및 적절한 프롬프트로 제공합니다. 모델 예측을 수동으로 수집한 실제 정보와 비교함으로써 정확도는 결정의 정확성과 인간 행동과의 유사성을 나타내며, F1 점수는 각 경로 및 속도 결정에 대한 의사 결정 능력을 보여줍니다. DriveMLM은 40.97%의 정확도로 LLaVA를 능가하여 전체적으로 가장 높은 정확도를 달성했습니다. Apollo 기준선과 비교하여 DriveMLM은 더 높은 F1 점수를 달성하여 다양한 도로 상황을 해결하는 데 있어 규칙 기반 상태 머신보다 더 효과적으로 성능을 발휘함을 나타냅니다. LLaVA, InstructionBLIP 및 우리가 제안한 DriveMLM은 질문과 답변의 형태로 의사결정 설명을 출력할 수 있습니다. BLEU-4, CIDEr 및 METEOR 측면에서 DriveMLM은 가장 높은 성능을 달성할 수 있으며 이는 DriveMLM이 결정에 대한 가장 합리적인 설명을 제공할 수 있음을 나타냅니다.
센서 양식: 표 5는 DriveMLM에 대한 입력 센서 양식의 다양한 효과에 대한 결과를 보여줍니다. 멀티뷰(MV) 이미지는 정확도가 18.19% 증가하여 경로 및 속도 F1 점수 모두에서 상당한 성능 향상을 가져옵니다. 임시 토큰을 직접 연결하는 것과 비교하여 Temporal QFormer는 다중 모드 의사 결정 기능을 보장하면서 7.4% 더 큰 개선을 달성하여 속도 결정에 대한 평균 F1 점수가 0.05 향상되었습니다. 포인트 클라우드는 성능을 향상시키는 기능을 보여주지 않습니다.
인간-컴퓨터 상호 작용: 그림 4는 인간의 지시를 통해 차량 제어가 어떻게 달성될 수 있는지에 대한 예를 제공합니다. 제어 프로세스에는 도로 상태 분석, 결정 선택 및 설명문 제공이 포함됩니다. 동일한 "추월" 명령이 주어졌을 때 DriveMLM은 현재 교통 상황 분석을 기반으로 서로 다른 반응을 보였습니다. 오른쪽 차선이 점유되어 있고 왼쪽 차선을 사용할 수 있는 상황에서는 시스템이 왼쪽에서 추월하도록 선택합니다. 그러나 모든 차선이 점유된 경우와 같이 주어진 지시가 위험을 초래할 수 있는 상황에서는 DriveMLM이 추월 기동을 수행하지 않고 적절하게 반응합니다. 이 경우 DriveMLM은 교통 역학을 기반으로 지침의 합리성을 평가하고 최종적으로 행동 방침을 선택하기 전에 미리 정의된 규칙을 준수하는지 확인하는 인간-차량 상호 작용을 위한 인터페이스입니다.
실제 시나리오의 성능: 개발된 주행 시스템의 제로샷 성능을 테스트하기 위해 nuScenes 데이터세트에 DriveMLM을 적용합니다. 우리는 검증 세트에 6019개의 프레임에 주석을 달고 결정 정확성을 위해 0.395의 제로샷 성능을 달성했습니다. 그림 5는 DriveMLM의 다양성을 보여주는 두 가지 실제 운전 시나리오의 결과를 보여줍니다.
본 연구에서는 자율주행(AD)을 위해 LLM(Large Language Model)을 활용하는 새로운 프레임워크인 DriveMLM을 제안했습니다. DriveMLM은 다중 모드 LLM(MLLM)을 사용하여 모듈형 AD 시스템의 행동 계획 모듈을 모델링하여 현실적인 시뮬레이션 환경에서 폐쇄 루프 AD를 구현할 수 있습니다. DriveMLM은 또한 운전 결정에 대한 자연어 설명을 생성하여 AD 시스템의 투명성과 신뢰성을 높일 수 있습니다. 우리는 CARLA Town05 Long 벤치마크에서 DriveMLM이 Apollo 벤치마크보다 성능이 뛰어난 것으로 나타났습니다. 우리는 우리의 연구가 LLM과 AD의 통합에 대한 더 많은 연구에 영감을 줄 수 있다고 믿습니다.
오픈 소스 링크: https://github.com/OpenGVLab/DriveMLM
원본 링크: https://mp.weixin.qq.com/s/tQeERCbpD9H8oY8EvpZsDA
위 내용은 루프를 닫기 위해 전력을 다하세요! DriveMLM: LLM과 자율 주행 행동 계획을 완벽하게 결합합니다!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!