대형 언어 모델(LLM)과 시각적 기본 모델(VFM)의 등장으로 대형 모델을 갖춘 멀티모달 인공지능 시스템이 인간처럼 현실 세계를 종합적으로 인식하고 의사결정을 내릴 수 있을 것으로 기대됩니다. 최근 몇 달 동안 LLM은 자율 주행 연구 분야에서 광범위한 주목을 받았습니다. LLM의 큰 잠재력에도 불구하고 운전 시스템에는 여전히 주요 과제, 기회 및 향후 연구 방향이 있으며 현재 자세한 설명이 부족합니다
이 기사에서는 Tencent Maps, Purdue University, UIUC, University of Virginia 직원이 실시한 연구에서 이 분야에 대한 체계적인 연구. 본 연구에서는 먼저 MLLM(Multimodal Large Language Model)의 배경과 LLM을 활용한 다중모달 모델 개발 과정, 자율주행의 역사에 대한 고찰을 소개한다. 그런 다음 연구에서는 운전, 교통, 매핑 시스템을 위한 기존 MLLM 도구와 기존 데이터 세트에 대한 개요를 제공합니다. 또한 이 연구에서는 자율 주행에 LLM을 적용하는 첫 번째 워크숍인 자율 주행을 위한 대형 언어 및 비전 모델에 관한 제1회 WACV 워크숍(LLVM-AD)의 관련 작업도 요약합니다. 본 연구에서는 이 분야의 발전을 더욱 촉진하기 위해 자율주행 시스템에 MLLM을 적용하는 방법과 학계 및 산업계가 해결해야 할 몇 가지 중요한 문제에 대해서도 논의합니다.
MLLM(Multimodal Large Language Model)이 최근 많은 주목을 받고 있습니다. 이 모델은 LLM의 추론 기능을 이미지, 비디오 및 오디오 데이터와 결합하여 이러한 데이터가 이미지 분류, 해당 비디오와 텍스트 정렬, 음성 감지 등 다중 모드 정렬을 통해 다양한 작업을 보다 효율적으로 수행할 수 있도록 합니다. 또한 일부 연구에서는 로봇공학 분야에서 LLM이 간단한 작업을 처리할 수 있다는 사실이 밝혀졌습니다. 그러나 현재 자율주행 분야에서는 MLLM의 통합이 느리게 진행되고 있습니다. GPT-4, PaLM-2 및 LLaMA-2와 같은 LLM은 여전히 추가 연구와 탐구가 필요합니다
이 리뷰에서 연구자들은 LLM을 자율 주행 분야에 통합하면 상당한 패러다임 전환을 가져올 수 있으며 그에 따라 운전 인식이 향상될 수 있다고 믿습니다. , 모션 계획, 인간-차량 상호 작용 및 모션 제어를 통해 사용자에게 보다 적응력 있고 안정적인 미래 교통 솔루션을 제공합니다. 인식 측면에서 LLM은 도구 학습을 사용하여 외부 API를 호출하여 고정밀 지도, 교통 보고서 및 날씨 정보와 같은 실시간 정보 소스에 액세스할 수 있으므로 차량이 주변 환경을 보다 포괄적으로 이해할 수 있습니다. 자율주행차는 LLM을 통해 혼잡한 경로를 추론하고 효율성과 안전 운전을 향상시킬 수 있는 대체 경로를 제안할 수 있습니다. 모션 계획 및 인간-차량 상호 작용 측면에서 LLM은 사용자 중심 커뮤니케이션을 촉진하여 승객이 일상 언어로 자신의 요구와 선호도를 표현할 수 있도록 합니다. 모션 제어 측면에서 LLM은 먼저 제어 매개변수를 운전자의 선호도에 따라 맞춤화하여 개인화된 운전 경험을 달성할 수 있도록 합니다. 또한 LLM은 모션 제어 프로세스의 각 단계를 설명하여 사용자에게 투명성을 제공할 수 있습니다. 이 검토에서는 미래의 SAE L4-L5 레벨 자율주행차에서 승객이 언어, 몸짓, 심지어 눈까지 사용하여 요청을 전달할 수 있으며, MLLM은 통합된 시각적 디스플레이 또는 음성 응답을 통해 실시간 차량 내 및 운전 피드백을 제공할 것으로 예측합니다. 자율주행 및 다중모드 대형언어 모델 개발과정
자율주행 MLLM 연구개요 : 현재 모델의 LLM 프레임워크는 주로 LLAMA, LLAMA 2. GPT-3.5, GPT-4 , Flan5XXL, 비쿠나-13b. 이 표에서 FT, ICL, PT는 미세 조정, 상황별 학습, 사전 학습을 의미합니다. 문헌 링크는 github 저장소를 참조하세요: https://github.com/IrohXu/Awesome-Multimodal-LLM-Autonomous-Driving
자율 주행과 LLVM 사이의 가교를 구축하기 위해 관련 연구자들은 2024 IEEE/CVF 컴퓨터 비전 애플리케이션(WACV) 겨울 컨퍼런스에서 제1회 대규모 언어 및 비전 모델 자율 주행 워크숍(LLVM-AD)을 조직했습니다. 이 워크숍은 자율 주행 분야에서 다중 모드 대규모 언어 모델 구현의 가능성과 과제를 탐구하기 위해 학계 연구원과 업계 전문가 간의 협력을 강화하는 것을 목표로 합니다. LLVM-AD는 후속 오픈 소스 실제 교통 언어 이해 데이터 세트의 개발을 더욱 촉진할 것입니다
제1회 WACV 대규모 언어 및 비전 모델 자율 주행 워크숍(LLVM-AD)에서는 총 9개의 논문이 승인되었습니다. 이 논문 중 일부는 자율 주행의 다중 모드 대형 언어 모델을 중심으로 LLM을 사용자 차량 상호 작용, 모션 계획 및 차량 제어에 통합하는 데 중점을 둡니다. 또한 여러 논문에서는 자율주행차에서 인간과 유사한 상호작용 및 의사결정을 위한 LLM의 새로운 적용을 탐구합니다. 예를 들어, "인간 운전 모방" 및 "언어별 운전"에서는 복잡한 운전 시나리오에서 LLM의 해석과 추론은 물론 인간 행동을 모방하기 위한 프레임워크를 탐구합니다. 또한, 『인간 중심 자율 시스템과 LLM』에서는 LLM 설계의 중심에 사용자를 두고 LLM을 사용해 사용자 지시를 해석하는 것을 강조한다. 이러한 접근 방식은 인간 중심의 자율 시스템을 향한 중요한 변화를 나타냅니다. 융합 LLM 외에도 워크숍에서는 순수 비전 및 데이터 처리 기반 방법도 다루었습니다. 또한 워크숍에서는 혁신적인 데이터 처리 및 평가 방법을 제시했습니다. 예를 들어 NuScenes-MQA는 자율 주행 데이터 세트를 위한 새로운 주석 체계를 도입합니다. 종합적으로, 이 논문들은 언어 모델과 첨단 기술을 자율 주행에 통합하는 과정을 보여줌으로써 보다 직관적이고 효율적이며 인간 중심적인 자율주행차를 위한 길을 열었습니다.
향후 개발을 위해 본 연구에서는 다음과 같은 연구 방향을 제안합니다.
다시 작성해야 할 내용은 다음과 같습니다. 1. 자율 주행에서 다중 모달 대형 언어 모델을 위한 새로운 데이터 세트
대형 언어 모델이 언어에 사용되지만 이를 이해하는 데 성공했지만 과제가 있습니다. 자율주행에 적용하는 건 계속 남아있습니다. 이는 이러한 모델이 파노라마 이미지, 3D 포인트 클라우드, 고정밀 지도 등 다양한 양식의 입력을 통합하고 이해해야 하기 때문입니다. 데이터 크기와 품질의 현재 제한은 기존 데이터 세트가 이러한 문제를 완전히 해결할 수 없음을 의미합니다. 또한 NuScenes와 같은 초기 오픈 소스 데이터 세트에서 주석이 달린 시각적 언어 데이터 세트는 운전 시나리오에서 시각적 언어 이해를 위한 강력한 기준을 제공하지 못할 수 있습니다. 따라서 이전 데이터 세트 분포의 롱테일(불균형) 문제를 보완하여 이러한 모델의 성능을 효과적으로 테스트하고 향상시키기 위해 광범위한 교통 및 운전 시나리오를 포괄하는 새로운 대규모 데이터 세트가 시급히 필요합니다. 자율주행 애플리케이션.
2. 자율 주행에서 대규모 언어 모델에 필요한 하드웨어 지원
자율 주행 차량의 기능마다 하드웨어 요구 사항이 다릅니다. 운전 계획 또는 차량 제어 참여를 위해 차량 내부에서 LLM을 사용하려면 안전을 보장하기 위해 실시간 처리와 낮은 대기 시간이 필요하며, 이는 계산 요구 사항을 증가시키고 전력 소비에 영향을 미칩니다. LLM이 클라우드에 배포되면 데이터 교환을 위한 대역폭이 또 다른 중요한 보안 요소가 됩니다. 반면, 내비게이션 계획이나 운전과 관련 없는 명령 분석(예: 차량 내 음악 재생)에 LLM을 사용하면 높은 쿼리 볼륨과 실시간 성능이 필요하지 않으므로 원격 서비스가 실행 가능한 옵션이 됩니다. 앞으로 자율주행 분야의 LLM은 지식 추출을 통해 압축되어 계산 요구 사항과 대기 시간을 줄일 수 있습니다. 이 분야에는 아직 개발 여지가 많습니다.
3. 고정밀 지도를 이해하려면 대규모 언어 모델을 사용하세요.
고정밀 지도는 차량이 작동하는 물리적 환경에 대한 기본 정보를 제공하기 때문에 자율주행차 기술에서 중요한 역할을 합니다. HD 맵의 의미 지도 레이어는 물리적 환경의 의미와 맥락 정보를 포착하기 때문에 중요합니다. Tencent의 고정밀 지도 AI 자동 주석 시스템이 구동하는 차세대 자율 주행에 이 정보를 효과적으로 인코딩하려면 이러한 다중 모드 기능을 언어 공간에 매핑하는 새로운 모델이 필요합니다. Tencent는 능동 학습을 기반으로 수십만 킬로미터 규모의 고정밀 지도를 생성하고 라벨링할 수 있는 THMA 고정밀 지도 AI 자동 라벨링 시스템을 개발했습니다. 이 분야의 발전을 촉진하기 위해 Tencent는 파노라마 이미지, 3D LiDAR 포인트 클라우드 및 상황 기반 고정밀 지도 주석이 포함된 THMA 기반의 MAPLM 데이터 세트와 새로운 질문 답변 벤치마크 MAPLM-QA를 제안했습니다.
4. 인간-차량 상호작용의 대규모 언어 모델
인간과 자동차의 상호작용과 인간의 운전 행동을 이해하는 것 역시 자율주행에 있어 중요한 과제입니다. 인간 운전자는 양보하기 위해 속도를 줄이거나 다른 운전자나 보행자와 의사소통하기 위해 신체 움직임을 사용하는 등의 비언어적 신호에 의존하는 경우가 많습니다. 이러한 비언어적 신호는 도로에서의 의사소통에 중요한 역할을 합니다. 과거에는 자율주행차가 다른 운전자가 예상하지 못한 방식으로 행동하는 경우가 많았기 때문에 자율주행 시스템과 관련된 사고가 많이 발생했습니다. 앞으로 MLLM은 다양한 소스의 풍부한 상황 정보를 통합하고 운전자의 시선, 제스처, 운전 스타일을 분석하여 이러한 사회적 신호를 더 잘 이해하고 효율적인 계획을 세울 수 있을 것입니다. LLM은 다른 운전자의 사회적 신호를 추정함으로써 의사결정 능력과 자율주행차의 전반적인 안전성을 향상시킬 수 있습니다.
맞춤형 자율주행
자율주행차가 발전함에 따라 중요한 측면은 사용자의 개인 운전 선호도에 어떻게 적응할지 고려하는 것입니다. 자율주행차는 사용자의 운전 스타일을 모방해야 한다는 공감대가 커지고 있습니다. 이를 달성하기 위해 자율주행 시스템은 내비게이션, 차량 유지관리, 엔터테인먼트 등 다양한 측면에서 사용자 선호도를 학습하고 통합해야 합니다. LLM의 지시 튜닝 기능과 상황별 학습 기능은 사용자 선호도와 운전 이력 정보를 자율주행차에 통합하여 개인화된 운전 경험을 제공하는 데 이상적입니다.
수년간 자율주행은 관심의 대상이었으며 많은 벤처투자자들의 관심을 끌었습니다. LLM을 자율주행차에 통합하는 것은 고유한 과제를 제시하지만 이를 극복하면 기존 자율주행 시스템이 크게 향상됩니다. LLM이 지원하는 스마트 조종석은 운전 시나리오와 사용자 선호도를 이해하고 차량과 탑승자 사이에 더 깊은 신뢰를 구축할 수 있는 능력을 갖추고 있을 것으로 예상됩니다. 또한, LLM을 배포하는 자율 주행 시스템은 보행자의 안전과 차량 탑승자의 안전을 비교하는 것과 관련된 윤리적 딜레마를 더 잘 처리할 수 있어 복잡한 운전 시나리오에서 윤리적일 가능성이 더 높은 의사 결정 프로세스를 촉진할 수 있습니다. 이 기사는 WACV 2024 LLVM-AD 워크숍 위원회 구성원의 통찰력을 통합하고 연구원들이 LLM 기술로 구동되는 차세대 자율 차량 개발에 기여하도록 영감을 주는 것을 목표로 합니다.
위 내용은 시스템 연구를 통해 차세대 자율주행 시스템에 없어서는 안 될 대형 모델 공개의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!