首页  >  文章  >  科技周边  >  最晚明年上半年落地L3:理想端到端自动驾驶,性能大幅提升

最晚明年上半年落地L3:理想端到端自动驾驶,性能大幅提升

PHPz
PHPz原创
2024-08-07 04:35:32532浏览

최근 제너레이티브 AI 기술의 등장으로 많은 신차 제조사들은 시각 언어 모델과 월드 모델의 새로운 방식을 모색하고 있으며, 엔드 투 엔드 지능형 주행 신기술이 공통적인 연구 방향이 된 것 같습니다. 지난달 Li Auto는 엔드투엔드 + VLM 시각 언어 모델 + 월드 모델의 3세대 자율주행 기술 아키텍처를 출시했습니다. 이 아키텍처는 내부 테스트를 위해 수천 명에게 푸시되었으며, 지능적인 운전 행동을 의인화하고, AI의 정보 처리 효율성을 향상시키며, 복잡한 도로 상황을 이해하고 대응하는 능력을 향상시킵니다. Li Xiang은 공개 공유에서 대부분의 알고리즘이 식별하고 처리하기 어려운 희귀한 운전 환경에 직면하여 VLM(Visual Language Model)이 체계적으로 자율 주행 기능을 향상시킬 수 있다고 말한 적이 있습니다. 이 방법은 이론적으로 획기적인 발전을 이룰 수 있습니다. .

最晚明年上半年落地L3:理想端到端自动驾驶,性能大幅提升

신세대 자율주행 시스템은 능력의 상한을 크게 높여 과거에 해결하기 어려웠던 많은 상황을 AI가 처리할 수 있게 했고, 한계를 낮추어 기술 R&D 규모의 필요성을 줄였습니다. 가까운 미래에 더 많은 사람들이 운전할 수 있게 될 것으로 예상됩니다. 앞으로 크게 향상된 경험을 얻으십시오.
이 자율 주행 기술 아키텍처 세트는 노벨상 수상자 Daniel Kahneman의 빠르고 느린 시스템 이론에서 영감을 얻었습니다. 자율 주행 분야에서 인간의 사고와 의사 결정 프로세스를 시뮬레이션하려면 "빠른 시스템"과 "느린 시스템"이 필요합니다. . 그 중:
・ 빠른 시스템(시스템 1)은 간단한 작업을 처리하는 데 능숙하며 자율 주행의 경험과 습관을 기반으로 형성된 인간의 직관으로, 인식과 계획을 포함한 엔드투엔드 대형 모델로 구성됩니다. 이는 차량을 운전할 때 발생하는 문제의 95%를 처리하기에 충분합니다.
・ 느린 시스템(시스템 2)은 자율 주행 시스템에 대한 더 깊은 이해와 학습을 통해 인간이 형성한 논리적 추론, 복잡한 분석 및 컴퓨팅 능력으로, 복잡하거나 심지어 알려지지 않은 문제를 해결하는 데 주로 사용되는 VLM 모델입니다. 차량 운전 시 문제 교통 장면은 일상 운전 장면의 약 5%를 차지합니다.
지난 주 Li Auto의 베이징 R&D 본부에서 열린 행사에서 Li Auto의 지능형 운전 부사장 Lang Xianpeng은 Li Auto의 지능형 운전이 이제 엔드 투 엔드 + 대형 모델 솔루션에 완전히 통합되어 차량이 다음을 수행할 수 있게 되었다고 강조했습니다. 복잡한 도로 상황과 교통 규칙을 이해합니다.
"엔드 투 엔드 및 전통적인 인식 의사 결정 모델 모두 훈련을 위해 많은 양의 데이터가 필요합니다. 한 가지 잠재적인 문제는 시스템이 보이지 않는 장면을 만나면 제대로 작동하지 않는다는 것입니다."라고 Lang Xianpeng은 말했습니다. "우리는 사람처럼 생각하고 결정을 내리는 자동차의 능력을 탐구하고 있습니다.

最晚明年上半年落地L3:理想端到端自动驾驶,性能大幅提升

Li Auto 베이징 본사."

아이디알은 지난해 하반기부터 전략을 조정하고 궤도를 바꾸기 시작했다. 올해 2월 칭화대학교 교차정보연구소와 Li Auto가 제출한 DriveVLM 논문에서 연구자들은 최근 생성 AI 분야에서 등장한 시각언어모델(VLM)을 적용해 시각적 이해와 추론에서 탁월한 능력을 입증했다. .

업계에서는 주류 자율주행 파이프라인과 대형 모델 파이프라인을 논리적 사고와 완벽하게 결합한 방식으로 자율주행 속도 시스템을 제안한 최초의 작업이며, 최종 테스트의 대형 모델 작업을 완료한 최초의 작업입니다. 배포(NVIDIA Orin 플랫폼 기반).

最晚明年上半年落地L3:理想端到端自动驾驶,性能大幅提升

DriveVLM 시스템

DriveVLM은 세 가지 주요 모듈이 있는 CoT(사슬 연결) 프로세스로 구성됩니다.

  1. Scenario 설명: 언어를 사용하여 운전 환경을 설명하고 주요 개체를 식별합니다.
  2. 시나리오 분석: 주요 물체의 특성과 그것이 자아 차량에 미치는 영향을 자세히 알아보세요.
  3. 계층적 계획: 메타 액션 및 결정 설명부터 웨이포인트까지 단계별 계획 개발.

이러한 모듈은 기존 자율 주행 시스템 프로세스의 인식, 예측 및 계획 구성 요소에 해당합니다. 차이점은 지금까지 매우 어려웠던 객체 인식, 의도 수준 예측 및 작업 수준 계획을 처리하는 능력에 있습니다. 과거.

기술 검증

이상 검증 기술은 롱테일 시나리오에 효과적입니다.

  • 실제 환경 데이터 분해
  • 생성 모델을 사용하여 새로운 관점 보완
  • 날씨, 시간, 교통 흐름 및 기타 조건에 대한 변경 사항 사용자 정의

실제 적용

Li Auto의 엔드투엔드 모델과 VLM 모델이 실시간으로 실행됩니다.

  • 엔드투엔드 모델: 더 높은 프레임 속도
  • VLM 모델: 더 많은 수의 매개변수, 더 낮은 프레임 속도

복잡한 도시에서 VLM은 의사결정이 불가능한 상황에서 역할을 하며 의사결정 결과와 궤적을 엔드투엔드 모델에 전달합니다.

엔드 투 엔드 접근 방식

엔드 투 엔드 접근 방식은 AI의 실제 사용이 시작되는 기술적 분수령이 되었습니다.

신세대 AI 모델

신세대 AI 모델은 질문 메이커 역할을 할 수 있습니다.

  • 자가용 자동차 운전자의 기준을 충족하는 사용자의 데이터를 "진짜 질문"으로 선택
  • 세계와 결합 "시뮬레이션 질문"을 생성하는 모델

컴퓨팅 파워 챌린지

VLM 等模型部署在车端面临算力挑战:

  • 保持参数量最优
  • 优化工程以提升决策时延

竞争展望

特斯拉 FSD 即将进入国内,智能驾驶领域进入新竞争阶段:

  • 理想汽车目标:端到端 + VLM 自动驾驶量产交付

以上是最晚明年上半年落地L3:理想端到端自动驾驶,性能大幅提升的详细内容。更多信息请关注PHP中文网其他相关文章!

声明:
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn