搜索
首页科技周边人工智能最晚明年上半年落地L3:理想端到端自动驾驶,性能大幅提升

最晚明年上半年落地L3:理想端到端自动驾驶,性能大幅提升

Aug 07, 2024 am 04:35 AM
产业世界模型智能驾驶理想汽车多模态大模型VLM

최근 제너레이티브 AI 기술의 등장으로 많은 신차 제조사들은 시각 언어 모델과 월드 모델의 새로운 방식을 모색하고 있으며, 엔드 투 엔드 지능형 주행 신기술이 공통적인 연구 방향이 된 것 같습니다. 지난달 Li Auto는 엔드투엔드 + VLM 시각 언어 모델 + 월드 모델의 3세대 자율주행 기술 아키텍처를 출시했습니다. 이 아키텍처는 내부 테스트를 위해 수천 명에게 푸시되었으며, 지능적인 운전 행동을 의인화하고, AI의 정보 처리 효율성을 향상시키며, 복잡한 도로 상황을 이해하고 대응하는 능력을 향상시킵니다. Li Xiang은 공개 공유에서 대부분의 알고리즘이 식별하고 처리하기 어려운 희귀한 운전 환경에 직면하여 VLM(Visual Language Model)이 체계적으로 자율 주행 기능을 향상시킬 수 있다고 말한 적이 있습니다. 이 방법은 이론적으로 획기적인 발전을 이룰 수 있습니다. .

最晚明年上半年落地L3:理想端到端自动驾驶,性能大幅提升

신세대 자율주행 시스템은 능력의 상한을 크게 높여 과거에 해결하기 어려웠던 많은 상황을 AI가 처리할 수 있게 했고, 한계를 낮추어 기술 R&D 규모의 필요성을 줄였습니다. 가까운 미래에 더 많은 사람들이 운전할 수 있게 될 것으로 예상됩니다. 앞으로 크게 향상된 경험을 얻으십시오.
이 자율 주행 기술 아키텍처 세트는 노벨상 수상자 Daniel Kahneman의 빠르고 느린 시스템 이론에서 영감을 얻었습니다. 자율 주행 분야에서 인간의 사고와 의사 결정 프로세스를 시뮬레이션하려면 "빠른 시스템"과 "느린 시스템"이 필요합니다. . 그 중:
・ 빠른 시스템(시스템 1)은 간단한 작업을 처리하는 데 능숙하며 자율 주행의 경험과 습관을 기반으로 형성된 인간의 직관으로, 인식과 계획을 포함한 엔드투엔드 대형 모델로 구성됩니다. 이는 차량을 운전할 때 발생하는 문제의 95%를 처리하기에 충분합니다.
・ 느린 시스템(시스템 2)은 자율 주행 시스템에 대한 더 깊은 이해와 학습을 통해 인간이 형성한 논리적 추론, 복잡한 분석 및 컴퓨팅 능력으로, 복잡하거나 심지어 알려지지 않은 문제를 해결하는 데 주로 사용되는 VLM 모델입니다. 차량 운전 시 문제 교통 장면은 일상 운전 장면의 약 5%를 차지합니다.
지난 주 Li Auto의 베이징 R&D 본부에서 열린 행사에서 Li Auto의 지능형 운전 부사장 Lang Xianpeng은 Li Auto의 지능형 운전이 이제 엔드 투 엔드 + 대형 모델 솔루션에 완전히 통합되어 차량이 다음을 수행할 수 있게 되었다고 강조했습니다. 복잡한 도로 상황과 교통 규칙을 이해합니다.
"엔드 투 엔드 및 전통적인 인식 의사 결정 모델 모두 훈련을 위해 많은 양의 데이터가 필요합니다. 한 가지 잠재적인 문제는 시스템이 보이지 않는 장면을 만나면 제대로 작동하지 않는다는 것입니다."라고 Lang Xianpeng은 말했습니다. "우리는 사람처럼 생각하고 결정을 내리는 자동차의 능력을 탐구하고 있습니다.

最晚明年上半年落地L3:理想端到端自动驾驶,性能大幅提升

Li Auto 베이징 본사."

아이디알은 지난해 하반기부터 전략을 조정하고 궤도를 바꾸기 시작했다. 올해 2월 칭화대학교 교차정보연구소와 Li Auto가 제출한 DriveVLM 논문에서 연구자들은 최근 생성 AI 분야에서 등장한 시각언어모델(VLM)을 적용해 시각적 이해와 추론에서 탁월한 능력을 입증했다. .

업계에서는 주류 자율주행 파이프라인과 대형 모델 파이프라인을 논리적 사고와 완벽하게 결합한 방식으로 자율주행 속도 시스템을 제안한 최초의 작업이며, 최종 테스트의 대형 모델 작업을 완료한 최초의 작업입니다. 배포(NVIDIA Orin 플랫폼 기반).

最晚明年上半年落地L3:理想端到端自动驾驶,性能大幅提升

DriveVLM 시스템

DriveVLM은 세 가지 주요 모듈이 있는 CoT(사슬 연결) 프로세스로 구성됩니다.

  1. Scenario 설명: 언어를 사용하여 운전 환경을 설명하고 주요 개체를 식별합니다.
  2. 시나리오 분석: 주요 물체의 특성과 그것이 자아 차량에 미치는 영향을 자세히 알아보세요.
  3. 계층적 계획: 메타 액션 및 결정 설명부터 웨이포인트까지 단계별 계획 개발.

이러한 모듈은 기존 자율 주행 시스템 프로세스의 인식, 예측 및 계획 구성 요소에 해당합니다. 차이점은 지금까지 매우 어려웠던 객체 인식, 의도 수준 예측 및 작업 수준 계획을 처리하는 능력에 있습니다. 과거.

기술 검증

이상 검증 기술은 롱테일 시나리오에 효과적입니다.

  • 실제 환경 데이터 분해
  • 생성 모델을 사용하여 새로운 관점 보완
  • 날씨, 시간, 교통 흐름 및 기타 조건에 대한 변경 사항 사용자 정의

실제 적용

Li Auto의 엔드투엔드 모델과 VLM 모델이 실시간으로 실행됩니다.

  • 엔드투엔드 모델: 더 높은 프레임 속도
  • VLM 모델: 더 많은 수의 매개변수, 더 낮은 프레임 속도

복잡한 도시에서 VLM은 의사결정이 불가능한 상황에서 역할을 하며 의사결정 결과와 궤적을 엔드투엔드 모델에 전달합니다.

엔드 투 엔드 접근 방식

엔드 투 엔드 접근 방식은 AI의 실제 사용이 시작되는 기술적 분수령이 되었습니다.

신세대 AI 모델

신세대 AI 모델은 질문 메이커 역할을 할 수 있습니다.

  • 자가용 자동차 운전자의 기준을 충족하는 사용자의 데이터를 "진짜 질문"으로 선택
  • 세계와 결합 "시뮬레이션 질문"을 생성하는 모델

컴퓨팅 파워 챌린지

VLM 等模型部署在车端面临算力挑战:

  • 保持参数量最优
  • 优化工程以提升决策时延

竞争展望

特斯拉 FSD 即将进入国内,智能驾驶领域进入新竞争阶段:

  • 理想汽车目标:端到端 + VLM 自动驾驶量产交付

以上是最晚明年上半年落地L3:理想端到端自动驾驶,性能大幅提升的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
易于理解的解释如何在Chatgpt中建立两步身份验证!易于理解的解释如何在Chatgpt中建立两步身份验证!May 12, 2025 pm 05:37 PM

CHATGPT SECURICE增强:两阶段身份验证(2FA)配置指南 需要两因素身份验证(2FA)作为在线平台的安全措施。本文将以易于理解的方式解释2FA设置过程及其在CHATGPT中的重要性。这是为那些想要安全使用chatgpt的人提供的指南。 单击此处获取OpenAI最新的AI代理OpenAi Deep Research⬇️ [chatgpt]什么是Openai深入研究?关于如何使用它和费用结构的详尽解释! 目录 chatg

[针对企业] Chatgpt培训|对8种免费培训选项,补贴和示例进行了详尽的介绍![针对企业] Chatgpt培训|对8种免费培训选项,补贴和示例进行了详尽的介绍!May 12, 2025 pm 05:35 PM

生成的AI的使用吸引了人们的关注,这是提高业务效率和创造新业务的关键。特别是,由于其多功能性和准确性,许多公司都采用了Openai的Chatgpt。但是,可以有效利用chatgpt的人员短缺是实施它的主要挑战。 在本文中,我们将解释“ ChatGpt培训”的必要性和有效性,以确保在公司中成功使用Chatgpt。我们将介绍广泛的主题,从ChatGpt的基础到业务使用,特定的培训计划以及如何选择它们。 CHATGPT培训提高员工技能

关于如何使用Chatgpt简化您的Twitter操作的详尽解释!关于如何使用Chatgpt简化您的Twitter操作的详尽解释!May 12, 2025 pm 05:34 PM

社交媒体运营的提高效率和质量至关重要。特别是在实时重要的平台上,例如Twitter,需要连续交付及时和引人入胜的内容。 在本文中,我们将解释如何使用具有先进自然语言处理能力的AI的Chatgpt操作Twitter。通过使用CHATGPT,您不仅可以提高实时响应功能并提高内容创建的效率,而且还可以制定符合趋势的营销策略。 此外,使用预防措施

[对于Mac]说明如何开始以及如何使用ChatGpt桌面应用程序![对于Mac]说明如何开始以及如何使用ChatGpt桌面应用程序!May 12, 2025 pm 05:33 PM

CHATGPT MAC桌面应用程序详细指南:从安装到音频功能 最后,Chatgpt的Mac桌面应用程序现已可用!在本文中,我们将彻底解释从安装方法到有用的功能和将来的更新信息的所有内容。使用桌面应用程序独有的功能,例如快捷键,图像识别和语音模式,以极大地提高您的业务效率! 安装桌面应用的ChatGpt Mac版本 从浏览器访问:首先,在浏览器中访问chatgpt。

chatgpt的角色限制是什么?解释如何避免它和模型上限chatgpt的角色限制是什么?解释如何避免它和模型上限May 12, 2025 pm 05:32 PM

当使用chatgpt时,您是否曾经有过这样的经验,例如“输出在中途停止”或“即使我指定了字符的数量,它也无法正确输出”?该模型非常开创性,不仅允许自然对话,而且还允许创建电子邮件,摘要论文,甚至允许产生诸如小说之类的创意句子。但是,ChatGpt的弱点之一是,如果文本太长,输入和输出将无法正常工作。 Openai的最新AI代理“ Openai Deep Research”

什么是Chatgpt的语音输入和语音对话功能?解释如何设置以及如何使用它什么是Chatgpt的语音输入和语音对话功能?解释如何设置以及如何使用它May 12, 2025 pm 05:27 PM

Chatgpt是Openai开发的创新AI聊天机器人。它不仅具有文本输入,而且还具有语音输入和语音对话功能,从而可以进行更自然的交流。 在本文中,我们将解释如何设置和使用Chatgpt的语音输入和语音对话功能。即使您不能脱身,Chatp Plans也通过与您交谈来做出回应并回应音频,这在繁忙的商业情况和英语对话练习等各种情况下都带来了很大的好处。 关于如何设置智能手机应用程序和PC的详细说明以及如何使用。

易于理解的解释如何使用Chatgpt进行求职和寻找工作!易于理解的解释如何使用Chatgpt进行求职和寻找工作!May 12, 2025 pm 05:26 PM

成功的快捷方式!使用chatgpt有效的工作变更策略 在当今加剧的工作变更市场中,有效的信息收集和彻底的准备是成功的关键。 诸如Chatgpt之类的高级语言模型是求职者的强大武器。在本文中,我们将解释如何有效利用Chatgpt来提高您的工作企业效率,从自我分析到申请文件和面试准备。节省时间和学习技术,以充分展示您的优势,并帮助您成功搜索工作。 目录 使用chatgpt的狩猎工作示例 自我分析的效率:聊天

易于理解的解释如何使用ChatGpt创建和输出思维地图!易于理解的解释如何使用ChatGpt创建和输出思维地图!May 12, 2025 pm 05:22 PM

思维地图是组织信息并提出想法的有用工具,但是创建它们可能需要时间。使用Chatgpt可以大大简化此过程。 本文将详细说明如何使用chatgpt轻松创建思维地图。此外,通过创建的实际示例,我们将介绍如何在各种主题上使用思维图。 了解如何使用Chatgpt有效地组织和可视化您的想法和信息。 Openai的最新AI代理OpenA

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

WebStorm Mac版

WebStorm Mac版

好用的JavaScript开发工具

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

mPDF

mPDF

mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )专业的PHP集成开发工具