>  기사  >  기술 주변기기  >  2024년에는 중국의 엔드투엔드 자율주행에 실질적인 돌파구와 진전이 있을까요?

2024년에는 중국의 엔드투엔드 자율주행에 실질적인 돌파구와 진전이 있을까요?

WBOY
WBOY앞으로
2024-05-08 14:49:12731검색

Tesla V12가 북미에서 널리 홍보되었으며 뛰어난 성능으로 인해 점점 더 많은 사용자 인지도를 얻고 있다는 사실을 모두가 이해할 수는 없습니다. 자율주행 산업. 최근 여러 업계의 일류 엔지니어, 제품 관리자, 투자자, 언론인과 교류할 기회가 있었는데, 모두가 엔드투엔드 자율주행에 관심이 많지만 일부 측면에서는 그렇습니다. 엔드투엔드 자율주행에 대한 기본적인 이해, 아직도 이런 오해가 존재합니다. 국내 일류 브랜드와 FSD V11, V12 두 가지 버전의 사진 유무에 관계없이 도시 기능을 경험해 본 사람으로서, 여기서는 나의 전문 지식을 바탕으로 현재 개발 중인 몇 가지 사항에 대해 이야기하고 싶습니다. Tesla FSD의 배경 및 진행 상황을 추적하는 단계입니다. 이 단계에서는 모두가 엔드투엔드 자율 주행에 대한 일반적인 오해에 대해 이야기하고 이러한 문제에 대해 저만의 해석을 제시했습니다.

의심 1: 엔드투엔드 인식과 엔드투엔드 의사결정 및 계획이 엔드투엔드 자율주행으로 간주될 수 있나요?

센서 입력부터 계획, 제어 신호 출력까지 모든 단계가 End-to-End 파생 가능하므로 모델 훈련 중 경사하강법 훈련과 경사 역전파를 통해 전체 시스템을 대형 모델로 훈련할 수 있습니다. 입력부터 출력까지 모델의 모든 측면에서 업데이트되고 최적화되어 전체 시스템의 운전 동작이 사용자가 직접 인지하는 운전 결정 궤적에 맞게 최적화될 수 있습니다. 최근 일부 친구들은 엔드투엔드 자율주행을 추진할 때 엔드투엔드 센싱이나 엔드투엔드 의사결정이라고 주장했습니다. 사실 이 두 가지 모두 엔드투엔드라고 볼 수는 없다고 생각합니다. 최종 자율주행은 완전한 자율주행이라고만 볼 수 있습니다. 이를 순수 데이터 기반 인식, 순수 데이터 기반 의사결정이라고 합니다.

일부에서는 엔드투엔드 계획이라고도 알려진 보안 체크섬 궤적 최적화를 위한 기존 방법의 하이브리드 전략과 결합된 특정 모델을 기반으로 결정을 내릴 수 있습니다. 또한 Tesla V12가 순전히 정확한 모델 출력 제어 신호가 아니라 몇 가지 규칙 방법을 결합한 하이브리드 전략이라고 믿는 사람들도 있습니다. http://X.com의 유명한 Green에 따르면, 그는 얼마 전에 규칙 코드가 V12 기술 스택에서 여전히 발견될 수 있다는 트윗을 게시했습니다. 제가 이해한 바에 따르면 Green이 발견한 코드는 V12 고속 기술 스택에 의해 유지되는 V11 버전 코드일 가능성이 높습니다. 왜냐하면 현재 V12는 실제로 원래의 도시 기술 스택을 엔드투엔드로만 대체한다는 것을 알고 있기 때문입니다. 고속에서는 여전히 V11 솔루션을 사용하므로 풀어진 코드에서 일반 코드의 일부 조각을 발견했다고 해서 V12가 "종단 간" 거짓이라는 의미는 아니지만 발견된 코드가 고속일 가능성이 높습니다. 암호. 실제로 2022년 AI+Day를 보면 V11과 이전 버전은 이미 하이브리드 솔루션이라는 것을 알 수 있습니다. 따라서 V12가 바로 완전한 모델이 아니라면 솔루션은 이전 버전과 크게 다르지 않을 것입니다. 이런 식으로 V12의 성능이 급등한 것에 대한 합리적인 설명은 없습니다. Tesla의 이전 계획은 AI+Day의 EatElephant에 대한 저의 해석을 참조하십시오: Tesla AI Day 2022 -- 세계 단어의 해석: 그는 분산화된 R&D 팀인 자율주행 봄 축제 갈라라고 불렀으며, AI 기술 회사.

2024년에는 중국의 엔드투엔드 자율주행에 실질적인 돌파구와 진전이 있을까요?

2022년 AI Day를 기준으로 볼 때 V11은 이미 NN Planner와 혼합된 계획 솔루션입니다

일반적으로 인식 후처리 코드, 규칙 후보 궤적 점수, 심지어 안전 포켓 전략이든 일단 규칙이 코드가 도입되고 if else 분기가 있으면 전체 시스템의 안정적인 전송이 잘리며, 이는 훈련을 통해 전역 최적화를 얻는 엔드투엔드 시스템의 가장 큰 이점도 잃게 됩니다.

의심 2: 엔드투엔드가 이전 기술의 재발명인가요?

또 다른 흔한 오해는 엔드투엔드(end-to-end)가 기존 축적된 기술을 뒤집고 철저한 신기술 혁신을 실시하는 것이라고 생각하는데, 테슬라가 이제 막 엔드투엔드 자율주행 시스템의 유저 푸시(User Push)를 달성한 이후 많은 사람들이 그렇게 느끼고 있다. , 다른 제조업체에서는 이를 전혀 구현할 수 없습니다. 인식, 예측 및 계획의 원래 모듈식 기술 스택을 반복할 필요가 없습니다. 대신 엔드투엔드 시스템에 직접 들어갈 수 있습니다. 후발업체의 장점을 배워 Tesla를 빠르게 따라잡거나 능가할 수도 있습니다. 대규모 모델을 사용하여 센서 입력부터 제어 신호 계획까지 매핑을 완료하는 것이 가장 철저한 엔드투엔드 접근 방식이라는 것은 사실입니다. 예를 들어 Nvidia의 DAVE-2 및 Wayve도 오랫동안 유사한 방법을 시도해 왔습니다. 비슷한 방법을 사용했습니다. 이런 철저한 end-to-end 기술은 사실상 블랙박스에 가깝고, 동시에 이미지, 포인트 클라우드 등의 센서 입력 신호는 매우 고차원적인 입력 공간이므로 출력 제어 신호를 디버깅하고 반복적으로 최적화하기가 어렵습니다. 스티어링 휠 각도, 스로틀 제어 등 움직이는 페달은 상대적으로 낮은 차원의 출력 공간이므로 실제 차량 테스트에는 전혀 사용할 수 없습니다.

2024년에는 중국의 엔드투엔드 자율주행에 실질적인 돌파구와 진전이 있을까요?

철저한 엔드투엔드 시스템은 의미론적 분할 및 깊이 추정과 같은 몇 가지 일반적인 보조 작업도 사용하여 모델 수렴 및 디버깅을 돕습니다

그래서 우리가 실제로 본 FSD V12는 이전 시각화 콘텐츠를 거의 모두 유지하고 있으며, 이는 FSD V12가 원래의 강력한 인식 기반에서 엔드투엔드 교육을 받았으며 2020년 10월에 시작된 FSD 반복이 포기되지 않았음을 보여줍니다. , 이는 V12의 견고한 기술 기반이 되었습니다. Andrej Karparthy는 이전에도 비슷한 질문에 답변한 적이 있습니다. 비록 그가 V12 개발에 참여하지는 않았지만, 그는 이전의 모든 기술 축적이 버린 것이 아니라 단지 앞부분에서 뒷부분으로 옮겨졌을 뿐이라고 믿습니다. 따라서, 원천기술을 기반으로 룰코드의 일부를 단계적으로 제거하여 종단간 네비게이션이 점차 구현되고 있다.

2024년에는 중국의 엔드투엔드 자율주행에 실질적인 돌파구와 진전이 있을까요?

V12는 FSD에 대한 거의 모든 인식을 유지하고 콘 배럴과 같은 제한된 시각적 콘텐츠만 취소합니다.

의심 3: 학술 논문의 엔드투엔드를 실제 제품으로 마이그레이션할 수 있습니까?

UniAD가 2023 CVPR 최우수 논문으로 선정된 것은 의심할 여지 없이 엔드투엔드 자율 주행 시스템에 대한 학계의 높은 기대를 나타냅니다. 테슬라가 2021년 시각적 BEV 인식 기술 혁신을 선보인 이후 국내 학계는 자율주행 BEV 인식에 많은 열의를 쏟았고, BEV 방식의 성능 최적화와 구현 확산을 촉진하는 일련의 연구가 탄생했다. 그렇다면 엔드투엔드가 학계가 주도하고 업계가 뒤따르는 유사한 경로를 따라 제품에 엔드투엔드 기술의 신속한 반복 구현을 촉진할 수 있습니까? 상대적으로 어려운 것 같아요. 우선, BEV 센싱은 여전히 ​​상대적으로 모듈식 기술이며, 알고리즘 수준에 더 가깝고, 보급형 성능에는 그다지 많은 데이터량이 필요하지 않습니다. 고품질 학술 오픈 소스 데이터 세트 Nuscenes의 출시는 다음과 같은 편리한 전조를 제공합니다. 비록 Nuscenes에서 반복된 BEV 센싱 솔루션은 제품 수준의 성능 요구 사항을 충족할 수 없지만 개념 증명 및 모델 선택으로서 큰 참고 가치가 있습니다. 그러나 학계에는 대규모 엔드 투 엔드 데이터가 부족합니다. 현재 가장 큰 누플랜 데이터 세트에는 4개 도시의 실제 차량 수집 데이터 1,200시간이 포함되어 있다. 하지만 머스크는 2023년 재무보고 회의에서 엔드투엔드 자율주행을 위해 "100만 건의 영상 사례가 훈련됐고, 거의 작동하지 않습니다." ; 200만이면 약간 나아지고, 300만이면 와우를 느낄 것입니다. 1000만이면 성능이 놀라워집니다." Tesla의 Autopilot 반환 데이터는 일반적으로 1분 분량의 클립으로 간주되므로 보급형 100만 개의 비디오 사례는 약 16,000시간이며 이는 가장 큰 학술 데이터 세트보다 최소한 한 자릿수 이상입니다. 누플란은 지속적으로 데이터를 수집하기 때문에 데이터의 분포와 다양성에 치명적인 결함이 있습니다. 대부분의 데이터가 단순한 장면이기 때문에 누플랜과 같은 학술 데이터 세트를 사용하면 거의 기차에 탈 수 없는 버전도 얻을 수 없습니다.

2024년에는 중국의 엔드투엔드 자율주행에 실질적인 돌파구와 진전이 있을까요?

Nuplan 데이터 세트는 이미 매우 대규모의 학술 데이터 세트이지만, 엔드투엔드 솔루션으로서의 탐색만으로는 충분하지 않을 수 있습니다

그래서 우리는 엔드투엔드 자율주행의 대다수를 봅니다. UniAD를 포함한 운전 어떤 솔루션도 실제 차량에서 실행될 수 없으며 차선책으로 개방 루프 평가에만 의존할 수 있습니다. 개루프 평가 지표의 신뢰성은 매우 낮습니다. 왜냐하면 개루프 평가는 모델 혼동 및 원인-결과 문제를 식별할 수 없기 때문입니다. 따라서 모델이 과거 경로 외삽법을 사용하는 방법만 학습하더라도 매우 좋은 개루프를 얻을 수 있습니다. 2023년 Baidu는 개방형 계획 평가 지표의 단점을 논의하기 위해 AD-MLP(https://arxiv.org/pdf/2305.10430)라는 논문을 발표한 적이 있습니다. 종이는 과거 정보만을 사용했으며, 어떠한 인식도 도입하지 않은 채 현재의 일부 SOTA 작업에 가까운 매우 우수한 개방형 평가 지표를 얻었습니다. 그러나 눈을 감고 차를 잘 운전할 수 있는 사람은 아무도 없다는 것은 분명합니다.

2024년에는 중국의 엔드투엔드 자율주행에 실질적인 돌파구와 진전이 있을까요?

AD MLP는 감각 입력에 의존하지 않음으로써 우수한 개방 루프 지표를 달성합니다. 이는 개방 루프 지표를 참조로 사용하는 것이 실질적인 의미가 거의 없음을 보여줍니다.

따라서 폐쇄 루프 정책 검증이 문제를 해결할 수 있습니까? 개방형 모방 학습? 적어도 현재로서는 학계에서는 일반적으로 엔드 투 엔드 연구 개발을 위해 CARLA 폐쇄 루프 시뮬레이션 시스템에 의존하고 있지만 CARLA가 게임 엔진을 기반으로 얻은 모델도 현실 세계로 이전하기 어렵습니다.

의심 4: 엔드투엔드 자율주행은 단지 알고리즘 혁신에 불과할까요?

결국 end-to-end는 단순히 새로운 알고리즘이 아닙니다. 모듈형 자율주행 시스템의 다양한 모듈 모델은 해당 작업의 데이터를 사용하여 개별적으로 반복적으로 학습할 수 있지만, 엔드투엔드 시스템의 각 기능은 동시에 학습되므로 학습 데이터가 필요합니다. 매우 일관적이며 각 데이터 조각은 정확해야 합니다. 모든 하위 작업 레이블이 지정되면 작업 레이블 지정이 실패하면 엔드투엔드 교육 작업에서 이 데이터를 사용하기가 어려워집니다. 자동 라벨링 파이프라인의 속도 및 성능. 둘째, 엔드투엔드 시스템에서는 엔드투엔드 의사결정 계획 출력 작업에서 더 나은 결과를 얻기 위해 모든 모듈이 높은 성능 수준에 도달해야 합니다. 따라서 일반적으로 엔드투엔드의 데이터 임계값은 다음과 같습니다. 투엔드 시스템은 각 개별 모듈의 데이터 수요보다 훨씬 높으며, 데이터의 임계값은 절대적인 수량 요구 사항뿐만 아니라 데이터의 배포 및 다양성도 결정합니다. 다양한 모델의 고객이 있는 여러 공급업체에 적응해야 하므로 엔드투엔드 시스템을 개발할 때 더 큰 어려움에 직면할 수 있습니다. 컴퓨팅 성능의 문턱에서 머스크는 올해 3월 초 X.com에서 FSD의 가장 큰 제한 요소가 컴퓨팅 성능이라고 밝혔습니다. 최근 Boss Ma는 컴퓨팅 성능 문제가 거의 동시에 크게 개선되었다고 말했습니다. , 2024년 1분기 재무 보고 회의에서 Tesla는 현재 35,000개의 H100 컴퓨팅 리소스를 보유하고 있으며 이 숫자가 2024년 말까지 85,000개에 도달할 것이라고 밝혔습니다. Tesla가 매우 강력한 컴퓨팅 성능 엔지니어링 최적화 기능을 보유하고 있다는 것은 의심의 여지가 없습니다. 이는 FSD V12의 현재 수준에 도달하려면 35,000 H100과 수십억 달러의 인프라 자본 지출이 필요한 전제 조건이 될 가능성이 높다는 것을 의미합니다. Tesla만큼 효율적이지 않다면 이 임계값을 더 높일 수 있습니다.

2024년에는 중국의 엔드투엔드 자율주행에 실질적인 돌파구와 진전이 있을까요?

3월 초 머스크는 FSD 반복의 주요 제한 요인이 컴퓨팅 성능이라고 밝혔습니다

2024년에는 중국의 엔드투엔드 자율주행에 실질적인 돌파구와 진전이 있을까요?

4월 초 머스크는 올해 테슬라의 컴퓨팅 파워에 대한 총 투자가 100억 달러를 초과할 것이라고 밝혔습니다.

또한 http://X.com에서 한 네티즌이 올해 회의에서 Nvidia 자동차 산업 임원 Norm Marks의 스크린샷을 공유했는데, 이를 보면 2023년 말까지 Nvidia가 소유한 NV 그래픽 카드 수가 히스토그램에서 Tesla가 완전히 압도적입니다. (왼쪽 사진 맨 오른쪽의 녹색 화살표, 가운데 텍스트는 이 1위 OEM이 소유한 NV 그래픽 카드 수가 7,000개를 넘는 DGX 노드임을 설명합니다. 이 OEM은 분명히 Tesla입니다. 각 노드는 8개, 23개로 계산된다. 올해 말까지 테슬라는 아마도 56,000개 이상의 A100 그래픽 카드를 보유하게 될 것이며 이는 2위 OEM보다 4배 이상 많은 것으로 알고 있다. 2024년 신규 H100 카드 35,000장 구매). 미국의 중국 그래픽 카드 수출 제한 정책과 맞물려 이 컴퓨팅 파워를 따라잡기가 더욱 어려워지고 있습니다.

2024년에는 중국의 엔드투엔드 자율주행에 실질적인 돌파구와 진전이 있을까요?

Norm Marks는 내부적으로 스크린샷을 공유했습니다(소스: ). 가능한 한 빨리 문제를 감지하고, 데이터 기반 방식으로 문제를 해결하고, 규칙 코드를 사용할 수 없을 때 빠르게 반복하는 방법은 현재 대부분의 자율주행차에서 알 수 없는 과제입니다. R&D 팀을 이끌고 있습니다.

마지막 엔드 투 엔드는 여전히 현 자율주행 R&D팀의 조직 변화인데, L4 자율주행 이후 대부분의 자율주행 팀의 조직 구조가 인식 그룹, 예측 그룹, 예측 그룹으로만 나뉘는 것이 아니라 모듈식이기 때문입니다. 포지셔닝 그룹, 계획 제어 그룹, 심지어 인식 그룹도 시각적 인식, 레이저 인식 등으로 구분됩니다. 엔드투엔드 기술 아키텍처는 서로 다른 모듈 간의 인터페이스 장벽을 직접적으로 제거하므로 엔드투엔드 R&D 팀은 새로운 기술 패러다임에 적응하기 위해 모든 인적 자원을 통합해야 합니다. 이는 유연성이 떨어지는 팀 조직에 큰 도전입니다. 문화.

위 내용은 2024년에는 중국의 엔드투엔드 자율주행에 실질적인 돌파구와 진전이 있을까요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제