Tesla는 지난 1년 동안 75,000개의 신경망을 훈련한 대표적인 AI 회사입니다. 이는 8분마다 새로운 모델이 생산된다는 의미입니다. Tesla 자동차에는 총 281개의 모델이 사용됩니다. 다음으로 Tesla FSD의 알고리즘과 모델 진행 상황을 여러 측면에서 해석해 보겠습니다.
올해 Tesla의 Perception Occupancy Network 핵심 기술 중 하나가 Occupancy Network입니다. 로봇공학을 공부하는 학생들은 점유 그리드에 대해 잘 알고 있을 것입니다. 이는 공간의 각 3D 복셀(복셀)이 점유되었는지 여부를 나타내며 0/1 이진 표현일 수도 있고 [0, 1] 사이의 값일 수도 있습니다.
자율주행 인식에 점유가 왜 중요한가요? 운전 중에는 차량, 보행자 등 일반적인 장애물 외에도 3D 객체 감지를 통해 위치와 크기를 추정할 수 있기 때문에 운전에 중요한 영향을 미치는 롱테일 장애물도 더 많이 있습니다. 예: 1. 2섹션 트레일러와 같은 변형 가능한 장애물은 3D 경계 상자로 표현하기에 적합하지 않습니다. 2. 전복된 차량과 같은 특수한 모양의 장애물은 3D 자세 추정이 유효하지 않습니다. 카테고리 도로 위의 돌, 쓰레기 등의 장애물은 분류할 수 없습니다. 따라서 우리는 이러한 롱테일 장애물을 설명하고 의미론과 움직임(흐름)까지 3D 공간에서 각 위치의 점유를 완전히 추정할 수 있는 더 나은 표현을 찾기를 희망합니다.
Tesla는 Occupancy Network의 힘을 보여주기 위해 아래 그림의 구체적인 예를 사용합니다. 3D 박스와 달리 점유 표현은 객체에 대해 너무 많은 기하학적 가정을 하지 않기 때문에 임의의 모양의 객체와 어떤 형태의 객체 움직임도 모델링할 수 있습니다. 그림은 2섹션 버스가 시작되는 장면을 보여줍니다. 파란색은 움직이는 복셀을 나타내고 빨간색은 고정된 복셀을 나타냅니다. Occupancy Network는 버스의 첫 번째 섹션이 움직이기 시작했고 버스의 두 번째 섹션이 시작되었음을 정확하게 추정합니다. 섹션이 아직 정지 상태입니다.
시작되는 두 버스의 점유 추정, 파란색은 움직이는 복셀, 빨간색은 고정된 복셀을 나타냅니다.
Occupancy Network의 모델 구조는 아래 그림과 같습니다. 첫째, 모델은 RegNet과 BiFPN을 사용하여 여러 카메라의 특징을 얻습니다. 이 구조는 작년 AI 데이에 공유된 네트워크 구조와 일치하여 백본이 크게 변경되지 않았음을 나타냅니다. 그런 다음 모델은 3D 공간 위치에 대한 공간 쿼리를 통해 2D 이미지 특징에 대해 주의 기반 다중 카메라 융합을 수행합니다. 3D 공간 쿼리와 2D 피처 맵 간의 연결을 어떻게 실현합니까? 구체적인 융합 방법은 그림에 자세히 나와 있지 않으나, 참고할 수 있는 공개 논문이 많이 있다. 가장 가능성 있는 해결책은 두 가지 솔루션 중 하나라고 생각합니다. 첫 번째는 3D-to-2D 쿼리로, 각 카메라의 내부 및 외부 매개변수를 기반으로 3D 공간 쿼리를 2D 기능 맵에 투영하여 기능을 추출합니다. 해당 위치. 이 방법은 DETR3D에서 제안되었으며, BEVFormer와 PolarFormer도 이 아이디어를 채택했습니다. 두 번째는 위치 임베딩을 사용하여 암시적 매핑을 수행하는 것입니다. 즉, 카메라 내부 및 외부 매개변수, 픽셀 좌표 등과 같은 2D 기능 맵의 각 위치에 합리적인 위치 임베딩을 추가한 다음 모델이 대응성을 학습하도록 하는 것입니다. 2D와 3D 기능 사이. 다음으로, 모델은 차량의 알려진 위치 및 자세 변화를 기반으로 3D 특징 공간을 접합하여 달성되는 시계열 융합을 거칩니다.
점유 네트워크 구조
기능 융합 후 디콘볼루션 기반 디코더는 각 3D 공간 위치의 점유, 의미 및 흐름을 디코딩합니다. 기자회견에서는 이 네트워크의 출력이 밀도가 높기 때문에 출력 해상도가 메모리에 의해 제한될 것이라고 강조했습니다. 저는 이것이 이미지 분할을 하는 모든 학생들에게도 큰 골칫거리라고 생각합니다. 게다가 우리가 여기서 하고 있는 것은 3D 분할이지만, 자율 주행은 매우 높은 해상도(~10cm)를 요구합니다. 따라서 신경 암시적 표현에서 영감을 받아 모델 마지막에 추가 암시적 쿼리 가능 MLP 디코더를 설계하고 임의의 좌표 값(x, y, z)을 입력하여 공간 위치 정보, 즉 직업을 디코딩할 수 있습니다. , 의미론, 흐름. 이 방법은 모델 해상도의 한계를 깨뜨린 것이 디자인의 하이라이트라고 생각합니다.
플래닝은 자율주행의 또 다른 중요한 모듈입니다. 이번에 Tesla는 복잡한 교차로에서의 모델링 상호작용을 주로 강조합니다. 상호작용 모델링이 왜 그렇게 중요한가요? 다른 차량과 보행자의 미래 행동에는 어느 정도 불확실성이 있기 때문에 스마트 계획 모듈은 온라인에서 자가 차량과 다른 차량 간의 다양한 상호 작용을 예측하고 각 상호 작용으로 인한 위험을 평가한 후 마지막으로 어떤 전략을 결정해야 합니다. 채택하다.
Tesla는 상호작용 검색을 사용하는 계획 모델을 부르는데, 이는 주로 트리 검색, 신경망 궤적 계획 및 궤적 점수 매기기의 세 가지 주요 단계로 구성됩니다.
1. 트리 검색은 궤적 계획에 일반적으로 사용되는 알고리즘으로, 다양한 상호 작용 상황을 효과적으로 발견하고 최적의 솔루션을 찾을 수 있습니다. 그러나 궤적 계획 문제를 해결하기 위해 검색 방법을 사용할 때 직면하는 가장 큰 어려움은 검색 공간입니다. 너무 큰. 예를 들어, 복잡한 교차로에서 자신과 관련된 차량이 20개가 있을 수 있으며, 이는 100개 이상의 상호작용 방법으로 결합될 수 있으며, 각 상호작용 방법은 수십 개의 시공간 궤적을 후보로 가질 수 있습니다. 따라서 Tesla는 궤적 검색 방법을 사용하지 않고 신경망을 사용하여 일정 시간 후에 도달할 수 있는 목표 위치(목표)를 점수화하고 소수의 더 나은 목표를 획득했습니다.
2. 목표를 결정한 후에는 목표에 도달하기 위한 궤적을 결정해야 합니다. 기존 계획 방법에서는 이 문제를 해결하기 위해 최적화를 사용하는 경우가 많습니다. 각 최적화에는 약 1~5밀리초가 소요됩니다. 그러나 이전 단계에서 트리 검색을 통해 주어진 후보 대상이 많으면 불가능합니다. 시간 비용 측면에서 문제를 해결하십시오. 따라서 Tesla는 여러 후보 목표에 대한 고도의 병렬 계획을 달성하기 위해 궤도 계획에 또 다른 신경망을 사용할 것을 제안했습니다. 이 신경망을 훈련하기 위한 궤적 레이블에는 두 가지 소스가 있습니다. 첫 번째는 실제 인간 운전의 궤적이지만 인간 운전의 궤적은 더 나은 솔루션 중 하나일 뿐이므로 두 번째 소스는 오프라인 최적화를 통한 것입니다. 기타 알고리즘에 의해 생성된 궤적 솔루션.
3. 일련의 실행 가능한 궤적을 얻은 후 최적의 솔루션을 선택해야 합니다. 여기서 채택된 솔루션은 획득된 궤적을 점수화하는 것입니다. 점수화 솔루션은 인위적으로 공식화된 위험 지표, 편안함 지표 및 신경망 득점자를 결합합니다.
위 3단계의 분리를 통해 Tesla는 상호작용을 고려한 효율적인 궤적 계획 모듈을 구현했습니다. 신경망 기반 궤도 계획에 참고할 수 있는 논문은 많지 않습니다. 저는 이 방법과 상대적으로 관련된 논문 TNT[5]를 발표했습니다. 이는 또한 궤도 예측 문제를 위의 세 단계로 분해하여 해결합니다. 채점, 궤도 계획, 궤도 채점. 관심 있는 독자들은 자세한 내용을 확인하실 수 있습니다. 또한, 우리 연구 그룹은 행동 상호 작용 및 계획과 관련된 문제를 탐구해 왔으며 누구나 최신 연구인 InterSim[6]에 관심을 가질 수 있습니다.
상호작용 검색 계획 모델 구조
개인적으로 이번 AI Day의 또 다른 주요 기술적 하이라이트는 온라인 벡터 지도 구축 모델인 Lanes Network라고 생각합니다. 지난해 AI Day에 주목한 학생들은 Tesla가 BEV 공간에서 완전한 온라인 분할 및 지도 인식을 수행했다는 것을 기억할 것입니다. 그렇다면 왜 우리는 여전히 Lanes Network를 구축하려는 걸까요? 분할된 픽셀 수준의 차선은 궤적 계획에 충분하지 않기 때문에 자동차가 한 차선에서 다른 차선으로 바뀔 수 있다는 것을 알기 위해서는 차선의 토폴로지를 얻어야 합니다.
먼저 벡터맵이 무엇인지 살펴보겠습니다. 그림과 같이 Tesla의 벡터맵은 일련의 파란색 차선 중심선과 몇 가지 핵심 포인트(연결점, 분기점, 점)로 구성되어 있습니다. 병합)을 수행하고 이들의 연결 관계를 그래프 형태로 표현합니다.
벡터맵, 점은 차선의 핵심 포인트, 파란색은 차선 중앙선
Lanes Network는 모델 구조 측면에서 지각 네트워크의 백본을 기반으로 하는 디코더입니다. 각 복셀의 점유 및 의미를 디코딩하는 것과 비교할 때 출력 수가 고정되지 않고 출력 수량 간에 논리적 관계가 있기 때문에 일련의 희박하고 연결된 차선을 디코딩하는 것이 더 어렵습니다.
Tesla는 자연어 모델의 Transformer 디코더를 말하며 결과를 순차적으로 자동 회귀적으로 출력합니다. 구체적인 구현 측면에서 먼저 생성 순서(예: 왼쪽에서 오른쪽, 위에서 아래)를 선택하고 공간을 이산화(토큰화)해야 합니다. 그런 다음 Lanes Network를 사용하여 일련의 개별 토큰을 예측할 수 있습니다. 그림에서 볼 수 있듯이 네트워크는 먼저 노드의 대략적인 위치(인덱스: 18)와 정확한 위치(인덱스: 31)를 예측한 다음 노드의 의미("Start")를 예측합니다. 차선)을 생성하고 최종적으로 분기/병합/곡률 매개변수 등과 같은 연결 특성을 예측합니다. 네트워크는 이러한 자동 회귀 방식으로 모든 차선 노드를 생성합니다.
Lanes 네트워크 네트워크 구조
자동회귀 시퀀스 생성은 언어 Transformer 모델의 특허가 아니라는 점에 유의해야 합니다. 우리 연구 그룹은 또한 지난 몇 년 동안 벡터 맵 생성에 관한 두 개의 관련 논문인 HDMapGen[7]과 VectorMapNet[8]을 발표했습니다. HDMapGen은 GAT(Graph Neural Network with Attention)를 사용하여 Tesla의 솔루션과 유사한 벡터 맵의 핵심 포인트를 자동 회귀적으로 생성합니다. VectorMapNet은 DETR(Detection Transformer)을 사용하여 이 문제를 해결하고 설정된 예측 솔루션을 사용하여 벡터 맵을 더 빠르게 생성합니다.
HDMapGen 벡터 맵 생성 결과
VectorMapNet 벡터 맵 생성 결과
자동 라벨링도 지난해 테슬라의 AI였던 기술 올해 자동 주석은 Lanes Network의 자동 주석에 중점을 두고 설명했습니다. Tesla 자동차는 매일 500,000회의 운전 여정(여행)을 생성할 수 있으며, 이 운전 데이터를 잘 활용하면 차선 예측에 더 효과적으로 도움이 될 수 있습니다.
Tesla의 자동 차선 표시는 세 단계로 구성됩니다.
1 시각적 관성 주행 거리 측정(visual inertial odometry) 기술을 사용하여 모든 여행에 대한 고정밀 궤적을 추정합니다.
2. 여러 차량과 여러 여행의 지도 재구성은 이 계획에서 가장 중요한 단계입니다. 이 단계의 기본 동기는 서로 다른 차량이 서로 다른 공간 각도와 시간에서 동일한 위치를 관찰할 수 있으므로 이 정보를 집계하면 더 나은 지도 재구성으로 이어질 수 있다는 것입니다. 이 단계의 기술적 포인트에는 맵 간의 기하학적 매칭과 결과의 공동 최적화가 포함됩니다.
3. 새로운 여행을 위한 자동 차선 표시. 고정밀 오프라인 지도 재구성 결과가 있는 경우, 새로운 여행이 발생할 때 간단한 기하학적 일치를 수행하여 새로운 여행 차선의 의사 참값(의사 라벨)을 얻을 수 있습니다. 의사 참 값을 얻는 이 방법은 때때로 수동 주석(야간, 비오는 날, 안개가 낀 날)보다 훨씬 낫습니다.
차선 네트워크 자동 라벨링
시각적 이미지 시뮬레이션은 최근 몇 년간 컴퓨터 비전 분야에서 인기 있는 방향입니다. 자율 주행에서 시각적 시뮬레이션의 주요 목적은 특정 방식으로 희귀한 장면을 생성하여 실제 도로 테스트에서 운을 시험할 필요를 없애는 것입니다. 예를 들어, 테슬라는 도로 한가운데에 대형 트럭이 누워 있는 장면을 보면 항상 머리가 아프다. 그러나 시각적 시뮬레이션은 단순한 문제가 아닙니다. 복잡한 교차로(샌프란시스코의 Market Street)의 경우 기존 모델링 및 렌더링을 사용하는 솔루션에는 디자이너에게 2주가 필요합니다. Tesla의 AI 기반 솔루션은 이제 단 5분 밖에 걸리지 않습니다.
교차로를 재구성한 시각적 시뮬레이션
특히 시각적 시뮬레이션의 전제 조건은 자동으로 라벨링된 실제 도로 정보와 풍부한 그래픽 자료 라이브러리를 준비하는 것입니다. 그런 다음 다음 단계를 순서대로 진행합니다.
1. 포장 생성: 도로 경사, 재료 및 기타 세부 정보를 포함하여 연석에 따라 도로 표면을 채웁니다.
2. 차선 생성: 노면에 차선 정보를 그립니다.
3. 식물 및 건물 생성: 도로와 길가 사이에 식물과 집을 무작위로 생성하고 렌더링합니다. 식물과 건물을 생성하는 목적은 시각적 아름다움뿐만 아니라 현실 세계에서 이러한 개체로 인해 발생하는 폐색 효과도 시뮬레이션합니다.
4. 신호등, 거리 표지판, 가져오기 차선 및 연결 관계와 같은 기타 도로 요소를 생성합니다.
5. 차량, 보행자 등 역동적인 요소를 추가하세요.
마지막으로 강력한 인프라인 Tesla의 소프트웨어 기술 시리즈의 기반에 대해 간략하게 이야기하겠습니다. Tesla의 슈퍼컴퓨팅 센터에는 14,000개의 GPU와 총 30PB의 데이터 캐시가 있으며 매일 500,000개의 새로운 비디오가 이러한 슈퍼컴퓨터로 유입됩니다. 이 데이터를 보다 효율적으로 처리하기 위해 Tesla는 가속 비디오 디코딩 라이브러리와 중간 기능 읽기 및 쓰기를 가속화하는 파일 형식 .smol 파일 형식을 특별히 개발했습니다. 또한 Tesla는 슈퍼컴퓨팅 센터를 위한 자체 칩 Dojo도 개발했는데 이에 대해서는 여기서 설명하지 않겠습니다.
비디오 모델 훈련을 위한 슈퍼컴퓨팅 센터
지난 2년 동안 Tesla AI Day 콘텐츠가 출시되면서 우리는 Tesla를 서서히 명확하게 보았습니다. 기술 환경에 관해 자율주행(보조) 주행 방향에서는 2D 인식, BEV 인식, 점유 네트워크(Occupancy Network) 등 Tesla 자체가 끊임없이 반복되는 모습도 보았습니다. 자율주행은 수천 마일에 달하는 긴 여정입니다. Tesla의 기술 발전을 뒷받침하는 것은 무엇일까요? 시각적 알고리즘이 제공하는 완전한 장면 이해 능력, 강력한 컴퓨팅 성능이 지원하는 모델 반복 속도, 대용량 데이터가 제공하는 일반화라는 세 가지 포인트가 있다고 생각합니다. 이것이 딥러닝 시대의 세 가지 기둥이 아닐까요?
위 내용은 Tesla의 자율주행 알고리즘 및 모델 해석의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!