밀도 강화 학습을 도입하고 AI를 사용해 AI를 검증합니다.
자율주행차(AV) 기술의 급속한 발전으로 인해 우리는 100년 전 자동차 출현 이후 볼 수 없었던 규모의 교통 혁명을 앞두고 있습니다. 자율주행 기술은 교통안전, 이동성, 지속가능성을 획기적으로 향상시킬 수 있는 잠재력을 갖고 있어 업계, 정부기관, 전문단체, 학계의 주목을 받고 있습니다.
자율주행차의 개발은 특히 딥러닝의 출현과 함께 지난 20년 동안 큰 발전을 이루었습니다. 2015년부터 기업들은 2020년까지 AV를 대량 생산할 것이라고 발표하기 시작했습니다. 그러나 지금까지 시장에는 레벨 4 AV가 없습니다.
이 현상에는 여러 가지 이유가 있지만 가장 중요한 것은 자율주행차의 안전 성능이 여전히 인간 운전자의 안전 성능보다 현저히 낮다는 것입니다. 미국의 평균 운전자의 경우 자연 주행 환경(NDE)에서 충돌 확률은 마일당 약 1.9 × 10^-6입니다. 이에 비해 캘리포니아의 2021년 분리 보고서에 따르면 최첨단 자율주행 차량의 분리율은 약 2.0 × 10^-5/마일입니다.
참고: 이탈률은 자율 주행의 신뢰성을 평가하는 중요한 지표입니다. 이는 시스템에서 운전자가 1,000마일을 운전해야 하는 횟수를 나타냅니다. 시스템의 분리율이 낮을수록 신뢰성이 향상됩니다. 이탈률이 0이면 자율주행 시스템이 어느 정도 무인 수준에 도달했다는 뜻이다.
이탈률은 편향적이라는 비판을 받을 수 있지만, 자율주행차의 안전 성능을 평가하는 데 널리 사용되어 왔습니다.
자율주행차의 안전 성능 향상에 있어 가장 큰 걸림돌은 바로 낮은 안전 검증 효율성입니다. 현재 소프트웨어 시뮬레이션, 비공개 테스트 트랙 및 도로 테스트를 결합하여 자율주행차의 비파괴 테스트를 테스트하는 것이 인기가 있습니다. 결과적으로 AV 개발자는 평가를 위해 상당한 경제적, 시간적 비용을 부담해야 하며 AV 배포 진행을 방해합니다.
NDE 환경에서 AV 보안 성능을 확인하는 것은 매우 복잡합니다. 예를 들어 운전 환경은 공간과 시간이 복잡하기 때문에 이러한 환경을 정의하는 데 필요한 변수는 고차원적입니다. 변수의 차원이 기하급수적으로 증가함에 따라 계산의 복잡성도 증가합니다. 이 경우 딥러닝 모델은 많은 양의 데이터가 주어져도 학습하기 어렵습니다.
이 기사에서는 미시간 대학교, 앤아버 대학교, 칭화 대학교 및 기타 기관의 연구자들이 이 문제를 해결하기 위해 D2RL(밀도 심층 강화 학습) 방법을 제안합니다.
이 연구는 Nature 표지에 실렸습니다.
논문 작성 후 석사 학위를 받았습니다. 그는 현재 칭화 대학교 자동화학과의 조교수로 재직하고 있으며, 미시간 대학교의 조교수이기도 합니다. 교통 연구소(UMTRI). 그는 Zhang Yi 교수 지도 하에 2014년과 2019년에 칭화대학교 자동화학과에서 학사 및 박사 학위를 받았습니다. 2017년부터 2019년까지 그는 미시간대학교 토목환경공학과의 객원 박사과정 학생으로 Henry X. Liu 교수(본 논문의 교신저자) 밑에서 공부했습니다.
D2RL 방법의 기본 아이디어는 안전에 중요하지 않은 데이터를 식별 및 제거하고 안전에 중요하지 않은 데이터를 사용하여 신경망을 훈련시키는 것입니다. 보안에 중요한 데이터는 극히 일부이므로 나머지 데이터에는 정보가 많이 밀집되어 있습니다.
DRL 방법과 비교하여 D2RL 방법은 편견을 잃지 않고 정책 기울기 추정의 분산을 여러 자릿수로 크게 줄일 수 있습니다. 이러한 상당한 분산 감소를 통해 신경망은 DRL 방법으로는 다루기 힘든 작업을 학습하고 완료할 수 있습니다.
AV 테스트의 경우 이 연구에서는 D2RL 방법을 사용하여 신경망을 통해 배경 차량(BV)을 훈련하여 언제 어떤 적대적 작업을 수행할지 학습하여 테스트 효율성을 향상시킵니다. D2RL은 편견 없는 테스트를 보장하면서 AI 기반 적대적 테스트 환경에서 AV에 필요한 테스트 마일리지를 여러 배로 줄일 수 있습니다.
D2RL 방식은 기존 시나리오 기반 방식으로는 불가능했던 다중 고속도로, 교차로, 로터리 등 복잡한 주행 환경에 적용할 수 있습니다. 또한, 본 연구에서 제안하는 방법은 AI를 활용하여 AI를 검증하는 지능형 테스트 환경을 구축할 수 있다. 이는 다른 안전 필수 시스템의 테스트 및 교육을 가속화할 수 있는 문을 여는 패러다임 전환입니다.
AI 기반 테스트 방법의 유효성을 입증하기 위해 본 연구에서는 대규모 실제 주행 데이터 세트를 사용하여 BV를 교육하고 물리적 테스트 트랙에 대한 시뮬레이션 실험과 현장 실험을 수행했습니다. 실험 결과는 아래 그림 1과 같습니다.
Dense Deep Reinforcement Learning
AI 기술을 활용하기 위해 본 연구에서는 AV 테스트 문제를 현재 상태 정보를 기반으로 BV의 운영을 결정하는 Markov Decision Process(MDP)로 공식화합니다. 이 연구는 평가 효율성을 극대화하고 편견을 보장하기 위해 AV와 상호 작용하는 BV의 동작을 제어하는 신경망으로 모델링된 정책(DRL 에이전트)을 훈련하는 것을 목표로 합니다. 그러나 위에서 언급한 바와 같이 차원성과 계산 복잡도의 한계로 인해 DRL 방법을 직접 적용하면 효과적인 정책을 학습하는 것이 어렵거나 심지어 불가능할 수도 있습니다.
대부분의 상태는 중요하지 않고 보안이 중요한 이벤트에 대한 정보를 제공할 수 없기 때문에 D2RL은 이러한 중요하지 않은 상태에서 데이터를 제거하는 데 중점을 둡니다. AV 테스트 문제의 경우 다양한 보안 메트릭을 활용하여 다양한 효율성과 효과로 중요한 상태를 식별할 수 있습니다. 본 연구에서 활용된 중요도 측정 기준은 현재 상태의 특정 시간 프레임(예: 1초) 내 AV 충돌 비율의 외부 근사치입니다. 그런 다음 연구에서는 Markov 프로세스를 편집하여 중요하지 않은 상태에 대한 데이터를 삭제하고 나머지 데이터를 정책 경사 추정에 사용하고 Bootstrap을 DRL 훈련에 사용했습니다.
아래 그림 2에서 볼 수 있듯이 DRL과 비교하여 D2RL의 장점은 훈련 과정에서 보상을 극대화할 수 있다는 것입니다.
AV 시뮬레이션 테스트
D2RL 방법의 정확성, 효율성, 확장성 및 일반성을 평가하기 위해 본 연구에서는 시뮬레이션 테스트를 수행했습니다. 각 테스트 세트에 대해 연구에서는 고정된 교통 이동 거리를 시뮬레이션한 후 아래 그림 3과 같이 테스트 결과를 기록하고 분석했습니다.
D2RL의 확장성과 일반화에 대한 추가 연구를 위해 본 연구에서는 차선 수(2차선, 3차선)와 주행 거리(400m, 2km, 4km, 25km)를 달리한 AV-I 모델 실험을 수행했습니다. . 미국의 평균 통근자는 편도 약 25km를 이동하므로 이 기사에서는 25km 이동을 살펴봅니다. 결과는 표 1에 나와 있습니다.
위 내용은 강화학습이 다시 네이처 표지에 등장, 자율주행 안전 검증의 새로운 패러다임으로 시험 주행거리 대폭 단축의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!