이전에는 강화 학습, 특히 오프라인 연속 제어 분야에서 Transformer 및 Diffusion Model을 기반으로 한 시퀀스 모델링 방법의 적용을 소개했습니다. 그 중 Trajectory Transformer(TT)와 Diffusser는 모델 기반 계획 알고리즘으로 매우 고정밀한 궤도 예측과 좋은 유연성을 보이지만 상대적으로 의사 결정 지연이 높습니다. 특히 TT는 각 차원을 시퀀스의 심볼로 독립적으로 이산화하기 때문에 전체 시퀀스가 매우 길어지고, 상태와 동작의 차원이 커질수록 시퀀스 생성에 소요되는 시간도 급격히 증가하게 됩니다.
궤적 생성 모델이 실무 수준의 의사 결정 속도를 달성할 수 있도록 하기 위해 Diffusser와 병렬로 효율적인 궤적 생성 및 의사 결정을 수행하는 프로젝트를 시작했습니다(중복되지만 나중에 발생할 수도 있음). 우리의 첫 번째 생각은 전체 궤적 분포에 맞게 이산 분포 대신 연속 공간에서 Transformer+Gaussian의 혼합을 사용하는 것입니다. 구현 문제가 배제되지는 않지만 이 접근 방식에서는 상대적으로 안정적인 발전 모델을 얻을 수 없었습니다. 그런 다음 VAE(Variational Autoencoder)를 시도하고 몇 가지 획기적인 발전을 이루었습니다. 그러나 VAE의 재구성 정확도는 특별히 이상적이지 않으므로 다운스트림 제어 성능이 TT와 상당히 다릅니다. 여러 차례의 반복 끝에 우리는 마침내 VQ-VAE를 궤적 생성을 위한 기본 모델로 선택했고, 마침내 효율적으로 샘플링하고 계획할 수 있으며 고차원 제어 작업에서 다른 모델 기반 방법보다 훨씬 더 나은 성능을 발휘하는 새로운 알고리즘을 얻었습니다. 우리는 TAP(Trajectory Autoencoding Planner)를 호출했습니다.
단일 GPU에서 TAP는 20Hz의 의사결정 효율성으로 온라인 의사결정을 쉽게 수행할 수 있습니다. 저차원 D4RL 작업에서는 의사결정 지연이 발생합니다. TT의 약 1%에 불과합니다. 더 중요한 것은 작업 상태와 행동 차원 D가 증가함에 따라 TT의 이론적 의사결정 지연은 큐브 에 따라 증가하고 Diffusser는 이론적으로 선형적으로 증가하는 반면 TAP의 의사결정 속도는 그렇지 않습니다. 차원의 영향을 받습니다 . 에이전트의 의사결정 성능 측면에서는 Action 차원이 증가할수록 TAP의 성능이 다른 방법에 비해 향상되며, 특히 모델 기반 방법(예: TT)에 비해 향상이 뚜렷합니다.
의사 결정 및 제어 작업에 대한 의사 결정 지연의 중요성은 매우 분명합니다. MuZero와 같은 알고리즘은 시뮬레이션 환경에서 잘 작동하지만 현실 세계에서 실시간 및 빠른 응답이 필요한 작업에 직면하면 의사 결정이 지연됩니다. -지연 시간이 너무 길면 배포에 큰 어려움이 될 것입니다. 또한, 시뮬레이션 환경이 있다는 전제하에 느린 의사결정 속도는 유사한 알고리즘에 대한 테스트 비용도 높을 것이며, 온라인 강화학습에 사용되는 비용도 상대적으로 높을 것입니다.
또한 시퀀스 생성 모델링 방법을 더 높은 차원의 작업으로 원활하게 확장할 수 있도록 하는 것도 TAP의 매우 중요한 기여라고 믿습니다. 현실 세계에서는 강화 학습이 궁극적으로 해결할 수 있기를 바라는 대부분의 문제가 실제로 더 높은 상태 및 행동 차원을 가지고 있습니다. 예를 들어 자율 주행의 경우 다양한 센서의 입력이 다양한 지각 수준에서 전처리된 후에도 100 미만일 가능성이 없습니다. 복잡한 로봇 제어 역시 인간의 모든 관절의 자유도가 약 240차원인 경우가 많으며, 이는 인간만큼 유연한 로봇에도 마찬가지로 고차원적인 동작이 필요합니다. 공간.
점차적으로 크기가 증가하는 4가지 작업 세트
작업 차원이 커짐에 따라 결정 대기 시간 및 상대 모델 성능의 변화
먼저, 원래 VQ-VAE와 동일한 VQ-VAE의 오토인코더 부분을 훈련시킵니다. 두 가지 다른 . 첫 번째 차이점은 인코더와 디코더 모두 CNN이 아닌 Causal Transformer를 기반으로 한다는 것입니다. 두 번째 차이점은 조건부 확률 분포를 학습하며 모델링되는 가능한 궤적은 현재 상태에서 시작해야 한다는 것입니다. 오토인코더는 현재 상태에서 시작하는 궤적과 잠재 코드 사이의 양방향 매핑을 학습합니다. 이러한 잠재 코드는 원래 궤적과 마찬가지로 시간순으로 정렬되며 각 잠재 코드는 실제 단계 궤적에 매핑됩니다. Causal Transformer를 사용하기 때문에 시간 순위가 낮은 잠재 코드(예: )는 더 높은 순위의 시퀀스(예: )에 정보를 전송하지 않으므로 TAP가 첫 번째 N 잠재 코드를 전달할 수 있습니다. 부분적으로 궤적을 디코딩합니다. 길이가 NL이므로 후속 계획에 사용할 때 매우 유용합니다.
그런 다음 다른 GPT-2 스타일 변환기를 사용하여 이러한 잠재 코드의 조건부 확률 분포를 모델링합니다. :
결정을 내릴 때 잠재 변수를 전달할 수 있습니다. 원래의 행동 공간에서 최적화하기보다는 공간 내에서 최적화하여 최상의 미래 궤적을 찾으세요. 매우 간단하지만 효과적인 방법은 잠재 코딩 분포에서 직접 샘플링한 다음 아래와 같이 가장 성능이 좋은 궤적을 선택하는 것입니다.
최적 궤적(객관 점수)을 선택할 때 참조하는 목표 점수는 궤도의 예상 수익(보상과 마지막 단계의 가치 평가)과 궤도 자체의 타당성 또는 확률을 모두 고려하십시오. 다음 공식과 같이 는 최고 수익보다 훨씬 큰 숫자입니다. 궤적의 확률이 임계값 보다 높을 때 이 궤적을 판단하는 기준은 예상 수익입니다(빨간색으로 강조 표시됨). ), 그렇지 않으면 궤적 자체의 확률이 지배적인 부분이 됩니다(파란색으로 강조 표시됨). 즉, TAP은 임계값보다 큰 궤적 중에서 기대 수익이 가장 높은 것을 선택합니다.
샘플 수가 충분히 크더라도 예측 시퀀스가 짧을 때 직접 샘플링도 매우 효과적일 수 있습니다. 샘플 수와 계획에 필요한 총 시간을 제한한다는 전제 하에 더 나은 최적화 프로그램을 사용하면 더 나은 결과를 얻을 수 있습니다. 좋은 성과. 다음 두 애니메이션은 미래 144단계를 예측할 때 직접 샘플링과 빔 검색으로 생성된 궤적 간의 차이를 보여줍니다. 이러한 궤적은 최종 목표 점수를 기준으로 정렬되어 있으며 최상위 레이어의 궤적은 점수가 높고 그 뒤에 쌓인 궤적은 점수가 낮습니다. 또한 점수가 낮은 궤적은 투명도도 낮습니다.
사진에서 직접 샘플링으로 생성된 궤적의 역학 중 상당수가 불안정하고 물리적 법칙을 따르지 않는 것을 볼 수 있습니다. 특히 배경의 가벼운 궤적은 거의 떠 있습니다. 이는 모두 상대적으로 확률이 낮은 궤적이며 최종 계획이 선택되면 제거됩니다. 앞줄의 궤적은 좀 더 역동적으로 보이지만 그에 상응하는 성능이 상대적으로 좋지 않아 떨어질 것 같다. 반면, 빔 검색은 다음 숨겨진 변수를 확장할 때 궤적의 확률을 동적으로 고려하므로 확률이 매우 낮은 분기가 조기에 종료되므로 생성된 후보 궤적이 더 나은 성능과 가능성을 가진 분기에 집중됩니다. 트랙이 주변에 있습니다. E 직접 샘플링 aBeam Search
실험 결과
더 높은 수준의 가치 평가 및 전략적 개선 없이 예측 정확도의 장점에만 의존하고 저차원 작업에서 TAP는 다른 오프라인 강화 학습과 비슷한 성능을 달성했습니다.
gym locomotion control
고차원 작업에서 TAP는 모델 기반 방법의 성능도 일반적인 모델 없는 방법보다 성능이 뛰어납니다. 실제로 아직 답변되지 않은 두 가지 공개 질문이 있습니다. 첫 번째는 이전 모델 기반 방법이 이러한 고차원 오프라인 강화 학습 작업에서 제대로 수행되지 않는 이유이고, 두 번째는 TAP가 이러한 작업에서 많은 모델 없는 방법보다 성능이 뛰어난 이유입니다. 우리의 가정 중 하나는 정책이 행동 정책에서 너무 많이 벗어나는 것을 방지하는 동시에 고차원 문제에 대한 정책을 최적화하는 것이 매우 어렵다는 것입니다. 모델을 학습할 때 모델 자체의 오류로 인해 이러한 어려움이 증폭될 수 있습니다. TAP는 최적화 공간을 작은 개별 숨겨진 변수 공간으로 이동하여 전체 최적화 프로세스를 더욱 강력하게 만듭니다.
adroit 로봇 손 제어
몇 가지 슬라이스 연구
TAP의 많은 설계에 대해 체육관 운동 제어 작업에 대한 일련의 슬라이스 연구도 수행했습니다. 첫 번째는 각 잠재 코드가 실제로 대응하는 궤적의 단계 수입니다(노란색 히스토그램). 잠재 변수를 다단계 상태 전이에 대응시키는 것은 계산상의 이점을 가질 뿐만 아니라 최종 모델도 향상시킨다는 사실이 입증되었습니다. 성능. 검색 목적 함수(빨간색 히스토그램)에서 낮은 확률의 궤적 페널티를 유발하는 임계값을 조정함으로써 목적 함수의 두 부분이 모델의 최종 성능에 실제로 도움이 된다는 것도 확인했습니다. 또 다른 점은 미래에 계획된 단계 수(계획 기간, 파란색 히스토그램)가 모델 성능에 거의 영향을 미치지 않는다는 점입니다. 배포 후 검색에서는 숨겨진 변수가 하나만 확장되더라도 최종 에이전트의 성능은 저하될 뿐입니다. 약 10%.
마지막으로 직접 샘플링(녹색 히스토그램)에서 TAP의 성능을 시험했습니다. 여기에서 샘플링된 샘플 수는 2048개이고 위 애니메이션의 수는 256개에 불과하며 위 애니메이션은 다음 144단계에 대한 계획을 생성하지만 실제로 우리의 기본 모델은 15단계에 대한 계획을 지시합니다. 결론적으로 직접 샘플링은 샘플 수가 충분하고 계획된 경로가 길지 않을 때 빔 검색과 유사한 성능을 얻을 수 있다는 것입니다. 그러나 이것은 잠재 변수의 학습된 조건부 분포에서 샘플링하는 경우입니다. 잠재 코딩에서 동일한 확률로 직접 샘플링하면 결국 전체 TAP 모델보다 훨씬 나쁩니다.
슬라이스 연구 결과
위 내용은 단일 GPU로 20Hz 온라인 의사결정, 시퀀스 생성 모델을 기반으로 최신의 효율적인 궤적 계획 방법 해석 실현의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!