>기술 주변기기 >일체 포함 >확산 모델은 어떻게 차세대 의사 결정 주체를 구축합니까? 자동 회귀를 넘어 긴 시퀀스 계획 궤적을 동시에 생성합니다.

확산 모델은 어떻게 차세대 의사 결정 주체를 구축합니까? 자동 회귀를 넘어 긴 시퀀스 계획 궤적을 동시에 생성합니다.

王林
王林앞으로
2024-03-11 13:01:151107검색

방에 서서 문을 향해 걸어갈 준비를 하고 있을 때 자동회귀를 통해 점진적으로 경로를 계획하고 있다고 상상해 보세요. 실제로 경로는 한 번에 전체적으로 생성됩니다.

최신 연구에서는 확산 모델을 사용하는 계획 모듈이 동시에 긴 시퀀스 궤적 계획을 생성할 수 있으며 이는 인간의 의사 결정에 더 부합한다고 지적합니다. 또한, 확산 모델은 정책 표현 및 데이터 합성 측면에서 기존 의사결정 지능 알고리즘에 보다 최적화된 솔루션을 제공할 수도 있습니다.

Shanghai Jiao Tong University 팀이 작성한 리뷰 논문 "강화 학습을 위한 확산 모델: 설문 조사"는 강화 학습과 관련된 분야에서 확산 모델의 적용을 빗나가고 있습니다. 리뷰에서는 기존 강화학습 알고리즘이 긴 순서 계획의 오류 누적, 제한된 정책 표현 기능, 부족한 대화형 데이터 등의 문제에 직면해 있다고 지적합니다. 확산 모델은 강화학습 문제를 해결하는 데 장점이 있으며 위의 문제를 해결하는 데 사용되었습니다. . 오랜 도전은 새로운 아이디어를 가져옵니다. 논문 링크: https://arxiv.org/abs/2311.01223

확산 모델은 어떻게 차세대 의사 결정 주체를 구축합니까? 자동 회귀를 넘어 긴 시퀀스 계획 궤적을 동시에 생성합니다.

프로젝트 주소: https://github.com/apexrl/Diff4RLSurvey

이 리뷰는 확산 모델 학습에서의 역할을 분류하고, 다양한 강화학습 시나리오에서 확산 모델의 성공적인 사례를 요약합니다. 마지막으로, 강화학습 문제를 해결하기 위해 확산 모델을 활용하는 향후 개발 방향을 기대한다.

그림은 고전적인 에이전트-환경-경험 재생 풀 주기에서 확산 모델의 역할을 보여줍니다. 기존 솔루션과 비교하여 확산 모델은 시스템에 새로운 요소를 도입하고 보다 포괄적인 정보 상호 작용 및 학습 기회를 제공합니다. 이런 방식으로 에이전트는 환경 변화에 더 잘 적응하고 의사 결정을 최적화할 수 있습니다

확산 모델은 어떻게 차세대 의사 결정 주체를 구축합니까? 자동 회귀를 넘어 긴 시퀀스 계획 궤적을 동시에 생성합니다.

강화 학습에서 확산 모델의 역할

이 기사는 강화 학습에서 확산 모델의 역할에 따라 분류됩니다. 확산모델의 적용방법과 특성을 비교한다.

그림 2: 강화 학습에서 확산 모델이 수행하는 다양한 역할.

확산 모델은 어떻게 차세대 의사 결정 주체를 구축합니까? 자동 회귀를 넘어 긴 시퀀스 계획 궤적을 동시에 생성합니다.

궤적 계획

강화 학습의 계획이란 동적 모델을 사용하여 상상 속에서 결정을 내린 다음 적절한 조치를 선택하여 누적 보상을 최대화하는 것을 의미합니다. 계획 프로세스에서는 의사 결정의 장기적인 효율성을 향상시키기 위해 일련의 작업과 상태를 탐색하는 경우가 많습니다. 모델 기반 강화 학습(MBRL) 프레임워크에서 계획 순서는 종종 자동 회귀 방식으로 시뮬레이션되어 오류가 누적됩니다. 확산 모델은 다단계 계획 순서를 동시에 생성할 수 있습니다. 확산모델을 활용한 기존 기사에서 생성된 타겟은 (s,a,r), (s,a), only s, only a 등 매우 다양합니다. 온라인 평가 중에 높은 보상 궤적을 생성하기 위해 많은 작업에서는 분류기 유무에 관계없이 안내 샘플링 기술을 사용합니다.

정책 표현

확산 플래너는 기존 강화 학습의 MBRL과 더 유사합니다. 반면, 확산 모델을 정책으로 사용하는 것은 모델 없는 강화 학습과 더 유사합니다. Diffusion-QL은 먼저 확산 전략과 Q-learning 프레임워크를 결합합니다. 확산 모델은 기존 모델보다 다중 모드 분포를 훨씬 더 잘 맞출 수 있기 때문에 확산 전략은 여러 행동 전략으로 샘플링된 다중 모드 데이터 세트에서 잘 수행됩니다. 확산 전략은 일반적인 전략과 동일하며 일반적으로 Q(s,a) 함수의 최대화를 고려하면서 상태를 조건으로 액션을 생성합니다. Diffusion-QL과 같은 방법은 확산 모델을 훈련할 때 가중치 함수 항을 추가하는 반면, CEP는 에너지 관점에서 가중 회귀 목표를 구성하고 가치 함수를 확산 모델에서 학습한 동작 분포를 조정하는 요인으로 사용합니다.

데이터 합성

확산 모델은 오프라인이나 온라인 강화 학습에서 희소 데이터 문제를 완화하기 위한 데이터 합성기로 사용할 수 있습니다. 기존의 강화 학습 데이터 향상 방법은 일반적으로 원본 데이터를 약간만 교란할 수 있는 반면, 확산 모델의 강력한 분포 피팅 기능을 사용하면 전체 데이터 세트의 분포를 직접 학습한 다음 새로운 고품질 데이터를 샘플링할 수 있습니다.

다른 유형

위 카테고리 외에도 확산 모델을 다른 방식으로 활용한 작품도 산재해 있습니다. 예를 들어 DVF는 확산 모델을 사용하여 가치 함수를 추정합니다. LDCQ는 먼저 잠재 공간으로의 궤적을 인코딩한 다음 잠재 공간에 확산 모델을 적용합니다. PolyGRAD는 확산 모델을 사용하여 학습 환경을 동적으로 전송함으로써 정책과 모델 상호 작용을 통해 정책 학습 효율성을 향상시킵니다.

다양한 강화 학습 관련 문제에 적용

오프라인 강화 학습

확산 모델의 도입은 오프라인 강화 학습 전략이 다중 모드 데이터 분포에 적합하도록 돕고 전략의 특성화를 확장합니다. 능력. Diffuser는 먼저 분류자 지침을 기반으로 하는 고보상 궤도 생성 알고리즘을 제안했으며 많은 후속 작업에 영감을 주었습니다. 동시에 확산 모델은 다중 작업 및 다중 에이전트 강화 학습 시나리오에도 적용될 수 있습니다.

확산 모델은 어떻게 차세대 의사 결정 주체를 구축합니까? 자동 회귀를 넘어 긴 시퀀스 계획 궤적을 동시에 생성합니다.

그림 3: 디퓨저 궤적 생성 프로세스 및 모델의 도식 다이어그램

온라인 강화 학습

연구원들은 확산 모델이 가치 기능과 전략을 최적화하는 능력도 있음을 입증했습니다. 온라인 강화 학습. 예를 들어 DIPO는 행동 데이터에 레이블을 다시 지정하고 확산 모델 훈련을 사용하여 가치 기반 훈련의 불안정성을 방지합니다. CPQL은 전략으로서의 단일 단계 샘플링 확산 모델이 상호 작용 중에 탐색과 활용의 균형을 맞출 수 있음을 확인했습니다.

모방 학습

모방 학습은 전문가의 시연 데이터를 학습하여 전문가의 행동을 재구성합니다. 확산모델을 적용하면 정책표현 능력을 향상시키고 다양한 업무기술을 ​​습득할 수 있습니다. 로봇 제어 분야의 연구에 따르면 확산 모델은 시간적 안정성을 유지하면서 폐쇄 루프 동작 순서를 예측할 수 있습니다. 확산 정책은 이미지 입력의 확산 모델을 사용하여 로봇 동작 시퀀스를 생성합니다. 실험에 따르면 확산 모델은 타이밍 일관성을 보장하면서 효과적인 폐쇄 루프 동작 시퀀스를 생성할 수 있습니다.

확산 모델은 어떻게 차세대 의사 결정 주체를 구축합니까? 자동 회귀를 넘어 긴 시퀀스 계획 궤적을 동시에 생성합니다.

그림 4: 확산 정책 모델 도식

궤적 생성

강화 학습에서 확산 모델의 궤적 생성은 주로 두 가지 유형의 작업, 즉 인간 행동 생성과 로봇 제어에 중점을 둡니다. . 확산 모델에 의해 생성된 동작 데이터 또는 비디오 데이터는 시뮬레이션 시뮬레이터를 구축하거나 다운스트림 의사 결정 모델을 교육하는 데 사용됩니다. UniPi는 일반적인 전략으로 비디오 생성 확산 모델을 훈련하고, 다양한 역동역학 모델에 액세스하여 기본 제어 명령을 획득함으로써 크로스 바디 로봇 제어를 달성합니다.

확산 모델은 어떻게 차세대 의사 결정 주체를 구축합니까? 자동 회귀를 넘어 긴 시퀀스 계획 궤적을 동시에 생성합니다.

그림 5: UniPi 의사 결정 프로세스의 개략도.

데이터 향상

확산 모델은 원본 데이터 분포에 직접 맞출 수도 있어 신뢰성을 유지하면서 동적으로 확장된 다양한 데이터를 제공합니다. 예를 들어 SynthER와 MTDiff-s는 확산 모델을 통해 훈련 작업의 완전한 환경 전달 정보를 생성하고 이를 정책 개선에 적용하며, 그 결과 생성된 데이터의 다양성과 정확성이 과거 방법보다 우수하다는 것을 보여줍니다.

확산 모델은 어떻게 차세대 의사 결정 주체를 구축합니까? 자동 회귀를 넘어 긴 시퀀스 계획 궤적을 동시에 생성합니다.

그림 6: 다중 작업 계획 및 데이터 향상을 위한 MTDiff의 개략도

미래 전망

생성 시뮬레이션 환경

그림 1과 같이 기존 주로 연구하다 에이전트의 한계를 극복하고 재생 풀을 경험하기 위해 확산 모델이 사용되며, 시뮬레이션 환경을 향상시키기 위해 확산 모델을 사용한 연구는 상대적으로 적습니다. Gen2Sim은 Vincentian 그래프 확산 모델을 사용하여 시뮬레이션 환경에서 다양한 조작 가능한 개체를 생성하여 정밀 로봇 작업의 일반화 능력을 향상시킵니다. 또한 확산 모델은 시뮬레이션 환경의 다중 에이전트 상호 작용에서 상태 전환 기능, 보상 기능 또는 적대적인 행동을 생성할 수 있는 잠재력을 가지고 있습니다.

안전 제약 조건 추가

안전 제약 조건을 모델의 샘플링 조건으로 사용하면 확산 모델을 기반으로 하는 에이전트가 특정 제약 조건을 충족하는 결정을 내릴 수 있습니다. 확산 모델의 유도 샘플링을 사용하면 추가 분류자를 학습하여 새로운 보안 제약 조건을 지속적으로 추가할 수 있으며, 원래 모델의 매개변수는 변경되지 않고 유지되므로 추가 교육 오버헤드가 절약됩니다.

검색 강화 생성

검색 강화 생성 기술은 외부 데이터 세트에 액세스하여 모델 기능을 향상시킬 수 있으며 대규모 언어 모델에 널리 사용됩니다. 이러한 상태에서 확산 기반 결정 모델의 성능은 에이전트의 현재 상태와 관련된 궤적을 검색하고 이를 모델에 입력함으로써 향상될 수도 있습니다. 검색 데이터 세트가 지속적으로 업데이트되면 에이전트가 재교육을 받지 않고도 새로운 동작을 보일 수 있습니다.

여러 기술 결합

분류자 지침과 결합되거나 분류자 지침이 없는 확산 모델은 여러 간단한 기술을 결합하여 복잡한 작업을 완료할 수 있습니다. 오프라인 강화 학습의 초기 결과는 또한 확산 모델이 서로 다른 기술 간에 지식을 공유할 수 있어 서로 다른 기술을 결합하여 제로샷 전이 또는 연속 학습을 달성할 수 있음을 시사합니다.

Table

확산 모델은 어떻게 차세대 의사 결정 주체를 구축합니까? 자동 회귀를 넘어 긴 시퀀스 계획 궤적을 동시에 생성합니다.

그림 7: 관련 논문의 요약 및 분류 표.

위 내용은 확산 모델은 어떻게 차세대 의사 결정 주체를 구축합니까? 자동 회귀를 넘어 긴 시퀀스 계획 궤적을 동시에 생성합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제