>기술 주변기기 >일체 포함 >Qingbei가 공동 제작했습니다! '트랜스포머+강화학습'의 내용을 이해하기 위한 설문조사

Qingbei가 공동 제작했습니다! '트랜스포머+강화학습'의 내용을 이해하기 위한 설문조사

PHPz
PHPz앞으로
2023-04-13 14:01:031114검색

Transformer 모델은 출시 이후 자연어 처리 및 컴퓨터 비전 분야의 지도 학습 설정에서 빠르게 주류 신경 아키텍처가 되었습니다.

Transformer의 열풍이 Reinforcement Learning 분야를 휩쓸기 시작했지만, 고유한 기능에 대한 필요성, 아키텍처 설계 등 RL 자체의 특성으로 인해 현재 Transformer와 Transformer의 조합은 강화학습은 원활하지 않으며, 개발 경로도 포괄적인 요약을 제공하기 위한 관련 논문이 부족합니다.

최근 칭화대학교, 북경대학교, 텐센트 연구진은 Transformer와 강화학습의 결합에 관한 연구 논문을 공동으로 발표하여 강화학습에 Transformer를 사용하게 된 동기와 개발 이력을 체계적으로 검토했습니다.

Qingbei가 공동 제작했습니다! 트랜스포머+강화학습의 내용을 이해하기 위한 설문조사

논문 링크: https://arxiv.org/pdf/2301.03044.pdf

기사에서는 기존 관련 업무 성과를 분류하고 각 하위 분야에 대해 심층적인 논의를 진행합니다. 이 연구 방향의 향후 전망이 요약되어 있습니다.

RL을 사용한 Transformer

강화 학습(RL)은 순차적 의사 결정을 위한 수학적 형식을 제공하여 모델이 지능적인 행동을 자동으로 얻을 수 있도록 합니다.

RL은 학습 기반 제어를 위한 일반적인 프레임워크를 제공하며 심층 강화 학습(DRL)의 일반화도 최근 몇 년 동안 큰 진전을 이루었지만 샘플 효율성 문제로 인해 DRL이 방해를 받았습니다. 현실 세계에서 다양한 응용이 가능합니다.

이 문제를 해결하기 위한 효과적인 메커니즘은 DRL 프레임워크에 유도적 편향을 도입하는 것입니다. 더 중요한 것은 매개변수화할 DRL 에이전트의 신경망과 같은 함수 근사기 아키텍처를 선택하는 것입니다.

그러나 DRL에서 아키텍처 디자인을 선택하는 문제는 지도 학습(SL)의 아키텍처 디자인에 비해 여전히 과소 탐구되고 있으며, RL 아키텍처에 대한 대부분의 기존 작업은 (반)지도 학습 커뮤니티의 성공에서 영감을 받았습니다.

예를 들어, DRL에서 고차원 이미지 기반 입력을 처리하는 일반적인 방법은 CNN(컨벌루션 신경망)을 도입하는 것입니다. 부분 관측성을 처리하는 또 다른 일반적인 방법은 순환 신경망(RNN)을 도입하는 것입니다.

최근 몇 년 동안 Transformer 아키텍처는 광범위한 SL 작업에서 학습 패러다임을 혁신했으며 CNN 및 RNN보다 우수한 성능을 보여주었습니다. 예를 들어 Transformer 아키텍처는 더 긴 종속성을 모델링할 수 있고 뛰어난 성능을 가지고 있습니다.

SL의 성공에 영감을 받아 강화 학습에 Transformer를 적용하려는 업계의 관심이 급증했습니다. 이는 구조화된 상태 표현의 관계형 추론에 self-attention 메커니즘이 사용된 2018년 논문으로 거슬러 올라갑니다. .

이후 많은 연구자들은 더 나은 정책 학습으로 이어질 수 있는 개체 간의 관계를 추출하기 위해 표현 학습에 self-attention을 적용하려고 시도하기 시작했습니다.

Qingbei가 공동 제작했습니다! 트랜스포머+강화학습의 내용을 이해하기 위한 설문조사

상태 표현 학습 외에도 이전 작업에서는 Transformer를 사용하여 부분 관찰 가능성 문제를 처리하기 위해 다단계의 시간적 종속성을 포착했습니다.

최근 오프라인 RL은 오프라인 대규모 데이터 세트를 활용할 수 있는 능력으로 주목받고 있습니다. 관련 연구 결과에서도 Transformer 아키텍처가 시퀀스 의사결정을 위한 모델로 직접 사용될 수 있으며 여러 작업과 필드.

이 연구 논문의 목적은 강화 학습(TransformRL)의 트랜스포머 분야를 소개하는 것입니다.

Qingbei가 공동 제작했습니다! 트랜스포머+강화학습의 내용을 이해하기 위한 설문조사

Transformer는 최신 SL 연구의 기본 모델로 간주되어 왔지만 RL 커뮤니티에서는 여전히 덜 탐구되고 있습니다. 실제로 SL 필드와 비교하여 RL에서 Transformer를 함수 근사기로 사용하려면 몇 가지 다른 문제를 해결해야 합니다.

1 RL 에이전트의 훈련 데이터는 일반적으로 현재 정책의 함수입니다. Transformer 학습 과정은 비정상성을 유발합니다.

2. 기존 RL 알고리즘은 일반적으로 네트워크 아키텍처 및 용량을 포함하여 학습 프로세스 중 설계 선택에 매우 민감합니다.

3. Transformer 기반 아키텍처는 종종 높은 컴퓨팅 및 메모리 비용으로 인해 어려움을 겪습니다. 이는 교육 및 추론이 느리고 비용이 많이 든다는 것을 의미합니다.

예를 들어 일부 게임 인공 지능의 경우 RL 정책 네트워크와 가치 네트워크의 계산 비용에 따라 샘플 생성의 효율성이 훈련 성능에 큰 영향을 미칩니다.

TransformRL의 미래

이 문서에서는 RL용 Transformers의 진행 상황을 간략하게 검토합니다. 그 장점은 주로 다음과 같습니다.

1 Transformers는 표현 모듈이나 세계와 같은 RL의 강력한 모듈로 사용될 수 있습니다. 모델

2. Transformer는 작업 및 도메인 전반에 걸쳐 일반화 성능을 향상시킬 수 있습니다.

Transformer가 더 넓은 인공 지능 커뮤니티에서 강력한 성과를 보인 점을 고려할 때 연구자들은 Transformer와 RL을 결합하는 것이 유망한 연구 방향이라고 믿습니다. 다음은 이 방향에 대한 몇 가지 미래 전망과 공개 질문입니다.

강화 학습과 (자기)지도 학습을 결합

TransformRL의 개발을 추적해 보면 훈련 방법이 RL과 (자기)지도 학습을 모두 포괄한다는 것을 알 수 있습니다.

기존 RL 프레임워크에서 훈련된 표현 모듈로 사용되는 경우 Transformer 아키텍처의 최적화는 일반적으로 불안정합니다. (자기)지도 학습 패러다임은 Transformers를 사용하여 시퀀스 모델링을 통해 의사 결정 문제를 해결할 때 치명적인 트라이어드 문제를 제거할 수 있습니다.

(자기)지도 학습 프레임워크에서 정책의 성과는 오프라인 데이터의 품질에 의해 크게 제한되며 활용과 탐색 간의 명확한 균형은 더 이상 존재하지 않으므로 Transformer 학습에 RL을 결합합니다. (자기)지도 학습을 통해 더 나은 전략을 학습할 수 있습니다.

일부 작업에서는 RL 참여를 위해 감독된 사전 훈련 및 미세 조정 솔루션을 시도했지만 상대적으로 고정된 전략에서는 탐색이 제한되며 이는 해결해야 할 병목 현상 중 하나이기도 합니다.

또한 성능 평가에 사용되는 작업도 비교적 간단합니다. Transfomer가 이 (자기)지도 학습을 더 큰 데이터 세트, 더 복잡한 환경 및 실제 애플리케이션으로 확장할 수 있습니까?

또한 연구자들은 향후 연구가 그러한 (자기)지도 학습이 잘 수행될 것으로 예상되는 조건에 대한 더 많은 이론적, 경험적 통찰력을 제공할 수 있기를 바랍니다.

Qingbei가 공동 제작했습니다! 트랜스포머+강화학습의 내용을 이해하기 위한 설문조사Transformer를 통해 온라인과 오프라인 학습 연결

오프라인 RL로의 진출은 TransformRL의 이정표이지만 실제로는 Transformer를 활용하여 결정 시퀀스의 종속성을 포착하고 전략을 추상화하는 것이 주로입니다. 사용되는 상당한 오프라인 데이터의 지원과 분리할 수 없습니다.

그러나 일부 의사 결정 작업의 경우 실제 애플리케이션에서는 온라인 프레임워크를 제거하는 것이 불가능합니다.

일부 작업에서는 전문가 데이터를 얻는 것이 쉽지 않은 반면, 일부 환경은 개방형(예: Minecraft)이므로 알려지지 않은 문제를 처리하기 위해 전략을 지속적으로 조정해야 합니다. 온라인 상호 작용 중 상황을 참조하세요.

따라서 연구자들은 온라인 학습과 오프라인 학습을 연결하는 것이 필요하다고 믿습니다.

Decision Transformer 이후 대부분의 연구 진행은 오프라인 학습 프레임워크에 중점을 두고 있으며 일부 작업은 오프라인 사전 훈련 및 온라인 미세 조정 패러다임을 채택하려고 시도합니다. 그러나 오프라인 RL 알고리즘에는 온라인 미세 조정의 분포 변화가 여전히 존재하며 연구자들은 Decision Transformer의 특별한 설계를 통해 이 문제를 해결할 것으로 기대합니다.

또한 온라인 Decision Transformer를 처음부터 훈련하는 방법은 흥미로운 공개 질문입니다.

의사결정 문제에 맞춰진 Transformer 구조

현재 Decision Transformer 시리즈 메소드의 Transformer 구조는 주로 바닐라 Transformer인데, 이는 원래 텍스트 시퀀스용으로 설계되었으며 일부 기능이 적합하지 않을 수 있습니다. 의사결정을 위해 문제의 성격.

예를 들어, 궤적 시퀀스에 바닐라 self-attention 메커니즘을 사용하는 것이 적절합니까? 위치 임베딩에서 결정 시퀀스의 서로 다른 요소 또는 동일한 요소의 서로 다른 부분을 구별해야 합니까?

또한 다양한 Decision Transformer 알고리즘에서 궤적을 시퀀스로 표현하는 변형이 많기 때문에 이를 선택하는 방법에 대해서는 아직 체계적인 연구가 부족합니다.

예를 들어, 이러한 알고리즘을 업계에 배포할 때 강력한 힌트 정보를 선택하는 방법은 무엇입니까?

또한 바닐라 Transformer는 계산적으로 비용이 많이 드는 구조이므로 훈련 및 추론 단계 모두에서 비용이 많이 들고 메모리 공간이 커서 캡처할 수 있는 종속성 길이도 제한됩니다.

이러한 문제를 완화하기 위해 NLP의 일부 작업에서는 Transformer의 구조를 개선했지만 유사한 구조가 의사 결정 문제에 사용될 수 있는지 살펴보는 것도 가치가 있습니다.

Transformers를 사용하여 보다 일반적인 에이전트 구현

논문에서 일반 에이전트에 대한 Transformers에 대한 리뷰는 일반적인 전략으로서 Transformers의 잠재력을 보여주었습니다.

실제로 Transformer의 설계는 블록 처리와 유사한 접근 방식을 사용하여 여러 양식(예: 이미지, 비디오, 텍스트 및 음성)을 처리할 수 있으며 초대용량 네트워크 및 대규모 데이터 세트에 대한 뛰어난 확장성을 보여줍니다.

최근 작업에서는 다중 모드 및 도메인 간 작업을 수행할 수 있는 에이전트 교육에서도 상당한 진전이 있었습니다.

그러나 이러한 에이전트는 대규모 데이터 세트에 대해 훈련을 받았기 때문에 단순히 데이터 세트를 암기하는지, 효과적으로 일반화할 수 있는지는 아직 확실하지 않습니다.

따라서 강력한 가정 없이 보이지 않는 작업을 일반화할 수 있는 에이전트를 학습하는 방법은 여전히 ​​연구할 가치가 있는 질문입니다.

또한 연구자들은 Transformer가 다양한 작업과 시나리오에 사용할 수 있는 일반 세계 모델을 학습하는 데 사용할 수 있을 만큼 강력한지 궁금합니다.

Transformers용 RL

기사에서는 RL이 Transformer 모델의 이점을 누릴 수 있는 방법을 논의했지만, 반대로 RL을 사용하여 Transformer 훈련을 개선하는 것은 아직 탐구되지 않은 흥미로운 공개 문제입니다. .

보시다시피 최근 RLHF(Reinforcement Learning from Human Feedback)는 보상 모델을 학습하고 RL 알고리즘을 사용하여 Transformer를 미세 조정하여 언어 모델이 인간 의도와 일치하도록 만들 수 있습니다.

미래에 연구자들은 RL이 다른 분야에서 Transformer의 성능을 더욱 향상시키는 유용한 도구가 될 수 있다고 믿습니다.

위 내용은 Qingbei가 공동 제작했습니다! '트랜스포머+강화학습'의 내용을 이해하기 위한 설문조사의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제