>기술 주변기기 >일체 포함 >트랜스포머+월드 모델, 심층 강화학습을 저장할 수 있을까?

트랜스포머+월드 모델, 심층 강화학습을 저장할 수 있을까?

王林
王林앞으로
2023-05-04 09:19:061186검색

​이세돌, 커제 등 국제 체스 최고 선수들을 물리친 알파고가 총 3번의 반복을 했다는 사실은 많은 분들이 알고 계십니다. 바로 이세돌을 물리친 1세대 알파고 리, 커를 물리친 2세대 알파고 마스터입니다. 지에와 이세돌을 물리친 2세대 알파고 마스터. 3세대 알파고 제로의 첫 2세대를 물리쳤다.

알파고의 체스 실력은 세대를 거듭할수록 향상될 수 있습니다. 그 이면에는 강화학습의 비중이 늘어나고 있는 AI 기술의 명백한 추세가 있습니다.

최근 강화 학습은 또 다른 '진화'를 겪었습니다. 사람들은 이를 '진화한' 강화 학습이라고 부릅니다.

그러나 심층 강화 학습 에이전트의 샘플 효율성이 낮아 실제 문제에서의 적용이 크게 제한됩니다.

최근에는 이 문제를 해결하기 위해 많은 모델 기반 방법이 고안되었으며, 세계 모델의 상상력을 학습하는 것이 가장 대표적인 방법 중 하나입니다.

그러나 시뮬레이션된 환경과 거의 무제한으로 상호 작용하는 것이 매력적으로 들리지만 세계 모델은 오랜 기간 동안 정확성을 유지해야 합니다.

시퀀스 모델링 작업에서 Transformer의 성공에 영감을 받아 Cornell University의 Vincent Micheli, Eloy Alonso 및 François Flure는 개별 자동 인코더와 자동 회귀 Transformer로 구성된 월드 모델에서 학습하는 데이터 효율적인 에이전트인 IRIS를 소개했습니다.

Atari 100k 벤치마크에서 IRIS는 단 2시간의 게임 플레이에 해당하는 평균 인간 표준화 점수 1.046을 달성했으며 26개 게임 중 10개 게임에서 인간보다 나은 성능을 보였습니다.

이전에 르쿤은 강화학습이 막다른 골목으로 이어질 것이라고 말한 적이 있습니다.

트랜스포머+월드 모델, 심층 강화학습을 저장할 수 있을까?

이제 코넬 대학의 Vincent Micheli, Eloy Alonso, Francois Flure 등이 세계 모델을 강화 학습(더 정확하게 말하면 심층 강화 학습)과 결합하고 있는 것 같습니다. 둘은 트랜스포머입니다.

심층강화학습의 차이점은 무엇인가요

인공지능 기술이라고 하면 많은 사람들이 떠올리는 것이 딥러닝입니다.

실제로 AI 분야에서는 딥러닝이 여전히 활발히 진행되고 있지만 많은 문제점을 노출해왔습니다.

현재 가장 일반적으로 사용되는 딥러닝 방법은 지도 학습입니다. 지도 학습은 "참조 답변을 통한 학습"으로 이해될 수 있습니다. 그 특징 중 하나는 데이터를 훈련에 사용하기 전에 레이블을 지정해야 한다는 것입니다. 하지만 지금은 많은 양의 데이터가 라벨이 지정되지 않은 데이터이고 라벨링 비용이 매우 높습니다.

이런 상황에 대해 어떤 사람들은 "인공지능만큼 지능도 있다"고 농담을 하기도 했습니다.

많은 전문가를 포함한 많은 연구자들이 딥러닝이 '잘못'되었는지 반성하고 있습니다.

그래서 강화학습이 상승하기 시작했습니다.

강화 학습은 지도 학습, 비지도 학습과 다릅니다. 에이전트를 사용하여 지속적으로 시행 착오를 수행하고 시행 착오 결과에 따라 AI에 보상과 처벌을 가합니다. 다양한 체스와 카드 AI, 게임 AI를 만드는 DeepMind의 방식입니다. 이 경로를 믿는 사람들은 보상 인센티브가 올바르게 설정되는 한 강화 학습이 결국 실제 AGI를 생성할 것이라고 믿습니다.

그러나 강화 학습에도 문제가 있습니다. LeCun의 말에 따르면 "강화 학습은 가장 간단한 작업을 수행하기 위해 모델을 훈련시키기 위해 엄청난 양의 데이터가 필요합니다."

그래서 강화 학습과 딥 러닝이 결합되어 심층 강화 학습이 되었습니다.

심층 강화 학습, 강화 학습은 뼈대, 딥 러닝은 영혼이라는 뜻인가요? 심층 강화 학습의 주요 작동 메커니즘은 이 프로세스를 완료하는 데 심층 신경망이 사용된다는 점을 제외하면 기본적으로 강화 학습과 동일합니다.

게다가 일부 심층 강화 학습 알고리즘은 기존 강화 학습 알고리즘에 심층 신경망을 추가하여 새로운 심층 강화 학습 알고리즘 세트를 구현하는 데 매우 유명한 심층 강화 학습 알고리즘인 DQN이 그 대표적인 예입니다.

Transformers의 마법 같은 점

Transformers는 2017년에 처음 등장했으며 Google의 논문 "Attention is All You Need"에서 제안되었습니다.

Transformer가 등장하기 전에는 언어 작업에 대한 인공지능의 발전이 다른 분야의 발전에 비해 뒤쳐져 있었습니다. 매사추세츠 대학교 로웰(University of Massachusetts Lowell)의 컴퓨터 과학자인 Anna Rumshisky는 "자연어 처리는 지난 10년 동안 일어난 딥 러닝 혁명의 후발주자였습니다. 어떤 의미에서 NLP는 컴퓨터 비전인 Transformer보다 뒤쳐졌습니다."라고 말했습니다.

최근 몇 년 동안 Transformer 기계 학습 모델은 딥 러닝 및 심층 신경망 기술 발전의 주요 특징 중 하나가 되었습니다. 주로 자연어 처리 분야의 고급 응용 프로그램에 사용됩니다. Google은 검색 엔진 결과를 향상시키기 위해 이를 사용하고 있습니다.

Transformer는 텍스트 분석 및 예측에 초점을 맞춘 단어 인식과 같은 애플리케이션 분야에서 빠르게 선두주자가 되었습니다. 이는 수천억 개의 단어를 학습하고 일관된 새 텍스트를 생성할 수 있는 OpenAI의 GPT-3와 같은 도구의 물결을 촉발시켰습니다.

현재 Transformer 아키텍처는 계속해서 진화하고 다양한 변형으로 확장되어 언어 작업에서 다른 도메인으로 확장됩니다. 예를 들어 Transformer는 시계열 예측에 사용되었으며 DeepMind의 단백질 구조 예측 모델 AlphaFold의 핵심 혁신이기도 합니다.

Transformers도 최근 컴퓨터 비전 분야에 진출하여 많은 복잡한 작업에서 CNN(컨벌루션 신경망)을 서서히 대체하고 있습니다.

월드 모델과 트랜스포머가 힘을 합쳤는데, 다른 사람들은 어떻게 생각합니까? 코넬 대학의 연구 결과에 대해 일부 외국 네티즌은 다음과 같이 말했습니다. "이 2시간은 GPU 트레이닝에서 수행되는 환경에서 촬영하는 시간입니다. 주."

어떤 사람들은 다음과 같이 질문하기도 합니다. 그렇다면 이 시스템은 특히 정확한 기본 세계 모델을 학습하는 걸까요? 모델에 사전 학습이 필요하지 않나요?

또한 일부 사람들은 코넬 대학의 Vincent Micheli와 다른 사람들의 결과가 획기적인 돌파구가 아니라고 생각합니다. "그들은 세계 모델, vqvae 및 배우 평론가만을 훈련시킨 것 같습니다. 모두 그 2시간 재생 버퍼의 경험(및 약 600 신기원)".

참조: https://www.reddit.com/r/MachineLearning/comments/x4e4jx/r_transformers_are_sample_efficient_world_models/​

위 내용은 트랜스포머+월드 모델, 심층 강화학습을 저장할 수 있을까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제