일반지능은 여러 분야의 과제를 해결해야 합니다. 강화 학습 알고리즘은 이러한 잠재력을 갖고 있다고 생각되지만 이를 새로운 작업에 적용하는 데 필요한 리소스와 지식으로 인해 방해를 받았습니다. DeepMind의 새로운 연구에서 연구원들은 고정된 하이퍼파라미터를 사용하여 광범위한 도메인에서 이전 방법보다 뛰어난 성능을 발휘하는 일반적이고 확장 가능한 세계 모델 기반 알고리즘인 DreamerV3를 시연합니다.
DreamerV3는 연속 및 이산 동작, 시각적 및 저차원 입력, 2D 및 3D 세계, 다양한 데이터 볼륨, 보상 빈도 및 보상 수준을 포함한 영역을 준수합니다. DreamerV3는 인간 데이터나 적극적인 교육 없이 Minecraft에서 다이아몬드를 처음부터 수집하는 최초의 알고리즘 이라는 점을 언급할 가치가 있습니다. 연구원들은 이러한 일반적인 알고리즘이 강화 학습의 광범위한 적용을 가능하게 하고 잠재적으로 어려운 의사 결정 문제로 확장될 수 있다고 말합니다.
다이아몬드는 "Minecraft" 게임에서 가장 인기 있는 아이템 중 하나입니다. 다이아몬드는 게임에서 가장 희귀한 아이템 중 하나이며 게임에서 가장 강력한 도구, 무기 및 갑옷을 제작하는 데 사용할 수 있습니다. 다이아몬드는 암석의 가장 깊은 층에서만 발견되기 때문에 생산량이 적습니다.
DreamerV3는 인간의 데모나 코스의 수동 제작 없이도 Minecraft에서 다이아몬드를 수집하는 최초의 알고리즘입니다. 이 영상은 30M 환경 단계/게임 시간 17일 이내에 발생한 첫 번째 다이아몬드 수집을 보여줍니다.
AI가 Minecraft를 플레이하는 것에 대해 전혀 모른다면 NVIDIA AI 과학자 Jim Fan은 Go를 플레이하는 AlphaGo에 비해 Minecraft 작업 수는 무제한이고 환경 변경도 무제한이며 지식에도 숨겨진 정보가 있다고 말했습니다.
마인크래프트에서 탐험하고 건설하는 것은 인간에게 재미있는 반면, AI의 경우 상황은 정반대입니다. 알파고는 6년 전 인간 챔피언을 이겼지만, 이제 마인크래프트의 인간 마스터와 경쟁할 수 있는 알고리즘은 없다.
이르면 2019년 여름, 마인크래프트 개발사는 NeurIPS 2019까지 제출된 660개 이상의 출품작 중 게임에서 다이아몬드를 찾을 수 있는 AI 알고리즘에 대한 보상을 제공하는 "다이아몬드 챌린지"를 제안했습니다. , AI가 작업을 수행할 수 없습니다.
하지만 DreamerV3의 등장으로 이러한 상황이 바뀌었습니다. 다이아몬드는 복잡한 탐색과 계획이 필요한 고도로 결합된 장기적인 작업이므로 인공적인 데이터 지원 없이 다이아몬드를 수집할 수 있습니다. 효율성 측면에서 아직 개선의 여지가 많이 있을 수 있지만, 이제 AI 에이전트가 다이아몬드 수집 방법을 처음부터 배울 수 있다는 사실은 중요한 이정표 입니다.
논문 "세계 모델을 통한 다양한 도메인 마스터하기":
논문 링크: https://arxiv.org/abs/2301.04104v1
DreamerV3 알고리즘은 powered by 세계 모델, 평론가, 배우라는 세 가지 신경망으로 구성됩니다. 세 가지 신경망은 그라디언트를 공유하지 않고 재생 경험을 기반으로 동시에 훈련됩니다. 아래 그림 3(a)는 세계 모델 학습을 보여주고 그림(b)는 Actor Critic 학습을 보여줍니다.
교차 도메인 성공을 달성하려면 이러한 구성 요소가 다양한 신호 진폭에 적응하고 대상 전체에서 조건의 균형을 견고하게 유지해야 합니다. 동일한 도메인 내의 유사한 작업뿐만 아니라 고정된 하이퍼파라미터를 사용하는 다양한 도메인에 걸쳐 학습이 필요하기 때문에 이는 어려운 일입니다.
DeepMind는 먼저 알 수 없는 규모를 예측하기 위한 간단한 변환을 설명한 다음 세계 모델, 비평가, 배우 및 이들의 강력한 학습 목표를 소개합니다. KL 균형과 자유 비트를 결합하면 조정 없이 월드 모델을 학습할 수 있으며 작은 수익을 과장하지 않고 큰 수익을 축소하여 고정 정책 엔트로피 정규화를 달성하는 것으로 나타났습니다.
Symlog 예측
입력을 재구성하고 보상과 가치를 예측하는 것은 규모가 도메인마다 다를 수 있기 때문에 어렵습니다. 큰 목표를 예측하기 위해 제곱 손실을 사용하면 발산이 발생하는 반면, 절대 손실과 Huber 손실은 학습을 지연시킵니다. 반면, 운영 통계를 기반으로 하는 정규화 목표는 최적화에 비정상성을 도입합니다. 따라서 DeepMind는 이 문제에 대한 간단한 해결책으로 심볼로그 예측을 제안합니다.
이를 위해 입력 x와 매개변수 θ가 있는 신경망 f(x, θ)는 목표 y의 변환된 버전을 예측하는 방법을 학습합니다. 네트워크의 예측 y^를 읽기 위해 DeepMind는 아래 방정식 (1)과 같이 역변환을 사용합니다.
아래 그림 4에서 볼 수 있듯이 음수 값을 갖는 대상은 로그 변환을 사용하여 예측할 수 없습니다.
따라서 DeepMind는 대칭 로그 계열에서 Symlog라는 함수를 변환으로 선택하고 Symexp 함수를 역함수로 사용합니다.
symlog 함수는 큰 양수 값과 음수 값의 크기를 압축합니다. DreamerV3는 디코더, 보상 예측기 및 비평가에서 심볼로그 예측을 사용하고 또한 심볼로그 기능을 사용하여 인코더의 입력을 압축합니다.
세계 모델 학습
세계 모델은 자동 인코딩을 통해 감각 입력의 간결한 표현을 학습하고 미래의 표현과 잠재적인 행동에 대한 보상을 예측하여 계획을 가능하게 합니다.
위의 그림 3과 같이 DeepMind는 월드 모델을 RSSM(Recurrent State Space Model)으로 구현합니다. 먼저, 인코더는 감각 입력 x_t를 무작위 표현 z_t에 매핑한 다음 반복 상태 h_t를 갖는 시퀀스 모델이 과거 동작 a_t−1을 고려하여 이러한 표현의 시퀀스를 예측합니다. h_t와 z_t의 연결은 모델 상태를 형성하며, 이로부터 보상 r_t와 에피소드 연속성 플래그 c_t ∈ {0, 1}이 예측되고 입력이 정보 표현을 보장하기 위해 재구성됩니다(아래 방정식 3).
아래 그림 5는 세계 세계의 장기 영상 예측을 시각화한 것입니다. 인코더와 디코더는 시각적 입력에 CNN(컨벌루션 신경망)을 사용하고 저차원 입력에 MLP(다층 퍼셉트론)를 사용합니다. 동적, 보상 및 지속성 예측 변수도 MLP이며 이러한 표현은 소프트맥스 분포의 벡터에서 샘플링됩니다. DeepMind는 샘플링 단계에서 통과 경사도를 사용합니다.
Actor Critic Learning
Actor Critic 신경망은 세계 모델이 예측한 추상 시퀀스로부터 행동을 전적으로 학습합니다. 환경과 상호 작용하는 동안 DeepMind는 향후 계획 없이 행위자 네트워크에서 샘플링하여 작업을 선택합니다.
배우와 평론가는 모델 상태에서 작업하며 월드 모델에서 학습한 마르코프 표현의 이점을 누릴 수 있습니다. 행위자의 목표는 각 모델 상태에 대한 할인 계수 γ = 0.997에서 기대 수익 을 최대화하는 것입니다. 예측 범위 T = 16을 넘어서는 보상을 설명하기 위해 비평가는 현재 행위자 행동을 고려하여 각 상태에 대한 보상을 예측하는 방법을 배웁니다.
재생된 입력의 표현에서 시작하여 동적 예측자와 행위자는 예상되는 모델 상태 s_1:T , 작업 a_1:T , 보상 r_1:T 및 연속 플래그 c_1:T 의 시퀀스를 생성합니다. 예측 범위를 벗어나는 보상에 대한 수익을 추정하기 위해 DeepMind는 예상 수익과 가치를 통합하는 부트스트랩 λ 수익을 계산합니다.
DeepMind는 고정된 하이퍼파라미터 하에서 다양한 도메인(150개 이상의 작업)에 걸쳐 DreamerV3의 일반성과 확장성을 평가하고 문헌의 기존 SOTA 방법과 비교하기 위해 광범위한 실증적 연구를 수행했습니다. DreamerV3는 도전적인 비디오 게임인 Minecraft에도 적용되었습니다.
DreamerV3의 경우 DeepMind는 확률론적 훈련 전략의 성능을 직접 보고하고 결정론적 전략으로 별도의 평가 실행을 피함으로써 설정을 단순화합니다. 모든 DreamerV3 에이전트는 Nvidia V100 GPU에서 교육을 받았습니다. 아래 표 1은 벤치마크의 개요를 제공합니다.
DreamerV3의 일반성을 평가하기 위해 DeepMind는 연속 및 이산 동작, 시각적 및 저차원 입력, 조밀하고 희박한 보상, 다양한 보상 규모, 2D 및 3D 세계 및 절차적 생성. 아래 그림 1의 결과는 DreamerV3가 모든 도메인에서 강력한 성능을 달성하고 그 중 4개에서 이전의 모든 알고리즘을 능가하는 동시에 모든 벤치마크에서 고정된 하이퍼파라미터를 사용한다는 것을 보여줍니다.
자세한 기술적 세부사항과 실험 결과는 원본 논문을 참조하세요.
위 내용은 AI가 '마인크래프트' 플레이 방법을 처음부터 배웠고, DeepMind AI가 일반화에 획기적인 발전을 이루었습니다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!