>기술 주변기기 >일체 포함 >2시간이면 인간을 능가할 수 있다! DeepMind의 최신 AI는 26개의 Atari 게임을 빠르게 실행합니다.

2시간이면 인간을 능가할 수 있다! DeepMind의 최신 AI는 26개의 Atari 게임을 빠르게 실행합니다.

WBOY
WBOY앞으로
2023-07-03 20:57:171217검색

DeepMind의 AI 에이전트가 또 스스로를 놀리고 있습니다!

BBF라는 이 남자를 보세요. 그는 단 2시간 만에 26개의 Atari 게임을 마스터했습니다. 그의 효율성은 그의 모든 전임자를 능가하는 인간의 효율성과 비슷합니다.

AI 에이전트는 항상 강화 학습을 통해 문제를 해결하는 데 효과적이었지만 가장 큰 문제는 이 방법이 매우 비효율적이며 탐색하는 데 오랜 시간이 걸린다는 것입니다.

2시간이면 인간을 능가할 수 있다! DeepMind의 최신 AI는 26개의 Atari 게임을 빠르게 실행합니다.Pictures

BBF가 가져온 혁신은 바로 효율성 측면에서 이루어졌습니다.

전체 이름이 Bigger, Better 또는 Faster라고 불릴 수도 있습니다.

그리고 단 하나의 카드로 훈련을 완료할 수 있으며 컴퓨팅 성능 요구 사항도 훨씬 줄어듭니다.

BBF는 Google DeepMind와 몬트리올 대학이 공동으로 제안한 데이터와 코드는 현재 오픈 소스입니다.

인간의 최대 5배 성능을 달성할 수 있습니다

BBF 게임의 성능을 평가하는 데 사용되는 값을 IQM이라고 합니다.

IQM은 다면적인 게임 성능을 종합적으로 평가한 점수입니다. 이 글의 IQM 점수는 인간을 기준으로 정규화되었습니다.

이전의 여러 결과와 비교하여 BBF는 26개의 Atari 게임이 포함된 Atari 100K 테스트 데이터 세트에서 가장 높은 IQM 점수를 달성했습니다.

그리고 훈련된 26개 게임에서 BBF의 성능은 인간의 성능을 능가했습니다.

유사한 성능을 발휘하는 Eff.Zero와 비교하여 BBF는 GPU 시간을 거의 절반 정도 소비합니다.

유사한 GPU 시간을 소비하는 SPR과 SR-SPR의 경우 성능이 BBF에 크게 뒤떨어집니다.

2시간이면 인간을 능가할 수 있다! DeepMind의 최신 AI는 26개의 Atari 게임을 빠르게 실행합니다.사진

반복 테스트에서 BBF가 특정 IQM 점수에 도달하는 비율은 항상 높은 수준을 유지했습니다.

전체 테스트의 1/8이 넘는 테스트에서도 인간의 5배에 달하는 성능을 달성했습니다.

2시간이면 인간을 능가할 수 있다! DeepMind의 최신 AI는 26개의 Atari 게임을 빠르게 실행합니다.Pictures

훈련 없이 다른 Atari 게임을 추가하더라도 BBF는 인간 IQM 점수의 절반 이상을 달성할 수 있습니다.

이 29개의 훈련되지 않은 게임만 보면 BBF의 점수는 인간의 점수의 40~50%입니다.

2시간이면 인간을 능가할 수 있다! DeepMind의 최신 AI는 26개의 Atari 게임을 빠르게 실행합니다.Pictures

Modified based on SR-SPR

BBF 연구를 이끄는 문제는 샘플 크기가 희박할 때 심층 강화 학습 네트워크를 확장하는 방법입니다.

이 문제를 연구하기 위해 DeepMind는 Atari 100K 벤치마크에 집중했습니다.

그러나 DeepMind는 단순히 모델 크기를 늘리는 것만으로는 성능이 향상되지 않는다는 것을 곧 발견했습니다.

2시간이면 인간을 능가할 수 있다! DeepMind의 최신 AI는 26개의 Atari 게임을 빠르게 실행합니다.Pictures

딥러닝 모델 설계에서는 단계당 업데이트 횟수(Replay Ratio, RR)가 중요한 매개변수입니다.

특히 Atari 게임의 경우 RR 값이 클수록 게임에서 모델의 성능이 높아집니다.

마지막으로 DeepMind는 SR-SPR을 기본 엔진으로 사용하며 SR-SPR의 RR 값은 최대 16까지 도달할 수 있습니다.

딥마인드는 종합적인 고려 끝에 BBF의 RR 값으로 8을 선택했습니다.

일부 사용자가 RR=8의 컴퓨팅 비용을 지출하기를 꺼리는 것을 고려하여 DeepMind는 BBF의 RR=2 버전도 개발했습니다

2시간이면 인간을 능가할 수 있다! DeepMind의 최신 AI는 26개의 Atari 게임을 빠르게 실행합니다.Pictures

DeepMind는 SR-SPR에서 많은 내용을 수정한 후 자체적으로 채택했습니다. BBF에서 얻은 감독 교육에는 주로 다음과 같은 측면이 포함됩니다.

  • 더 높은 컨볼루션 레이어 재설정 강도: 컨볼루션 레이어 재설정 강도를 높이면 무작위 대상에 대한 섭동 진폭이 증가하여 모델의 성능이 향상되고 손실이 줄어듭니다. BBF의 재설정 강도가 증가하면 섭동 진폭이 SR -SPR에서 변경됩니다. 20%에서 50%로 증가
  • 더 큰 네트워크 크기: 신경망 레이어 수를 3에서 15 레이어로 늘리고 너비를 4배 늘립니다.
  • 업데이트 범위(n) 감소: 모델을 개선하려면 성능이 필요합니다. n의 고정되지 않은 값 사용. BBF는 40,000 경사 단계마다 재설정됩니다. 각 재설정의 처음 10,000 경사 단계에서 n은 10에서 3으로 기하급수적으로 감소합니다. 붕괴 단계는 BBF 훈련 과정의 25%를 차지합니다
  • 더 큰 붕괴 인자(γ): 어떤 사람들은 학습 과정에서 γ 값을 높이면 모델 성능이 향상될 수 있음을 발견했습니다. BBF의 γ 값은 기존 0.97에서 0.997로 증가합니다
  • Weight attenuation: 과적합 발생을 피하기 위해 BBF의 감쇠는 약 0.1
  • 입니다. : 원본 SR-SPR에 포함된 NoisyNet은 모델 성능을 향상시킬 수 없습니다
Ablation 실험 결과는 단계당 2개 및 8개 업데이트 조건에서 위의 요소가 BBF 성능에 다양한 정도의 영향을 미치는 것으로 나타났습니다.

2시간이면 인간을 능가할 수 있다! DeepMind의 최신 AI는 26개의 Atari 게임을 빠르게 실행합니다.Pictures

그 중에서도 하드 리셋과 업데이트 범위 축소의 영향이 가장 큽니다.

2시간이면 인간을 능가할 수 있다! DeepMind의 최신 AI는 26개의 Atari 게임을 빠르게 실행합니다.Pictures

위 두 그림에서 언급되지 않은 NoisyNet의 경우 모델 성능에 미치는 영향은 크지 않습니다.

2시간이면 인간을 능가할 수 있다! DeepMind의 최신 AI는 26개의 Atari 게임을 빠르게 실행합니다.Pictures

논문 주소:

https://arxiv.org/abs/2305.19452GitHub 프로젝트 페이지: https://github.com/google-research/google-research/tree/master/bigger_better_faster

참조 링크: [1]

https://www.php.cn/link/69b4fa3be19bdf400df34e41b93636a4

[2]https://www.marktechpost.com/2023/06/12/superhuman-performance-on-the -atari-100k-benchmark-the-power-of-bbf-a-new-value-based-rl-agent-from-google-deepmind-mila-and-universite-de-montreal/

— 끝 —

위 내용은 2시간이면 인간을 능가할 수 있다! DeepMind의 최신 AI는 26개의 Atari 게임을 빠르게 실행합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제