찾다
기술 주변기기일체 포함2시간이면 인간을 능가할 수 있다! DeepMind의 최신 AI는 26개의 Atari 게임을 빠르게 실행합니다.

DeepMind의 AI 에이전트가 또 스스로를 놀리고 있습니다!

BBF라는 이 남자를 보세요. 그는 단 2시간 만에 26개의 Atari 게임을 마스터했습니다. 그의 효율성은 그의 모든 전임자를 능가하는 인간의 효율성과 비슷합니다.

AI 에이전트는 항상 강화 학습을 통해 문제를 해결하는 데 효과적이었지만 가장 큰 문제는 이 방법이 매우 비효율적이며 탐색하는 데 오랜 시간이 걸린다는 것입니다.

2시간이면 인간을 능가할 수 있다! DeepMind의 최신 AI는 26개의 Atari 게임을 빠르게 실행합니다.Pictures

BBF가 가져온 혁신은 바로 효율성 측면에서 이루어졌습니다.

전체 이름이 Bigger, Better 또는 Faster라고 불릴 수도 있습니다.

그리고 단 하나의 카드로 훈련을 완료할 수 있으며 컴퓨팅 성능 요구 사항도 훨씬 줄어듭니다.

BBF는 Google DeepMind와 몬트리올 대학이 공동으로 제안한 데이터와 코드는 현재 오픈 소스입니다.

인간의 최대 5배 성능을 달성할 수 있습니다

BBF 게임의 성능을 평가하는 데 사용되는 값을 IQM이라고 합니다.

IQM은 다면적인 게임 성능을 종합적으로 평가한 점수입니다. 이 글의 IQM 점수는 인간을 기준으로 정규화되었습니다.

이전의 여러 결과와 비교하여 BBF는 26개의 Atari 게임이 포함된 Atari 100K 테스트 데이터 세트에서 가장 높은 IQM 점수를 달성했습니다.

그리고 훈련된 26개 게임에서 BBF의 성능은 인간의 성능을 능가했습니다.

유사한 성능을 발휘하는 Eff.Zero와 비교하여 BBF는 GPU 시간을 거의 절반 정도 소비합니다.

유사한 GPU 시간을 소비하는 SPR과 SR-SPR의 경우 성능이 BBF에 크게 뒤떨어집니다.

2시간이면 인간을 능가할 수 있다! DeepMind의 최신 AI는 26개의 Atari 게임을 빠르게 실행합니다.사진

반복 테스트에서 BBF가 특정 IQM 점수에 도달하는 비율은 항상 높은 수준을 유지했습니다.

전체 테스트의 1/8이 넘는 테스트에서도 인간의 5배에 달하는 성능을 달성했습니다.

2시간이면 인간을 능가할 수 있다! DeepMind의 최신 AI는 26개의 Atari 게임을 빠르게 실행합니다.Pictures

훈련 없이 다른 Atari 게임을 추가하더라도 BBF는 인간 IQM 점수의 절반 이상을 달성할 수 있습니다.

이 29개의 훈련되지 않은 게임만 보면 BBF의 점수는 인간의 점수의 40~50%입니다.

2시간이면 인간을 능가할 수 있다! DeepMind의 최신 AI는 26개의 Atari 게임을 빠르게 실행합니다.Pictures

Modified based on SR-SPR

BBF 연구를 이끄는 문제는 샘플 크기가 희박할 때 심층 강화 학습 네트워크를 확장하는 방법입니다.

이 문제를 연구하기 위해 DeepMind는 Atari 100K 벤치마크에 집중했습니다.

그러나 DeepMind는 단순히 모델 크기를 늘리는 것만으로는 성능이 향상되지 않는다는 것을 곧 발견했습니다.

2시간이면 인간을 능가할 수 있다! DeepMind의 최신 AI는 26개의 Atari 게임을 빠르게 실행합니다.Pictures

딥러닝 모델 설계에서는 단계당 업데이트 횟수(Replay Ratio, RR)가 중요한 매개변수입니다.

특히 Atari 게임의 경우 RR 값이 클수록 게임에서 모델의 성능이 높아집니다.

마지막으로 DeepMind는 SR-SPR을 기본 엔진으로 사용하며 SR-SPR의 RR 값은 최대 16까지 도달할 수 있습니다.

딥마인드는 종합적인 고려 끝에 BBF의 RR 값으로 8을 선택했습니다.

일부 사용자가 RR=8의 컴퓨팅 비용을 지출하기를 꺼리는 것을 고려하여 DeepMind는 BBF의 RR=2 버전도 개발했습니다

2시간이면 인간을 능가할 수 있다! DeepMind의 최신 AI는 26개의 Atari 게임을 빠르게 실행합니다.Pictures

DeepMind는 SR-SPR에서 많은 내용을 수정한 후 자체적으로 채택했습니다. BBF에서 얻은 감독 교육에는 주로 다음과 같은 측면이 포함됩니다.

  • 더 높은 컨볼루션 레이어 재설정 강도: 컨볼루션 레이어 재설정 강도를 높이면 무작위 대상에 대한 섭동 진폭이 증가하여 모델의 성능이 향상되고 손실이 줄어듭니다. BBF의 재설정 강도가 증가하면 섭동 진폭이 SR -SPR에서 변경됩니다. 20%에서 50%로 증가
  • 더 큰 네트워크 크기: 신경망 레이어 수를 3에서 15 레이어로 늘리고 너비를 4배 늘립니다.
  • 업데이트 범위(n) 감소: 모델을 개선하려면 성능이 필요합니다. n의 고정되지 않은 값 사용. BBF는 40,000 경사 단계마다 재설정됩니다. 각 재설정의 처음 10,000 경사 단계에서 n은 10에서 3으로 기하급수적으로 감소합니다. 붕괴 단계는 BBF 훈련 과정의 25%를 차지합니다
  • 더 큰 붕괴 인자(γ): 어떤 사람들은 학습 과정에서 γ 값을 높이면 모델 성능이 향상될 수 있음을 발견했습니다. BBF의 γ 값은 기존 0.97에서 0.997로 증가합니다
  • Weight attenuation: 과적합 발생을 피하기 위해 BBF의 감쇠는 약 0.1
  • 입니다. : 원본 SR-SPR에 포함된 NoisyNet은 모델 성능을 향상시킬 수 없습니다
Ablation 실험 결과는 단계당 2개 및 8개 업데이트 조건에서 위의 요소가 BBF 성능에 다양한 정도의 영향을 미치는 것으로 나타났습니다.

2시간이면 인간을 능가할 수 있다! DeepMind의 최신 AI는 26개의 Atari 게임을 빠르게 실행합니다.Pictures

그 중에서도 하드 리셋과 업데이트 범위 축소의 영향이 가장 큽니다.

2시간이면 인간을 능가할 수 있다! DeepMind의 최신 AI는 26개의 Atari 게임을 빠르게 실행합니다.Pictures

위 두 그림에서 언급되지 않은 NoisyNet의 경우 모델 성능에 미치는 영향은 크지 않습니다.

2시간이면 인간을 능가할 수 있다! DeepMind의 최신 AI는 26개의 Atari 게임을 빠르게 실행합니다.Pictures

논문 주소:

https://arxiv.org/abs/2305.19452GitHub 프로젝트 페이지: https://github.com/google-research/google-research/tree/master/bigger_better_faster

참조 링크: [1]

https://www.php.cn/link/69b4fa3be19bdf400df34e41b93636a4

[2]https://www.marktechpost.com/2023/06/12/superhuman-performance-on-the -atari-100k-benchmark-the-power-of-bbf-a-new-value-based-rl-agent-from-google-deepmind-mila-and-universite-de-montreal/

— 끝 —

위 내용은 2시간이면 인간을 능가할 수 있다! DeepMind의 최신 AI는 26개의 Atari 게임을 빠르게 실행합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제
가장 많이 사용되는 10 개의 Power BI 차트 -Axaltics Vidhya가장 많이 사용되는 10 개의 Power BI 차트 -Axaltics VidhyaApr 16, 2025 pm 12:05 PM

Microsoft Power BI 차트로 데이터 시각화의 힘을 활용 오늘날의 데이터 중심 세계에서는 복잡한 정보를 비 기술적 인 청중에게 효과적으로 전달하는 것이 중요합니다. 데이터 시각화는이 차이를 연결하여 원시 데이터를 변환합니다. i

AI의 전문가 시스템AI의 전문가 시스템Apr 16, 2025 pm 12:00 PM

전문가 시스템 : AI의 의사 결정 능력에 대한 깊은 다이빙 의료 진단에서 재무 계획에 이르기까지 모든 것에 대한 전문가의 조언에 접근 할 수 있다고 상상해보십시오. 그것이 인공 지능 분야의 전문가 시스템의 힘입니다. 이 시스템은 프로를 모방합니다

최고의 바이브 코더 3 명이 코드 에서이 AI 혁명을 분해합니다.최고의 바이브 코더 3 명이 코드 에서이 AI 혁명을 분해합니다.Apr 16, 2025 am 11:58 AM

우선, 이것이 빠르게 일어나고 있음이 분명합니다. 다양한 회사들이 현재 AI가 작성한 코드의 비율에 대해 이야기하고 있으며 빠른 클립에서 증가하고 있습니다. 이미 주변에 많은 작업 변위가 있습니다

활주로 AI의 GEN-4 : AI Montage는 어떻게 부조리를 넘어갈 수 있습니까?활주로 AI의 GEN-4 : AI Montage는 어떻게 부조리를 넘어갈 수 있습니까?Apr 16, 2025 am 11:45 AM

디지털 마케팅에서 소셜 미디어에 이르기까지 모든 창의적 부문과 함께 영화 산업은 기술 교차로에 있습니다. 인공 지능이 시각적 스토리 텔링의 모든 측면을 재구성하고 엔터테인먼트의 풍경을 바꾸기 시작함에 따라

ISRO AI 무료 코스 5 일 동안 등록하는 방법은 무엇입니까? - 분석 VidhyaISRO AI 무료 코스 5 일 동안 등록하는 방법은 무엇입니까? - 분석 VidhyaApr 16, 2025 am 11:43 AM

ISRO의 무료 AI/ML 온라인 코스 : 지리 공간 기술 혁신의 관문 IIRS (Indian Institute of Remote Sensing)를 통해 Indian Space Research Organization (ISRO)은 학생과 전문가에게 환상적인 기회를 제공하고 있습니다.

AI의 로컬 검색 알고리즘AI의 로컬 검색 알고리즘Apr 16, 2025 am 11:40 AM

로컬 검색 알고리즘 : 포괄적 인 가이드 대규모 이벤트를 계획하려면 효율적인 작업량 배포가 필요합니다. 전통적인 접근 방식이 실패하면 로컬 검색 알고리즘은 강력한 솔루션을 제공합니다. 이 기사는 언덕 등반과 Simul을 탐구합니다

Openai는 GPT-4.1로 초점을 이동하고 코딩 및 비용 효율성을 우선시합니다.Openai는 GPT-4.1로 초점을 이동하고 코딩 및 비용 효율성을 우선시합니다.Apr 16, 2025 am 11:37 AM

릴리스에는 GPT-4.1, GPT-4.1 MINI 및 GPT-4.1 NANO의 세 가지 모델이 포함되어 있으며, 대형 언어 모델 환경 내에서 작업 별 최적화로 이동합니다. 이 모델은 사용자를 향한 인터페이스를 즉시 대체하지 않습니다

프롬프트 : Chatgpt는 가짜 여권을 생성합니다프롬프트 : Chatgpt는 가짜 여권을 생성합니다Apr 16, 2025 am 11:35 AM

Chip Giant Nvidia는 월요일에 AI SuperComputers를 제조하기 시작할 것이라고 말했다. 이 발표는 트럼프 SI 대통령 이후에 나온다

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
4 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
4 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
1 몇 달 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 채팅 명령 및 사용 방법
1 몇 달 전By尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

WebStorm Mac 버전

WebStorm Mac 버전

유용한 JavaScript 개발 도구

에디트플러스 중국어 크랙 버전

에디트플러스 중국어 크랙 버전

작은 크기, 구문 강조, 코드 프롬프트 기능을 지원하지 않음

Dreamweaver Mac版

Dreamweaver Mac版

시각적 웹 개발 도구

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

Eclipse용 SAP NetWeaver 서버 어댑터

Eclipse용 SAP NetWeaver 서버 어댑터

Eclipse를 SAP NetWeaver 애플리케이션 서버와 통합합니다.