>  기사  >  모바일 게임 튜토리얼  >  Google DeepMind의 3D 가상 환경을 위한 범용 AI 에이전트 'SIMA'란? [CEDEC 2024]

Google DeepMind의 3D 가상 환경을 위한 범용 AI 에이전트 'SIMA'란? [CEDEC 2024]

WBOY
WBOY원래의
2024-08-26 16:09:31696검색

2024년 8월 21일, 게임 개발자용 컨퍼런스 「CEDEC 2024」에서, 세션 「SIMA: Developing General AI Agents with Video Games/SIMA: 비디오 게임을 이용한 범용형 AI 에이전트의 개발」 했다.

Google DeepMindの3D仮想環境向け汎用型AIエージェント「SIMA」とは?[CEDEC 2024]

이 세션에서는 Google DeepMind의 3D 가상 환경용 범용형 AI 에이전트 「SIMA」(Scalable Instructable Multiworld Agent)의 개요나, 게임을 이용한 트레이닝 방법, 연구로부터 얻은 배움과 과제, 그리고 향후 프로젝트의 방향성 등에 대해서, 동사의 Technology Strategy/AI R&D Data Strategy 부문의 리더를 맡는 알렉산드르 무파렉씨 가 소개했다.


Google DeepMind와 게임 DNA


무팔렉은 먼저 Google DeepMind의 미션을 "인류에게 이익을 가져다주는 책임있는 AI를 구축하는 것", 즉 AGI(범용 인공지능)를 개발하여 그것이 현실 세계에 존재하는 문제의 안전한 해결에 도움이 되도록 하는 것이라고 설명해, 지금까지 15년 가까이 연구를 계속해 온 것을 소개했다.
처음에는 보드 게임이나 Atari용의 심플한 게임의 연구로 시작해, 이윽고 신경과학과 뇌의 작용에 대한 이해로부터 영감을 얻어, 강화 학습 알고리즘의 개발을 다루게 되었다고 한다.

Google DeepMindの3D仮想環境向け汎用型AIエージェント「SIMA」とは?[CEDEC 2024]

또한 그 프로젝트에서 얻은 지식을 응용하여 연구를 진행한 결과, 동사의 AI 모델인 「AlphaProof」「AlphaGeometry 2」를 조합함으로써, 2024 년에 개최된 국제 수학 올림픽에서 은메달 수준의 능력에 도달했다는 것.
이러한 성과가 구글의 생성 AI 'Gemini' 에도 활용되고 있는 것도 언급되었다.

Google DeepMindの3D仮想環境向け汎用型AIエージェント「SIMA」とは?[CEDEC 2024]

SIMA의 연구에 게임을 이용한 것은 무팔렉 씨 자신이나 Google DeepMind의 CEO를 맡는 Demis Hassabis 씨를 필두로, 멤버의 대부분이 전 게임 개발자이기 때문이라고 한다. 씨는 「우리의 DNA에는 게임이 짜넣어지고 있다」라고 표현. 또한 SIMA의 연구와 게임 개발에는 사람들이 생각하는 것 이상에 공통점이 있다고 한다.

㈜무팔렉씨는 연구 및 게임 개발의 진행방법을 다음과 같이 설명했다. 즉, 「가설을 세워 시행착오해 간다」라고, 이윽고 「큰 가능성을 숨긴 중요한 피스를 발견」한다. 그러나 "그 조각은 어느 시점부터 기능하지 않게 되어 왜 그렇게 되었는지, 원래 기능하고 있던 이유조차 모르는 상태에 빠진다"는 것이다. 거기에서 "잘못된 모든 방법의 발견"이라는 길고 반복적이고 엄격한 프로세스에 들어가지만, 많은 인내와 자원, 그리고 최초로 세운 가설에 대한 신뢰와 끈기가 있다면, 해결책이 발견되면 것. 거기에서 모든 것이 가속되어 잘 맞물려 정리해 간다고 한다.

Google DeepMindの3D仮想環境向け汎用型AIエージェント「SIMA」とは?[CEDEC 2024]


게임을 이용한 AI 연구의 역사


무파렉씨는 게임이 오랫동안 AI 연구의 진보에 공헌해 왔으며 앞으로도 연구를 추진하는 원동력이 계속 될 것이라고 말한다. 구체적으로 게임은 AI 연구에 대해 "대화하여 학습할 수 있는 풍부하고 동적이고 복잡한 환경" "스케일러블하고 재현 가능한 실험" "관리된 안전한 테스트"를 제공한다는 것.

Google DeepMindの3D仮想環境向け汎用型AIエージェント「SIMA」とは?[CEDEC 2024]

대화하고 학습할 수 있는 풍부하고 동적이고 복잡한 환경에 관해서는 가상 공간에서의 이동 퍼즐의 해결, 대전 상대에 대한 전략의 입안, 변화하는 상황에의 적응 등 게임에서 제시되는 과제가 현실 세계의 다양 상황에 적응할 수 있는 AI 모델의 고도의 문제 해결 스킬과 의사결정 능력을 개발하는데 도움이 된다는 설명이 이루어졌다.

확장 가능하고 재현 가능한 실험의 경우 연구자는 게임 환경의 인스턴스를 쉽게 만들고 많은 수의 시뮬레이션을 동시에 실행할 수 있으며 엄청난 양의 데이터를 사용하여 AI 모델을 교육하고 평가할 수 있습니다. 를 들었다. 또한 실험을 일관되게 복제할 수 있기 때문에 연구결과의 신뢰성과 타당성이 보장된다는 것이다.

관리되는 안전한 테스트의 경우 가상 공간의 다양한 상황에서 AI 모델의 성능을 평가하여 잠재적 결함 및 제한을 파악하고 실제 환경에서의 테스트와 관련된 위험 없이 알고리즘을 개선할 수 있음 표시되었습니다. 이것은 특히 오류가 심각한 결과를 초래할 수 있는 자율주행이나 의료진단 등의 앱에 중요하다고 한다.

강화 학습 및 딥 러닝이 비약적으로 향상된 2010년부터 2024년 사이에 게임에 의해 AI 연구가 실제로 진보한 사례도 나타났다. 2010년대 전반에는, Google DeepMind가 Atari용 게임과 「DQN」(Deep Q-Network)를 이용해, 알고리즘의 개발에 도전. 그 결과, 50 타이틀 이상의 Atari용 게임 플레이에서 초인적인 퍼포먼스를 발휘하는 알고리즘이 완성되었다.

Google DeepMindの3D仮想環境向け汎用型AIエージェント「SIMA」とは?[CEDEC 2024]

2010년대 중반부터 후반에 걸쳐서는, Microsoft가 「Minecraft」를 이용한 AI 훈련 프로젝트「Project Malmo」를 전개. 또한 OpenAI의 AI 학습 플랫폼 'Universe' 는 매우 범용적인 UI를 갖추고 있었기 때문에 게임을 연구용으로 스케일 업하여 사용할 수 있게 되었다.

또한 2020년대 후반에는 'Dota 2' 용 AI 시스템 'OpenAI Five' 이 등장하거나 DeepMind가 개발한 AI 에이전트 'AlphaStar' 「StarCraft II」에서 톱 플레이어에 승리하거나와 복잡한 게임에서도 AI가 활용되게 되었다. 무화렉은 이 시기에 대해 커스터마이즈된 액션 스페이스를 갖춘 단일 환경에 초점을 맞추고, 게임의 소스 코드를 바꾸거나, AI 에이전트에 특수한 API를 구현하여 커스터마이즈한 연구용 플랫폼을 만들었다. 했다고 설명했다.

그리고, 2017년에 Google이 발표한 기계 학습 모델「Transformer」에 의해, AI의 범용성이 확대되어, 대규모 언어 모델(LLM)을 이용한 대화 문장의 요약이나 시의 집필, 데이터 분석 등이 채팅봇을 통해 가능해졌다. 더욱 범용화에 의해, 화상이나 음성, 영상도 AI에 의해 생성 가능하게 되어 갔다.

Google DeepMindの3D仮想環境向け汎用型AIエージェント「SIMA」とは?[CEDEC 2024]

그러나 무팔렉은 그러한 대규모 AI 모델의 한계를 지적한다. 즉 대규모 AI 모델에는 신체성이 없기 때문에, 어디까지나 디지털 영역 내의 것이며, 물리적인 영역에서는 동작할 수 없다. 따라서 AI를 물리적인 영역에서 활용하려면 소프트뱅크의 「Pepper」나 Waymo의 자동운전차 등과 같이 물리적인 센서 등을 통해 신체성을 갖게 할 필요가 생기는 것이다.


AI 연구의 다음 챕터: SIMA


무파렉씨에 의하면, 상기의 AI 모델의 한계라는 과제를 극복하기 위해, DeepMind에서는 SIMA의 연구를 진행했다고 한다. 그 목표는 "언어에 따라 조건부 AI 에이전트를 개발하는 것"으로, 즉 자율적으로 게임을 플레이 할뿐만 아니라 인간이 자연 언어를 사용하여 "무엇을하고 싶은지"를 전달함으로써, 을 실행할 수 있는 AI 에이전트의 실현을 목표로 한 것.

Google DeepMindの3D仮想環境向け汎用型AIエージェント「SIMA」とは?[CEDEC 2024]

이러한 목표를 실현하기 위해 세워진 가설은, “한 환경에서 AI 에이전트가 무언가를 학습하고, 그 스킬을 사용해 다른 환경에서 무언가를 할 수 있게 되면, AI의 범용화 가 진행된다”는 것이었다. 즉 게임 1 타이틀 마다 전용의 AI 에이전트를 준비하는 것이 아니라, 인간이 새로운 게임에 접했을 때, 캐릭터나 카메라등의 조작을 그때까지 플레이해 온 게임으로부터 계승하는 것을 1개의 AI 에이전트로 실현시킨다는 것이다.

이를 위해 DeepMind는 여러 게임기업과 제휴하여 AI 에이전트의 학습용 포트폴리오를 만들었다고 한다. 구체적으로는 'No Man's Sky', 'Valheim', 'Teardown', 'Goat Simulator' 등의 인간에 의한 게임 플레이를 녹화해 AI 에이전트에게 학습시켰다고 한다. 한층 더 텍스트 베이스로 지시를 주는 것으로, SIMA를 실현할 수 있었다고 한다.

Google DeepMindの3D仮想環境向け汎用型AIエージェント「SIMA」とは?[CEDEC 2024]


SIMA 교육


SIMA의 학습 파이프라인을 어떻게 구축해 갔는지에 대해서도 소개가 이루어졌다. 무파렉씨에 의하면 최초로 게임과 연구 환경의 온보딩을 실시하는 것으로, 소스 코드에의 액세스나 특별한 API가 없어도, SIMA는 인간과 같이 게임을 플레이할 수 있게 된다고 한다.

Google DeepMindの3D仮想環境向け汎用型AIエージェント「SIMA」とは?[CEDEC 2024]

또 게임과 연구 환경의 온보딩은, 그 게임의 개발자의 협력하에 실시한다고 한다. 이는 그 게임 및 SIMA 프로젝트에서 사용하는 데이터를 어떻게 취급하는지 등에 대한 책임의 소재를 명확히 하기 위해서이다.

뮤팔렉에 따르면, SIMA 프로젝트에는 다양하고 비폭력적인 학습 포트폴리오가 필요했다는 것. 따라서 시각적으로 자연스러운 것, 공업적인 것, 현실적인 것, SF적인 것, 혹은 1인칭 시점, 3인칭 시점 등 다양한 게임 타이틀을 선출. 또한 복잡한 메커니즘을 통해 SIMA가 다양한 행동을 취할 수 있도록 오픈 월드와 샌드박스의 요소도 채택했다고 한다.

Google DeepMindの3D仮想環境向け汎用型AIエージェント「SIMA」とは?[CEDEC 2024]

SIMA의 인터페이스에는 범용적인 것을 채용하고 있지만, 그것은 범용적인 AI 에이전트를 실현하기 위한 것이었다고 한다. SIMA는 최초로 인간으로부터 자연 언어로 기록된 텍스트로 목표나 지시를 받아 실시간으로 인식한다. 그리고 인간처럼 컨트롤러나 키보드 & 마우스를 사용하여 게임을 플레이해 간다.
뮤파렉 씨는 이러한 범용 인터페이스를 사용함으로써 커스터마이징하지 않고 어떤 게임에도 SIMA를 통합할 수 있다고 설명했다.

Google DeepMindの3D仮想環境向け汎用型AIエージェント「SIMA」とは?[CEDEC 2024]

또, SIMA의 학습 데이터의 작성에는, 2개의 수법이 채취되었다. 하나는 인간 1명이 게임을 플레이하고, 그 영상을 보고 요소요소의 지시 등을 자연언어로 하는 어노테이션을 해 나간다는 것. 두 번째는 두 사람 한 쌍으로 실시하는 것으로, 한 사람이 자연 언어로 지시를 주고, 다른 한 사람이 그것을 따르는 플레이 영상을 촬영하고, 어노테이션을 붙인다는 것이다.
이에 키보드 & 마우스 등의 조작 데이터를 더한 것이 SIMA의 데이터 세트이다.

Google DeepMindの3D仮想環境向け汎用型AIエージェント「SIMA」とは?[CEDEC 2024]

이러한 데이터세트에는 게임중의 「오브젝트를 만드는」 「자동차를 운전한다」라고 하는 SIMA의 게임 플레이에 필요한 스킬이 포함된다. 이들 스킬을 모든 타이틀분 모은 결과, 전체적으로는 방대한 수가 되었다고 하지만, 그래도 SIMA 프로젝트에 대해서는 너무 충분하지 않다고 한다.
무파렉씨는 데이터나 어노테이션이 고품질일수록 SIMA의 개선에 도움이 되고 향후에도 이러한 노력을 계속해 나갈 것이라고 말했다.

데이터 세트가 준비되면 드디어 SIMA의 학습 트레이닝이 시작된다. 여기서 사용하는 것이 인간의 플레이를 흉내내서 학습시키는 '조건부 행동 클로닝'이다.
그 핵심이 되는 것은 사전 학습 모델을 지원하는 아키텍처이지만, 그것을 개발한 시점에서는 아직 Gemini가 존재하지 않았기 때문에, Classifier-Free Guidance(CFG)를 이용해 시각 입력보다 언어적인 명령을 우선 하도록 학습시키고 자연어를 잘 이해할 수 있도록 지원한 것이 밝혀졌다.

Google DeepMindの3D仮想環境向け汎用型AIエージェント「SIMA」とは?[CEDEC 2024]

SIMA가 내놓은 성과를 평가하는 페이즈에서는, 다양한 태스크에 있어서의 퍼포먼스를 측정하기 위해, 챌린지 세트를 작성했다고 한다. 작업에는 세 가지 요소가 있으며, 첫 번째는 SIMA가 행동을 시작하는 "초기 상태", 두 번째는 SIMA가 따라야 할 "목표 / 지시", 세 번째는 작업을 달성 할 수 있는지 여부를 결정합니다. 성공기준'이다.

Google DeepMindの3D仮想環境向け汎用型AIエージェント「SIMA」とは?[CEDEC 2024]

또한 SIMA는 프로그램적으로 작업이 성공적으로 완료되었는지 여부를 결정하는 "Ground Truth", 화면의 텍스트 변경으로 인해 어떤 행동을 취했는지 피드백하는 "광학 문자 인식 (OCR)"및 인간 가 영상을 확인하고 태스크가 정상적으로 완료되었는지를 확인하는 '인간에 의한 평가'의 3가지 관점에서 평가되는 것도 소개되었다.


SIMA 초기 연구 결과 및 이 접근법의 제약


프로젝트 초기의 연구 결과로부터, SIMA는 다양한 게임에서 일반적으로 실행할 수 있는 태스크, 예를 들면 「앞으로 진행한다」 「메뉴를 열기」라고 하는 행동을 완료할 수 있는 것이 판명되었다.

Google DeepMindの3D仮想環境向け汎用型AIエージェント「SIMA」とは?[CEDEC 2024]

또, 게임마다 다른 의미가 될 가능성이 있는 태스크, 예를 들면 「No Man's Sky」에 있어서의 우주선의 이륙이나, 「Teardown」에 있어서의 보트의 조종이라고 하는 행동등도, 잘 완료할 수 있었다.

Google DeepMindの3D仮想環境向け汎用型AIエージェント「SIMA」とは?[CEDEC 2024]

한편, 각 게임 고유의 태스크를 완료할 수 있었는지 아닌지에 관해서는, 별도 준비한 3개의 방법으로 평가했다고 한다.
1개는 단독의 게임의 데이터를 학습시켜, 같은 환경에서 평가한 「Specialist」로, 이것을 100%의 퍼포먼스로서 평가의 베이스 라인으로 한다.
2번째는, 10타이틀의 게임의 데이터를 학습시켜, 그 중 어느 하나의 게임의 환경에서 테스트를 해 평가하는 「SIMA」이다.
그리고 세 번째가 10 타이틀 중 9 타이틀의 데이터를 학습시키고 나머지 1 타이틀의 게임 환경에서 테스트하고 평가하는 'Zero-Shot'이다.

Google DeepMindの3D仮想環境向け汎用型AIエージェント「SIMA」とは?[CEDEC 2024]

그 결과, SIMA는 10 타이틀 모두를 학습시켰을 때는 Specialist보다 높은 퍼포먼스를, 또 Zero-Shot에서도 Specialist에 가까운 퍼포먼스를 각각 발휘했다고 한다.
즉, "한 환경에서 AI 에이전트가 뭔가를 학습하고 그 스킬을 사용하여 다른 환경에서 뭔가를 할 수 있게 된다"는 것을 확인할 수 있었기 때문에 무팔렉은 매우 만족했다고 한다. .

Google DeepMindの3D仮想環境向け汎用型AIエージェント「SIMA」とは?[CEDEC 2024]

그러나이 프로젝트의 목표는 "언어에 따라 조건부 AI 에이전트를 개발하는 것"입니다. 거기서 자연언어에 의한 어노테이션을 제외해 학습을 실시해, 테스트한 결과, SIMA의 퍼포먼스는 현저하게 저하했다고 한다.
거기서 처음으로 “단일 에이전트를 다수의 대규모 환경에서 트레이닝하면 학습이 전이되어 범화가 이루어진다”는 가설이 증명된 것이다.

Google DeepMindの3D仮想環境向け汎用型AIエージェント「SIMA」とは?[CEDEC 2024]

各タイトルにおけるSIMAのパフォーマンスも示された。ムファレク氏によるとタイトルごとの汎化の違いは,タスク実行に必要な固有の知識量の違いにあるとのこと
Google DeepMindの3D仮想環境向け汎用型AIエージェント「SIMA」とは?[CEDEC 2024]

SIMAにCFGを使った指示を加えるとそうでない場合よりも高いパフォーマンスが得られる。しかし特定の閾値を超えると,逆にパフォーマンスが落ちるそうだ
Google DeepMindの3D仮想環境向け汎用型AIエージェント「SIMA」とは?[CEDEC 2024]

무파렉씨는 이상의 결과를 근거로, 「SIMA는 정말로 훌륭한 성공을 거두었다」라고 하면서도, 「완전과는 거리가 멀다」라고 말한다. 이것은 태스크의 완료율이 환경에 크게 좌우되기 때문이며, 인간의 플레이에는 전혀 안 되기 때문이다.
하지만 씨는 그러므로 여기에서 SIMA의 연구 의욕을 몰아낼 수 있다고 말했다.

Google DeepMindの3D仮想環境向け汎用型AIエージェント「SIMA」とは?[CEDEC 2024]
Google DeepMindの3D仮想環境向け汎用型AIエージェント「SIMA」とは?[CEDEC 2024]


향후 전개


마지막으로 무화렉 씨는 SIMA 프로젝트의 향후 전개를 나타냈다. 그것은 차세대의 시뮬레이션 기반에 의한 AI 에이전트 연구가 된다고 한다. 수년에 걸쳐 온 게임에 의한 AI 연구의 기반이며, 아직 해야 할 일은 많이 있다고 한다.

Google DeepMindの3D仮想環境向け汎用型AIエージェント「SIMA」とは?[CEDEC 2024]

지금까지는 AI 에이전트의 퍼포먼스를 뛰어난 것으로 하기 위한 학습을 ​​연구해 왔지만, 예를 들면 「StarCraft II」의 업데이트에 의해, AlphaStar의 퍼포먼스는 저하하고 있다.
무팔렉은 "게임이 업데이트될 때마다 AI 에이전트에게 재학습하는 것은 현실적이지 않다"며 SIMA의 추가 범용화에 의해 게임에 새로운 피쳐가 들어가도 AI 에이전트가 뛰어난 퍼포먼스를 낼 수 있다면 말했다.

또한 SIMA는 「모닥을 모으는」「그 모닥을 불에 빠뜨린다」라고 하는 단시간에 완료할 수 있는 태스크는 자랑하지만, 「집을 짓다」와 같은 플랜이나 복수의 스텝, 추론이 필요한 태스크는 반드시 그렇지 않다고 한다.
그러나 지금은 Gemini가 SIMA의 강력한 지원이 될 수 있다고 예로 Gemini가 디렉터가되어 "집을 세우다"라는 장시간 걸리는 작업을 단시간의 작업으로 분할하여 SIMA에 전달한다는 것을 들 수있다. 했다.

Google DeepMindの3D仮想環境向け汎用型AIエージェント「SIMA」とは?[CEDEC 2024]

무팔렉은 SIMA 프로젝트는 매우 흥미롭고 훌륭한 범용성을 기대할 수 있는 반면, 아직 완전한 범용형 AI 에이전트가 되지 않았다고 다시 현재 상태를 말해 있을지도 모른다. 그렇게 되면, 더욱 그 앞의 전개도 가능해진다”라고 전망을 말하고 있었다.

Google DeepMindの3D仮想環境向け汎用型AIエージェント「SIMA」とは?[CEDEC 2024]
Google DeepMindの3D仮想環境向け汎用型AIエージェント「SIMA」とは?[CEDEC 2024]

위 내용은 Google DeepMind의 3D 가상 환경을 위한 범용 AI 에이전트 'SIMA'란? [CEDEC 2024]의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.