한 번의 클릭으로 플레이 가능한 게임 세계를 생성하세요.
출시된 지 2주밖에 안 됐는데, Google의 세계 모델도 여기에 있고 그 기능은 더욱 강력해 보입니다. 그것이 생성하는 가상 세계는 "자율적이고 제어 가능"합니다. 지금 Google은 생성적 AI의 새로운 패러다임인 생성적 대화형 환경(Genie)을 정의했습니다. Genie는 단일 이미지 프롬프트에서 재생 가능한 대화형 환경을 생성할 수 있는 110억 개의 매개변수 기반 세계 모델입니다.
한 번도 본 적이 없는 이미지로 메시지를 표시한 다음 상상 속의 가상 세계와 상호 작용할 수 있습니다.
합성 이미지, 사진, 심지어 손으로 그린 스케치까지 Genie는 그것들로부터 무한한 플레이 가능한 세계를 생성할 수 있습니다.
Genie는 각 프레임 쌍 사이의 잠재적인 동작을 추론하는 잠재 동작 모델, 원시 비디오 프레임을 개별 토큰으로 변환하는 비디오 토크나이저, 주어진 비디오의 다음 프레임을 예측하는 동적 모델의 세 부분으로 구성됩니다. 잠재적인 행동과 과거 프레임 토큰.
이 기술이 공개된 것을 보고 많은 사람들은 '구글이 다시 AI 기술을 선도하게 될 것이다'라고 말했습니다.
Google은 또한 Genie가 학습한 잠재적 행동을 인간이 설계한 실제 환경으로 전송할 수 있다고 제안합니다. 이 가설을 바탕으로 Google은 로봇 공학 분야의 잠재적인 세계 모델 응용 프로그램에 대한 개념 증명으로 로봇 비디오에서 Genie 모델을 교육했습니다.
게임, 디자인, XR, 로봇 산업의 파괴...
4차원에서 Genie의 혁명적 의미를 이해할 수 있습니다.
먼저 Genie는 액션 태그 없이 컨트롤을 배울 수 있습니다.
구체적으로 Genie는 액션 라벨 데이터 없이 수많은 공개 인터넷 비디오 데이터 세트로 훈련되었습니다.
인터넷 동영상에는 어떤 동작이 수행되고 이미지의 어느 부분을 제어해야 하는지에 대한 라벨이 없는 경우가 많기 때문에 어려웠을 것입니다. 그러나 Genie는 구체적으로 인터넷 동영상을 통해 세밀한 제어를 학습할 수 있습니다.
Genie의 경우 관찰의 어떤 부분이 일반적으로 제어 가능한지 이해할 뿐만 아니라 생성된 환경에서 일관되는 다양한 잠재적인 동작을 추론합니다. 동일한 기본 작업이 어떻게 다른 프롬프트 이미지에서 유사한 동작을 생성할 수 있는지 확인하세요.
둘째, 지니는 차세대 '크리에이터'를 양성할 수 있습니다.
단 하나의 이미지로 완전히 새로운 인터랙티브 환경을 만들면 가상 세계를 생성하고 진입하는 다양하고 새로운 방법의 문이 열립니다. 예를 들어, 최첨단 텍스트 생성 이미지 모델을 사용하여 시작 프레임을 생성한 다음 Genie와 협력하여 동적 대화형 환경을 생성할 수 있습니다.
다음 애니메이션에서 Google은 Imagen2를 사용하여 이미지를 생성한 다음 Genie를 사용하여 이를 현실로 만들었습니다.
Genie는 그 이상을 수행할 수 있으며 다음과 같은 인간 디자인 관련 창의적 분야에도 적용될 수 있습니다. 스케치.
또는 실제 이미지에 적용:
다시 한번 Google은 Genie가 범용 지능을 실현하는 초석이라고 믿습니다. 이전 연구에 따르면 게임 환경은 AI 에이전트 개발을 위한 효과적인 테스트베드가 될 수 있지만 사용 가능한 게임 수에 따라 제한되는 경우가 많습니다.
이제 Genie를 사용하면 미래의 AI 에이전트를 새로 생성된 세계의 끝없는 커리큘럼에서 훈련할 수 있습니다. Google은 Genie가 학습한 잠재적인 행동이 인간이 설계한 실제 환경으로 전송될 수 있다는 개념 증명을 제시했습니다.
마지막으로 Google은 Genie가 별도의 도메인 지식 없이도 여러 도메인에 적용할 수 있는 일반적인 방법이라고 밝혔습니다.
사용된 데이터는 2D 플랫폼 게임 플레이 및 로봇 동영상이지만 이 방법은 일반적이고 모든 유형의 도메인에 적용 가능하며 더 큰 인터넷 데이터 세트로 확장될 수 있습니다.
Google은 RT1의 모션 없는 동영상에 대해 더 작은 25억 모델을 교육했습니다. 플랫폼 게임의 경우와 마찬가지로 기본 동작 순서가 동일한 궤적은 유사한 동작을 보이는 경우가 많습니다.
이는 Genie가 일관된 행동 공간을 학습할 수 있다는 것을 보여주며, 이는 일반화된 구체화된 지능을 생성하기 위해 로봇을 훈련시키는 데 적합할 수 있습니다.
기술 공개: "Genie: Generative Interactive Environments" 논문이 발표되었습니다
Google DeepMind가 Genie 논문을 발표했습니다.
논문 주소: https://arxiv.org/pdf/2402.15391.pdf
프로젝트 홈페이지: https://sites.google.com/view/genie-2024/home?pli= 1
이 논문의 공동 저자는 중국 학자 Yuge (Jimmy) Shi를 포함해 6명 정도입니다. 그녀는 현재 Google DeepMind의 연구원으로 재직하고 있으며 2023년에 옥스퍼드 대학교에서 머신러닝 박사 학위를 받았습니다.
방법 소개
Genie 아키텍처의 여러 구성 요소는 ViT(Vision Transformer)를 기반으로 구축되었습니다. 비디오 분야에 문제를 일으키는 Transformer의 보조 메모리 비용으로 인해 비디오에는 최대 ?(10^4)개의 토큰이 포함될 수 있다는 점은 주목할 가치가 있습니다. 따라서 Google은 모델 용량과 계산 제약 조건의 균형을 맞추기 위해 모든 모델 구성 요소에서 메모리 효율적인 ST 변환기 아키텍처(그림 4 참조)를 사용합니다.
Genie에는 세 가지 주요 구성 요소가 포함되어 있습니다(아래 그림 참조).
1) 각 프레임 쌍 사이의 잠재적인 동작을 추론하는 데 사용되는 LAM(잠재 동작 모델)
2) 비디오 토크나이저(토크나이저) ), 원본 비디오 프레임을 개별 토큰으로 변환하는 데 사용됩니까?;
3) 잠재적인 동작과 과거 프레임의 토큰이 제공된 동적 모델은 비디오의 다음 프레임을 예측하는 데 사용됩니다.
구체적으로:
잠재 동작 모델: 제어 가능한 비디오 생성을 달성하기 위해 Google은 이전 프레임에서 수행된 동작을 향후 프레임 예측의 조건으로 사용합니다. 그러나 이러한 작업 레이블은 인터넷의 비디오에서 거의 사용할 수 없으며 작업 주석을 얻는 데 드는 비용이 높을 수 있습니다. 대신 Google은 완전히 감독되지 않는 방식으로 잠재적인 작업을 학습합니다(그림 5 참조).
비디오 토크나이저: 이전 연구를 기반으로 Google은 차원을 줄이고 더 높은 품질의 비디오 생성을 달성하기 위해 비디오를 개별 토큰으로 압축합니다(그림 6 참조). 구현을 위해 Google은 비디오의 ? 프레임 을 입력으로 사용하고 각 프레임에 대해 이산 표현을 생성하는 VQ-VAE를 사용합니다. 여기서 ?는 이산 잠재 공간 크기입니다. 토크나이저는 표준 VQ-VQAE를 사용하여 전체 비디오 시퀀스에 대해 교육됩니다.
동적 모델: 디코더 전용 MaskGIT 변환기입니다(그림 7). Genie의 추론 과정은 다음과 같습니다실험 결과
확장 결과
Google에서는 모델의 확장 동작을 연구하기 위해 매개변수 크기가 2.7부터인 모델을 대상으로 실험을 수행했습니다. B ~ 41M 모델 크기와 배치 크기의 영향을 살펴보기 위해 실험 결과가 아래 그림 9에 나와 있습니다.모델 크기가 증가함에 따라 최종 훈련 손실이 감소하는 것을 관찰할 수 있습니다. 이는 Genie 접근 방식이 확장의 이점을 누리고 있다는 강력한 증거입니다. 동시에 배치 크기를 늘리면 모델 성능도 향상됩니다.
정성적 결과
Google은 Platformers 데이터세트로 훈련된 Genie 11B 매개변수 모델과 Robotics 데이터세트로 훈련된 더 작은 모델에 대한 정성적 실험 결과를 제시합니다. 결과는 Genie 모델이 다양한 도메인에 걸쳐 제어 가능한 고품질 비디오를 생성할 수 있음을 보여줍니다. 특히 Google은 플랫폼 교육 모델을 정성적으로 평가하기 위해 OOD(배포 외) 이미지 프롬프트만 사용하여 Genie 접근 방식의 견고성과 대규모 데이터 교육의 가치를 보여줍니다.
에이전트 교육. 아마도 언젠가는 Genie를 다중 작업 에이전트 교육을 위한 기본 세계 모델로 사용할 수 있을 것입니다. 그림 14에서 저자는 시작 프레임이 주어지면 새로운 RL 환경에서 다양한 궤적을 생성하는 데 모델이 이미 사용될 수 있음을 보여줍니다.
저자는 절차적으로 생성된 2D 플랫폼 게임 환경인 CoinRun에서 평가를 수행하고 전문가 작업에 대한 액세스를 상한으로 하는 Oracle BC(Behavioral Clone) 모델과 비교합니다.
절제 연구. 선택 잠재 행동 모델을 설계할 때 저자는 사용할 입력 유형을 신중하게 고려했습니다. 최종 선택은 원시 이미지(픽셀)를 사용하는 것이었지만 저자는 Genie를 디자인할 때 토큰화된 이미지를 사용하는 대안(그림 5에서 x를 z로 대체)과 비교하여 이 선택을 평가했습니다. 이 대안을 "토큰 입력" 모델이라고 합니다(표 2 참조).
토크나이저 아키텍처 제거. 저자는 1)(공간 전용) ViT, 2)(공간 및 시간) ST-ViViT, 3)(공간 및 시간) CViViT를 포함한 세 가지 토크나이저 선택의 성능을 비교했습니다(표 3).
위 내용은 방금 Google은 대화형 가상 세계를 생성할 수 있는 기본 세계 모델인 11B 매개변수를 출시했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!