たった今、Google が基本的な世界モデル、つまりインタラクティブな仮想世界を生成できる 11B パラメータをリリースしました。-AI-php.cn

ホームページ

テクノロジー周辺機器

たった今、Google が基本的な世界モデル、つまりインタラクティブな仮想世界を生成できる 11B パラメータをリリースしました。

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Aug 06, 2024 am 12:18 AM

グーグル業界ワールドモデルGenie

ワンクリックでプレイ可能なゲームワールドを生成します。

公開されてからまだ 2 週間しか経っていませんが、Google の世界モデルも登場し、その機能はさらに強力になっているようです。それが生成する仮想世界は「自律的で制御可能」です。たった今、Google は生成 AI の新しいパラダイム、生成的インタラクティブ環境 (Genie) を定義しました。 Genie は、1 つの画像プロンプトからプレイ可能なインタラクティブな環境を生成できる 110 億パラメータのベースワールドモデルです。

私たちは、これまで見たことのない画像でそれを促し、私たちの想像力の仮想世界と対話することができます。

合成画像、写真、さらには手描きのスケッチであっても、Genie はそれらから無限の再生可能な世界を生成できます。

たった今、Google が基本的な世界モデル、つまりインタラクティブな仮想世界を生成できる 11B パラメータをリリースしました。

Genie は、フレームの各ペア間の潜在的なアクションを推測する潜在アクションモデル、生のビデオフレームを個別のトークンに変換するビデオトークナイザー、および指定されたビデオの次のフレームを予測する動的モデルの 3 つの部分で構成されます。潜在的なアクションと過去のフレームトークン。

このテクノロジーのリリースを見て、多くの人がこう言いました。Google が再び AI テクノロジーをリードすることになるでしょう。

たった今、Google が基本的な世界モデル、つまりインタラクティブな仮想世界を生成できる 11B パラメータをリリースしました。

Google はまた、Genie によって学習された潜在的なアクションを人間が設計した実際の環境に転送できることを提案しています。この仮説に基づいて、Google はロボット工学分野での潜在的なワールドモデルアプリケーションの概念実証として、ロボットビデオで Genie モデルをトレーニングしました。

ゲーム、デザイン、XR、ロボット産業の破壊…

私たちは Genie の革命的な重要性を 4 つの次元から理解できます。

まず、Genie はアクションタグなしでコントロールを学習できます。

具体的には、Genie は、アクションラベルデータなしで、多数の公開インターネットビデオデータセットを使用してトレーニングされます。

インターネットビデオには、どのアクションが実行されているか、画像のどの部分を制御する必要があるかについてのラベルがないことが多いため、これは困難でした。しかし、Genie は特にインターネットビデオから詳細な制御を学習することができます。

Genie の場合、観察のどの部分が一般的に制御可能であるかを理解するだけでなく、生成された環境で一貫したさまざまな潜在的なアクションを推測します。同じ基礎となるアクションが、異なるプロンプト画像でどのように同様の動作を生成するかに注目してください。

第二に、Genie は次世代の「クリエイター」を育成できます。

たった 1 つの画像でまったく新しいインタラクティブな環境を作成すると、仮想世界を生成して仮想世界に入るさまざまな新しい方法への扉が開きます。たとえば、最先端のテキスト生成画像モデルを使用して開始フレームを生成し、Genie と連携して動的なインタラクティブ環境を生成できます。

次のアニメーションでは、Google は Imagen2 を使用して画像を生成し、それを Genie を使用して現実に変えています:

たった今、Google が基本的な世界モデル、つまりインタラクティブな仮想世界を生成できる 11B パラメータをリリースしました。

Genie はそれ以上のことができ、ヒューマンデザイン関連の創造的な分野にも応用できます。スケッチ。

または、現実世界の画像に適用すると:

繰り返しになりますが、Google は Genie が汎用インテリジェンスを実現するための基礎であると信じています。これまでの研究では、ゲーム環境は AI エージェント開発の効果的なテストベッドとなり得るが、多くの場合、利用可能なゲームの数によって制限されることが示されています。

Genie を使用すると、新しく生成された世界の無限のカリキュラムで将来の AI エージェントをトレーニングできるようになります。 Google は、Genie によって学習された潜在的なアクションを実際の人間が設計した環境に転送できるという概念実証を発表しました。

最後に、Google は、Genie は追加のドメイン知識を必要とせずに複数のドメインに適用できる一般的な方法であると述べました。

使用されるデータは 2D プラットフォーマーのゲームプレイやロボットのビデオですが、この方法は一般的であらゆるタイプのドメインに適用でき、より大きなインターネットデータセットに拡張できます。

Google は、RT1 の動きのないビデオで小型の 25 億モデルをトレーニングしました。プラットフォーマーの場合と同様、基本的なアクションのシーケンスが同じである軌跡は、多くの場合、同様の動作を示します。

これは、Genie が一貫した行動空間を学習できることを示しており、これはロボットを訓練して一般化された身体化知能を作成するのに適している可能性があります。

テクノロジーの公開: 論文「Genie: Generative Interactive Environments」がリリースされました

Google DeepMind が Genie の論文をリリースしました。

たった今、Google が基本的な世界モデル、つまりインタラクティブな仮想世界を生成できる 11B パラメータをリリースしました。

論文アドレス: https://arxiv.org/pdf/2402.15391.pdf
プロジェクトホームページ: https://sites.google.com/view/genie-2024/home?pli= 1

この論文の共著者は中国学者のYuge (Jimmy) Shi氏を含めて6人もいる。彼女は現在、Google DeepMind の研究科学者であり、2023 年にオックスフォード大学から機械学習の博士号を取得しました。

たった今、Google が基本的な世界モデル、つまりインタラクティブな仮想世界を生成できる 11B パラメータをリリースしました。

方法の紹介

Genie アーキテクチャの複数のコンポーネントは、Vision Transformer (ViT) に基づいて構築されています。 Transformer の二次メモリのコストがビデオ分野に課題をもたらすため、ビデオには最大 ?(10^4) トークンを含めることができることに注意してください。したがって、Google はすべてのモデルコンポーネントでメモリ効率の高い ST トランスフォーマーアーキテクチャ (図 4 を参照) を使用して、モデルの容量と計算上の制約のバランスをとります。

たった今、Google が基本的な世界モデル、つまりインタラクティブな仮想世界を生成できる 11B パラメータをリリースしました。

Genie には 3 つの重要なコンポーネントが含まれています (下の図に示すように):

1) フレームの各ペア間の潜在的なアクションを推論するために使用される潜在アクションモデル (LAM)

2) ビデオトークナイザー (トークナイザー) )、元のビデオフレームを個別のトークンに変換するために使用されます?;

3) 潜在的なアクションと過去のフレームのトークンが与えられた動的モデルは、ビデオの次のフレームを予測するために使用されます。

たった今、Google が基本的な世界モデル、つまりインタラクティブな仮想世界を生成できる 11B パラメータをリリースしました。

具体的には:

潜在アクションモデル: 制御可能なビデオ生成を実現するために、Google は、前のフレームで行われたアクションを将来のフレーム予測の条件として使用します。ただし、このようなアクションラベルがインターネット上のビデオで利用できることはほとんどなく、アクションの注釈を取得するコストが高くなる可能性があります。代わりに、Google は完全に監視されていない方法で潜在的なアクションを学習します (図 5 を参照)。

たった今、Google が基本的な世界モデル、つまりインタラクティブな仮想世界を生成できる 11B パラメータをリリースしました。

ビデオトークナイザー: 以前の研究に基づいて、Google はビデオを個別のトークンに圧縮して次元を削減し、より高品質のビデオ生成を実現します (図 6 を参照)。実装には、Google は VQ-VAE を使用します。これは、ビデオの ? フレームたった今、Google が基本的な世界モデル、つまりインタラクティブな仮想世界を生成できる 11B パラメータをリリースしました。を入力として受け取り、各フレームの離散表現を生成します。ここで、 ? は離散潜在空間サイズです。トークナイザーは、標準の VQ-VQAE を使用してビデオシーケンス全体でトレーニングされます。

たった今、Google が基本的な世界モデル、つまりインタラクティブな仮想世界を生成できる 11B パラメータをリリースしました。

動的モデル: デコーダー専用の MaskGIT トランスフォーマーです (図 7)。

たった今、Google が基本的な世界モデル、つまりインタラクティブな仮想世界を生成できる 11B パラメータをリリースしました。

Genieの推論プロセスは次のとおりです

たった今、Google が基本的な世界モデル、つまりインタラクティブな仮想世界を生成できる 11B パラメータをリリースしました。

実験結果

拡張結果

モデルの拡張動作を研究するために、Googleはパラメータサイズが2.7からの範囲のモデルで実験を実施しましたB to 41M モデルサイズとバッチサイズの影響を調べるために、実験結果を以下の図 9 に示します。

たった今、Google が基本的な世界モデル、つまりインタラクティブな仮想世界を生成できる 11B パラメータをリリースしました。

モデルのサイズが大きくなるにつれて、最終的なトレーニング損失が減少することが観察できます。これは、Genie アプローチがスケーリングによって恩恵を受けることを強く示しています。同時に、バッチサイズを増やすと、モデルのパフォーマンスも向上します。

定性的結果

Google は、Platformers データセットでトレーニングされた Genie 11B パラメトリックモデルと Robotics データセットでトレーニングされた小規模モデルの定性的な実験結果を示します。結果は、Genie モデルがさまざまなドメインにわたって高品質で制御可能なビデオを生成できることを示しています。特に、Google はプラットフォームトレーニングモデルを定性的に評価するために配布外 (OOD) 画像プロンプトのみを使用しており、Genie アプローチの堅牢性と大規模データトレーニングの価値を実証しています。

たった今、Google が基本的な世界モデル、つまりインタラクティブな仮想世界を生成できる 11B パラメータをリリースしました。

エージェントトレーニング。おそらくいつか、Genie をマルチタスクエージェントをトレーニングするための基本世界モデルとして使用できるようになるでしょう。図 14 で、著者らは、開始フレームが与えられた新しい RL 環境でさまざまな軌道を生成するためにモデルをすでに使用できることを示しています。

たった今、Google が基本的な世界モデル、つまりインタラクティブな仮想世界を生成できる 11B パラメータをリリースしました。

著者らは、手続き的に生成された 2D プラットフォームゲーム環境である CoinRun で評価を実施し、エキスパート操作へのアクセスを上限とした Oracle 行動クローン (BC) モデルと比較しました。

たった今、Google が基本的な世界モデル、つまりインタラクティブな仮想世界を生成できる 11B パラメータをリリースしました。

アブレーションの研究。選択潜在アクションモデルを設計する際、著者らは使用する入力の種類を慎重に検討しました。最終的な選択は生の画像 (ピクセル) を使用することでしたが、著者らは Genie を設計する際にトークン化された画像を使用する (図 5 の x を z に置き換える) という選択肢に対してこの選択を評価しました。この代替方法は「トークン入力」モデルと呼ばれます (表 2 を参照)。

たった今、Google が基本的な世界モデル、つまりインタラクティブな仮想世界を生成できる 11B パラメータをリリースしました。

トークナイザーアーキテクチャのアブレーション。著者らは、1) (空間のみ) ViT、2) (空間および時間) ST-ViViT、3) (空間および時間) CViViT を含む 3 つのトークナイザーの選択肢のパフォーマンスを比較しました (表 3)。

たった今、Google が基本的な世界モデル、つまりインタラクティブな仮想世界を生成できる 11B パラメータをリリースしました。

以上がたった今、Google が基本的な世界モデル、つまりインタラクティブな仮想世界を生成できる 11B パラメータをリリースしました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

革新を調理する：人工知能がフードサービスを変革する方法Apr 12, 2025 pm 12:09 PM

食品の準備を強化するAI まだ初期の使用中ですが、AIシステムは食品の準備にますます使用されています。 AI駆動型のロボットは、ハンバーガーの製造、SAの組み立てなど、食品の準備タスクを自動化するためにキッチンで使用されています

Pythonネームスペースと可変スコープに関する包括的なガイドApr 12, 2025 pm 12:00 PM

導入 Python関数における変数の名前空間、スコープ、および動作を理解することは、効率的に記述し、ランタイムエラーや例外を回避するために重要です。この記事では、さまざまなASPを掘り下げます

ビジョン言語モデル（VLM）の包括的なガイドApr 12, 2025 am 11:58 AM

導入鮮やかな絵画や彫刻に囲まれたアートギャラリーを歩くことを想像してください。さて、各ピースに質問をして意味のある答えを得ることができたらどうでしょうか？あなたは尋ねるかもしれません、「あなたはどんな話を言っていますか？

MediaTekは、Kompanio UltraとDimenity 9400でプレミアムラインナップをブーストしますApr 12, 2025 am 11:52 AM

製品のケイデンスを継続して、今月MediaTekは、新しいKompanio UltraやDimenity 9400を含む一連の発表を行いました。これらの製品は、スマートフォン用のチップを含むMediaTekのビジネスのより伝統的な部分を埋めます

今週のAIで：Walmartがファッションのトレンドを設定する前に設定しますApr 12, 2025 am 11:51 AM

＃1 GoogleはAgent2Agentを起動しました物語：月曜日の朝です。 AI駆動のリクルーターとして、あなたはより賢く、難しくありません。携帯電話の会社のダッシュボードにログインします。それはあなたに3つの重要な役割が調達され、吟味され、予定されていることを伝えます

生成AIは精神障害に会いますApr 12, 2025 am 11:50 AM

私はあなたがそうであるに違いないと思います。私たちは皆、精神障害がさまざまな心理学の用語を混ぜ合わせ、しばしば理解できないか完全に無意味であることが多い、さまざまなおしゃべりで構成されていることを知っているようです。 FOを吐き出すために必要なことはすべてです

プロトタイプ：科学者は紙をプラスチックに変えますApr 12, 2025 am 11:49 AM

今週公開された新しい研究によると、2022年に製造されたプラスチックの9.5％のみがリサイクル材料から作られていました。一方、プラスチックは埋め立て地や生態系に積み上げられ続けています。しかし、助けが近づいています。エンジンのチーム

AIアナリストの台頭：これがAI革命で最も重要な仕事になる理由Apr 12, 2025 am 11:41 AM

主要なエンタープライズ分析プラットフォームAlteryxのCEOであるAndy Macmillanとの私の最近の会話は、AI革命におけるこの重要でありながら過小評価されている役割を強調しました。 MacMillanが説明するように、生のビジネスデータとAI-Ready情報のギャップ

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

ZendStudio 13.5.1 Mac

強力な PHP 統合開発環境

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、