検索
ホームページテクノロジー周辺機器AI赤ちゃんのように学習する DeepMind の新しいモデルは、28 時間で物理世界のルールを学習します

Deepmind は、直観的な物理学を学習し、モデルがこの機能を達成する理由を分析できるモデルを構築することを目的としています。

AlphaFold から数的推論に至るまで、DeepMind は AI と基礎科学を組み合わせることを試みてきました。今回、DeepMind は単純な物理法則を学習できる新しいモデルを作成しました。

発達心理学者は、赤ちゃんが視線を通じて物の動きをどのように追跡するかをテストし、分析しました。たとえば、ボールが突然消えるビデオが再生されると、子供たちは驚きの表情を浮かべました。

DeepMind のコンピュータ科学者 Luis Piloto 氏らは、人工知能 (AI) 向けに同様のテストを開発したいと考えています。研究チームは、立方体やボールなどの単純なオブジェクトのアニメーションのビデオを使用してニューラル ネットワークをトレーニングし、モデルは大量のデータからパターンを発見することで学習しました。この研究論文は、7月11日にNature Human Behaviour誌に掲載された。

赤ちゃんのように学習する DeepMind の新しいモデルは、28 時間で物理世界のルールを学習します

  • 論文アドレス: https://www.nature.com/articles/s41562-022-01394 -8
  • データセット アドレス: https://github.com/deepmind/physical_concepts

このモデルは、オブジェクトを自動的にエンコードして追跡することで物理学習を実行します。名前は PLATO (自動エンコーディングとオブジェクト追跡による物理学学習)。 PLATO は、ビデオから元の画像と、シーン内の各オブジェクトのターゲットを強調表示する画像のバージョンを受け取ります。 PLATO は、位置や速度などの物体の物理的特性の内部表現を開発することを目的としています。

システムは、単純な動作メカニズム (坂道を転がり落ちるボールなど) を示す約 30 時間のビデオでトレーニングされ、これらのオブジェクトがさまざまな状況でどのように動作するかを予測する機能を開発しました。特に、PLATO は、ターゲットの軌道が中断されず、オブジェクトの形状が持続することを保証するために、連続性と堅牢性を学習します。ビデオを再生すると、モデルの予測がより正確になります。

物体が突然消えるなど、「ありえない」出来事が発生するビデオを再生する場合、PLATO はビデオと自身の予測との差異を測定し、「驚き」の尺度を提供します。

ピロト氏は次のように述べています。「PLATOは乳児の行動モデルとして設計されたものではありませんが、人間の乳児がどのように学習するかについての仮説を検証することができます。最終的には認知科学者がこれを利用して乳児の行動をシミュレートすることを期待しています。」

ブリティッシュコロンビア大学のコンピューター科学者、ジェフ・クルーン氏は、「AIと人間の幼児の学習方法を比較することは、重要な研究の方向性である。PLATOの研究者は、人工知能モデルを与える事前知識の多くを手作業で設計した」と述べた。クルーンのような研究者は、物理世界を理解するためにプログラムに独自のアルゴリズムを開発させようとしています。

発達心理学の知識の活用

AI システムでより豊かな身体的直観を追求するために、DeepMind の研究チームは発達心理学からインスピレーションを得ています。研究チームは、発達心理学からの核となる洞察、つまり物理学は個別の物体とその相互作用のレベルで理解されるという洞察を組み込んだ深層学習システムを構築しました。

直感的な物理学の核心は、区別、操作、個別に検出できる一連の個別の概念 (オブジェクトの永続性、固体性、連続性など) に依存しています。 AI 学習に対する従来の標準的なアプローチでは、直感的な物理学をビデオまたは状態予測子、バイナリ結果予測、質問と回答のパフォーマンス、または強化学習タスクを通じて物理世界について学習します。これらのアプローチには、直観的な物理学のいくつかの側面を理解する必要があるように見えますが、明確な一連の概念を明示的に操作したり、戦略的に探索したりすることはできません。

一方、発達心理学では、物理的概念は未来がどのように展開するかについての一連の期待に対応すると考えています。たとえば、人々は、物体がある場所から別の場所に突然魔法のようにテレポートするのではなく、時間と空間を通って連続した経路をたどることを期待しており、これが連続性の概念につながります。したがって、特定の物理概念の知識を測定する方法、つまり期待違反 (VoE) パラダイムがあります。

VoE パラダイムを使用して特定の概念を探求する場合、研究者は、その物理的概念と一致する (物理的に可能である) か、一致しない (物理的に可能性が低い) かのいずれかである、視覚的に類似したアレイ (プローブと呼ばれる) を幼児に示します。このパラダイムでは、「驚き」は注視時間によって測定されます。

赤ちゃんのように学習する DeepMind の新しいモデルは、28 時間で物理世界のルールを学習します

メソッドの紹介

まず、DeepMind は非常に豊富なビデオ コーパス - 物理概念データ セットを提案しました。このデータセットには、継続性、目標の持続性、堅牢性など、発達心理学の中核要素と考えられる 5 つの重要な物理的概念を対象とした VoE プローブ ビデオが含まれています。 4 番目は不変性であり、特定のターゲットのプロパティ (形状など) は変化しないという概念を捉えます。5 番目の概念は方向慣性で、移動するオブジェクトが慣性の原理と一致する方向に変化するという期待が含まれます。

最も重要なことは、Physical Concepts データセットにはトレーニング データとして別のビデオ コーパスも含まれていることです。これらのビデオは、手続き的に生成されたさまざまな物理イベントを示しています。

赤ちゃんのように学習する DeepMind の新しいモデルは、28 時間で物理世界のルールを学習します

図 2: モデルのトレーニングに使用されるビデオ データセットの例

PLATO モデル アーキテクチャ

Deepmind は直感的な学習モデルの構築を目指しています物理学の理論を分析し、モデルがなぜこの機能を達成するのかを分析します。 AI 分野の一部の高度なシステムは、PLATO モデルでインスタンス化されます。

1 つ目は、ターゲットのパーソナライゼーション プロセスです。 ターゲットのパーソナライゼーション プロセスは、視覚的な連続感覚入力を一連の個別のエンティティに分割します。各エンティティは、対応する一連の属性を持ちます。 PLATO では、セグメント化された各ビデオ フレームが知覚モジュールによって一連のターゲット コード (図 3a ~ c​​) に分解され、視覚入力から個々のターゲットへのマッピングが可能になります。 PLATO はシーンをセグメント化することを学習しませんが、セグメント化ターゲットが与えられると、圧縮された表現を学習します。

第 2 に、ターゲット追跡 (またはターゲット インデックス) は各ターゲットにインデックスを割り当てます。 これにより、ターゲットの知覚と時間の経過に伴う動的属性計算の対応が得られます (図 3b、c)。 PLATO では、ターゲット コードはターゲット バッファー内のフレームにわたって蓄積および追跡されます (図 3d)。

最後のコンポーネントは、これらの追跡対象の関係処理です。このプロセスは、発達心理学で提案されている、オブジェクト間の関係を動的に処理できる「物理的推論システム」からインスピレーションを得ています。 、オブジェクトと他のオブジェクトの間の関係や相互作用によって影響を受ける新しい表現を生成します。

PLATO は、ターゲットの記憶とターゲットの知覚履歴 (図 3d) の間の相互作用を学習して、次のターゲットの予測ビデオ フレームを生成し、ターゲットベースの記憶を更新します。

赤ちゃんのように学習する DeepMind の新しいモデルは、28 時間で物理世界のルールを学習します

図 3: PLATO には 2 つのコンポーネントが含まれています: 認識モジュール (左) と動的予測 (右)

実験結果

いつテストしたところ、PLATO は 5 つの異なるランダム シードでトレーニングした場合、5 つの検出カテゴリすべてで強力な VoE 効果を示しました。

赤ちゃんのように学習する DeepMind の新しいモデルは、28 時間で物理世界のルールを学習します

図 5: PLATO は、物理概念データセットの調査において堅牢なパフォーマンスを示しています。

Physical Concepts データセットのトレーニング コーパスには、合計 300,000 のビデオが含まれています。控えめに計算すると、約 52 日間の継続的な視覚体験に相当します。 AI と開発の観点から見ると、テストで VoE 効果を生み出すために実際にどのくらいのトレーニング データが必要かという問題があります。これを評価するために、Deepmind は、サイズが減少するデータセットで 3 つの PLATO 動的予測子のランダム シードをトレーニングし (図 6)、5 つの検出クラスすべてにわたる VoE 効果の総平均を計算しました。

結果では、わずか 50,000 例 (28 時間の視覚体験に相当) でトレーニングした後、Deepmind のモデルで堅牢な VoE 効果が示されました。

赤ちゃんのように学習する DeepMind の新しいモデルは、28 時間で物理世界のルールを学習します

図 6: PLATO は、わずか 28 時間の視覚体験で強力な結果を示しています。

一般化テスト: Deepmind は、直観的な物理知識を探索するように設計された ADEPT データセットを使用します。図 7 に示すように、PLATO は 3 つの検出カテゴリすべてに対して明らかな VoE 効果を示しています。

赤ちゃんのように学習する DeepMind の新しいモデルは、28 時間で物理世界のルールを学習します

図 7: PLATO は、再トレーニングなしで、目に見えないターゲットとダイナミクスに対する強力な効果を実証します。

詳細については、元の論文をご覧ください。

以上が赤ちゃんのように学習する DeepMind の新しいモデルは、28 時間で物理世界のルールを学習しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
AIインデックス2025を読む:AIはあなたの友人、敵、または副操縦士ですか?AIインデックス2025を読む:AIはあなたの友人、敵、または副操縦士ですか?Apr 11, 2025 pm 12:13 PM

スタンフォード大学ヒト指向の人工知能研究所によってリリースされた2025年の人工知能インデックスレポートは、進行中の人工知能革命の良い概要を提供します。 4つの単純な概念で解釈しましょう:認知(何が起こっているのかを理解する)、感謝(利益を見る)、受け入れ(顔の課題)、責任(責任を見つける)。 認知:人工知能はどこにでもあり、急速に発展しています 私たちは、人工知能がどれほど速く発展し、広がっているかを強く認識する必要があります。人工知能システムは絶えず改善されており、数学と複雑な思考テストで優れた結果を達成しており、わずか1年前にこれらのテストで惨めに失敗しました。 2023年以来、複雑なコーディングの問題や大学院レベルの科学的問題を解決することを想像してみてください

Meta Llama 3.2を始めましょう - 分析VidhyaMeta Llama 3.2を始めましょう - 分析VidhyaApr 11, 2025 pm 12:04 PM

メタのラマ3.2:マルチモーダルとモバイルAIの前進 メタは最近、ラマ3.2を発表しました。これは、モバイルデバイス向けに最適化された強力なビジョン機能と軽量テキストモデルを特徴とするAIの大幅な進歩です。 成功に基づいてo

AVバイト:Meta' s llama 3.2、GoogleのGemini 1.5などAVバイト:Meta' s llama 3.2、GoogleのGemini 1.5などApr 11, 2025 pm 12:01 PM

今週のAIの風景:進歩、倫理的考慮、規制の議論の旋風。 Openai、Google、Meta、Microsoftのような主要なプレーヤーは、画期的な新しいモデルからLEの重要な変化まで、アップデートの急流を解き放ちました

マシンと話すための人的費用:チャットボットは本当に気にすることができますか?マシンと話すための人的費用:チャットボットは本当に気にすることができますか?Apr 11, 2025 pm 12:00 PM

つながりの慰めの幻想:私たちはAIとの関係において本当に繁栄していますか? この質問は、MIT Media Labの「AI(AHA)で人間を進める」シンポジウムの楽観的なトーンに挑戦しました。イベントではCondedgを紹介している間

PythonのScipy Libraryの理解PythonのScipy Libraryの理解Apr 11, 2025 am 11:57 AM

導入 あなたが科学者またはエンジニアで複雑な問題に取り組んでいると想像してください - 微分方程式、最適化の課題、またはフーリエ分析。 Pythonの使いやすさとグラフィックスの機能は魅力的ですが、これらのタスクは強力なツールを必要とします

ラマ3.2を実行する3つの方法-Analytics Vidhyaラマ3.2を実行する3つの方法-Analytics VidhyaApr 11, 2025 am 11:56 AM

メタのラマ3.2:マルチモーダルAIパワーハウス Metaの最新のマルチモーダルモデルであるLlama 3.2は、AIの大幅な進歩を表しており、言語理解の向上、精度の向上、および優れたテキスト生成機能を誇っています。 その能力t

Dagsterでデータ品質チェックを自動化しますDagsterでデータ品質チェックを自動化しますApr 11, 2025 am 11:44 AM

データ品質保証:ダグスターと大きな期待でチェックを自動化する データ駆動型のビジネスにとって、高いデータ品質を維持することが重要です。 データの量とソースが増加するにつれて、手動の品質管理は非効率的でエラーが発生しやすくなります。

メインフレームはAI時代に役割を果たしていますか?メインフレームはAI時代に役割を果たしていますか?Apr 11, 2025 am 11:42 AM

MainFrames:AI革命のUnsung Heroes サーバーは汎用アプリケーションで優れており、複数のクライアントの処理を行いますが、メインフレームは大量のミッションクリティカルなタスク用に構築されています。 これらの強力なシステムは、頻繁にヘビルで見られます

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

PhpStorm Mac バージョン

PhpStorm Mac バージョン

最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

SublimeText3 英語版

SublimeText3 英語版

推奨: Win バージョン、コードプロンプトをサポート!

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境