ホームページ  >  記事  >  テクノロジー周辺機器  >  赤ちゃんのように学習する DeepMind の新しいモデルは、28 時間で物理世界のルールを学習します

赤ちゃんのように学習する DeepMind の新しいモデルは、28 時間で物理世界のルールを学習します

WBOY
WBOY転載
2023-04-09 11:41:151472ブラウズ

Deepmind は、直観的な物理学を学習し、モデルがこの機能を達成する理由を分析できるモデルを構築することを目的としています。

AlphaFold から数的推論に至るまで、DeepMind は AI と基礎科学を組み合わせることを試みてきました。今回、DeepMind は単純な物理法則を学習できる新しいモデルを作成しました。

発達心理学者は、赤ちゃんが視線を通じて物の動きをどのように追跡するかをテストし、分析しました。たとえば、ボールが突然消えるビデオが再生されると、子供たちは驚きの表情を浮かべました。

DeepMind のコンピュータ科学者 Luis Piloto 氏らは、人工知能 (AI) 向けに同様のテストを開発したいと考えています。研究チームは、立方体やボールなどの単純なオブジェクトのアニメーションのビデオを使用してニューラル ネットワークをトレーニングし、モデルは大量のデータからパターンを発見することで学習しました。この研究論文は、7月11日にNature Human Behaviour誌に掲載された。

赤ちゃんのように学習する DeepMind の新しいモデルは、28 時間で物理世界のルールを学習します

  • 論文アドレス: https://www.nature.com/articles/s41562-022-01394 -8
  • データセット アドレス: https://github.com/deepmind/physical_concepts

このモデルは、オブジェクトを自動的にエンコードして追跡することで物理学習を実行します。名前は PLATO (自動エンコーディングとオブジェクト追跡による物理学学習)。 PLATO は、ビデオから元の画像と、シーン内の各オブジェクトのターゲットを強調表示する画像のバージョンを受け取ります。 PLATO は、位置や速度などの物体の物理的特性の内部表現を開発することを目的としています。

システムは、単純な動作メカニズム (坂道を転がり落ちるボールなど) を示す約 30 時間のビデオでトレーニングされ、これらのオブジェクトがさまざまな状況でどのように動作するかを予測する機能を開発しました。特に、PLATO は、ターゲットの軌道が中断されず、オブジェクトの形状が持続することを保証するために、連続性と堅牢性を学習します。ビデオを再生すると、モデルの予測がより正確になります。

物体が突然消えるなど、「ありえない」出来事が発生するビデオを再生する場合、PLATO はビデオと自身の予測との差異を測定し、「驚き」の尺度を提供します。

ピロト氏は次のように述べています。「PLATOは乳児の行動モデルとして設計されたものではありませんが、人間の乳児がどのように学習するかについての仮説を検証することができます。最終的には認知科学者がこれを利用して乳児の行動をシミュレートすることを期待しています。」

ブリティッシュコロンビア大学のコンピューター科学者、ジェフ・クルーン氏は、「AIと人間の幼児の学習方法を比較することは、重要な研究の方向性である。PLATOの研究者は、人工知能モデルを与える事前知識の多くを手作業で設計した」と述べた。クルーンのような研究者は、物理世界を理解するためにプログラムに独自のアルゴリズムを開発させようとしています。

発達心理学の知識の活用

AI システムでより豊かな身体的直観を追求するために、DeepMind の研究チームは発達心理学からインスピレーションを得ています。研究チームは、発達心理学からの核となる洞察、つまり物理学は個別の物体とその相互作用のレベルで理解されるという洞察を組み込んだ深層学習システムを構築しました。

直感的な物理学の核心は、区別、操作、個別に検出できる一連の個別の概念 (オブジェクトの永続性、固体性、連続性など) に依存しています。 AI 学習に対する従来の標準的なアプローチでは、直感的な物理学をビデオまたは状態予測子、バイナリ結果予測、質問と回答のパフォーマンス、または強化学習タスクを通じて物理世界について学習します。これらのアプローチには、直観的な物理学のいくつかの側面を理解する必要があるように見えますが、明確な一連の概念を明示的に操作したり、戦略的に探索したりすることはできません。

一方、発達心理学では、物理的概念は未来がどのように展開するかについての一連の期待に対応すると考えています。たとえば、人々は、物体がある場所から別の場所に突然魔法のようにテレポートするのではなく、時間と空間を通って連続した経路をたどることを期待しており、これが連続性の概念につながります。したがって、特定の物理概念の知識を測定する方法、つまり期待違反 (VoE) パラダイムがあります。

VoE パラダイムを使用して特定の概念を探求する場合、研究者は、その物理的概念と一致する (物理的に可能である) か、一致しない (物理的に可能性が低い) かのいずれかである、視覚的に類似したアレイ (プローブと呼ばれる) を幼児に示します。このパラダイムでは、「驚き」は注視時間によって測定されます。

赤ちゃんのように学習する DeepMind の新しいモデルは、28 時間で物理世界のルールを学習します

メソッドの紹介

まず、DeepMind は非常に豊富なビデオ コーパス - 物理概念データ セットを提案しました。このデータセットには、継続性、目標の持続性、堅牢性など、発達心理学の中核要素と考えられる 5 つの重要な物理的概念を対象とした VoE プローブ ビデオが含まれています。 4 番目は不変性であり、特定のターゲットのプロパティ (形状など) は変化しないという概念を捉えます。5 番目の概念は方向慣性で、移動するオブジェクトが慣性の原理と一致する方向に変化するという期待が含まれます。

最も重要なことは、Physical Concepts データセットにはトレーニング データとして別のビデオ コーパスも含まれていることです。これらのビデオは、手続き的に生成されたさまざまな物理イベントを示しています。

赤ちゃんのように学習する DeepMind の新しいモデルは、28 時間で物理世界のルールを学習します

図 2: モデルのトレーニングに使用されるビデオ データセットの例

PLATO モデル アーキテクチャ

Deepmind は直感的な学習モデルの構築を目指しています物理学の理論を分析し、モデルがなぜこの機能を達成するのかを分析します。 AI 分野の一部の高度なシステムは、PLATO モデルでインスタンス化されます。

1 つ目は、ターゲットのパーソナライゼーション プロセスです。 ターゲットのパーソナライゼーション プロセスは、視覚的な連続感覚入力を一連の個別のエンティティに分割します。各エンティティは、対応する一連の属性を持ちます。 PLATO では、セグメント化された各ビデオ フレームが知覚モジュールによって一連のターゲット コード (図 3a ~ c​​) に分解され、視覚入力から個々のターゲットへのマッピングが可能になります。 PLATO はシーンをセグメント化することを学習しませんが、セグメント化ターゲットが与えられると、圧縮された表現を学習します。

第 2 に、ターゲット追跡 (またはターゲット インデックス) は各ターゲットにインデックスを割り当てます。 これにより、ターゲットの知覚と時間の経過に伴う動的属性計算の対応が得られます (図 3b、c)。 PLATO では、ターゲット コードはターゲット バッファー内のフレームにわたって蓄積および追跡されます (図 3d)。

最後のコンポーネントは、これらの追跡対象の関係処理です。このプロセスは、発達心理学で提案されている、オブジェクト間の関係を動的に処理できる「物理的推論システム」からインスピレーションを得ています。 、オブジェクトと他のオブジェクトの間の関係や相互作用によって影響を受ける新しい表現を生成します。

PLATO は、ターゲットの記憶とターゲットの知覚履歴 (図 3d) の間の相互作用を学習して、次のターゲットの予測ビデオ フレームを生成し、ターゲットベースの記憶を更新します。

赤ちゃんのように学習する DeepMind の新しいモデルは、28 時間で物理世界のルールを学習します

図 3: PLATO には 2 つのコンポーネントが含まれています: 認識モジュール (左) と動的予測 (右)

実験結果

いつテストしたところ、PLATO は 5 つの異なるランダム シードでトレーニングした場合、5 つの検出カテゴリすべてで強力な VoE 効果を示しました。

赤ちゃんのように学習する DeepMind の新しいモデルは、28 時間で物理世界のルールを学習します

図 5: PLATO は、物理概念データセットの調査において堅牢なパフォーマンスを示しています。

Physical Concepts データセットのトレーニング コーパスには、合計 300,000 のビデオが含まれています。控えめに計算すると、約 52 日間の継続的な視覚体験に相当します。 AI と開発の観点から見ると、テストで VoE 効果を生み出すために実際にどのくらいのトレーニング データが必要かという問題があります。これを評価するために、Deepmind は、サイズが減少するデータセットで 3 つの PLATO 動的予測子のランダム シードをトレーニングし (図 6)、5 つの検出クラスすべてにわたる VoE 効果の総平均を計算しました。

結果では、わずか 50,000 例 (28 時間の視覚体験に相当) でトレーニングした後、Deepmind のモデルで堅牢な VoE 効果が示されました。

赤ちゃんのように学習する DeepMind の新しいモデルは、28 時間で物理世界のルールを学習します

図 6: PLATO は、わずか 28 時間の視覚体験で強力な結果を示しています。

一般化テスト: Deepmind は、直観的な物理知識を探索するように設計された ADEPT データセットを使用します。図 7 に示すように、PLATO は 3 つの検出カテゴリすべてに対して明らかな VoE 効果を示しています。

赤ちゃんのように学習する DeepMind の新しいモデルは、28 時間で物理世界のルールを学習します

図 7: PLATO は、再トレーニングなしで、目に見えないターゲットとダイナミクスに対する強力な効果を実証します。

詳細については、元の論文をご覧ください。

以上が赤ちゃんのように学習する DeepMind の新しいモデルは、28 時間で物理世界のルールを学習しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。