検索
ホームページテクノロジー周辺機器AIソラの物理バグを解決するためのハードコア!米国のトップ4大学が共同リリース:ビデオジェネレーターに物理エンジンを搭載

Sora のリリース後にいくつかのバグが発生しました。モデルは物理世界を完全には理解していませんでしたが、子犬が歩くときに 2 つの前足が交差し、人々に不快感を与えました。ゲームが突然現れます。

オブジェクトのインタラクションは、ビデオのリアリズムを生成するために非常に重要ですが、現時点では、インタラクションにおいて実際の 3D オブジェクトの動的な動作を合成することは依然として非常に困難です。

Action Conditioned Dynamics は、物体の物理的な材料特性の認識と、これらの特性 (物体の剛性など) に基づく 3D 動作予測を必要とする研究分野です。

実際の物体の物理的材料特性を測定することは、データサポートが不足しているため非常に困難であるため、物理的材料特性の評価は依然として厄介で未解決の問題です。

最近、MIT、スタンフォード大学、コロンビア大学、コーネル大学が共同で、ビデオ生成モデルによって学習されたオブジェクト ダイナミクス学習事前分布を使用して、静的な 3D オブジェクトに動的学習を与える、PhysDreamer と呼ばれる物理ベースのモデルを提案しました。

ソラの物理バグを解決するためのハードコア!米国のトップ4大学が共同リリース:ビデオジェネレーターに物理エンジンを搭載

ペーパーリンク: https://arxiv.org/pdf/2404.13026.pdf

プロジェクトホームページ: https://physdreamer.github.io/

事前知識を洗練することで、PhysDreamer実際のオブジェクトが外力やエージェントの操作などの新しいインタラクションに応答できるようにし、ユーザー スタディを使用して、弾性オブジェクトのさまざまな例に対するアプローチの有効性を実証することで、合成されたインタラクションのリアリズムを評価しました。

問題の定式化

3D ガウスソラの物理バグを解決するためのハードコア!米国のトップ4大学が共同リリース:ビデオジェネレーターに物理エンジンを搭載 (xp は位置を表し、αp は不透明度を表し、Σp は共分散行列を表し、cp は粒子の色を表します) で表される静的オブジェクトが与えられると、最終的な目標は、オブジェクトの物理的なマテリアル特性のフィールドを推定して、現実的なインタラクティブなモーション合成を可能にすることです。

特定の特性には、質量 m、ヤング率 E、ポアソン比 ν が含まれます。ヤング率は、材料の剛性を測定し、外力に応じた物体の移動軌跡を決定するために使用されます。ヤング率が高いほど、より小さな変形、より高い剛性、より高い周波数の動きを実現します。

ソラの物理バグを解決するためのハードコア!米国のトップ4大学が共同リリース:ビデオジェネレーターに物理エンジンを搭載

同じ力の下で、異なるヤング率を使用してシミュレートされた動きを行います

そこで研究者らは、空間的に変化するヤング率場E(x)を推定して、ソラの物理バグを解決するためのハードコア!米国のトップ4大学が共同リリース:ビデオジェネレーターに物理エンジンを搭載を使用して問題を形式化しました。粒子シミュレーションの粒子のヤング率をクエリします。

他の物理的特性に関しては、粒子の質量 m_p は、一定密度 (ρ) と粒子の体積 Vp の積として事前に計算できます。粒子の体積は、「粒子の体積」を除算することで計算できます。 「背景ユニット」を「ユニットに含まれる粒子の数」で推定すると、物体の運動に対するポアソン比 νp の影響は無視でき、一定であると仮定できます。

モデル アーキテクチャ

PhysDreamer は、静的な 3D オブジェクトのマテリアル フィールドを推定できます。重要なアイデアは、動いているオブジェクトの信頼できるビデオを生成し、合成モーションに一致するようにマテリアル フィールド E(x) を最適化することです。

3D ガウスとして表現されたオブジェクトが与えられた場合、まずそれをある視点 (背景付き) からレンダリングし、次に画像からビデオへの生成モデルを使用して、動いているオブジェクトの参照ビデオを生成し、次に微分可能マテリアル ポイント メソッド (MPM (マテリアル ポイント メソッド)) と微分可能レンダリング。空間的に変化するマテリアル フィールドと初速度フィールドを最適化し、レンダリングされたビデオとリファレンス ビデオの差を最小限に抑えることを目的としています。

ソラの物理バグを解決するためのハードコア!米国のトップ4大学が共同リリース:ビデオジェネレーターに物理エンジンを搭載

破線の矢印は勾配の流れを表します

1.基礎知識

3D ガウスは、3D シーンの放射フィールドを表すために一連の異方性 3D ガウス カーネルを使用します。主に 3D の新しいビュー合成方法として導入されていますが、3D ガウスはラグランジュ特性を備えているため、物理シミュレーターに直接適用できます。粒子。

PhysGaussian 法と同様に、研究者は物質点法 (MPM、物質点法) を使用して、ガウス粒子上の物体のダイナミクスを直接シミュレートします。

3D ガウス分布は主にオブジェクトの表面に位置するため、オプションの内部充填プロセスを適用してシミュレーションのリアリズムを向上させることができます。

連続力学と弾性材料

連続力学では、材料の変形は、変形していない状態の材料の空間をマッピングできるマッピング関数 ϕ を通じてシミュレートされます。マッピング関数 ϕ、つまり変形勾配は、材料の局所的な変形状態を含む材料の応力とひずみの関係を理解し​​て記述するための鍵となります。 ソラの物理バグを解決するためのハードコア!米国のトップ4大学が共同リリース:ビデオジェネレーターに物理エンジンを搭載

高弾性材料では、コーシー応力 (応力) の計算は、材料の非剛体変形の程度を定量化できるひずみエネルギー密度関数 ψ(F) に依存します。対称性と回転不変性の原則に基づいて設計され、実験データと照合された材料に基づいて材料科学者によって作成されます。 ソラの物理バグを解決するためのハードコア!米国のトップ4大学が共同リリース:ビデオジェネレーターに物理エンジンを搭載

さらに、固定回転超弾性モデルのエネルギー密度関数は変形勾配の特異値σiで表すことができ、モデルパラメータμとλはヤング率Eとポアソン比νと直接の関係があります。これらのパラメータは、力を受けたときに材料がどのように動作するかを理解するために重要です。

物質点法 (MPM)

ソラの物理バグを解決するためのハードコア!米国のトップ4大学が共同リリース:ビデオジェネレーターに物理エンジンを搭載

研究者は、移動最小二乗法物質点法 (MLS-MPM) を使用して、「弾性材料力学」の支配方程式を解きます。ここで、ρは密度を表し、v(x, t)はワールド空間の速度場を表し、fは外力を表します。 ソラの物理バグを解決するためのハードコア!米国のトップ4大学が共同リリース:ビデオジェネレーターに物理エンジンを搭載

MPM は、さまざまな材料の力学をシミュレートするために使用される計算方法であり、オイラー法とラグランジアン法の利点を組み合わせており、固体、流体、砂、布、その他の材料の動的挙動のシミュレーションに特に適しています。マテリアルのトポロジ変化を効果的に処理でき、グラフィックス プロセッシング ユニット (GPU) 上で簡単に並列化できます。

空間離散化は、オブジェクトを一連のガウス粒子として扱うことによって実行され、各粒子 p はオブジェクトの体積の小さな部分を表し、体積、質量、位置、速度、変形勾配、ローカル速度などの属性を持ちます。フィールドの勾配。

ソラの物理バグを解決するためのハードコア!米国のトップ4大学が共同リリース:ビデオジェネレーターに物理エンジンを搭載MPM 計算プロセスには、粒子からグリッドへ (P2G) およびグリッドから粒子へ (G2P) の転送ループが含まれます:

P2G ステージでは、運動量が粒子からグリッドに転送され、ネットワークが更新されますグリッド上の速度はパーティクルに戻され、パーティクルの位置と速度が更新されます。同時に、パーティクルのローカル速度勾配と変形勾配もマテリアルの現在の状態を反映して更新されます。

MPM メソッドは、材料の変形、破壊、相互作用などの材料の複雑な動的挙動を正確にシミュレートできます。

2. 物性の推定

研究者らは、物理シミュレーターとして移動最小二乗材料点法 (MLS-MPM) と固定回転超弾性材料モデルを使用して、3 次元物体のプロセスをシミュレートしました。

MLS-MPMシミュレーションプロセス

シミュレーターはMLS-MPMを使用してオブジェクトの物理的動作をシミュレートし、シミュレーション関数は粒子の位置x、速度v、変形勾配F、およびローカル速度場を受け取ります。現在の時間ステップ t、勾配 C、粒子の物理的特性セット θ (すべての粒子の質量、ヤング率、ポアソン比、および体積を含む) および時間ステップ Δt (1×10^-4) が取得されます。を入力として入力し、次のタイム ステップが出力される t+1 の対応する値。

ソラの物理バグを解決するためのハードコア!米国のトップ4大学が共同リリース:ビデオジェネレーターに物理エンジンを搭載

隣接するビデオフレーム間のダイナミクスをシミュレートするには、通常、何百ものサブステップを繰り返す必要があります。

シミュレーションとレンダリング

シミュレーション後、微分可能レンダリング関数 Frender を使用して各フレームのガウス粒子をレンダリングします。ここで、Rt はシミュレーション ステップから取得されたすべての粒子の回転行列を表します。

ソラの物理バグを解決するためのハードコア!米国のトップ4大学が共同リリース:ビデオジェネレーターに物理エンジンを搭載

次に、生成されたビデオを参照として使用して、フレームごとの損失関数を通じて空間的に変化するヤング率 E と初速度 v0 を最適化します。損失関数は L1 損失と D-SSIM 損失、重みを組み合わせます。パラメータ λ は 0.1 に設定されます

ソラの物理バグを解決するためのハードコア!米国のトップ4大学が共同リリース:ビデオジェネレーターに物理エンジンを搭載

パラメータ化と正則化

空間空間を改善するために、物質場と速度場は 2 つのトライプレーンと 3 層の多層パーセプトロン (MLP) によってパラメータ化されます。平滑性、合計変動正則化は、これら 2 つのフィールドのすべての空間平面に適用されます。

ソラの物理バグを解決するためのハードコア!米国のトップ4大学が共同リリース:ビデオジェネレーターに物理エンジンを搭載

最適化プロセス

最適化プロセスは、安定性を向上させ、収束を高速化するために 2 つの段階に分かれています:

最初の段階では、各ガウス粒子の陽係数は次のとおりです。ランダムに初期化および固定され、参照ビデオの最初の 3 フレームのみが各パーティクルの初速を最適化するために使用されます。

2. 第 2 段階では、初速度が固定され、空間的に変化するヤング率が最適化されます。勾配の爆発や消失を防ぐために、勾配信号は前のフレームにのみ流れます。

このようにして、シミュレーターはオブジェクトの物理的動作をシミュレートし、リファレンスビデオに基づいて材料特性と初期条件を最適化し、現実的な動的効果を生成することができます。

3. サブサンプリングによるシミュレーションの高速化

高忠実度のレンダリングに 3 次元ガウス パーティクルを使用するには、通常、シーンを表現するために数百万のパーティクルが必要となり、シミュレーションの実行に多大な計算負荷が生じます。

効率を向上させるために、モデルにはサブサンプリング プロセスが導入されています。これにより、レンダリング結果の高い忠実度を維持しながら計算量が大幅に削減されます。シミュレーションには少数の駆動パーティクルのみが使用され、その後補間によって使用されます。パーティクルを駆動してガウス パーティクルの位置と回転を取得すると、計算効率とレンダリング品質のバランスが効果的に保たれます。

具体的には、モデルは K-Means クラスタリング アルゴリズムを使用して、時刻 t=0 で駆動粒子のセットを作成します。各駆動粒子は、位置、速度、変形勾配、およびローカル速度場、ヤング率、質量、ポアソン比、体積。

ソラの物理バグを解決するためのハードコア!米国のトップ4大学が共同リリース:ビデオジェネレーターに物理エンジンを搭載

駆動粒子の初期位置は、そのすべてのクラスター メンバーの位置の平均であり、駆動粒子の数は 3 次元ガウス粒子の数よりもはるかに少なくなります。

レンダリング プロセス中、各 3 次元ガウス粒子の位置と回転は、駆動粒子の位置と回転を補間することによって計算されます。各 3 次元ガウス粒子について、まず時間 t で最も近い 8 つの駆動粒子を見つけます。 =0、t=0 におけるこれら 8 つの駆動粒子と現在のタイムスタンプの間の剛体変換 T がフィッティングされて、粒子の現在の位置と回転が決定されます。

実験結果

データセット

研究者らは、多視点画像をキャプチャすることにより、8つの現実世界の静的シーンを収集しました。各シーンにはオブジェクトと背景が含まれ、アイテムには5つの花が含まれていました。 (赤いバラ、カーネーション、オレンジ色のバラ、チューリップ、白いバラ)、クワズイモ、電話コード、ビーニー帽を 4 つのインタラクティブなビデオで撮影し、つついたり引きずったりした後の自然な動きを説明します。 、比較のための追加の参照として実際のビデオを使用します。

実験結果

ソラの物理バグを解決するためのハードコア!米国のトップ4大学が共同リリース:ビデオジェネレーターに物理エンジンを搭載

空間的に変化するヤング率(材料の弾性を測定する物理量)に関する定性分析結果

ユーザースタディにおいて、ベースライン手法および実際のAfterと比較世界中で撮影されたビデオを比較すると、参加者の 80% 以上が 2 選択実験 (2AFC) で PhysDreamer モデルを好み、視覚的な品質の点で動きのリアリズムの点で PhysDreamer モデルが優れていると考えていることがわかります。 、参加者の 65% が PhysDreamer を好んでいました

比較された静的シーン自体は一貫しているため、視覚的な品質の評価は、生成されたオブジェクトのモーション効果にもある程度依存することに注意してください。

ソラの物理バグを解決するためのハードコア!米国のトップ4大学が共同リリース:ビデオジェネレーターに物理エンジンを搭載

さまざまな時点での動きパターンのスライスから、PhysGaussian には材料特性の原則に基づいた推定が欠けており、その結果、生成される動きの振幅が大きすぎて遅すぎることがわかり、現実と矛盾しています。 。

DreamGaussian4D と比較すると、2AFC サンプルの 70% と 63.5% が、視覚的な品質とモーションの信頼性の点で PhysDreamer モデルを好みます。DreamGaussian4D によって生成されたモーションと振幅は周期的です。対照的に、PhysDreamer は動作中の減衰効果をシミュレートできます。

以上がソラの物理バグを解決するためのハードコア!米国のトップ4大学が共同リリース:ビデオジェネレーターに物理エンジンを搭載の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
AIのスキルギャップは、サプライチェーンのダウンを遅くしていますAIのスキルギャップは、サプライチェーンのダウンを遅くしていますApr 26, 2025 am 11:13 AM

「AI-Ready労働力」という用語は頻繁に使用されますが、サプライチェーン業界ではどういう意味ですか? サプライチェーン管理協会(ASCM)のCEOであるAbe Eshkenaziによると、批評家ができる専門家を意味します

1つの会社がAIを永遠に変えるために静かに取り組んでいる方法1つの会社がAIを永遠に変えるために静かに取り組んでいる方法Apr 26, 2025 am 11:12 AM

分散型AI革命は静かに勢いを増しています。 今週の金曜日、テキサス州オースティンでは、ビテンサーのエンドゲームサミットは極めて重要な瞬間を示し、理論から実用的な応用に分散したAI(DEAI)を移行します。 派手なコマーシャルとは異なり

Nvidiaは、AIエージェント開発を合理化するためにNEMOマイクロサービスをリリースしますNvidiaは、AIエージェント開発を合理化するためにNEMOマイクロサービスをリリースしますApr 26, 2025 am 11:11 AM

エンタープライズAIはデータ統合の課題に直面しています エンタープライズAIの適用は、ビジネスデータを継続的に学習することで正確性と実用性を維持できるシステムを構築する大きな課題に直面しています。 NEMOマイクロサービスは、NVIDIAが「データフライホイール」と呼んでいるものを作成することにより、この問題を解決し、AIシステムがエンタープライズ情報とユーザーインタラクションへの継続的な露出を通じて関連性を維持できるようにします。 この新しく発売されたツールキットには、5つの重要なマイクロサービスが含まれています。 NEMOカスタマイザーは、より高いトレーニングスループットを備えた大規模な言語モデルの微調整を処理します。 NEMO評価者は、カスタムベンチマークのAIモデルの簡素化された評価を提供します。 Nemo Guardrailsは、コンプライアンスと適切性を維持するためにセキュリティ管理を実装しています

aiは芸術とデザインの未来のために新しい絵を描きますaiは芸術とデザインの未来のために新しい絵を描きますApr 26, 2025 am 11:10 AM

AI:芸術とデザインの未来 人工知能(AI)は、前例のない方法で芸術とデザインの分野を変えており、その影響はもはやアマチュアに限定されませんが、より深く影響を与えています。 AIによって生成されたアートワークとデザインスキームは、広告、ソーシャルメディアの画像生成、Webデザインなど、多くのトランザクションデザインアクティビティで従来の素材画像とデザイナーに迅速に置き換えられています。 ただし、プロのアーティストやデザイナーもAIの実用的な価値を見つけています。 AIを補助ツールとして使用して、新しい美的可能性を探求し、さまざまなスタイルをブレンドし、新しい視覚効果を作成します。 AIは、アーティストやデザイナーが繰り返しタスクを自動化し、さまざまなデザイン要素を提案し、創造的な入力を提供するのを支援します。 AIはスタイル転送をサポートします。これは、画像のスタイルを適用することです

エージェントAIとのズームがどのように革命を起こしているか:会議からマイルストーンまでエージェントAIとのズームがどのように革命を起こしているか:会議からマイルストーンまでApr 26, 2025 am 11:09 AM

最初はビデオ会議プラットフォームで知られていたZoomは、エージェントAIの革新的な使用で職場革命をリードしています。 ZoomのCTOであるXD Huangとの最近の会話は、同社の野心的なビジョンを明らかにしました。 エージェントAIの定義 huang d

大学に対する実存的な脅威大学に対する実存的な脅威Apr 26, 2025 am 11:08 AM

AIは教育に革命をもたらしますか? この質問は、教育者と利害関係者の間で深刻な反省を促しています。 AIの教育への統合は、機会と課題の両方をもたらします。 Tech Edvocate NotesのMatthew Lynch、Universitとして

プロトタイプ:アメリカの科学者は海外の仕事を探していますプロトタイプ:アメリカの科学者は海外の仕事を探していますApr 26, 2025 am 11:07 AM

米国における科学的研究と技術の開発は、おそらく予算削減のために課題に直面する可能性があります。 Natureによると、海外の雇用を申請するアメリカの科学者の数は、2024年の同じ期間と比較して、2025年1月から3月まで32%増加しました。以前の世論調査では、調査した研究者の75%がヨーロッパとカナダでの仕事の検索を検討していることが示されました。 NIHとNSFの助成金は過去数か月で終了し、NIHの新しい助成金は今年約23億ドル減少し、3分の1近く減少しました。リークされた予算の提案は、トランプ政権が科学機関の予算を急激に削減していることを検討しており、最大50%の削減の可能性があることを示しています。 基礎研究の分野での混乱は、米国の主要な利点の1つである海外の才能を引き付けることにも影響を与えています。 35

オープンAIの最新のGPT 4.1ファミリ - 分析VidhyaオープンAIの最新のGPT 4.1ファミリ - 分析VidhyaApr 26, 2025 am 10:19 AM

Openaiは、強力なGPT-4.1シリーズを発表しました。実際のアプリケーション向けに設計された3つの高度な言語モデルのファミリー。 この大幅な飛躍は、より速い応答時間、理解の強化、およびTと比較した大幅に削減されたコストを提供します

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

mPDF

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

SublimeText3 Linux 新バージョン

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

VSCode Windows 64 ビットのダウンロード

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。