ホームページ > 記事 > テクノロジー周辺機器 > ソラの物理バグを解決するためのハードコア!米国のトップ4大学が共同リリース:ビデオジェネレーターに物理エンジンを搭載
Sora のリリース後にいくつかのバグが発生しました。モデルは物理世界を完全には理解していませんでしたが、子犬が歩くときに 2 つの前足が交差し、人々に不快感を与えました。ゲームが突然現れます。
オブジェクトのインタラクションは、ビデオのリアリズムを生成するために非常に重要ですが、現時点では、インタラクションにおいて実際の 3D オブジェクトの動的な動作を合成することは依然として非常に困難です。
Action Conditioned Dynamics は、物体の物理的な材料特性の認識と、これらの特性 (物体の剛性など) に基づく 3D 動作予測を必要とする研究分野です。
実際の物体の物理的材料特性を測定することは、データサポートが不足しているため非常に困難であるため、物理的材料特性の評価は依然として厄介で未解決の問題です。
最近、MIT、スタンフォード大学、コロンビア大学、コーネル大学が共同で、ビデオ生成モデルによって学習されたオブジェクト ダイナミクス学習事前分布を使用して、静的な 3D オブジェクトに動的学習を与える、PhysDreamer と呼ばれる物理ベースのモデルを提案しました。
ペーパーリンク: https://arxiv.org/pdf/2404.13026.pdf
プロジェクトホームページ: https://physdreamer.github.io/
事前知識を洗練することで、PhysDreamer実際のオブジェクトが外力やエージェントの操作などの新しいインタラクションに応答できるようにし、ユーザー スタディを使用して、弾性オブジェクトのさまざまな例に対するアプローチの有効性を実証することで、合成されたインタラクションのリアリズムを評価しました。
3D ガウス (xp は位置を表し、αp は不透明度を表し、Σp は共分散行列を表し、cp は粒子の色を表します) で表される静的オブジェクトが与えられると、最終的な目標は、オブジェクトの物理的なマテリアル特性のフィールドを推定して、現実的なインタラクティブなモーション合成を可能にすることです。
特定の特性には、質量 m、ヤング率 E、ポアソン比 ν が含まれます。ヤング率は、材料の剛性を測定し、外力に応じた物体の移動軌跡を決定するために使用されます。ヤング率が高いほど、より小さな変形、より高い剛性、より高い周波数の動きを実現します。
同じ力の下で、異なるヤング率を使用してシミュレートされた動きを行います
そこで研究者らは、空間的に変化するヤング率場E(x)を推定して、を使用して問題を形式化しました。粒子シミュレーションの粒子のヤング率をクエリします。
他の物理的特性に関しては、粒子の質量 m_p は、一定密度 (ρ) と粒子の体積 Vp の積として事前に計算できます。粒子の体積は、「粒子の体積」を除算することで計算できます。 「背景ユニット」を「ユニットに含まれる粒子の数」で推定すると、物体の運動に対するポアソン比 νp の影響は無視でき、一定であると仮定できます。
PhysDreamer は、静的な 3D オブジェクトのマテリアル フィールドを推定できます。重要なアイデアは、動いているオブジェクトの信頼できるビデオを生成し、合成モーションに一致するようにマテリアル フィールド E(x) を最適化することです。
3D ガウスとして表現されたオブジェクトが与えられた場合、まずそれをある視点 (背景付き) からレンダリングし、次に画像からビデオへの生成モデルを使用して、動いているオブジェクトの参照ビデオを生成し、次に微分可能マテリアル ポイント メソッド (MPM (マテリアル ポイント メソッド)) と微分可能レンダリング。空間的に変化するマテリアル フィールドと初速度フィールドを最適化し、レンダリングされたビデオとリファレンス ビデオの差を最小限に抑えることを目的としています。
破線の矢印は勾配の流れを表します
1.基礎知識
3D ガウスは、3D シーンの放射フィールドを表すために一連の異方性 3D ガウス カーネルを使用します。主に 3D の新しいビュー合成方法として導入されていますが、3D ガウスはラグランジュ特性を備えているため、物理シミュレーターに直接適用できます。粒子。
PhysGaussian 法と同様に、研究者は物質点法 (MPM、物質点法) を使用して、ガウス粒子上の物体のダイナミクスを直接シミュレートします。
3D ガウス分布は主にオブジェクトの表面に位置するため、オプションの内部充填プロセスを適用してシミュレーションのリアリズムを向上させることができます。
連続力学と弾性材料
連続力学では、材料の変形は、変形していない状態の材料の空間をマッピングできるマッピング関数 ϕ を通じてシミュレートされます。マッピング関数 ϕ、つまり変形勾配は、材料の局所的な変形状態を含む材料の応力とひずみの関係を理解して記述するための鍵となります。
高弾性材料では、コーシー応力 (応力) の計算は、材料の非剛体変形の程度を定量化できるひずみエネルギー密度関数 ψ(F) に依存します。対称性と回転不変性の原則に基づいて設計され、実験データと照合された材料に基づいて材料科学者によって作成されます。
さらに、固定回転超弾性モデルのエネルギー密度関数は変形勾配の特異値σiで表すことができ、モデルパラメータμとλはヤング率Eとポアソン比νと直接の関係があります。これらのパラメータは、力を受けたときに材料がどのように動作するかを理解するために重要です。
物質点法 (MPM)
研究者は、移動最小二乗法物質点法 (MLS-MPM) を使用して、「弾性材料力学」の支配方程式を解きます。ここで、ρは密度を表し、v(x, t)はワールド空間の速度場を表し、fは外力を表します。
MPM は、さまざまな材料の力学をシミュレートするために使用される計算方法であり、オイラー法とラグランジアン法の利点を組み合わせており、固体、流体、砂、布、その他の材料の動的挙動のシミュレーションに特に適しています。マテリアルのトポロジ変化を効果的に処理でき、グラフィックス プロセッシング ユニット (GPU) 上で簡単に並列化できます。
空間離散化は、オブジェクトを一連のガウス粒子として扱うことによって実行され、各粒子 p はオブジェクトの体積の小さな部分を表し、体積、質量、位置、速度、変形勾配、ローカル速度などの属性を持ちます。フィールドの勾配。
MPM 計算プロセスには、粒子からグリッドへ (P2G) およびグリッドから粒子へ (G2P) の転送ループが含まれます:
P2G ステージでは、運動量が粒子からグリッドに転送され、ネットワークが更新されますグリッド上の速度はパーティクルに戻され、パーティクルの位置と速度が更新されます。同時に、パーティクルのローカル速度勾配と変形勾配もマテリアルの現在の状態を反映して更新されます。
MPM メソッドは、材料の変形、破壊、相互作用などの材料の複雑な動的挙動を正確にシミュレートできます。
2. 物性の推定
研究者らは、物理シミュレーターとして移動最小二乗材料点法 (MLS-MPM) と固定回転超弾性材料モデルを使用して、3 次元物体のプロセスをシミュレートしました。
MLS-MPMシミュレーションプロセス
シミュレーターはMLS-MPMを使用してオブジェクトの物理的動作をシミュレートし、シミュレーション関数は粒子の位置x、速度v、変形勾配F、およびローカル速度場を受け取ります。現在の時間ステップ t、勾配 C、粒子の物理的特性セット θ (すべての粒子の質量、ヤング率、ポアソン比、および体積を含む) および時間ステップ Δt (1×10^-4) が取得されます。を入力として入力し、次のタイム ステップが出力される t+1 の対応する値。
隣接するビデオフレーム間のダイナミクスをシミュレートするには、通常、何百ものサブステップを繰り返す必要があります。
シミュレーションとレンダリング
シミュレーション後、微分可能レンダリング関数 Frender を使用して各フレームのガウス粒子をレンダリングします。ここで、Rt はシミュレーション ステップから取得されたすべての粒子の回転行列を表します。
次に、生成されたビデオを参照として使用して、フレームごとの損失関数を通じて空間的に変化するヤング率 E と初速度 v0 を最適化します。損失関数は L1 損失と D-SSIM 損失、重みを組み合わせます。パラメータ λ は 0.1 に設定されます
パラメータ化と正則化
空間空間を改善するために、物質場と速度場は 2 つのトライプレーンと 3 層の多層パーセプトロン (MLP) によってパラメータ化されます。平滑性、合計変動正則化は、これら 2 つのフィールドのすべての空間平面に適用されます。
最適化プロセス
最適化プロセスは、安定性を向上させ、収束を高速化するために 2 つの段階に分かれています:
最初の段階では、各ガウス粒子の陽係数は次のとおりです。ランダムに初期化および固定され、参照ビデオの最初の 3 フレームのみが各パーティクルの初速を最適化するために使用されます。
2. 第 2 段階では、初速度が固定され、空間的に変化するヤング率が最適化されます。勾配の爆発や消失を防ぐために、勾配信号は前のフレームにのみ流れます。
このようにして、シミュレーターはオブジェクトの物理的動作をシミュレートし、リファレンスビデオに基づいて材料特性と初期条件を最適化し、現実的な動的効果を生成することができます。
3. サブサンプリングによるシミュレーションの高速化
高忠実度のレンダリングに 3 次元ガウス パーティクルを使用するには、通常、シーンを表現するために数百万のパーティクルが必要となり、シミュレーションの実行に多大な計算負荷が生じます。
効率を向上させるために、モデルにはサブサンプリング プロセスが導入されています。これにより、レンダリング結果の高い忠実度を維持しながら計算量が大幅に削減されます。シミュレーションには少数の駆動パーティクルのみが使用され、その後補間によって使用されます。パーティクルを駆動してガウス パーティクルの位置と回転を取得すると、計算効率とレンダリング品質のバランスが効果的に保たれます。
具体的には、モデルは K-Means クラスタリング アルゴリズムを使用して、時刻 t=0 で駆動粒子のセットを作成します。各駆動粒子は、位置、速度、変形勾配、およびローカル速度場、ヤング率、質量、ポアソン比、体積。
駆動粒子の初期位置は、そのすべてのクラスター メンバーの位置の平均であり、駆動粒子の数は 3 次元ガウス粒子の数よりもはるかに少なくなります。
レンダリング プロセス中、各 3 次元ガウス粒子の位置と回転は、駆動粒子の位置と回転を補間することによって計算されます。各 3 次元ガウス粒子について、まず時間 t で最も近い 8 つの駆動粒子を見つけます。 =0、t=0 におけるこれら 8 つの駆動粒子と現在のタイムスタンプの間の剛体変換 T がフィッティングされて、粒子の現在の位置と回転が決定されます。
データセット
研究者らは、多視点画像をキャプチャすることにより、8つの現実世界の静的シーンを収集しました。各シーンにはオブジェクトと背景が含まれ、アイテムには5つの花が含まれていました。 (赤いバラ、カーネーション、オレンジ色のバラ、チューリップ、白いバラ)、クワズイモ、電話コード、ビーニー帽を 4 つのインタラクティブなビデオで撮影し、つついたり引きずったりした後の自然な動きを説明します。 、比較のための追加の参照として実際のビデオを使用します。
実験結果
空間的に変化するヤング率(材料の弾性を測定する物理量)に関する定性分析結果
ユーザースタディにおいて、ベースライン手法および実際のAfterと比較世界中で撮影されたビデオを比較すると、参加者の 80% 以上が 2 選択実験 (2AFC) で PhysDreamer モデルを好み、視覚的な品質の点で動きのリアリズムの点で PhysDreamer モデルが優れていると考えていることがわかります。 、参加者の 65% が PhysDreamer を好んでいました
比較された静的シーン自体は一貫しているため、視覚的な品質の評価は、生成されたオブジェクトのモーション効果にもある程度依存することに注意してください。
さまざまな時点での動きパターンのスライスから、PhysGaussian には材料特性の原則に基づいた推定が欠けており、その結果、生成される動きの振幅が大きすぎて遅すぎることがわかり、現実と矛盾しています。 。
DreamGaussian4D と比較すると、2AFC サンプルの 70% と 63.5% が、視覚的な品質とモーションの信頼性の点で PhysDreamer モデルを好みます。DreamGaussian4D によって生成されたモーションと振幅は周期的です。対照的に、PhysDreamer は動作中の減衰効果をシミュレートできます。
以上がソラの物理バグを解決するためのハードコア!米国のトップ4大学が共同リリース:ビデオジェネレーターに物理エンジンを搭載の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。