検索
ホームページテクノロジー周辺機器AI数分で 4 次元コンテンツを生成し、モーション効果を制御: 北京大学とミシガン州が DG4D を提案

数分で 4 次元コンテンツを生成し、モーション効果を制御: 北京大学とミシガン州が DG4D を提案
AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。送信メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

この記事の著者である Pan Liang 博士は、現在、上海人工知能研究所の研究員です。以前は、2020 年から 2023 年まで、シンガポールの南洋理工大学 S-Lab で研究員を務め、指導教授は Liu Ziwei 教授でした。彼の研究はコンピュータ ビジョン、3D 点群、バーチャル ヒューマンに焦点を当てており、主要な会議やジャーナルに複数の論文を発表しており、Google Scholar で 2,700 件以上引用されています。さらに、コンピュータ ビジョンと機械学習の分野の主要なカンファレンスやジャーナルの査読者も務めています。

最近、SenseTime-南洋理工大学共同AI研究センターS-Lab、上海人工知能研究所、北京大学、ミシガン大学が共同で、空間変換の明示的モデリングと静的3Dガウス・スプラッティングを組み合わせたDreamGaussian4D (DG4D)を提案しました。 GS) テクノロジーにより、効率的な 4 次元コンテンツの生成が可能になります。

4 次元コンテンツ生成は最近大幅な進歩を遂げていますが、既存の方法には、最適化に時間がかかる、モーション制御能力が低い、ディテール品質が低いなどの問題があります。 DG4D は、2 つの主要なモジュールを含む全体的なフレームワークを提案しています。1) 画像から 4D GS へ - 最初に DreamGaussianHD を使用して静的な 3D GS を生成し、次に HexPlane に基づくガウス変形に基づいて動的生成を生成します。2) ビデオからビデオ テクスチャのリファインメントへ。結果として得られる UV 空間テクスチャ マップは洗練され、事前トレーニングされた画像からビデオへの拡散モデルを使用することでその時間的一貫性が強化されます。

DG4D は 4 次元コンテンツ生成の最適化時間を数時間から数分に短縮し (図 1 を参照)、生成された 3 次元モーションの視覚的な制御を可能にし、次のような画像の生成をサポートしていることは注目に値します。 3 次元のアニメーション メッシュ モデルでリアルにレンダリングされます。

数分で 4 次元コンテンツを生成し、モーション効果を制御: 北京大学とミシガン州が DG4D を提案

  • 論文名: DreamGaussian4D: Generative 4D Gaussian Splatting

  • ホームページアドレス: https://jiawei-ren.github.io/projects/dreamgaussian4d/

  • 論文アドレス: https:// arxiv.org/abs/2312.17142 30分 基本的なコンバージェンスの最適化

  • 課題と課題

生成モデルは、2D画像、ビデオ、3Dシーンなどの多様なデジタルコンテンツの制作と制作を大幅に簡素化することができ、近年大幅な進歩を遂げました。 4 次元コンテンツは、ゲーム、映画、テレビなどの多くの下流タスクにとって重要なコンテンツ形式です。 4 次元で生成されたコンテンツは、既存のグラフィック コンテンツ制作パイプラインに接続するために、従来のグラフィック レンダリング エンジン ソフトウェア (Blender や Unreal Engine など) のインポートもサポートする必要があります (図 2 を参照)。 数分で 4 次元コンテンツを生成し、モーション効果を制御: 北京大学とミシガン州が DG4D を提案

動的な 3 次元 (つまり 4 次元) 生成に特化した研究がいくつかありますが、4 次元シーンの効率的かつ高品質な生成には依然として課題があります。近年、ビデオと 3 次元生成モデルを組み合わせて 4 次元コンテンツ生成を実現し、あらゆる視野角でのコンテンツの外観と動作の一貫性を制約する研究方法がますます多く使用されています。

NeRF)は述べた。たとえば、MAV3D [1] は、HexPlane [2] 上のテキストからビデオへの拡散モデルを改良することにより、テキストから 4 次元へのコンテンツの生成を実現します。 Consistent4D [3] は、静的にキャプチャされたビデオから 4D シーンを生成するためにカスケード DyNeRF を最適化するための video-to-4D フレームワークを導入しています。複数の拡散モデルの事前分布を使用すると、Animate124 [4] は、テキストによるモーション記述を介して、単一の未処理の 2D 画像を 3D ダイナミック ビデオにアニメーション化できます。ハイブリッド SDS [5] テクノロジーに基づいた 4D-fy [6] では、複数の事前トレーニングされた拡散モデルを使用して、魅力的なテキストから 4 次元のコンテンツを生成できます。

ただし、上記の既存の方法 [1、3、4、6] はすべて、単一の 4D NeRF を生成するのに数時間を必要とするため、応用の可能性が大幅に制限されます。さらに、それらはすべて、最終的に生成されるモーションを効果的に制御または選択することが困難です。上記の欠点は主に次の要因に起因します。まず、前述の方法の基礎となる暗黙的な 4 次元表現が十分に効率的ではなく、レンダリング速度が遅く、動きの規則性が低いなどの問題があります。第 2 に、ビデオ SDS のランダムな性質があります。収束の難易度が高まり、最終的な結果では不安定性と複数のアーティファクトが発生します。

手法の紹介

4D NeRF を直接最適化する手法とは異なり、DG4D は、静的ガウス スプラッシュ テクノロジーと明示的な空間変換モデリングを組み合わせることにより、4D コンテンツ生成のための効率的かつ強力な表現を構築します。さらに、ビデオ生成方法には、高品質の 4D 生成を強化する貴重な時空間事前分布を提供する可能性があります。具体的には、1) 画像から 4D GS への生成、2) ビデオの大規模モデルベースのテクスチャ マップの改良という 2 つの主要な段階で構成される全体的なフレームワークを提案します。 D1. 4D GS への画像の生成

数分で 4 次元コンテンツを生成し、モーション効果を制御: 北京大学とミシガン州が DG4D を提案

図 3 の 4D GS 生成フレームワーク図への画像

この段階では、動的ダイナミクスを示すために静的な 3D GS とその空間変形を使用します。異次元のシーン。与えられた 2D 画像に基づいて、強化された DreamGaussianHD メソッドを使用して静的な 3D GS を生成します。続いて、静的 3D GS 関数で時間依存の変形フィールドを最適化することで、各タイムスタンプでのガウス変形が推定され、変形された各フレームの形状とテクスチャが走行ビデオ内の対応するフレームと一致するようにすることが目的です。この段階の最後に、動的な 3 次元メッシュ モデル シーケンスが生成されます。 ️ HD 3D GS を使用した最近のグラフィカル 3D オブジェクト手法 DreamGaussian [7] に基づいて、さらにいくつかの改良を加え、より優れた 3D GS 生成および初期化メソッドのセットをコンパイルしました。主な動作改善点としては、1) マルチビュー最適化手法の採用、2) 最適化処理時のレンダリング画像の背景を、より生成に適した黒背景に設定することなどが挙げられます。この改良版を DreamGaussianHD と呼びます。具体的な改良されたレンダリングを図 4 に示します。図5 HexPlaneは動的変形場を表します

生成された静的3D GSモデルに基づいて、各フレームのガウスカーネルの変形を予測することで期待を満たす動画を生成します 動的4D GSモデル。動的効果の特性評価の観点から、各タイムスタンプでのガウス カーネルの変位、回転、スケールを予測するために HexPlane (図 5 を参照) を選択し、それによって各フレームの動的モデルの生成を推進します。さらに、静的な 3D GS モデルに基づいて動的フィールドをスムーズかつ完全に初期化できるように、特に最後のいくつかの線形動作ネットワーク層の残留接続とゼロ初期化の設計など、目標を絞った方法で設計ネットワークを調整しました。 (効果は図のとおりです)を6)に示します。開始 図 6 動的フィールドの最終世代に対する動的フォーメーションの初期化の影響

数分で 4 次元コンテンツを生成し、モーション効果を制御: 北京大学とミシガン州が DG4D を提案

2. ビデオ間の水の最適化

  • 図 7 ビデオ間のテクスチャの最適化 フレーム図

    DreamGaussian と同様に、4D GS に基づく 4 次元動的モデル生成の最初の段階の後、4 次元メッシュ モデル シーケンスを抽出できます。さらに、DreamGaussian が行うのと同様に、メッシュ モデルの UV 空間内のテクスチャをさらに最適化することもできます。画像生成モデルのみを使用して個々の 3D メッシュ モデルのテクスチャを最適化する DreamGaussian とは異なり、3D メッシュ シーケンス全体を最適化する必要があります。

    さらに、DreamGaussian のアプローチに従う場合、つまり、3D メッシュ シーケンスごとに独立したテクスチャ最適化を実行すると、3D メッシュのテクスチャが異なるタイムスタンプで一貫性なく生成され、ちらつきなどが頻繁に発生することがわかりました。欠陥アーティファクトが表示されます。これを考慮して、我々はDreamGaussianとは異なり、大規模なビデオ生成モデルに基づいたUV空間におけるビデオ間のテクスチャ最適化手法を提案します。具体的には、最適化プロセス中に一連のカメラ軌跡をランダムに生成し、これに基づいて複数のビデオをレンダリングし、レンダリングされたビデオに対して対応するノイズの追加とノイズ除去を実行して、メッシュ モデル テクスチャの強化を実現しました。

    写真に基づいて大規模モデルを生成した場合とビデオに基づいて大規模モデルを生成した場合のテクスチャ最適化効果の比較を図 8 に示します。

    数分で 4 次元コンテンツを生成し、モーション効果を制御: 北京大学とミシガン州が DG4D を提案

    実験結果

    4D NeRF の全体最適化の以前の方法と比較して、DG4D は大幅に短縮され、4 次元コンテンツの生成に必要な時間が短縮されます。具体的な時間の比較を表 1 に示します。

    数分で 4 次元コンテンツを生成し、モーション効果を制御: 北京大学とミシガン州が DG4D を提案

    表2の一貫性レポート。 riveビデオに基づいて4次元コンテンツを生成する設定の場合、ビデオから4次元コンテンツを生成する方法の数値結果の比較を表3に示すことができます。

    表 3 比較ビデオ生成に基づいた 4 次元コンテンツ関連手法の数値結果の分析 数分で 4 次元コンテンツを生成し、モーション効果を制御: 北京大学とミシガン州が DG4D を提案

    さらに、私たちのニーズに最も適合するさまざまな手法の生成結果についてのユーザー テストも実施しました。メソッドサンプリングテスト。テスト結果は表 4 に報告されています。表4 単一の画像

    によって生成された4次元コンテンツに基づくユーザーテスト

    数分で 4 次元コンテンツを生成し、モーション効果を制御: 北京大学とミシガン州が DG4D を提案DG4Dと既存のオープンソースSOTAグラフは、4次元コンテンツメソッドとビデオ生成4次元コンテンツメソッドの効果を生成します。それぞれ図 9 と図 10 に表示されます。内容 図 9 図 9 図 4 次元コンテンツ効果の比較 図 10 Video Sheng 4 次元コンテンツ効果比較 図

    さらに、単一の画像から 3D GS を生成する最近のダイレクト フィードフォワード手法 (つまり、SDS 最適化手法を使用しない) に基づいて静的 3D コンテンツを生成し、これに基づいて動的 4D GS の生成を初期化しました。 3D GS の直接フィードフォワード生成は、SDS 最適化に基づく方法よりも高速に、高品質でより多様な 3D コンテンツを生成できます。これに基づいて得られた 4 次元コンテンツを図 11 に示します。図 11 3D GS の生成方法に基づいて生成された 4 次元動的コンテンツ

    数分で 4 次元コンテンツを生成し、モーション効果を制御: 北京大学とミシガン州が DG4D を提案

    単一の画像に基づいてさらに表示された 4 次元コンテンツを図 12 に示します。

    結論

    4D GS に基づいて、効率的な画像から 4D への生成フレームワークである DreamGaussian4D (DG4D) を提案します。既存の 4 次元コンテンツ生成フレームワークと比較して、DG4D は最適化時間を数時間から数分に大幅に短縮します。さらに、生成されたビデオを駆動モーション生成に使用して、視覚的に制御可能な 3D モーション生成を実現することを実証します。 数分で 4 次元コンテンツを生成し、モーション効果を制御: 北京大学とミシガン州が DG4D を提案

    最後に、DG4D は 3D メッシュ モデルの抽出を可能にし、時間的に一貫した高品質のテクスチャ最適化をサポートします。 DG4D が提案する 4 次元コンテンツ生成フレームワークが 4 次元コンテンツ生成に向けた研究を促進し、さまざまな実用化に貢献することを期待しています。

    参考文献

    [1] Singer et al.「第 40 回機械学習国際会議議事録」。 [ 2] Cao et al.「Hexplane: 動的シーンの高速表現」2023 年の IEEE/CVF Conference。

    [3] Jiang et al.単眼ビデオからの 360° ダイナミック オブジェクト生成。」第 12 回学習表現に関する国際会議。2023。

    [4] Zhao et al.「Animate124: 1 つの画像を 4D ダイナミック シーンにアニメーション化。」arXiv プレプリント arXiv:2311.14603 (2023).

    [5] Poole et al.「DreamFusion: 2D 拡散を使用した Text-to-3D」。2022 年第 11 回国際会議。

    [6] 、Sherwin ら「4d-fy: ハイブリッド スコア蒸留サンプリングを使用した Text-to-4d の生成。」arXiv プレプリント arXiv:2311.17984 (2023).

    [7] Tang ら「DreamGaussian: Generative」効率的な 3D コンテンツ作成のためのガウス スプラッティング。」第 12 回学習表現に関する国際会議。2023.

以上が数分で 4 次元コンテンツを生成し、モーション効果を制御: 北京大学とミシガン州が DG4D を提案の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
あなたは無知のベールの後ろに職場AIを構築する必要がありますあなたは無知のベールの後ろに職場AIを構築する必要がありますApr 29, 2025 am 11:15 AM

ジョン・ロールズの独創的な1971年の著書「正義の理論」で、彼は私たちが今日のAIデザインの核となり、意思決定を使用するべきであるという思考実験を提案しました:無知のベール。この哲学は、公平性を理解するための簡単なツールを提供し、リーダーがこの理解を使用してAIを公平に設計および実装するための青写真を提供します。 あなたが新しい社会のルールを作っていると想像してください。しかし、前提があります。この社会でどのような役割を果たすかは事前にわかりません。過半数または限界少数派に属している、金持ちまたは貧弱、健康、または障害者になることがあります。この「無知のベール」の下で活動することで、ルールメーカーが自分自身に利益をもたらす決定を下すことができません。それどころか、人々はより公衆を策定する意欲があります

決定、決定…実用的な応用AIの次のステップ決定、決定…実用的な応用AIの次のステップApr 29, 2025 am 11:14 AM

ロボットプロセスオートメーション(RPA)を専門とする多くの企業は、繰り返しタスクを自動化するためのボットを提供しています。 一方、プロセスマイニング、オーケストレーション、インテリジェントドキュメント処理スペシャル

エージェントが来ています - 私たちがAIパートナーの隣ですることについてもっとエージェントが来ています - 私たちがAIパートナーの隣ですることについてもっとApr 29, 2025 am 11:13 AM

AIの未来は、単純な単語の予測と会話シミュレーションを超えて動いています。 AIエージェントは出現しており、独立したアクションとタスクの完了が可能です。 このシフトは、AnthropicのClaudeのようなツールですでに明らかです。 AIエージェント:研究a

共感がAI主導の未来におけるリーダーのコントロールよりも重要である理由共感がAI主導の未来におけるリーダーのコントロールよりも重要である理由Apr 29, 2025 am 11:12 AM

急速な技術の進歩は、仕事の未来に関する将来の見通しの視点を必要とします。 AIが単なる生産性向上を超えて、私たちの社会構造の形成を開始するとどうなりますか? Topher McDougalの今後の本、Gaia Wakes:

製品分類のためのAI:マシンは税法を習得できますか?製品分類のためのAI:マシンは税法を習得できますか?Apr 29, 2025 am 11:11 AM

多くの場合、Harmonized System(HS)などのシステムからの「HS 8471.30」などの複雑なコードを含む製品分類は、国際貿易と国内販売に不可欠です。 これらのコードは、すべてのINVに影響を与える正しい税申請を保証します

データセンターの要求は、気候技術のリバウンドを引き起こす可能性がありますか?データセンターの要求は、気候技術のリバウンドを引き起こす可能性がありますか?Apr 29, 2025 am 11:10 AM

データセンターと気候技術投資におけるエネルギー消費の将来 この記事では、AIが推進するデータセンターのエネルギー消費の急増と気候変動への影響を調査し、この課題に対処するための革新的なソリューションと政策の推奨事項を分析します。 エネルギー需要の課題:大規模で超大規模なデータセンターは、数十万の普通の北米の家族の合計に匹敵する巨大な力を消費し、新たなAIの超大規模なセンターは、これよりも数十倍の力を消費します。 2024年の最初の8か月で、Microsoft、Meta、Google、Amazonは、AIデータセンターの建設と運用に約1,250億米ドルを投資しました(JP Morgan、2024)(表1)。 エネルギー需要の成長は、挑戦と機会の両方です。カナリアメディアによると、迫り来る電気

AIとハリウッドの次の黄金時代AIとハリウッドの次の黄金時代Apr 29, 2025 am 11:09 AM

生成AIは、映画とテレビの制作に革命をもたらしています。 LumaのRay 2モデル、滑走路のGen-4、OpenaiのSora、GoogleのVEO、その他の新しいモデルは、前例のない速度で生成されたビデオの品質を向上させています。これらのモデルは、複雑な特殊効果と現実的なシーンを簡単に作成できます。短いビデオクリップやカメラ認知モーション効果も達成されています。これらのツールの操作と一貫性を改善する必要がありますが、進歩の速度は驚くべきものです。 生成ビデオは独立した媒体になりつつあります。アニメーション制作が得意なモデルもあれば、実写画像が得意なモデルもあります。 AdobeのFireflyとMoonvalleyのMAであることは注目に値します

ChatGptはゆっくりとAIの最大のYES-MANになりますか?ChatGptはゆっくりとAIの最大のYES-MANになりますか?Apr 29, 2025 am 11:08 AM

ChatGptユーザーエクスペリエンスは低下します:それはモデルの劣化ですか、それともユーザーの期待ですか? 最近、多数のCHATGPT有料ユーザーがパフォーマンスの劣化について不満を述べています。 ユーザーは、モデルへの応答が遅く、答えが短い、助けの欠如、さらに多くの幻覚を報告しました。一部のユーザーは、ソーシャルメディアに不満を表明し、ChatGptは「お世辞になりすぎて」、重要なフィードバックを提供するのではなく、ユーザービューを検証する傾向があることを指摘しています。 これは、ユーザーエクスペリエンスに影響を与えるだけでなく、生産性の低下やコンピューティングリソースの無駄など、企業の顧客に実際の損失をもたらします。 パフォーマンスの劣化の証拠 多くのユーザーは、特にGPT-4などの古いモデル(今月末にサービスから廃止される)で、ChatGPTパフォーマンスの大幅な分解を報告しています。 これ

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

SublimeText3 Linux 新バージョン

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

VSCode Windows 64 ビットのダウンロード

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

PhpStorm Mac バージョン

PhpStorm Mac バージョン

最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール