本物のビデオでも AI ビデオでも、「Mosca」は 4D ダイナミックなレンダリング可能なシーンを再構築および復元できます。-AI-php.cn

ホームページ

テクノロジー周辺機器

本物のビデオでも AI ビデオでも、「Mosca」は 4D ダイナミックなレンダリング可能なシーンを再構築および復元できます。

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 22, 2024 am 07:09 AM

業界神経情報処理システム

本物のビデオでも AI ビデオでも、「Mosca」は 4D ダイナミックなレンダリング可能なシーンを再構築および復元できます。

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Lei Jiahui、ペンシルベニア大学コンピューターサイエンス学部博士課程学生 (2020 - 現在)、彼の指導教員は現在の主任教授である Kostas Daniilidis です。研究の方向性は、4 次元の動的シーンの幾何学モデリング表現とアプリケーションを使用したアルゴリズムです。彼は、主要なコンピュータービジョンおよび機械学習カンファレンス (CVPR、NeurIPS、ICML、ECCV) で筆頭著者または共著者として 7 つの論文を発表しました。彼の以前の学位（2016 ～ 2020 年）は、浙江大学制御学部と朱科鎮学院混合クラスを専攻分野を首席で卒業しました。

任意の単眼ビデオからレンダリング可能な動的シーンを再構築することは、コンピュータービジョン研究における聖杯です。この論文では、ペンシルベニア大学とスタンフォード大学の研究者チームが、この目標に向けて小さな一歩を踏み出そうと試みています。

インターネット上には、物理世界に関する大量の情報を含む大量の単眼ビデオがあります。しかし、3D ビジョンには、将来の 3D 大型モデルのモデリングとダイナミックの理解をサポートするために、これらのビデオから 3D ダイナミック情報を抽出する効果的な手段がまだありません。物理的な世界。重要ではありますが、この逆問題は非常に困難です。

まず、現実の 2D ビデオにはマルチビュー情報が欠けていることが多いため、マルチビュージオメトリを 3D 再構成に使用することはできず、多くの場合、既存のソフトウェアでカメラのポーズや内部パラメーターを解決することさえ不可能です。コルマップなど）。
第二に、動的シーンの自由度は非常に高く、その変形と長期情報融合の四次元表現はまだ未熟であり、この困難な逆問題をさらに複雑にしています。

この記事は新しい神経情報処理システム - MoScaを提案します。これは追加情報なしで一連のビデオフレーム画像を提供するだけでよく、SORAからビデオ、映画、テレビシリーズのクリップを生成し、レンダリング可能な動的データを再構築できます。の単眼野外ビデオ、インターネットビデオ、および公開データセットのシーン。

本物のビデオでも AI ビデオでも、「Mosca」は 4D ダイナミックなレンダリング可能なシーンを再構築および復元できます。

ArXiv アドレス: https://arxiv.org/pdf/2405.17421
コード (近い将来オープンソースになる予定): www.github.com/JiahuiLei/MoSca
プロジェクトのウェブサイト: www.cis.upenn.edu/~leijh/projects/mosca/
ビデオ (bilibili): www.bilibili.com/video/BV1uU411o75P/?vd_source=177d8c87be5e898a43e8937dbef9bed4

以下2 つのビデオデモです。

方法の概要

上記の困難を克服するために、Mosca はまずコンピュータービジョン基盤モデルに保存されている強力な事前知識を利用して、問題解決スペースを削減しました。

本物のビデオでも AI ビデオでも、「Mosca」は 4D ダイナミックなレンダリング可能なシーンを再構築および復元できます。

具体的には、Mosca は単眼メトリック深度推定 (モノラルメトリック深度) モデル UniDepth、ビデオ任意点長期追跡 (任意の点を追跡) モデル CoTracker、およびオプティカルフロー推定 (オプティカルフロー) を使用します。モデル RAFT によって計算された幾何学的誤差 (エピポーラ誤差)、および事前トレーニングされたセマンティックモデル DINO-v2 によって提供されるセマンティック特徴。詳細については、この論文の第 3.1 章を参照してください。実際の動的変形のほとんどは本質的にコンパクトで疎であり、その複雑さは実際の幾何学的構造よりもはるかに低いことがわかります。例えば、硬い物の動きは回転と平行移動で表現でき、人の動きは複数の関節の回転と平行移動で大まかに近似できます。

この観察に基づいて、この記事では、

斬新でコンパクトな動的シーン表現 - 4D Motion Scaffold

を提案します。これは、上記の基礎となるモデルの出力を 2 次元から 4 次元にアップグレードして融合すると同時に、物理学に基づく変形正則化 (ARAP) も統合します。。

4 次元運動足場はグラフです。グラフの各ノードは剛体運動 (SE (3)) の軌跡の列です。グラフのトポロジーは剛体間の距離を考慮して構築された最近接エッジです。モーション軌跡はグローバルに曲がります。空間内の任意の点での変形は、デュアル四元数を使用して時空間内で補間されたグラフ上のノードの剛体軌道を滑らかにすることによって表現できます。この表現により、解決する必要がある運動パラメータが大幅に簡素化されます。 (詳細については、この論文の第 3.2 章を参照してください)。

4 次元モーションスキャフォールドのもう 1 つの大きな利点は、単眼の深さとビデオの 2 次元点追跡によって直接初期化できることです。その後、未知のオクルージョンポイントの位置とローカル座標系の方向を効率的な手法で解決できることです。物理的な定期期間の最適化。詳細については、論文の 3.3 章を参照してください。

4 次元モーションスキャフォールディングを使用すると、いつでも任意の点を任意の目標時間に変形させることができ、観測情報をグローバルに融合することができます。具体的には、ビデオの各フレームは、推定された深度マップを使用して 3 次元空間に逆投影され、3 次元ガウス (3DGS) で初期化されます。これらのガウスは 4 次元の運動足場に「結合」されており、いつでも自由に往復できます。特定の瞬間のシーンをレンダリングしたい場合は、他のすべてのグローバルモーメントのガウスを、融合用の 4 次元足場を介して現在の瞬間に転送するだけで済みます。 4 次元モーションスキャフォールディングとガウスに基づくこの動的なシーン表現は、ガウスレンダラーによって効率的に最適化できます (詳細については、この論文の第 3.4 章を参照)。

最後に、Mosca はカメラの内部パラメータと外部パラメータを必要としないシステムであることに言及する価値があります。前述のコーナーストーンモデルによって出力されたエピポーラジオメトリエラーを使用して静的背景マスクを決定し、コーナーストーンモデルによって出力された深度およびポイントトラッキングを使用することにより、Mosca は再投影誤差を効率的に最適化し、グローバルバンドル調整を解決して直接出力することができます。カメラの内部パラメータとポーズを調整し、その後のレンダリングを通じてカメラの最適化を続けます (詳細については、この論文の第 3.5 章を参照してください)。

実験結果

Mosca は、DAVIS データセットビデオ内の動的なシーンを再構築できます。 Mosca が複数のガウスベースのレンダラーを柔軟にサポートしていることは注目に値します。この記事では、ネイティブ 3DGS レンダラーに加えて、最近のガウスサーフェス再構成レンダラー GOF (ガウスオパシティフィールド) もテストしました。図の右端のトレインに示されているように、GOF はより高品質の法線と深度をレンダリングできます。

Moska は、困難な IPhone DyCheck データセットで大幅な改善を達成すると同時に、広く比較可能な Nvidia データセットで他の手法も比較しました。

以上が本物のビデオでも AI ビデオでも、「Mosca」は 4D ダイナミックなレンダリング可能なシーンを再構築および復元できます。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

AIインデックス2025を読む：AIはあなたの友人、敵、または副操縦士ですか？Apr 11, 2025 pm 12:13 PM

スタンフォード大学ヒト指向の人工知能研究所によってリリースされた2025年の人工知能インデックスレポートは、進行中の人工知能革命の良い概要を提供します。 4つの単純な概念で解釈しましょう：認知（何が起こっているのかを理解する）、感謝（利益を見る）、受け入れ（顔の課題）、責任（責任を見つける）。認知：人工知能はどこにでもあり、急速に発展しています私たちは、人工知能がどれほど速く発展し、広がっているかを強く認識する必要があります。人工知能システムは絶えず改善されており、数学と複雑な思考テストで優れた結果を達成しており、わずか1年前にこれらのテストで惨めに失敗しました。 2023年以来、複雑なコーディングの問題や大学院レベルの科学的問題を解決することを想像してみてください

Meta Llama 3.2を始めましょう - 分析VidhyaApr 11, 2025 pm 12:04 PM

メタのラマ3.2：マルチモーダルとモバイルAIの前進メタは最近、ラマ3.2を発表しました。これは、モバイルデバイス向けに最適化された強力なビジョン機能と軽量テキストモデルを特徴とするAIの大幅な進歩です。成功に基づいてo

AVバイト：Meta＆＃039; s llama 3.2、GoogleのGemini 1.5などApr 11, 2025 pm 12:01 PM

今週のAIの風景：進歩、倫理的考慮、規制の議論の旋風。 Openai、Google、Meta、Microsoftのような主要なプレーヤーは、画期的な新しいモデルからLEの重要な変化まで、アップデートの急流を解き放ちました

マシンと話すための人的費用：チャットボットは本当に気にすることができますか？Apr 11, 2025 pm 12:00 PM

つながりの慰めの幻想：私たちはAIとの関係において本当に繁栄していますか？この質問は、MIT Media Labの「AI（AHA）で人間を進める」シンポジウムの楽観的なトーンに挑戦しました。イベントではCondedgを紹介している間

PythonのScipy Libraryの理解Apr 11, 2025 am 11:57 AM

導入あなたが科学者またはエンジニアで複雑な問題に取り組んでいると想像してください - 微分方程式、最適化の課題、またはフーリエ分析。 Pythonの使いやすさとグラフィックスの機能は魅力的ですが、これらのタスクは強力なツールを必要とします

ラマ3.2を実行する3つの方法-Analytics VidhyaApr 11, 2025 am 11:56 AM

メタのラマ3.2：マルチモーダルAIパワーハウス Metaの最新のマルチモーダルモデルであるLlama 3.2は、AIの大幅な進歩を表しており、言語理解の向上、精度の向上、および優れたテキスト生成機能を誇っています。その能力t

Dagsterでデータ品質チェックを自動化しますApr 11, 2025 am 11:44 AM

データ品質保証：ダグスターと大きな期待でチェックを自動化するデータ駆動型のビジネスにとって、高いデータ品質を維持することが重要です。データの量とソースが増加するにつれて、手動の品質管理は非効率的でエラーが発生しやすくなります。

メインフレームはAI時代に役割を果たしていますか？Apr 11, 2025 am 11:42 AM

MainFrames：AI革命のUnsung Heroes サーバーは汎用アプリケーションで優れており、複数のクライアントの処理を行いますが、メインフレームは大量のミッションクリティカルなタスク用に構築されています。これらの強力なシステムは、頻繁にヘビルで見られます

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

MantisBT

Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティングサービスをチェックしてください。

Dreamweaver Mac版

ビジュアル Web 開発ツール

ZendStudio 13.5.1 Mac

強力な PHP 統合開発環境

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。