1. 論文情報
今年の ICCV2023 最優秀学生論文は、現在カリフォルニア大学バークレー校で博士研究員を務めるコーネル大学の qianqian wang に授与されました!
#2. 分野の背景
#ビデオ動き推定の分野では、従来の手法は主にスパース特徴追跡と密オプティカル フローの 2 つのタイプに分類されます。どちらの方法もそれぞれのアプリケーションで効果的であることが証明されていますが、どちらもビデオ内の動きを完全にキャプチャすることはできません。ペアのオプティカル フローは長い時間ウィンドウ内の動きの軌跡をキャプチャできませんが、スパース トラッキングではすべてのピクセルの動きをモデル化できません
このギャップを埋めるために、多くの研究がビデオのピクセル軌跡の密集距離と長距離を同時に推定することを試みてきました。これらの研究の方法は、2 つのフレームのオプティカル フロー フィールドを単純にリンクすることから、複数のフレームにわたる各ピクセルの軌跡を直接予測することまでさまざまです。ただし、これらの方法は、動きを推定するときに限られたコンテキストのみを考慮し、時間または空間的に遠く離れた情報を無視することがよくあります。この近視眼性は、長い軌道での誤差の蓄積や、動き推定における時空間の不一致を引き起こす可能性があります。一部の方法は長期的なコンテキストを考慮していますが、依然として 2D ドメインで動作するため、オクルージョン イベントの追跡損失が発生する可能性があります。
全体として、ビデオにおける高密度で長距離の軌道推定は、この分野ではまだ未解決の問題です。この問題には 3 つの主要な課題が含まれます: 1) 長いシーケンスで軌道の精度を維持する方法、2) オクルージョン下のポイントの位置を追跡する方法、3) 時空間の一貫性を維持する方法
ここ この記事では、著者はは、ビデオ内のすべての情報を使用して各ピクセルの完全な動き軌跡を共同推定する、新しいビデオ動き推定方法を提案しました。この方法は「オムニモーション」と呼ばれ、擬似 3D 表現が使用されます。この表現では、標準 3D ボリュームが各フレームでローカル ボリュームにマッピングされます。このマッピングは、動的なマルチビュー ジオメトリの柔軟な拡張機能として機能し、カメラとシーンの動きを同時にシミュレートできます。この表現により、ループの一貫性が確保されるだけでなく、オクルージョン中のすべてのピクセルが追跡されます。作成者は、ビデオごとにこの表現を最適化し、ビデオ全体の動きに対するソリューションを提供します。最適化後、この表現をビデオの任意の連続座標でクエリして、ビデオ全体にわたるモーション軌跡を取得できます。
この記事で提案する方法では、次のことが可能です。 1) ビデオ全体のすべてのポイントに対して生成 グローバルに一貫性のある完全なモーション軌跡、2) オクルージョンによるポイントの追跡、3) さまざまなカメラとシーン アクションの組み合わせによる現実世界のビデオの処理。 TAP ビデオ追跡ベンチマークでは、この方法は以前の方法をはるかに上回り、良好なパフォーマンスを示しました。
3. 方法
この論文では、ビデオ シーケンスから密集した長距離の動きを推定するためのテスト時間の最適化に基づく方法を提案します。まず、この論文で提案されている方法の概要を説明します。
- Input: 著者の方法は、フレームのセットとノイズの多い動き推定のペア (オプティカル フローなど) を取得します。フィールド) を入力として使用します。
- メソッド操作: これらの入力を使用して、メソッドはビデオ全体の完全でグローバルに一貫したモーション表現を見つけようとします。
- 結果の特徴: 最適化後、この表現はビデオ内の任意のフレームの任意のピクセルでクエリできるため、ビデオ全体にわたってスムーズで正確なモーション軌跡が得られます。このメソッドは、ポイントがいつオクルージョンされるかを識別し、オクルージョンを通過するポイントを追跡することもできます。
- コアコンテンツ:
- OmniMotion表現: 後続のセクションでは、著者は最初に、と呼ばれる基本的な表現について説明します。オムニモーション用。
- 最適化プロセス: 次に、著者はビデオからこの表現を復元する方法の最適化プロセスについて説明します。
この方法は、包括的で一貫したビデオ モーション表現を提供し、オクルージョンなどの困難な問題を効果的に解決できます。さあ、
3.1 正準 3D ボリューム
ビデオ コンテンツは、G という名前の典型的なボリュームで表され、観察されたシーンの 3 次元マップとして機能します。 NeRF で行われたのと同様に、G #Map で各典型的な 3D 座標 uvw## に対して座標ベースのネットワーク nerf を定義しました。密度 σ と色 c。 G に保存されている密度は、表面が一般的な空間のどこにあるかを示します。 3D 全単射と組み合わせると、複数のフレームにわたってサーフェスを追跡し、オクルージョン関係を理解できるようになります。 G に保存されている色を使用すると、最適化中に測光損失を計算できます。
3.2 3D 全単射この記事では、 で示される連続全単射マッピングを紹介します。これは、3D 点をローカル座標系から標準 3D 座標系に変換します。この正準座標は、シーン ポイントまたは 3D 軌跡の時間における一貫した参照または「インデックス」として機能します。全単射マッピングを使用する主な利点は、すべてが同じ正準点から発生するため、異なるフレーム間の 3D 点に定期的な一貫性が提供されることです。 あるローカル フレームから別のローカル フレームの 3D ポイントへのマッピング方程式は次のとおりです。フレーム間の動きを再計算します。
このセクションでは、フレーム i のクエリピクセルの 2D モーションを計算する方法を説明します。直感的には、まずレイ上の点をサンプリングすることによってクエリ ピクセルが 3D に「リフト」され、次にこれらの 3D 点が全単射マッピング i とマッピング j を使用してターゲット フレーム j に「マッピング」され、その後、さまざまなサンプルからのアルファ合成が続きます。」は「レンダリング」され、最後に 2D に「投影」されて、想定される対応関係が得られます。この実験データ表は、3 つのデータセットの結果を示しています。 - Kinetics、DAVIS、RGB-Stacking でのさまざまな動き推定方法のパフォーマンス。個々のメソッドのパフォーマンスを評価するには、AJ、avg、OA、TC の 4 つの指標が使用されます。著者らが提案した 2 つの手法 (弊社 (TAP-Net) と弊社 (RAFT)) に加えて、他に 7 つの手法があります。どちらの著者の手法も、ほとんどのメトリクスとデータセットで良好に機能することは注目に値します。具体的には、私たちの (RAFT) メソッドは、3 つのデータセットすべての AJ、avg、OA で最良の結果を達成し、TC では 2 番目に優れた結果を達成しました。私たちの (TAP-Net) 手法も、いくつかの測定において同様の優れたパフォーマンスを達成します。一方、他の方法では、これらのメトリックに対するパフォーマンスがまちまちです。著者の方法と「変形可能なスプライト」方法は、各ビデオのテスト時の最適化を通じてグローバル モーションを推定するのに対し、他のすべての方法は順方向アプローチを使用してローカルでモーション推定を実行することに注意してください。要約すると、著者の方法は、位置精度、咬合精度、および時間的連続性において、テストされた他のすべての方法を上回っており、大きな利点を示しています。
これは、DAVIS のアブレーション実験結果の表です。データセット。アブレーション実験は、システム全体のパフォーマンスに対する各コンポーネントの寄与を検証するために実施されます。この表には 4 つの方法がリストされています。そのうち 3 つは特定の主要コンポーネントを削除したバージョンであり、最終的な「完全」バージョンにはすべてのコンポーネントが含まれています。
- 不可逆: このバージョンでは、「可逆性」コンポーネントが削除されています。完全な方法と比較して、そのすべてのメトリクスは、特に AJ と で大幅に低下しており、可逆性がシステム全体で重要な役割を果たしていることがわかります。
- フォトメトリックなし: このバージョンでは、「フォトメトリック」コンポーネントが削除されています。 「完全」バージョンよりもパフォーマンスは低くなりますが、「不可逆」バージョンと比較するとパフォーマンスが向上します。これは、測光コンポーネントがパフォーマンスの向上に一定の役割を果たしているものの、その重要性は可逆コンポーネントに比べて低い可能性があることを示しています。
- 均一サンプリング: このバージョンでは、統一サンプリング戦略が使用されています。また、完全バージョンよりも若干パフォーマンスが劣りますが、それでも「不可逆性」バージョンや「アルミニウム」バージョンよりは優れています。
- 完全版: これは、すべてのコンポーネントを備えた完全版であり、すべてのメトリクスで最高のパフォーマンスを実現します。これは、各コンポーネントがパフォーマンスの向上に貢献していることを示しており、特にすべてのコンポーネントが統合されている場合、システムは最高のパフォーマンスを達成できます。
# 全体として、このアブレーション実験の結果は、各コンポーネントのパフォーマンスがある程度向上しているものの、可逆性が最も重要なコンポーネントである可能性があることを示しています。パフォーマンスの低下は非常に深刻です
5. ディスカッション
この作業で使用された DAVIS データセット 実行されたアブレーション実験は、提供されたものです。システム全体のパフォーマンスに対する各コンポーネントの重要な役割について貴重な洞察を得ることができます。実験結果から、可逆性コンポーネントが全体のフレームワークにおいて重要な役割を果たしていることが明確にわかります。この重要なコンポーネントが欠けていると、システムのパフォーマンスが大幅に低下します。これは、動的ビデオ分析における可逆性を考慮することの重要性をさらに強調しています。同時に、測光コンポーネントの損失もパフォーマンスの低下につながりますが、可逆性ほどパフォーマンスに大きな影響を与えるものではないようです。さらに、統合サンプリング戦略はパフォーマンスに一定の影響を与えますが、その影響は最初の 2 つに比べて比較的小さいです。最後に、完全なアプローチでは、これらすべてのコンポーネントが統合され、あらゆる考慮事項の下で達成可能な最高のパフォーマンスが示されます。全体として、この作業は、ビデオ分析のさまざまなコンポーネントがどのように相互作用するか、および全体的なパフォーマンスに対するそれらのコンポーネントの具体的な貢献についての洞察を得る貴重な機会を提供し、それによってビデオ処理アルゴリズムを設計および最適化する際の統合アプローチの必要性を強調します。
#しかし、多くの動き推定方法と同様に、私たちの方法は、高速で非常に非剛的な動きや小さな構造を処理するという困難に直面しています。これらのシナリオでは、ペアごとの対応方法では、正確なグローバル モーションを計算するための十分な信頼性の高い対応が得られない可能性があります。さらに、根底にある最適化問題の高度に非凸的な性質により、特定の難しいビデオでは、最適化プロセスが初期化に非常に敏感になる可能性があることが観察されています。これにより、最適化されていない極小値が発生する可能性があります。たとえば、サーフェスの順序が間違っていたり、正規空間内でオブジェクトが重複していたりします。これらは、最適化によって修正することが難しい場合があります。 最後に、この方法は現在の形式では計算コストが高くなる可能性があります。まず、フロー収集プロセスには、すべてのペアごとのフローの包括的な計算が含まれ、シーケンスの長さに応じて二次関数的に増加します。しかし、ボキャブラリー ツリーやキーフレーム ベースのマッチングなどのより効率的なマッチング方法を模索し、構造モーションや SLAM 文献からインスピレーションを得ることによって、このプロセスのスケーラビリティを改善できると考えています。第二に、ニューラル暗黙的表現を使用する他の方法と同様に、私たちの方法には比較的長い最適化プロセスが含まれます。この分野における最近の研究は、このプロセスを加速し、さらに長いシーケンスに拡張するのに役立つ可能性があります。6. 結論
この論文では、新しいテスト時間最適化手法を提案します。ビデオ全体で完全かつグローバルに一貫したモーションを推定します。 OmniMotion と呼ばれる新しいビデオ モーション表現が導入されました。これは、各フレームの準 3D 標準ボリュームとローカル正準全単射で構成されます。 OmniMotion は、さまざまなカメラ設定やシーン ダイナミクスを使用して通常のビデオを処理し、オクルージョンを通じて正確かつスムーズな長距離モーションを生成できます。以前の最先端の方法と比較して、定性的および量的の両方で大幅な改善が達成されています。以上がタイトルリライト: ICCV 2023 優秀学生論文追跡、Github が 1.6K スターを獲得、魔法のような包括的な情報!の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

オンデバイスAIの力を活用:個人的なチャットボットCLIの構築 最近では、個人的なAIアシスタントの概念はサイエンスフィクションのように見えました。 ハイテク愛好家のアレックスを想像して、賢くて地元のAI仲間を夢見ています。

AI4MHの最初の発売は2025年4月15日に開催され、有名な精神科医および神経科学者であるLuminary Dr. Tom Insel博士がキックオフスピーカーを務めました。 Insel博士は、メンタルヘルス研究とテクノでの彼の傑出した仕事で有名です

「私たちは、WNBAが、すべての人、プレイヤー、ファン、企業パートナーが安全であり、大切になり、力を与えられたスペースであることを保証したいと考えています」とエンゲルバートは述べ、女性のスポーツの最も有害な課題の1つになったものに取り組んでいます。 アノ

導入 Pythonは、特にデータサイエンスと生成AIにおいて、プログラミング言語として優れています。 大規模なデータセットを処理する場合、効率的なデータ操作(ストレージ、管理、アクセス)が重要です。 以前に数字とstをカバーしてきました

潜る前に、重要な注意事項:AIパフォーマンスは非決定論的であり、非常にユースケース固有です。簡単に言えば、走行距離は異なる場合があります。この(または他の)記事を最終的な単語として撮影しないでください。これらのモデルを独自のシナリオでテストしないでください

傑出したAI/MLポートフォリオの構築:初心者と専門家向けガイド 説得力のあるポートフォリオを作成することは、人工知能(AI)と機械学習(ML)で役割を確保するために重要です。 このガイドは、ポートフォリオを構築するためのアドバイスを提供します

結果?燃え尽き症候群、非効率性、および検出とアクションの間の隙間が拡大します。これは、サイバーセキュリティで働く人にとってはショックとしてはありません。 しかし、エージェントAIの約束は潜在的なターニングポイントとして浮上しています。この新しいクラス

即時の影響と長期パートナーシップ? 2週間前、Openaiは強力な短期オファーで前進し、2025年5月末までに米国およびカナダの大学生にChatGpt Plusに無料でアクセスできます。このツールにはGPT ‑ 4o、Aが含まれます。


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

SublimeText3 中国語版
中国語版、とても使いやすい

MinGW - Minimalist GNU for Windows
このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

ドリームウィーバー CS6
ビジュアル Web 開発ツール

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境
