ホームページ >テクノロジー周辺機器 >AI >いつでもどこでもすべてのピクセルを追跡し、障害物さえ恐れない「すべてを追跡」ビデオ アルゴリズムが登場しました。
少し前に、Meta は、あらゆる画像やビデオ内のあらゆるオブジェクトのマスクを生成できる「Segment Everything (SAM)」AI モデルをリリースしました。これにより、コンピューター ビジョン (CV) 分野の研究者は次のように叫びました。 「履歴書が存在しません」。その後、CVの分野では「二次創作」の波が起こり、セグメンテーションに基づいてターゲット検出や画像生成などの機能を次々と組み合わせた作品もありましたが、静止画像をベースとした研究がほとんどでした。
今回、「Tracking Everything」と呼ばれる新しい研究では、オブジェクトの動きを正確かつ完全に追跡できる、ダイナミック ビデオにおける動き推定の新しい方法が提案されています。
この研究は、コーネル大学、Google Research、カリフォルニア大学バークレー校の研究者によって主導されました。研究者たちは協力して研究しました。彼らは共同で、完全かつグローバルに一貫した動き表現である OmniMotion を提案し、ビデオ内のすべてのピクセルに対して正確かつ完全な動き推定を実行するための新しいテスト時間最適化手法を提案しました。
研究によって公開されたデモから判断すると、動きを追跡するなど、モーション トラッキングの効果は非常に優れています。カンガルーのジャンプの軌跡:
スイング運動曲線:
#モーション トラッキング ステータスをインタラクティブに表示することもできます。
##次のような場合でも、モーション トラッキング ステータスを追跡できます。オブジェクトがブロックされています。たとえば、犬が走っているときに木にブロックされます:
#コンピュータ ビジョンの分野では、次の 2 つが考えられます。一般的に使用される動き推定方法: まばらな特徴追跡と密なオプティカル フロー。ただし、どちらの方法にも独自の欠点があり、疎な特徴追跡ではすべてのピクセルの動きをモデル化できず、密なオプティカル フローでは長時間の動きの軌跡を捉えることができません。
この研究で提案されたオムニモーションは、準 3D 正準ボリュームを使用してビデオを特徴付け、ローカル空間と正準空間の間の全単射を通じて各ピクセルを追跡します。この表現により、グローバルな一貫性が実現され、オブジェクトが遮られている場合でもモーション トラッキングが可能になり、カメラとオブジェクトのモーションのあらゆる組み合わせがモデル化されます。この研究は、提案された方法が既存の SOTA 方法よりも大幅に優れていることを実験的に示しています。
この調査では、一対のノイズの多い動き推定 (オプティカル フロー フィールドなど) を含むフレームのコレクションを入力として取り、ビデオ全体の完全でグローバルに一貫した動き表現を形成します。その後、この研究では、ビデオ全体で滑らかで正確な動きの軌跡を生成するために、任意のフレーム内の任意のピクセルで表現をクエリできるようにする最適化プロセスを追加しました。特に、この方法では、フレーム内のポイントがいつオクルージョンされるかを特定でき、オクルージョンを通じてポイントを追跡することもできます。
OmniMotion の特性評価
オブジェクトが遮られた場合の従来のモーション推定方法 (ペアワイズ オプティカル フローなど)オブジェクトは失われます。オクルージョン下でも正確で一貫した運動軌跡を提供するために、この研究ではグローバル運動表現 OmniMotion を提案します。
この研究では、明示的な動的 3D 再構成を行わずに、現実世界の動きを正確に追跡することを試みます。 OmniMotion 表現は、ビデオ内のシーンを正準 3D ボリュームとして表し、ローカル正準全単射を通じて各フレーム内のローカル ボリュームにマッピングされます。ローカルの正準全単射はニューラル ネットワークとしてパラメータ化され、カメラとシーンの動きを 2 つ分離せずにキャプチャします。このアプローチに基づいて、ビデオは固定された静的カメラのローカル ボリュームからのレンダリング結果として表示されます。
# OmniMotion はカメラとシーンの動きを明確に区別しないため、形成される表現は物理的に正確な 3D シーンの再構成ではありません。 。したがって、この研究ではこれを準 3D 特性評価と呼んでいます。
OmniMotion は、各ピクセルに投影されたすべてのシーン ポイントとその相対的な深さの順序に関する情報を保持するため、一時的にトラックが遮られた場合でもフレーム内のポイントを移動できます。
実験と結果定量的比較
研究者らは、提案された手法と TAP-Vid ベンチマークを比較しました。その結果を表 1 に示します。さまざまなデータセット上で、彼らの方法は常に最高の位置精度、オクルージョン精度、タイミングの一貫性を達成していることがわかります。彼らの方法は、RAFT と TAP-Net からのさまざまなペアごとの対応入力を適切に処理し、両方のベースライン方法に比べて一貫した改善を提供します。
#定性的な比較
図 3 に示すように、研究者は、方法はベースライン方法と定性的に比較されます。新しい方法は、(長い) オクルージョン イベント中に優れた認識および追跡機能を示し、オクルージョン中にポイントの合理的な位置を提供し、大きなカメラの動きの視差を処理します。アブレーション実験と分析
研究者は、アブレーション実験を使用して設計上の決定の有効性を検証しました。その結果を表 2 に示します。
# 図 4 では、学習された深さの並べ替えを示すために、モデルによって生成された疑似深度マップが示されています。
これらの図は物理的な深さに対応していないことに注意してください。ただし、測光信号とオプティカル フロー信号のみを使用する場合、新しい方法が異なる表面間の相対的な順序を効果的に決定できることを示しています。オクルージョンにおける追跡は重要です。追加のアブレーション実験と分析結果は補足資料でご覧いただけます。
以上がいつでもどこでもすべてのピクセルを追跡し、障害物さえ恐れない「すべてを追跡」ビデオ アルゴリズムが登場しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。