少し前に、Meta は、あらゆる画像やビデオ内のあらゆるオブジェクトのマスクを生成できる「Segment Everything (SAM)」AI モデルをリリースしました。これにより、コンピューター ビジョン (CV) 分野の研究者は次のように叫びました。 「履歴書が存在しません」。その後、CVの分野では「二次創作」の波が起こり、セグメンテーションに基づいてターゲット検出や画像生成などの機能を次々と組み合わせた作品もありましたが、静止画像をベースとした研究がほとんどでした。
今回、「Tracking Everything」と呼ばれる新しい研究では、オブジェクトの動きを正確かつ完全に追跡できる、ダイナミック ビデオにおける動き推定の新しい方法が提案されています。
この研究は、コーネル大学、Google Research、カリフォルニア大学バークレー校の研究者によって主導されました。研究者たちは協力して研究しました。彼らは共同で、完全かつグローバルに一貫した動き表現である OmniMotion を提案し、ビデオ内のすべてのピクセルに対して正確かつ完全な動き推定を実行するための新しいテスト時間最適化手法を提案しました。
- 紙のアドレス: https://arxiv.org/abs/2306.05422 #プロジェクトのホームページ: https://omnimotion.github.io/
- #一部のネチズンがこれを推奨していますこの研究はわずか1日でリツイートされ、3,500件の「いいね!」を獲得するなど、研究内容は好評でした。
研究によって公開されたデモから判断すると、動きを追跡するなど、モーション トラッキングの効果は非常に優れています。カンガルーのジャンプの軌跡:
スイング運動曲線:
#モーション トラッキング ステータスをインタラクティブに表示することもできます。
##次のような場合でも、モーション トラッキング ステータスを追跡できます。オブジェクトがブロックされています。たとえば、犬が走っているときに木にブロックされます:
#コンピュータ ビジョンの分野では、次の 2 つが考えられます。一般的に使用される動き推定方法: まばらな特徴追跡と密なオプティカル フロー。ただし、どちらの方法にも独自の欠点があり、疎な特徴追跡ではすべてのピクセルの動きをモデル化できず、密なオプティカル フローでは長時間の動きの軌跡を捉えることができません。
この研究で提案されたオムニモーションは、準 3D 正準ボリュームを使用してビデオを特徴付け、ローカル空間と正準空間の間の全単射を通じて各ピクセルを追跡します。この表現により、グローバルな一貫性が実現され、オブジェクトが遮られている場合でもモーション トラッキングが可能になり、カメラとオブジェクトのモーションのあらゆる組み合わせがモデル化されます。この研究は、提案された方法が既存の SOTA 方法よりも大幅に優れていることを実験的に示しています。
方法の概要
この調査では、一対のノイズの多い動き推定 (オプティカル フロー フィールドなど) を含むフレームのコレクションを入力として取り、ビデオ全体の完全でグローバルに一貫した動き表現を形成します。その後、この研究では、ビデオ全体で滑らかで正確な動きの軌跡を生成するために、任意のフレーム内の任意のピクセルで表現をクエリできるようにする最適化プロセスを追加しました。特に、この方法では、フレーム内のポイントがいつオクルージョンされるかを特定でき、オクルージョンを通じてポイントを追跡することもできます。
OmniMotion の特性評価
オブジェクトが遮られた場合の従来のモーション推定方法 (ペアワイズ オプティカル フローなど)オブジェクトは失われます。オクルージョン下でも正確で一貫した運動軌跡を提供するために、この研究ではグローバル運動表現 OmniMotion を提案します。
この研究では、明示的な動的 3D 再構成を行わずに、現実世界の動きを正確に追跡することを試みます。 OmniMotion 表現は、ビデオ内のシーンを正準 3D ボリュームとして表し、ローカル正準全単射を通じて各フレーム内のローカル ボリュームにマッピングされます。ローカルの正準全単射はニューラル ネットワークとしてパラメータ化され、カメラとシーンの動きを 2 つ分離せずにキャプチャします。このアプローチに基づいて、ビデオは固定された静的カメラのローカル ボリュームからのレンダリング結果として表示されます。
# OmniMotion はカメラとシーンの動きを明確に区別しないため、形成される表現は物理的に正確な 3D シーンの再構成ではありません。 。したがって、この研究ではこれを準 3D 特性評価と呼んでいます。
OmniMotion は、各ピクセルに投影されたすべてのシーン ポイントとその相対的な深さの順序に関する情報を保持するため、一時的にトラックが遮られた場合でもフレーム内のポイントを移動できます。
定量的比較
研究者らは、提案された手法と TAP-Vid ベンチマークを比較しました。その結果を表 1 に示します。さまざまなデータセット上で、彼らの方法は常に最高の位置精度、オクルージョン精度、タイミングの一貫性を達成していることがわかります。彼らの方法は、RAFT と TAP-Net からのさまざまなペアごとの対応入力を適切に処理し、両方のベースライン方法に比べて一貫した改善を提供します。
#定性的な比較
図 3 に示すように、研究者は、方法はベースライン方法と定性的に比較されます。新しい方法は、(長い) オクルージョン イベント中に優れた認識および追跡機能を示し、オクルージョン中にポイントの合理的な位置を提供し、大きなカメラの動きの視差を処理します。
研究者は、アブレーション実験を使用して設計上の決定の有効性を検証しました。その結果を表 2 に示します。
# 図 4 では、学習された深さの並べ替えを示すために、モデルによって生成された疑似深度マップが示されています。
これらの図は物理的な深さに対応していないことに注意してください。ただし、測光信号とオプティカル フロー信号のみを使用する場合、新しい方法が異なる表面間の相対的な順序を効果的に決定できることを示しています。オクルージョンにおける追跡は重要です。追加のアブレーション実験と分析結果は補足資料でご覧いただけます。
以上がいつでもどこでもすべてのピクセルを追跡し、障害物さえ恐れない「すべてを追跡」ビデオ アルゴリズムが登場しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

オンデバイスAIの力を活用:個人的なチャットボットCLIの構築 最近では、個人的なAIアシスタントの概念はサイエンスフィクションのように見えました。 ハイテク愛好家のアレックスを想像して、賢くて地元のAI仲間を夢見ています。

AI4MHの最初の発売は2025年4月15日に開催され、有名な精神科医および神経科学者であるLuminary Dr. Tom Insel博士がキックオフスピーカーを務めました。 Insel博士は、メンタルヘルス研究とテクノでの彼の傑出した仕事で有名です

「私たちは、WNBAが、すべての人、プレイヤー、ファン、企業パートナーが安全であり、大切になり、力を与えられたスペースであることを保証したいと考えています」とエンゲルバートは述べ、女性のスポーツの最も有害な課題の1つになったものに取り組んでいます。 アノ

導入 Pythonは、特にデータサイエンスと生成AIにおいて、プログラミング言語として優れています。 大規模なデータセットを処理する場合、効率的なデータ操作(ストレージ、管理、アクセス)が重要です。 以前に数字とstをカバーしてきました

潜る前に、重要な注意事項:AIパフォーマンスは非決定論的であり、非常にユースケース固有です。簡単に言えば、走行距離は異なる場合があります。この(または他の)記事を最終的な単語として撮影しないでください。これらのモデルを独自のシナリオでテストしないでください

傑出したAI/MLポートフォリオの構築:初心者と専門家向けガイド 説得力のあるポートフォリオを作成することは、人工知能(AI)と機械学習(ML)で役割を確保するために重要です。 このガイドは、ポートフォリオを構築するためのアドバイスを提供します

結果?燃え尽き症候群、非効率性、および検出とアクションの間の隙間が拡大します。これは、サイバーセキュリティで働く人にとってはショックとしてはありません。 しかし、エージェントAIの約束は潜在的なターニングポイントとして浮上しています。この新しいクラス

即時の影響と長期パートナーシップ? 2週間前、Openaiは強力な短期オファーで前進し、2025年5月末までに米国およびカナダの大学生にChatGpt Plusに無料でアクセスできます。このツールにはGPT ‑ 4o、Aが含まれます。


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

MinGW - Minimalist GNU for Windows
このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

DVWA
Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

SecLists
SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

メモ帳++7.3.1
使いやすく無料のコードエディター
