検索
ホームページテクノロジー周辺機器AIコンピュータビジョンにおけるターゲット追跡の概念の解釈

コンピュータビジョンにおけるターゲット追跡の概念の解釈

オブジェクト追跡はコンピュータ ビジョンにおける重要なタスクであり、交通監視、ロボット工学、医療画像処理、自動車両追跡などの分野で広く使用されています。深層学習手法を使用して、ターゲット オブジェクトの初期位置を決定した後、ビデオ内の連続する各フレーム内のターゲット オブジェクトの位置を予測または推定します。オブジェクト追跡は実生活において幅広い用途があり、コンピュータ ビジョンの分野でも非常に重要です。

オブジェクト追跡には、通常、オブジェクト検出のプロセスが含まれます。オブジェクト追跡手順の概要は次のとおりです:

1. オブジェクト検出では、アルゴリズムがオブジェクトの周囲に境界ボックスを作成することによってオブジェクトを分類および検出します。

2. 各オブジェクトに一意の識別 (ID) を割り当てます。

3. 検出されたオブジェクトの動きをフレーム単位で追跡し、関連情報を保存します。

ターゲット追跡の種類

ターゲット追跡には、画像追跡とビデオ追跡の 2 種類があります。

画像追跡

画像追跡は、画像を自動的に識別して追跡するタスクです。主に拡張現実(AR)の分野で使用されます。たとえば、カメラを介して 2D 画像が供給されると、アルゴリズムは 2D 平面画像を検出し、それを 3D グラフィック オブジェクトのオーバーレイに使用できます。

ビデオ トラッキング

ビデオ トラッキングは、ビデオ内の移動オブジェクトを追跡するタスクです。ビデオ トラッキングの考え方は、各ビデオ フレームに表示されるターゲット オブジェクトを関連付けたり、それらの間の関係を確立したりすることです。言い換えれば、ビデオ トラッキングはビデオ フレームを順番に分析し、オブジェクトの周囲に境界ボックスを予測して作成することで、オブジェクトの過去の位置と現在の位置をつなぎ合わせます。

ビデオ追跡は、リアルタイム映像を処理できるため、交通監視、自動運転車、セキュリティで広く使用されています。

ターゲット追跡プロセスの 4 つの段階

フェーズ 1: ターゲットの初期化

定義オブジェクトまたは目標。ビデオの最初のフレームの周囲に境界ボックスを描画するプロセスと組み合わせます。トラッカーは、境界ボックスを描画しながら、残りのフレーム内のオブジェクトの位置を推定または予測する必要があります。

フェーズ 2: 外観モデリング

外観モデリングには、オブジェクトの視覚的な外観のモデリングが含まれます。ターゲット オブジェクトが照明条件、角度、速度などのさまざまなシナリオを通過すると、オブジェクトの外観が変化し、エラー メッセージが表示され、アルゴリズムがオブジェクトの追跡を失う可能性があります。したがって、ターゲット オブジェクトが移動するときに生じるさまざまな変化や歪みをモデリング アルゴリズムで捉えることができるように、外観モデリングが必要になります。

#外観モデリングは 2 つの部分で構成されます:

    視覚的表現: オブジェクトを説明できる堅牢な機能と表現の構築に焦点を当てます
  • 統計モデリング: 統計学習技術を使用して、物体認識のための数学的モデルを効率的に構築します。
フェーズ 3: 動き推定

動き推定では、通常、モデルの予測機能を外挿して、オブジェクトの将来の位置を正確に予測します。

フェーズ 4: ターゲットの位置特定

オブジェクトの位置が概算されると、視覚モデルを使用してターゲットの正確な位置を特定できます。

オブジェクト追跡レベル

オブジェクト追跡は 2 つのレベルとして定義できます:

単一ターゲット追跡 (SOT)

単一オブジェクト追跡 (SOT) は、複数のオブジェクトではなく単一クラスのオブジェクトを追跡するように設計されています。視覚オブジェクト追跡と呼ばれることもあります。 SOT では、ターゲット オブジェクトのバウンディング ボックスが最初のフレームで定義されます。このアルゴリズムの目的は、残りのフレームで同じオブジェクトを見つけることです。

SOT は、最初の境界ボックスをトラッカーに手動で提供する必要があるため、検出不要の追跡のカテゴリに分類されます。これは、単一のオブジェクト トラッカーで、トレーニングに使用できる分類モデルが存在しないオブジェクトであっても、任意のオブジェクトを追跡できる必要があることを意味します。

複数オブジェクト追跡 (MOT)

複数オブジェクト追跡 (MOT) とは、追跡アルゴリズムがビデオ内の対象となる個々のオブジェクトを追跡する方法を指します。最初に、追跡アルゴリズムは各フレーム内のオブジェクトの数を決定し、次に各オブジェクトのアイデンティティをフレームから離れるまで 1 つのフレームから次のフレームに追跡します。

#深層学習に基づくターゲット追跡手法

ターゲット追跡では、追跡モデルの精度を向上させるために多くの手法が導入されています。セックスと効率。一部の方法には、k 最近傍法やサポート ベクター マシンなどの古典的な機械学習方法が含まれます。以下では、ターゲット追跡タスクのためのいくつかの深層学習アルゴリズムについて説明します。

MDNet

大規模なデータをトレーニングに利用するターゲット追跡アルゴリズム。 MDNet は、事前トレーニングとオンライン視覚追跡で構成されます。

事前トレーニング: 事前トレーニングでは、ネットワークはマルチドメイン表現を学習する必要があります。この目標を達成するために、アルゴリズムは複数の注釈付きビデオでトレーニングされ、表現と空間的特徴を学習します。

オンライン視覚追跡: 事前トレーニングが完了すると、ドメイン固有のレイヤーが削除され、学習された表現を含む共有レイヤーのみがネットワークに残ります。推論中に、バイナリ分類レイヤーが追加され、オンラインでトレーニングまたは微調整されます。

この手法は時間を節約し、効果的なオンラインベースの追跡アルゴリズムであることが証明されています。

GOTURN

深層回帰ネットワークは、オフライン トレーニングに基づいたモデルです。このアルゴリズムは、オブジェクトの動きと外観の間の一般的な関係を学習し、トレーニング セットに表示されないオブジェクトを追跡するために使用できます。

回帰ネットワーク (GOTURN) を使用した汎用オブジェクト追跡では、回帰ベースのアプローチを使用してオブジェクトを追跡します。基本的に、ネットワークを介した 1 つのフィードフォワード パスのみでターゲット オブジェクトを見つけるために直接回帰します。ネットワークは、現在のフレームの検索エリアと前のフレームのターゲットという 2 つの入力を受け入れます。次に、ネットワークはこれらの画像を比較して、現在の画像内のターゲット オブジェクトを見つけます。

ROLO

ROLO はリカレント ニューラル ネットワークと YOLO を組み合わせたものです。一般に、LSTM は CNN と組み合わせて使用​​するのに適しています。

ROLO は 2 つのニューラル ネットワークを組み合わせたものです: 1 つは空間情報の抽出に使用される CNN、もう 1 つはターゲット オブジェクトの軌道の検索に使用される LSTM ネットワークです。各タイム ステップで、空間情報が抽出されて LSTM に送信され、追跡されたオブジェクトの位置が返されます。

DeepSORT

DeepSORT は、最も人気のあるターゲット追跡アルゴリズムの 1 つであり、SORT の拡張機能です。

SORT は、カルマン フィルターを使用して、オブジェクトの以前の位置を考慮してその位置を推定する、オンライン ベースの追跡アルゴリズムです。カルマン フィルターはオクルージョンに対して非常に効果的です。

SORT を理解した後、深層学習テクノロジーを組み合わせて SORT アルゴリズムを強化できます。ディープ ニューラル ネットワークではターゲット画像の特徴を記述することができるため、SORT はオブジェクトの位置をより正確に推定できます。

SiamMask

は、完全畳み込みシャム ネットワークのオフライン トレーニング プロセスを改善するように設計されています。 Siamese ネットワークは、密な空間特徴表現を取得するために、トリミングされた画像とより大きな検索画像の 2 つの入力を受け入れます。

シャム ネットワークは、2 つの入力画像の類似性を測定し、同じオブジェクトが両方の画像に存在するかどうかを判断する出力を生成します。バイナリ セグメンテーション タスクを使用して損失を増やすことにより、このフレームワークはオブジェクト追跡に非常に効果的です。

JDE

JDE は、マルチタスクの学習問題を解決するために設計されたシングルショット検出器です。 JDE は、オブジェクトの検出と共有モデルへの外観の埋め込みを学習します。

JDE は、バックボーンとして Darknet-53 を使用して、各レイヤーでの特徴表現を取得します。これらの特徴表現は、アップサンプリングと残差接続を使用して融合されます。次に、予測ヘッダーが融合された特徴表現の上に追加され、高密度の予測マップが生成されます。オブジェクト追跡を実行するために、JDE は予測ヘッドからバウンディング ボックス クラスと外観の埋め込みを生成します。これらの外観の埋め込みは、類似性行列を使用して以前に検出されたオブジェクトの埋め込みと比較されます。

Tracktor

Tracktor は、オンライン追跡アルゴリズムです。オブジェクト検出メソッドを使用して、検出タスクのみでニューラル ネットワークをトレーニングすることで追跡を実行します。基本的に、境界ボックス回帰を計算することにより、次のフレーム内のオブジェクトの位置を予測します。追跡データに対してトレーニングや最適化は実行されません。

Tracktor のオブジェクト検出器は通常、101 層の ResNet と FPN を備えた Faster R-CNN です。 Faster R-CNN の回帰ブランチを使用して、現在のフレームから特徴を抽出します。

以上がコンピュータビジョンにおけるターゲット追跡の概念の解釈の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は网易伏羲で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
顔を抱きしめます' S 7BモデルオリンピックコダーはClaude 3.7を破っていますか?顔を抱きしめます' S 7BモデルオリンピックコダーはClaude 3.7を破っていますか?Apr 23, 2025 am 11:49 AM

FaceのOlympiccoder-7Bを抱き締める:強力なオープンソースコード推論モデル 優れたコードに焦点を当てた言語モデルを開発するための競争は激化しており、顔を抱き締めることは、恐るべき競争相手との競争に参加しました:Olympiccoder-7B、製品

4つの新しいジェミニ機能は、見逃す余裕があります4つの新しいジェミニ機能は、見逃す余裕がありますApr 23, 2025 am 11:48 AM

AIが質問に答えるだけでなく、AIができることを望んでいる人は何人いますか?私は自分が持っていることを知っています、そして最近、私はそれがどのように変容しているかに驚いています。 aiチャットボットはもうチャットするだけでなく、作成することです。

Camundaは、エージェントAIオーケストレーションの新しいスコアを作成しますCamundaは、エージェントAIオーケストレーションの新しいスコアを作成しますApr 23, 2025 am 11:46 AM

Smart AIは、エンタープライズソフトウェアプラットフォームとアプリケーションのあらゆるレベルのレベルに統合され始めているため(強力なコアツールと信頼性の低いシミュレーションツールの両方があることを強調する必要があります)、これらのエージェントを管理するための新しいインフラストラクチャ機能のセットが必要です。 ドイツのベルリンに拠点を置くプロセスオーケストレーション会社であるCamundaは、Smart AIが適切な役割を果たし、新しいデジタル職場での正確なビジネス目標とルールと一致するのに役立つと考えています。同社は現在、組織がAIエージェントのモデル化、展開、管理を支援するように設計されたインテリジェントオーケストレーション機能を提供しています。 実用的なソフトウェアエンジニアリングの観点から、これはどういう意味ですか? 確実性と非決定的プロセスの統合 同社は、鍵はユーザー(通常はデータサイエンティスト、ソフトウェア)を許可することだと言いました

キュレーションされたエンタープライズAIエクスペリエンスに価値はありますか?キュレーションされたエンタープライズAIエクスペリエンスに価値はありますか?Apr 23, 2025 am 11:45 AM

次の'25年にGoogle Cloudに参加して、GoogleがどのようにAIの製品を区別するかを見たいと思っていました。 エージェントスペース(ここで説明)とカスタマーエクスペリエンススイート(ここで説明)に関する最近の発表は、ビジネス価値を強調し、

ぼろきれに最適な多言語埋め込みモデルを見つける方法は?ぼろきれに最適な多言語埋め込みモデルを見つける方法は?Apr 23, 2025 am 11:44 AM

検索拡張生成(RAG)システムのための最適な多言語埋め込みモデルの選択 今日の相互接続された世界では、効果的な多言語AIシステムを構築することが最重要です。 REには、堅牢な多言語埋め込みモデルが重要です

ムスク:オースティンのロボタキシスは、10,000マイルごとに介入が必要ですムスク:オースティンのロボタキシスは、10,000マイルごとに介入が必要ですApr 23, 2025 am 11:42 AM

テスラのオースティンロボタキシローンチ:マスクの主張を詳しく見る Elon Muskは最近、テキサス州オースティンでのテスラの今後のRobotaxi発売を発表しました。当初、安全上の理由で10〜20台の車両の小さな艦隊を展開し、迅速な拡大を計画しました。 h

AI'の衝撃的なピボット:作業ツールからデジタルセラピストやライフコーチまでAI'の衝撃的なピボット:作業ツールからデジタルセラピストやライフコーチまでApr 23, 2025 am 11:41 AM

人工知能の適用方法は予期しない場合があります。当初、私たちの多くは、それが主にコードの作成やコンテンツの作成など、創造的で技術的なタスクに使用されていると思うかもしれません。 ただし、Harvard Business Reviewによって報告された最近の調査では、そうではないことが示されています。ほとんどのユーザーは、仕事だけでなく、サポート、組織、さらには友情のために人工知能を求めています! 報告書は、AIアプリケーションの最初のケースは治療と交際であると述べています。これは、その24時間年中無休の可用性と匿名の正直なアドバイスとフィードバックを提供する能力が非常に価値があることを示しています。 一方、マーケティングタスク(ブログの作成、ソーシャルメディアの投稿の作成、広告コピーなど)は、一般的な使用リストではるかに低くランク付けされています。 なぜこれがなぜですか?研究の結果とそれがどのように続くかを見てみましょう

企業はAIエージェントの採用に向けて競い合っています企業はAIエージェントの採用に向けて競い合っていますApr 23, 2025 am 11:40 AM

AIエージェントの台頭は、ビジネス環境を変えています。 Cloud Revolutionと比較して、AIエージェントの影響は指数関数的に大きく、知識作業に革命をもたらすことを約束していると予測されています。 人間の意思決定-makiをシミュレートする能力

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

MantisBT

MantisBT

Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

AtomエディタMac版ダウンロード

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

Dreamweaver Mac版

Dreamweaver Mac版

ビジュアル Web 開発ツール

SublimeText3 Linux 新バージョン

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン