ホームページ >テクノロジー周辺機器 >AI >ビデオセグメンテーションのフィナーレ！浙江大学は最近 SAM-Track をリリースしました: ワンクリックでユニバーサルなインテリジェントビデオセグメンテーション

ビデオセグメンテーションのフィナーレ！浙江大学は最近 SAM-Track をリリースしました: ワンクリックでユニバーサルなインテリジェントビデオセグメンテーション

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB転載: 2023-05-23 14:07:061502ブラウズ

最近、浙江大学の ReLER 研究室は、SAM とビデオセグメンテーションを深く組み合わせ、Segment-and-Track Anything (SAM-Track) をリリースしました。

SAM-Track は、SAM にビデオターゲットを追跡する機能を提供し、複数のインタラクション方法 (ポイント、ブラシ、テキスト) をサポートします。

これに基づいて、SAM-Track は複数の従来のビデオセグメンテーションタスクを統合し、ワンクリックであらゆるビデオ内のあらゆるターゲットのセグメンテーションと追跡を実現し、従来のビデオセグメンテーションをユニバーサルなビデオセグメンテーションに推定します。

SAM-Track は優れたパフォーマンスを備えており、複雑なシナリオでも 1 枚のカードで数百のターゲットを高品質で安定して追跡できます。

ビデオセグメンテーションのフィナーレ！浙江大学は最近 SAM-Track をリリースしました: ワンクリックでユニバーサルなインテリジェントビデオセグメンテーション

プロジェクトアドレス: https://github.com/z-x-yang/Segment-and-Track -Anything

##論文アドレス: https://arxiv.org/abs/2305.06558

エフェクト表示

SAM-Track は、プロンプトとしての言語入力をサポートしています。たとえば、カテゴリテキスト「パンダ」がある場合、ワンクリックのインスタンスレベルのセグメンテーションを使用して、カテゴリ「パンダ」に属するすべてのターゲットを追跡できます。

「左端のパンダ」というテキストを入力するなど、より詳細な説明を入力することもできます。SAM-Trackセグメンテーション追跡の特定のターゲットを見つけることができます。

従来のビデオ追跡アルゴリズムと比較して、SAM-Track のもう 1 つの強力な特徴は、多数のビデオトラッキングアルゴリズムをターゲットにできることです。追跡セグメンテーションを実行し、出現するオブジェクトを自動的に検出します。

SAM-Track は、複数の対話型メソッドの組み合わせもサポートしており、ユーザーは実際のニーズに応じてそれらを組み合わせることができます。たとえば、ブラシを使用して人体に密接に関係するスケートボードのフレームを作成し、冗長なオブジェクトのセグメント化を防ぎ、クリックを使用して人体を選択します。

全自動のビデオターゲットのセグメンテーションと追跡が当然の問題になります。ストリートビュー、航空写真、AR、アニメーション、医療画像などのさまざまなアプリケーションシナリオはすべてセグメント化できます。ワンクリックで自動的に追跡され、出現するオブジェクトを検出します。

#ユーザーが自動セグメンテーションの結果に満足できない場合は、これに基づいて編集および修正できます。たとえば、クリックして修正します。分割されすぎた路面電車。

同時に、最新バージョンの SAM-Track は追跡結果のオンライン参照をサポートしており、中央の任意のフレームをセグメント化します。その結果、ゴールを変更して追加し、再度追跡します。

ビデオセグメンテーションのフィナーレ！浙江大学は最近 SAM-Track をリリースしました: ワンクリックでユニバーサルなインテリジェントビデオセグメンテーション #ユーザーのオンラインエクスペリエンスを容易にするために、このプロジェクトでは、Colab を介してワンクリックでデプロイできる WebUI を提供します。

モデル構成

SAM-Track モデルは、ECCV'22 VOT ワークショップの 4 トラックチャンピオンシップスキーム DeAOT に基づいています。

DeAOT は効率的な多目的 VOS モデルであり、最初のフレームのオブジェクトアノテーションが与えられると、ビデオの残りのフレーム内のオブジェクトを追跡してセグメント化できます。

DeAOT は、認識メカニズムを使用してビデオ内の複数のターゲットを同じ高次元空間に埋め込み、それによって複数のオブジェクトの同時追跡を実現します。

DeAOT の複数オブジェクト追跡における速度パフォーマンスは、単一オブジェクト追跡の他の VOS 方式と同等です。

さらに、DeAOT は、階層化された Transformer ベースの伝播メカニズムを通じて、長期情報と短期情報をより適切に集約し、優れた追跡パフォーマンスを示します。

DeAOT では初期化に参照フレームのアノテーションが必要なため、利便性を高めるために、SAM-Track では最近画像分野で話題になっている Segment Anything Model (SAM) モデルを使用しています。ラベル情報を取得するためのセグメンテーション。

SAM の優れたゼロサンプルマイグレーション機能と複数のインタラクション手法を使用して、SAM-Track は DeAOT の高品質の参照フレームアノテーション情報を効率的に取得できます。

SAM モデルは画像セグメンテーションの分野では良好に機能しますが、セマンティックラベルを出力できず、テキストプロンプトはオブジェクトのセグメンテーションの参照や、セマンティックの深い理解に依存するその他のタスクを十分にサポートできません。

したがって、SAM-Track モデルは、Grounding-DINO をさらに統合して、高精度の言語ガイド付きビデオセグメンテーションを実現します。 Grounding DINO は、優れた言語理解機能を備えたオープンセットの物体検出モデルです。

入力カテゴリまたはターゲットオブジェクトの詳細な説明に基づいて、Grounding-DINO はターゲットを検出し、ロケーションボックスを返すことができます。

SAM-Track モデルアーキテクチャ

下の図に示すように、SAM-Track モデルは、対話型追跡モード、自動追跡モード、およびフュージョンモード。

インタラクティブトラッキングモードの場合、SAM-Track モデルはまず、参照フレーム内のクリックまたはフレームを使用して SAM を適用します。このようにして、ユーザーが満足するインタラクティブなセグメンテーション結果が得られるまでターゲットを絞り込みます。

言語ガイド付きビデオオブジェクトセグメンテーションを実装する場合、SAM-Track は入力テキストに基づいて Grounding-DINO を呼び出し、まずターゲットオブジェクトの位置フレームを取得します。 SAM を通じて対象オブジェクトのセグメンテーション結果を取得します。

最後に、DeAOT は、選択されたターゲットを追跡するための参照フレームとしてインタラクティブセグメンテーションの結果を使用します。追跡プロセス中に、DeAOT は、過去のフレームに埋め込まれた視覚的埋め込みと高次元 ID 埋め込みを現在のフレームに階層的に伝播させ、複数のターゲットオブジェクトのフレームごとの追跡とセグメンテーションを実現します。したがって、SAM-Track は、マルチモーダルインタラクションをサポートすることで、セグメント化されたビデオ内の対象オブジェクトを追跡できます。

ただし、インタラクティブ追跡モードでは、ビデオ内に出現する新たに出現したオブジェクトを処理できません。自動運転、スマートシティなどの特定の分野での SAM-Track の適用を制限します。

SAM-Track の適用範囲とパフォーマンスをさらに拡張するために、SAM-Track はビデオに表示される新しいオブジェクトを追跡する自動追跡モードを実装しています。

自動追跡モードは、すべてをセグメント化および対象オブジェクトのセグメント化を使用して、n フレームごとに出現する新しいオブジェクトの注釈を取得します。新しく出現したオブジェクトの ID 割り当ての問題については、SAM-Track は比較マスクモジュール (CMR) を使用して新しいオブジェクトの ID を決定します。

フュージョンモードは、インタラクティブトラッキングモードと自動トラッキングモードを組み合わせたものです。インタラクティブトラッキングモードでは、ビデオの最初のフレームの注釈を簡単に取得できます。一方、自動トラッキングモードでは、ビデオの後続のフレームに表示される選択されていない新しいオブジェクトを処理します。追跡方法を組み合わせることで、SAM-Track の適用範囲が広がり、SAM-Track の実用性が高まります。

以上がビデオセグメンテーションのフィナーレ！浙江大学は最近 SAM-Track をリリースしました: ワンクリックでユニバーサルなインテリジェントビデオセグメンテーションの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明：

この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

前の記事：2023 年に人工知能が組織をどのように強化できるか次の記事：2023 年に人工知能が組織をどのように強化できるか

続きを見る

ビデオセグメンテーションのフィナーレ！浙江大学は最近 SAM-Track をリリースしました: ワンクリックでユニバーサルなインテリジェントビデオセグメンテーション

モデル構成

SAM-Track モデル アーキテクチャ

関連記事

SAM-Track モデルアーキテクチャ