ホームページ >テクノロジー周辺機器 >AI >南部科学技術のブラックテクノロジー: ワンクリックでビデオキャラクターを排除、特殊効果アーティストの救世主が登場!

南部科学技術のブラックテクノロジー: ワンクリックでビデオキャラクターを排除、特殊効果アーティストの救世主が登場!

PHPz転載: 2023-05-25 14:56:29747ブラウズ

南方科学技術大学のこのビデオセグメンテーションモデルは、ビデオ内のあらゆるものを追跡できます。

「見る」だけでなく「切り取る」こともでき、ビデオから個人を削除することも簡単です。

操作に関しては、マウスを数回クリックするだけです。

南部科学技術のブラックテクノロジー: ワンクリックでビデオキャラクターを排除、特殊効果アーティストの救世主が登場!

特撮アーティストはニュースを見て救世主を見つけたようで、この製品は世界のゲームのルールを変えるだろうと率直に言いました。 CGI業界。

南部科学技術のブラックテクノロジー: ワンクリックでビデオキャラクターを排除、特殊効果アーティストの救世主が登場!

このモデルは TAM (Track Anything Model) と呼ばれていますが、Meta の画像セグメンテーションモデル SAM の名前に似ていますか?

実際、TAM は SAM をビデオ分野に拡張し、動的オブジェクトトラッキング のスキルツリーを強化します。

南部科学技術のブラックテクノロジー: ワンクリックでビデオキャラクターを排除、特殊効果アーティストの救世主が登場!

#ビデオセグメンテーションモデルは実際には新しいテクノロジーではありませんが、従来のセグメンテーションモデルでは人間の作業が軽減されません。

これらのモデルで使用されるトレーニングデータはすべて手動で注釈を付ける必要があり、使用前に特定のオブジェクトのマスクパラメーターで初期化する必要さえあります。

SAM の出現により、この問題を解決するための前提条件が提供されます。少なくとも、初期化データを手動で取得する必要がなくなりました。

もちろん、TAM は SAM をフレームごとに重ねて使用するのではなく、対応する時空間関係を構築する必要があります。

チームは、SAM を XMem と呼ばれるメモリモジュールと統合しました。

SAM を使用して最初のフレームで初期パラメータを生成するだけで済み、XMem が後続の追跡プロセスをガイドできます。

追跡対象は多数あります。たとえば、次の清明節の川沿いの写真です。

南部科学技術のブラックテクノロジー: ワンクリックでビデオキャラクターを排除、特殊効果アーティストの救世主が登場!

シーンが変わっても、 TAM のパフォーマンスには影響しません:

南部科学技術のブラックテクノロジー: ワンクリックでビデオキャラクターを排除、特殊効果アーティストの救世主が登場!

私たちが実際に体験したところ、TAM は対話型のユーザーインターフェイスを使用しており、操作が非常にシンプルで使いやすいことがわかりました。

南部科学技術のブラックテクノロジー: ワンクリックでビデオキャラクターを排除、特殊効果アーティストの救世主が登場!

# ハードパワーの観点から見ると、TAM の追跡効果は確かに優れています。

南部科学技術のブラックテクノロジー: ワンクリックでビデオキャラクターを排除、特殊効果アーティストの救世主が登場!

ただし、一部の詳細における消去機能の精度を改善する必要があります。

南部科学技術のブラックテクノロジー: ワンクリックでビデオキャラクターを排除、特殊効果アーティストの救世主が登場!

SAM から TAM へ

前述したように、TAM は SAM に基づいており、メモリ機能を組み合わせて時空間関連を確立します。。気がついた。

具体的には、最初のステップは、SAM の静的画像セグメンテーション機能を利用してモデルを初期化することです。

SAM は、ワンクリックでターゲットオブジェクトの初期化マスクパラメーターを生成し、従来のセグメンテーションモデルの複雑な初期化プロセスを置き換えることができます。

初期パラメータを使用すると、チームは半手動介入トレーニングのためにそれを XMem に引き渡すことができ、人間の作業負荷が大幅に軽減されます。

南部科学技術のブラックテクノロジー: ワンクリックでビデオキャラクターを排除、特殊効果アーティストの救世主が登場!

このプロセスでは、手動による予測結果を XMem の出力と比較するために使用します。

実際のプロセスでは、時間が経つにつれて、XMem が正確なセグメンテーション結果を取得することがますます困難になります。

結果と期待の差が大きすぎる場合、再セグメント化ステップに入りますが、このステップは SAM によって完了されます。

SAM の再最適化後、ほとんどの出力結果は比較的正確ですが、一部は依然として手動調整が必要です。

TAMの訓練プロセスは大まかにこんな感じで、冒頭で述べた物体除去スキルはTAMとE

2^{FGVIを組み合わせることで形成されます。}

2^{FGVI 自体もビデオ要素除去ツールであり、TAM の正確なセグメンテーションのサポートにより、その作業はより的を絞ったものになります。}

TAM をテストするために、チームは DAVIS-16 および DAVIS-17 データセットを使用して評価しました。

南部科学技術のブラックテクノロジー: ワンクリックでビデオキャラクターを排除、特殊効果アーティストの救世主が登場!

#直感的な感覚は依然として非常に良好であり、データからもそれは確かに真実です。

TAM ではマスクパラメーターを手動で設定する必要はありませんが、J (領域類似性) と F (境界精度) の 2 つの指標は手動モデルに非常に近いです。

DAVIS-2017 データセットのパフォーマンスでも、STM のパフォーマンスよりわずかに優れています。

他の初期化方法の中でも、SiamMask のパフォーマンスは TAM と比較できません;

MiVOS と呼ばれる別の方法は TAM よりもパフォーマンスが優れていますが、結局 8 ラウンド進化しました...

南部科学技術のブラックテクノロジー: ワンクリックでビデオキャラクターを排除、特殊効果アーティストの救世主が登場!

チームプロフィール

TAM は、南方科学技術大学の視覚知能知覚 (VIP) 研究室の出身です。

この研究室の研究方向には、テキスト、画像、音声のマルチモデル学習、マルチモデル知覚、強化学習、視覚的欠陥検出が含まれます。

現在、チームは 30 以上の論文を発表し、5 つの特許を取得しています。

チームのリーダーは、南方科技大学のジェン・フェン准教授で、英国のシェフィールド大学で博士号を取得し、中国高等研究所で勤務した経験があります。科学アカデミー、テンセント・ユートゥなどの機関を卒業し、2018年に南方科学技術大学に入学し、准教授に昇進した。

論文アドレス:
https://arxiv.org/abs/2304.11968
GitHub ページ:
https://github.com/gaomingqi/Track-Anything
参考リンク:
https://twitter.com/bilawalsidhu/status/1650710123399233536 ?s=20

以上が南部科学技術のブラックテクノロジー: ワンクリックでビデオキャラクターを排除、特殊効果アーティストの救世主が登場!の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明：

この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

前の記事：合成制御手法を完全に理解するのに役立つ 1 つの記事次の記事：合成制御手法を完全に理解するのに役立つ 1 つの記事

続きを見る