クロスモーダル要素転送に基づいた Meitu と大連理工大学の参照ビデオオブジェクトセグメンテーション手法は、単一の段階のみを必要とします。-AI-php.cn

ホームページ

テクノロジー周辺機器

クロスモーダル要素転送に基づいた Meitu と大連理工大学の参照ビデオオブジェクトセグメンテーション手法は、単一の段階のみを必要とします。

王林

Apr 08, 2023 pm 09:21 PM

フレーム移行する

はじめに

VOS の参照 (RVOS) は、新たに登場したタスクであり、参照テキストに基づいて、ビデオシーケンスからテキストによって参照されるオブジェクトをセグメント化することを目的としています。半教師ありビデオオブジェクトセグメンテーションと比較して、RVOS はピクセルレベルの参照マスクではなく抽象言語記述のみに依存し、人間とコンピューターの対話により便利なオプションを提供するため、幅広い注目を集めています。

クロスモーダル要素転送に基づいた Meitu と大連理工大学の参照ビデオオブジェクトセグメンテーション手法は、単一の段階のみを必要とします。

論文リンク: https://www.aaai.org/AAAI22Papers/AAAI-1100.LiD.pdf

この研究の主な目的は、既存の RVOS タスクが直面する 2 つの主要な課題を解決することです。

テキスト情報を , に変換する方法2 つのモダリティ間のスケールの一貫性を維持し、テキストによって提供される有用な特徴参照を画像特徴に完全に統合するための、画像情報のクロスモーダル融合。
放棄方法既存の手法の 2 段階の戦略 (つまり、最初に画像レベルでフレームごとに大まかな結果を取得し、次にその結果を参照として使用し、強化された時間情報の構造的改良を通じて最終的な予測を取得する) を採用し、全体を統合します。 RVOS タスクを単一ステージのフレームワークに統合します。

これに関して、この研究では、クロスモーダル要素移行のためのエンドツーエンドの RVOS フレームワークを提案します - YOFO 、その主な貢献と革新は次のとおりです:

参照テキスト情報を使用してビデオターゲットのセグメンテーションを直接取得するには、1 段階の推論のみが必要です。その結果、2 つの主流のデータセット (Ref-DAVIS2017 と Ref-Youtube-VOS) で得られた結果は、現在のすべての 2 段階手法を上回りました。
は、メタ移行 (Meta-Transfer) を提案しました。 ) 時間情報を強化し、よりターゲットに焦点を当てた特徴学習を実現するモジュール;
は、マルチスケールクロスモーダル特徴マイニング (マルチスケールクロスモーダル特徴マイニング) モジュールを提案します。言語と画像の便利な機能を完全に統合できます。

実装戦略

YOFO フレームワークの主なプロセスは次のとおりです。入力された画像とテキストは、まず画像エンコーダーと言語エンコーダーを通過して特徴を抽出します。、その後、融合のためのマルチスケールのクロスモーダル特徴マイニングモジュールで。融合された二峰性特徴は、メモリライブラリを含むメタ転送モジュールで単純化され、言語特徴の冗長な情報が削除され、同時に時間情報を保存して時間的相関性が強化され、最終的にセグメンテーション結果が得られます。デコーダ。

クロスモーダル要素転送に基づいた Meitu と大連理工大学の参照ビデオオブジェクトセグメンテーション手法は、単一の段階のみを必要とします。

#図 1: YOFO フレームワークのメインプロセス。

#マルチスケールクロスモーダル特徴マイニングモジュール: このモジュールは、異なるスケールの 2 つのモーダル特徴を融合することで、画像特徴によって伝えられるスケール情報と言語特徴の間の一貫性を維持できます。さらに重要なのは、言語情報がマルチスケールの画像情報によって薄められたり圧倒されたりすることがないことです。融合プロセス。

クロスモーダル要素転送に基づいた Meitu と大連理工大学の参照ビデオオブジェクトセグメンテーション手法は、単一の段階のみを必要とします。

# 図 2: マルチスケールのクロスモーダル特徴マイニングモジュール。

メタ移行モジュール

##: Learning-to-Learn 戦略が採用されており、そのプロセスは次のマッピング関数として簡単に説明できます。移行関数 は畳み込みであり、 はその畳み込みカーネルパラメーターです:

クロスモーダル要素転送に基づいた Meitu と大連理工大学の参照ビデオオブジェクトセグメンテーション手法は、単一の段階のみを必要とします。

最適化プロセスは次の目的関数として表現できます。

クロスモーダル要素転送に基づいた Meitu と大連理工大学の参照ビデオオブジェクトセグメンテーション手法は、単一の段階のみを必要とします。

その中で, M は、履歴情報を保存できるメモリバンクを表します。W は、さまざまな位置の重みを表し、特徴内のさまざまな位置にさまざまな注意を向けることができます。Y は、メモリバンクに保存されている各ビデオフレームの二峰性特徴を表します。この最適化プロセスにより、二峰性の特徴を再構築するメタ伝達関数の能力が最大化され、フレームワーク全体をエンドツーエンドでトレーニングできるようになります。

##トレーニングとテスト: トレーニングで使用される損失関数は lovasz 損失で、トレーニングセットは 2 つのビデオデータセット Ref-DAVIS2017 です。 Ref-Youtube-VOS を使用し、静的データセット Ref-COCO を使用してランダムアフィン変換を実行し、補助トレーニングとしてビデオデータをシミュレートします。メタマイグレーションプロセスはトレーニングと予測中に実行され、ネットワーク全体が 1080ti で 10FPS の速度で実行されます。

実験結果

研究で使用された方法は、2 つの主流の RVOS データセット (Ref-DAVIS2017 および Ref-Youtube-VOS) で優れた結果を達成しました。

クロスモーダル要素転送に基づいた Meitu と大連理工大学の参照ビデオオブジェクトセグメンテーション手法は、単一の段階のみを必要とします。

## 図 3: 2 つの主流データセットの定量的指標。

クロスモーダル要素転送に基づいた Meitu と大連理工大学の参照ビデオオブジェクトセグメンテーション手法は、単一の段階のみを必要とします。

# 図 4: VOS データセットの視覚化。

クロスモーダル要素転送に基づいた Meitu と大連理工大学の参照ビデオオブジェクトセグメンテーション手法は、単一の段階のみを必要とします。

# 図 5: YOFO のその他の視覚化効果。

#研究では、特徴マイニングモジュール (FM) とメタ転送モジュール (MT) の有効性を示すために、一連のアブレーション実験も実施しました。

クロスモーダル要素転送に基づいた Meitu と大連理工大学の参照ビデオオブジェクトセグメンテーション手法は、単一の段階のみを必要とします。図 6: 特徴マイニングモジュール (FM) とメタ転送モジュール (MT) の有効性。

さらに、この研究では、MT モジュールを使用した場合と使用しない場合のデコーダーの出力特徴を視覚化しました。MT モジュールが、で説明されているコンテンツを正しくキャプチャできることが明確にわかります。言語と干渉ノイズのフィルタリング。

クロスモーダル要素転送に基づいた Meitu と大連理工大学の参照ビデオオブジェクトセグメンテーション手法は、単一の段階のみを必要とします。図 7: MT モジュールを使用する前後のデコーダ出力機能の比較。

研究チームについてこの論文は、Meitu Imaging Research Institute (MT Lab) の研究者と大連大学 Lu Huchuan チームの研究者によって共同提案されました。テクノロジーの。 Meitu Imaging Research Institute (MT Lab) は、コンピュータービジョン、機械学習、拡張現実、クラウドコンピューティングなどの分野におけるアルゴリズム研究、エンジニアリング開発、製品化に特化した Meitu のチームであり、Meitu の既存および将来の製品の基礎を提供します。コアアルゴリズムのサポートを提供し、最先端技術を通じて Meitu 製品の開発を促進しており、「Technology Center of Meitu」として知られており、CVPR、ICCV、ECCV などの主要な国際コンピュータービジョン会議に参加し、優勝しています。 10回以上の優勝と準優勝。

以上がクロスモーダル要素転送に基づいた Meitu と大連理工大学の参照ビデオオブジェクトセグメンテーション手法は、単一の段階のみを必要とします。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

私のコラムに新しいかもしれない人のために、具体化されたAI、AI推論、AIのハイテクブレークスルー、AIの迅速なエンジニアリング、AIのトレーニング、AIのフィールディングなどのトピックなど、全面的なAIの最新の進歩を広く探求します。

ヨーロッパのAI大陸行動計画：GigaFactories、Data Labs、Green AIApr 10, 2025 am 11:21 AM

ヨーロッパの野心的なAI大陸行動計画は、人工知能のグローバルリーダーとしてEUを確立することを目指しています。重要な要素は、AI GigaFactoriesのネットワークの作成であり、それぞれが約100,000の高度なAIチップを収容しています。

Microsoftの簡単なエージェントストーリーは、より多くのファンを作成するのに十分ですか？Apr 10, 2025 am 11:20 AM

AIエージェントアプリケーションに対するMicrosoftの統一アプローチ：企業の明確な勝利新しいAIエージェント機能に関するマイクロソフトの最近の発表は、その明確で統一されたプレゼンテーションに感銘を受けました。 TEで行き詰まった多くのハイテクアナウンスとは異なり

従業員へのAI戦略の販売：Shopify CEOのマニフェストApr 10, 2025 am 11:19 AM

Shopify CEOのTobiLütkeの最近のメモは、AIの能力がすべての従業員にとって基本的な期待であると大胆に宣言し、会社内の重大な文化的変化を示しています。これはつかの間の傾向ではありません。これは、pに統合された新しい運用パラダイムです

IBMは、完全なAI統合でZ17メインフレームを起動しますApr 10, 2025 am 11:18 AM

IBMのZ17メインフレーム：AIを強化した事業運営の統合先月、IBMのニューヨーク本社で、Z17の機能のプレビューを受け取りました。 Z16の成功に基づいて構築（2022年に開始され、持続的な収益の成長の実証

5 chatgptプロンプトは他の人に依存して停止し、自分を完全に信頼するApr 10, 2025 am 11:17 AM

揺るぎない自信のロックを解除し、外部検証の必要性を排除します！これらの5つのCHATGPTプロンプトは、完全な自立と自己認識の変革的な変化に向けて導きます。ブラケットをコピー、貼り付け、カスタマイズするだけです

AIはあなたの心に危険なほど似ていますApr 10, 2025 am 11:16 AM

人工知能のセキュリティおよび研究会社であるAnthropicによる最近の[研究]は、これらの複雑なプロセスについての真実を明らかにし始め、私たち自身の認知領域に不穏に似た複雑さを示しています。自然知能と人工知能は、私たちが思っているよりも似ているかもしれません。内部スヌーピング：人類の解釈可能性研究人類によって行われた研究からの新しい発見は、AIの内部コンピューティングをリバースエンジニアリングすることを目的とする機械的解釈可能性の分野の大きな進歩を表しています。AIが何をするかを観察するだけでなく、人工ニューロンレベルでそれがどのように行うかを理解します。誰かが特定のオブジェクトを見たり、特定のアイデアについて考えたりしたときに、どのニューロンが発射するかを描くことによって脳を理解しようとすることを想像してください。 a

Dragonwingは、QualcommのEdge Momentumを紹介していますApr 10, 2025 am 11:14 AM

Qualcomm's DragonWing：企業とインフラストラクチャへの戦略的な飛躍 Qualcommは、新しいDragonwingブランドで世界的に企業やインフラ市場をターゲットにして、モバイルを超えてリーチを積極的に拡大しています。これは単なるレブランではありません

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。