クロスモーダル要素転送に基づいた Meitu と大連理工大学の参照ビデオ オブジェクト セグメンテーション手法は、単一の段階のみを必要とします。
はじめに
VOS の参照 (RVOS) は、新たに登場したタスクであり、参照テキストに基づいて、ビデオ シーケンスからテキストによって参照されるオブジェクトをセグメント化することを目的としています。半教師ありビデオ オブジェクト セグメンテーションと比較して、RVOS はピクセル レベルの参照マスクではなく抽象言語記述のみに依存し、人間とコンピューターの対話により便利なオプションを提供するため、幅広い注目を集めています。
論文リンク: https://www.aaai.org/AAAI22Papers/AAAI-1100.LiD.pdf
この研究の主な目的は、既存の RVOS タスクが直面する 2 つの主要な課題を解決することです。
- テキスト情報を , に変換する方法2 つのモダリティ間のスケールの一貫性を維持し、テキストによって提供される有用な特徴参照を画像特徴に完全に統合するための、画像情報のクロスモーダル融合。
- 放棄方法既存の手法の 2 段階の戦略 (つまり、最初に画像レベルでフレームごとに大まかな結果を取得し、次にその結果を参照として使用し、強化された時間情報の構造的改良を通じて最終的な予測を取得する) を採用し、全体を統合します。 RVOS タスクを単一ステージのフレームワークに統合します。
これに関して、この研究では、クロスモーダル要素移行のためのエンドツーエンドの RVOS フレームワークを提案します - YOFO 、その主な貢献と革新は次のとおりです:
- 参照テキスト情報を使用してビデオ ターゲットのセグメンテーションを直接取得するには、1 段階の推論のみが必要です。その結果、2 つの主流のデータセット (Ref-DAVIS2017 と Ref-Youtube-VOS) で得られた結果は、現在のすべての 2 段階手法を上回りました。
- は、メタ移行 (Meta-Transfer) を提案しました。 ) 時間情報を強化し、よりターゲットに焦点を当てた特徴学習を実現するモジュール;
- は、マルチスケール クロスモーダル特徴マイニング (マルチスケール クロスモーダル特徴マイニング) モジュールを提案します。言語と画像の便利な機能を完全に統合できます。
YOFO フレームワークの主なプロセスは次のとおりです。入力された画像とテキストは、まず画像エンコーダーと言語エンコーダーを通過して特徴を抽出します。 、その後、融合のためのマルチスケールのクロスモーダル特徴マイニング モジュールで。融合された二峰性特徴は、メモリ ライブラリを含むメタ転送モジュールで単純化され、言語特徴の冗長な情報が削除され、同時に時間情報を保存して時間的相関性が強化され、最終的にセグメンテーション結果が得られます。デコーダ。
#図 1: YOFO フレームワークのメイン プロセス。
#マルチスケール クロスモーダル特徴マイニング モジュール: このモジュールは、異なるスケールの 2 つのモーダル特徴を融合することで、画像特徴によって伝えられるスケール情報と言語特徴の間の一貫性を維持できます。さらに重要なのは、言語情報がマルチスケールの画像情報によって薄められたり圧倒されたりすることがないことです。融合プロセス。
メタ移行モジュール
##: Learning-to-Learn 戦略が採用されており、そのプロセスは次のマッピング関数として簡単に説明できます。移行関数 は畳み込みであり、 はその畳み込みカーネル パラメーターです:
最適化プロセスは次の目的関数として表現できます。
その中で, M は、履歴情報を保存できるメモリ バンクを表します。W は、さまざまな位置の重みを表し、特徴内のさまざまな位置にさまざまな注意を向けることができます。Y は、メモリ バンクに保存されている各ビデオ フレームの二峰性特徴を表します。この最適化プロセスにより、二峰性の特徴を再構築するメタ伝達関数の能力が最大化され、フレームワーク全体をエンドツーエンドでトレーニングできるようになります。
##トレーニングとテスト: トレーニングで使用される損失関数は lovasz 損失で、トレーニング セットは 2 つのビデオ データ セット Ref-DAVIS2017 です。 Ref-Youtube-VOS を使用し、静的データセット Ref-COCO を使用してランダム アフィン変換を実行し、補助トレーニングとしてビデオ データをシミュレートします。メタマイグレーション プロセスはトレーニングと予測中に実行され、ネットワーク全体が 1080ti で 10FPS の速度で実行されます。
実験結果研究で使用された方法は、2 つの主流の RVOS データセット (Ref-DAVIS2017 および Ref-Youtube-VOS) で優れた結果を達成しました。
## 図 3: 2 つの主流データセットの定量的指標。
#研究では、特徴マイニング モジュール (FM) とメタ転送モジュール (MT) の有効性を示すために、一連のアブレーション実験も実施しました。
図 6: 特徴マイニング モジュール (FM) とメタ転送モジュール (MT) の有効性。
さらに、この研究では、MT モジュールを使用した場合と使用しない場合のデコーダーの出力特徴を視覚化しました。MT モジュールが、で説明されているコンテンツを正しくキャプチャできることが明確にわかります。言語と干渉ノイズのフィルタリング。
図 7: MT モジュールを使用する前後のデコーダ出力機能の比較。
研究チームについてこの論文は、Meitu Imaging Research Institute (MT Lab) の研究者と大連大学 Lu Huchuan チームの研究者によって共同提案されました。テクノロジーの。 Meitu Imaging Research Institute (MT Lab) は、コンピューター ビジョン、機械学習、拡張現実、クラウド コンピューティングなどの分野におけるアルゴリズム研究、エンジニアリング開発、製品化に特化した Meitu のチームであり、Meitu の既存および将来の製品の基礎を提供します。コアアルゴリズムのサポートを提供し、最先端技術を通じて Meitu 製品の開発を促進しており、「Technology Center of Meitu」として知られており、CVPR、ICCV、ECCV などの主要な国際コンピューター ビジョン会議に参加し、優勝しています。 10回以上の優勝と準優勝。
以上がクロスモーダル要素転送に基づいた Meitu と大連理工大学の参照ビデオ オブジェクト セグメンテーション手法は、単一の段階のみを必要とします。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

私のコラムに新しいかもしれない人のために、具体化されたAI、AI推論、AIのハイテクブレークスルー、AIの迅速なエンジニアリング、AIのトレーニング、AIのフィールディングなどのトピックなど、全面的なAIの最新の進歩を広く探求します。

ヨーロッパの野心的なAI大陸行動計画は、人工知能のグローバルリーダーとしてEUを確立することを目指しています。 重要な要素は、AI GigaFactoriesのネットワークの作成であり、それぞれが約100,000の高度なAIチップを収容しています。

AIエージェントアプリケーションに対するMicrosoftの統一アプローチ:企業の明確な勝利 新しいAIエージェント機能に関するマイクロソフトの最近の発表は、その明確で統一されたプレゼンテーションに感銘を受けました。 TEで行き詰まった多くのハイテクアナウンスとは異なり

Shopify CEOのTobiLütkeの最近のメモは、AIの能力がすべての従業員にとって基本的な期待であると大胆に宣言し、会社内の重大な文化的変化を示しています。 これはつかの間の傾向ではありません。これは、pに統合された新しい運用パラダイムです

IBMのZ17メインフレーム:AIを強化した事業運営の統合 先月、IBMのニューヨーク本社で、Z17の機能のプレビューを受け取りました。 Z16の成功に基づいて構築(2022年に開始され、持続的な収益の成長の実証

揺るぎない自信のロックを解除し、外部検証の必要性を排除します! これらの5つのCHATGPTプロンプトは、完全な自立と自己認識の変革的な変化に向けて導きます。 ブラケットをコピー、貼り付け、カスタマイズするだけです

人工知能のセキュリティおよび研究会社であるAnthropicによる最近の[研究]は、これらの複雑なプロセスについての真実を明らかにし始め、私たち自身の認知領域に不穏に似た複雑さを示しています。自然知能と人工知能は、私たちが思っているよりも似ているかもしれません。 内部スヌーピング:人類の解釈可能性研究 人類によって行われた研究からの新しい発見は、AIの内部コンピューティングをリバースエンジニアリングすることを目的とする機械的解釈可能性の分野の大きな進歩を表しています。AIが何をするかを観察するだけでなく、人工ニューロンレベルでそれがどのように行うかを理解します。 誰かが特定のオブジェクトを見たり、特定のアイデアについて考えたりしたときに、どのニューロンが発射するかを描くことによって脳を理解しようとすることを想像してください。 a

Qualcomm's DragonWing:企業とインフラストラクチャへの戦略的な飛躍 Qualcommは、新しいDragonwingブランドで世界的に企業やインフラ市場をターゲットにして、モバイルを超えてリーチを積極的に拡大しています。 これは単なるレブランではありません


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

SublimeText3 Linux 新バージョン
SublimeText3 Linux 最新バージョン

MantisBT
Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

SublimeText3 中国語版
中国語版、とても使いやすい

Safe Exam Browser
Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

ホットトピック



