CVPR 2024 | 複雑なシーンと言語表現の処理が得意な清華＆ボッシュは、新しいインスタンスセグメンテーションネットワークアーキテクチャを提案しました MagNet

CVPR 2024 | 複雑なシーンと言語表現の処理が得意な清華＆ボッシュは、新しいインスタンスセグメンテーションネットワークアーキテクチャを提案しました MagNet

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 26, 2024 pm 06:10 PM

プロジェクト参照セグメンテーション

CVPR 2024 | 擅长处理复杂场景和语言表达，清华&博世提出全新实例分割网络架构MagNet

AIxiv コラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com。

参照画像セグメンテーション (RIS) は、非常に困難なマルチモーダルタスクであり、アルゴリズムがきめ細かい人間の言語を同時に理解できる必要があります。視覚的な画像情報と、画像内の文によって参照されるオブジェクトをピクセルレベルでセグメント化します。 RIS テクノロジーのブレークスルーは、人間とコンピューターのインタラクション、画像編集、自動運転などの多くの分野に革命的な変化をもたらすことが期待されています。人間とマシンのコラボレーションの効率とエクスペリエンスを大幅に向上させることができます。現在の最先端の RIS アルゴリズムは大幅な進歩を遂げていますが、依然としてモダリティギャップの問題、つまり画像とテキストの特徴の分布が完全に一致していないという問題に直面しています。この問題は、複雑な参照言語表現やまれな文脈を扱う場合に特に深刻です。

CVPR 2024 | 擅长处理复杂场景和语言表达，清华&博世提出全新实例分割网络架构MagNet

^{図 1: RIS におけるきめ細かい言語とイメージの調整機能の重要性を示す概略図。赤いマスクは、現在最も先進的な RIS アルゴリズムの 1 つである LAVT の予測結果であり、黄色の点線のボックスは正しいアノテーションです。}

現在の RIS の研究は、主に、新しい損失関数の設計、または言語とイメージの分散調整を強化するための革新的なネットワークアーキテクチャ/モジュールの導入に焦点を当てています。大きな進歩にもかかわらず、2 つの基本的な問題が残っており、その結果、詳細な視覚的基礎付けが不十分になります:

# 1. これらの方法は、主に言語の文レベルの言語機能に依存しています。画像の位置合わせが行われるため、テキストレベルでの言語と画像の位置合わせ機能が弱くなります。

2. これらの方法では、トレーニングプロセス中に明示的な監視信号が不足していることが多く、モデルに詳細な調整を実行するように効果的に教えることができないため、複雑な参照言語を処理する際のパフォーマンスが低下します。

CVPR 2024 | 擅长处理复杂场景和语言表达，清华&博世提出全新实例分割网络架构MagNet

清華大学オートメーション学部とボッシュ中央研究所の共同研究チームは、最近のCVPR 2024の研究で、新しい補助タスク「マスク」を設計しました。接地。このタスクの目的は、テキスト単語の一部をランダムにマスクし、アルゴリズムにそれらの本当のアイデンティティを予測することを学習させることで、テキストと視覚オブジェクトの間のきめ細かい対応関係を学習するようにモデルに明示的に教えることです。さらに、言語と画像間のモーダルギャップをさらに包括的に削減するための、新しいクロスモーダルアライメントモジュールと新しいクロスモーダルアライメントロス関数（クロスモーダルアライメントロス）も提案しました。これらのテクノロジーに基づいて、新しいインスタンスセグメンテーションネットワークアーキテクチャである Mask-grounded Network (MagNet) を設計しました。

論文タイトル: 参照画像セグメンテーションのためのマスクグラウンディング

CVPR 2024 | 擅长处理复杂场景和语言表达，清华&博世提出全新实例分割网络架构MagNet 論文アドレス: https://arxiv .org/abs/2312.12198

RefCOCO、RefCOCO、および G-Ref データセットでは、MagNet は以前のすべての最適アルゴリズムを大幅に上回りました。 Interaction over Union (oIoU) 全体の割合は 2.48 パーセントポイントと大幅に増加しました。視覚化の結果は、MagNet が複雑なシーンや言語表現の処理において優れたパフォーマンスを備えていることも確認しています。

#メソッド

##MagNet は 3 つの独立した補完的なもので構成されます。モジュールは、マスクグラウンディング、クロスモーダルアライメントモジュール、クロスモーダルアライメントロスで構成されます。

1.マスクの接地

^{図 3: マスクの接地フローチャート}

図 3 に示すように、入力画像が与えられると、対応する指示表現とセグメンテーションマスクの場合、作成者は文内の特定の単語をランダムに選択し、それらを特別な学習可能なマスクトークンに置き換えます。次に、これらの置換された単語の実際のアイデンティティを予測するためにモデルがトレーニングされます。マスクされたトークンの身元を正しく予測することで、モデルはテキスト内のどの単語が画像のどの部分に対応するかを理解することができ、その過程できめ細かい言語と画像の位置合わせ機能を学習します。この補助タスクを実行するには、まずマスク領域の中心座標が抽出され、2 層 MLP に渡されて、セグメンテーションマスクの特徴がエンコードされます。同時に、線形レイヤーを使用して、言語特徴を画像特徴と同じ次元にマッピングします。次に、これらの特徴は、提案されたマスクトークン予測器を使用して共同処理され、マスクトークンの予測にはアテンションメカニズムモジュールが使用されます。マスクグランディングでは、マスクされた式を処理するために言語エンコーダーを通過する追加の順方向パスが必要ですが、言語エンコーダーが非常に小さいため、全体の計算コストはほとんど無視できます。

2.クロスモーダルアライメントモジュール (CAM)

CVPR 2024 | 擅长处理复杂场景和语言表达，清华&博世提出全新实例分割网络架构MagNet

# #図 4 に示すように、モデルのパフォーマンスをさらに向上させるには、著者も提案したクロスモーダルアライメントモジュールモダリティアライメントモジュール (CAM)。言語と画像の融合を実行する前に、グローバルコンテキスト事前分布を画像特徴に注入することで、言語と画像のアライメントを強化します。 CAM はまず、異なるウィンドウサイズのプーリング操作を使用して、異なるピラミッドスケールの K 個の特徴マップを生成します。次に、各特徴マップは 3 層 MLP を通過して、グローバル情報をより適切に抽出し、別のモダリティとのクロスアテンション操作を実行します。次に、すべての出力特徴が双一次補間によって元の特徴マップサイズにアップサンプリングされ、チャネル次元で連結されます。その後、2 層 MLP を使用して、連結されたフィーチャチャネルの数を元のサイズに戻します。マルチモーダル信号が元の信号を圧倒するのを防ぐために、タン非線形性を持つゲートユニットを使用して最終出力を変調します。最後に、このゲートされた特徴は入力特徴に追加され、画像または言語エンコーダーの次の段階に渡されます。著者らの実装では、CAM は画像および音声エンコーダの各段階の最後に追加されます。

3.クロスモーダルアライメント損失 (CAL)

# #図 5: クロスモーダルアライメント損失の式

CVPR 2024 | 擅长处理复杂场景和语言表达，清华&博世提出全新实例分割网络架构MagNet

言語と画像の特徴のモデルの整合性を監視するために、著者は新しい交差を提案します。 -modal アライメント損失の式状態アライメント損失関数 (CAL)。図 5 に、この損失関数の数式を示します。以前の作品とは異なり、CAL ではピクセルからピクセル (P2P) とピクセルからテキスト (P2T) の両方の位置合わせが考慮されます。正確なピクセル間の位置合わせにより、モデルは正確な形状と境界を持つセグメンテーションマスクをセグメント化して出力できるようになります。一方、正確なピクセル間の位置合わせにより、モデルはテキストの説明と一致する画像領域を正しく関連付けることができます。

#実験

表 1 では、著者は oIoU メトリクスを使用して MagNet を評価しています。既存の最先端アルゴリズムとのパフォーマンスの比較。テストデータはRefCOCO、RefCOCO、G-Refです。単一データセット設定と複数/追加データセット設定の両方で、MagNet のパフォーマンスはこれらのデータセット上ですべて SOTA です。

^{1: 実験結果}

# 可能

CVPR 2024 | 擅长处理复杂场景和语言表达，清华&博世提出全新实例分割网络架构MagNet

##図 6: MagNet の可視化結果

## 図 6 では、MagNet の可視化結果がも際立っており、多くの困難なシナリオにおけるベースライン LAVT。

概要

この記事では、参照セグメンテーション (RIS) の分野の課題について詳しく説明します。そして現在の問題、特に言語とイメージをきめ細かく調整する際の欠点。これらの問題に対応して、清華大学とボッシュ中央研究所の研究者は、MagNet と呼ばれる新しい方法を提案しました。これは、補助タスクであるマスクグランディング、クロスモーダルアライメントモジュール、およびクロスモーダルアライメント損失関数を導入することで言語を包括的に改善します。画像間の位置合わせ効果。実験では、MagNet が RefCOCO、RefCOCO、および G-Ref データセットで大幅に優れたパフォーマンスを達成し、以前の最先端のアルゴリズムを上回り、強力な一般化機能を示していることが証明されています。視覚化の結果は、複雑なシーンや言語表現の処理における MagNet の優位性も裏付けています。この研究は、参照セグメンテーションの分野のさらなる発展に有益なインスピレーションを提供し、この分野でのさらなる進歩を促進することが期待されています。

チーム紹介

この論文は清華大学オートメーション学科からのものです ( https://www.au.tsinghua.edu.cn) およびボッシュ中央研究所 (https://www.bosch.com/research/)。論文の最初の著者の一人である Zhuang Rongxian 氏は、清華大学の博士課程の学生であり、ボッシュ中央研究所のインターンです。プロジェクトリーダーは、ボッシュ中央研究所の上級研究開発科学者である Qiu Xuchong 博士です。著者は清華大学オートメーション学科の黄高教授です。

以上がCVPR 2024 | 複雑なシーンと言語表現の処理が得意な清華＆ボッシュは、新しいインスタンスセグメンテーションネットワークアーキテクチャを提案しました MagNetの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は机器之心で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

メタの新しいAIアシスタント：生産性ブースターまたはタイムシンク？May 01, 2025 am 11:18 AM

Metaは、NVIDIA、IBM、Dellなどのパートナーと協力して、Llama Stackのエンタープライズレベルの展開統合を拡大しました。セキュリティの観点から、MetaはLlama Guard 4、Llamafirewall、Cyberseceval 4などの新しいツールを立ち上げ、AIセキュリティを強化するためにLlama Defendersプログラムを開始しました。さらに、METAは、公共サービス、ヘルスケア、教育の改善に取り組んでいる新興企業を含む、Llama Impact Grantsの150万ドルを10のグローバル機関に分配しています。 Llama 4を搭載した新しいメタAIアプリケーションは、メタAIとして考案されました

Gen Zersの80％はAI：研究と結婚しますMay 01, 2025 am 11:17 AM

人間との相互作用の先駆者であるJoi Aiは、これらの進化する関係を説明するために「AI-lationships」という用語を導入しました。 Joi Aiの関係療法士であるJaime Bronsteinは、これらが人間cを置き換えることを意図していないことを明確にしています

AIはインターネットのボット問題を悪化させています。この20億ドルのスタートアップは最前線にありますMay 01, 2025 am 11:16 AM

オンライン詐欺とボット攻撃は、企業にとって大きな課題をもたらします。小売業者は、ボットの買いだめ製品、銀行の戦闘口座の買収、ソーシャルメディアプラットフォームと戦い、なりすまし者と闘っています。 AIの台頭は、この問題を悪化させます

ロボットへの販売：あなたのビジネスを作ったり壊したりするマーケティング革命May 01, 2025 am 11:15 AM

AIエージェントは、マーケティングに革命をもたらす態勢が整っており、以前の技術的変化の影響を上回る可能性があります。これらのエージェントは、生成AIの大幅な進歩を表し、ChatGPTのような情報を処理するだけでなく、Actioも取る

コンピュータービジョンテクノロジーがどのようにNBAプレーオフを司会しているかMay 01, 2025 am 11:14 AM

重要なNBAゲーム4の決定に対するAIの影響 2つの重要なゲーム4 NBAマッチアップは、司会におけるAIのゲームを変える役割を紹介しました。最初に、デンバーのニコラ・ジョキッチの逃した3ポインターは、アーロン・ゴードンの最後の2秒の路地につながりました。ソニーのホー

AIがどのように再生医療の未来を加速しているかMay 01, 2025 am 11:13 AM

伝統的に、再生医療の専門知識を拡大すると、世界的に大規模な旅行、実践的なトレーニング、長年のメンターシップが必要でした。現在、AIはこの風景を変えており、地理的な制限を克服し、ENを通じて進歩を加速しています

Intel Foundry Direct Connect 2025からのキーテイクアウトMay 01, 2025 am 11:12 AM

Intelは、製造プロセスを主要な位置に戻すように取り組んでいますが、Fab Semiconductorの顧客を引き付けてFabでチップを作成しようとしています。この目的のために、Intelは、そのプロセスの競争力を証明するだけでなく、パートナーが馴染みのある成熟したワークフローでチップを製造できることを実証するために、業界へのより多くの信頼を築かなければなりません。今日私が聞いたことはすべて、インテルがこの目標に向かっていると信じています。新しいCEOのタンリバイの基調講演がその日をキックオフしました。タンリバイは簡単で簡潔です。彼は、IntelのFoundry Servicesにおけるいくつかの課題と、これらの課題に対処し、将来のIntelのFoundry Servicesの成功したルートを計画するために企業が行った対策を概説しています。 Tan Libaiは、IntelのOEMサービスが顧客をより多くするために実装されているプロセスについて話しました

AIが間違っていましたか？今、そのための保険がありますMay 01, 2025 am 11:11 AM

AIのリスクを取り巻く増大する懸念に対処するために、グローバルな専門家保険会社であるChaucer GroupとArmilla AIは、新しいサードパーティの責任（TPL）保険商品を導入するために力を合わせました。このポリシーは、企業を守ります

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

ドリームウィーバー CS6

ビジュアル Web 開発ツール

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。