中国のチームによって作成されたユニバーサルセグメンテーションモデルである SEEM は、ワンタイムセグメンテーションを新たなレベルに引き上げます

中国のチームによって作成されたユニバーサルセグメンテーションモデルである SEEM は、ワンタイムセグメンテーションを新たなレベルに引き上げます

Apr 26, 2023 pm 10:07 PM

モデルcv

今月初め、Meta は「Segment Anything」AI モデル、つまり Segment Anything Model (SAM) をリリースしました。 SAM は画像セグメンテーションの普遍的な基本モデルと考えられており、オブジェクトに関する一般的な概念を学習し、トレーニングプロセス中に遭遇しなかったオブジェクトや画像タイプを含む、あらゆる画像またはビデオ内のあらゆるオブジェクトのマスクを生成できます。この「ゼロサンプルマイグレーション」機能は驚くべきもので、CV分野に「GPT-3の瞬間」が到来したとさえ言う人もいる。

最近、「Segment Everything Everywhere All at Once」という新しい論文が再び注目を集めています。この論文では、ウィスコンシン大学マディソン校、マイクロソフト、香港科技大学の数名の中国人研究者が、新しいプロンプトベースの対話モデル SEEM を提案しました。 SEEM は、画像またはビデオ内のすべてのコンテンツを一度にセグメント化し、ユーザーによって与えられたさまざまなモーダル入力 (テキスト、画像、落書きなど) に基づいてオブジェクトカテゴリを識別できます。このプロジェクトはオープンソース化されており、誰もが体験できるトライアルアドレスが提供されています。

# 論文リンク: https://arxiv.org/pdf/2304.06718.pdf

# プロジェクトリンク: https://github.com/UX-Decoder/Segment-Everything-Everywhere-All-At-Once

#トライアルアドレス: https://huggingface.co/spaces/xdecoder/SEEM

この研究では、包括的な実験を通じて SEEM の有効性を検証しました。さまざまなセグメンテーションタスクに取り組みます。 SEEM にはユーザーの意図を理解する機能はありませんが、統一された表現空間でさまざまなタイプのプロンプトを作成することを学習するため、強力な一般化機能を示します。さらに、SEEM は軽量のプロンプトデコーダを通じて複数ラウンドのインタラクションを効率的に処理できます。

まずセグメンテーション効果を見てみましょう。グループ写真のトランスフォーマーセグメント「オプティマスプライム」:

風景写真のセグメント化など、オブジェクトの種類をセグメント化することもできます。 :

SEEM では、ビデオ内の移動オブジェクトを簡単にセグメント化することもできます:

このセグメンテーション効果は非常にスムーズであると言えます。この研究で提案されたアプローチを見てみましょう。

方法の概要

この研究は、マルチモーダルプロンプトを利用した画像セグメンテーションのための一般的なインターフェイスを提案することを目的としています。この目標を達成するために、彼らは、汎用性、構成性、対話性、意味論的認識を含む 4 つの属性を含む新しいスキームを提案しました。ポイント、マスク、テキスト、検出ボックス（ボックス）、さらには別の画像の参照領域（参照領域）など、同じ共同視覚的意味空間内のプロンプトにエンコードされます。

2) 構成性は、視覚的プロンプトとテキストプロンプトの共同視覚的意味空間を学習することにより、推論のためにオンザフライでクエリを作成します。 SEEM は、入力プロンプトの任意の組み合わせを処理できます。

3) インタラクティブ性: この研究では、学習可能な記憶プロンプトとマスクによって誘導される相互注意を組み合わせることにより、会話履歴情報の保持が導入されています。

4) セマンティック認識: テキストエンコーダーを使用してテキストクエリをエンコードし、ラベルをマスクすることで、すべての出力セグメンテーション結果に対してオープンセットセマンティクスを提供します。

# アーキテクチャ的には、SEEM は単純な Transformer エンコーダ/デコーダアーキテクチャに従い、追加のテキストエンコードデバイスを追加します。 SEEM では、デコードプロセスは生成 LLM と似ていますが、マルチモーダル入力とマルチモーダル出力を使用します。すべてのクエリはプロンプトとしてデコーダにフィードバックされ、画像およびテキストエンコーダは、あらゆる種類のクエリをエンコードするためのプロンプトエンコーダとして使用されます。

具体的には、この研究では、すべてのクエリ (ポイント、ボックス、マスクなど) を視覚的なプロンプトにエンコードします。テキストエンコーダは、テキストクエリをテキストプロンプトに変換し、ビジュアルプロンプトとテキストプロンプトの位置を合わせたままにします。 5 つの異なるタイプのプロンプトはすべて共同視覚的意味空間にマッピングでき、目に見えないユーザープロンプトはゼロショット適応を通じて処理できます。さまざまなセグメンテーションタスクでトレーニングすることにより、モデルはさまざまなプロンプトを処理できるようになります。さらに、異なるタイプのプロンプトは相互注意を助け合うことができます。最終的に、SEEM モデルはさまざまなプロンプトを使用して、優れたセグメンテーション結果を達成できます。

SEEM は、強力な汎化機能に加えて、操作も非常に効率的です。研究者らはデコーダーへの入力としてプロンプトを使用したため、SEEM は人間との複数回の対話を通じて特徴抽出機能を最初に 1 回実行するだけで済みました。反復ごとに、新しいプロンプトを使用して軽量デコーダーを再度実行するだけです。したがって、モデルをデプロイするときに、多数のパラメーターと重いランタイム負荷を伴う特徴抽出器をサーバー上で実行し、比較的軽量のデコーダーのみをユーザーのマシン上で実行して、複数のリモート呼び出しにおけるネットワーク遅延の問題を軽減します。

上記の図 3(b) に示すように、複数ラウンドのインタラクションでは、各インタラクションに手動ループとモデルループが含まれています。人工ループでは、人間は前の反復のマスク出力を受け取り、視覚的なプロンプトを通じて次のデコードラウンドに向けて正または負のフィードバックを与えます。モデルのループ中に、モデルは将来の予測のためのメモリプロンプトを受信して更新します。

実験結果

この研究では、SEEM モデルと SOTA インタラクティブセグメンテーションモデルを実験的に比較しました。結果を以下の表 1 に示します。

#一般的なモデルとして、SEEM は RITM、SimpleClick などのモデルと同等のパフォーマンスを実現し、 SAM は非常に近いですが、SAM はトレーニングに SEEM の 50 倍のセグメント化されたデータを使用します。

既存のインタラクティブモデルとは異なり、SEEM は、従来のセグメンテーションタスクだけでなく、テキスト、ポイント、落書き、フレーム、画像などのさまざまなユーザー入力タイプもサポートする初のユニバーサルインターフェイスであり、強力な機能を提供します。組み合わせ能力。以下の表 2 に示すように、組み合わせ可能なプロンプトを追加することにより、SEEM は cIoU、mIoU、およびその他の指標におけるセグメンテーションパフォーマンスを大幅に向上させました。

インタラクティブな画像セグメンテーションの視覚的な結果を見てみましょう。ユーザーは点を描くか、単に落書きするだけで、SEEM は非常に優れたセグメンテーション結果を提供できます。

次のように入力することもできます。テキスト、SEEM に画像セグメンテーションを実行させます

参照画像を直接入力して参照領域を指定し、他の画像をセグメント化し、参照領域と一致するオブジェクトを検索することもできます。

#このプロジェクトはオンラインで試用できるようになりました。興味のある読者は、ぜひ試してみてください。中国のチームによって作成されたユニバーサルセグメンテーションモデルである SEEM は、ワンタイムセグメンテーションを新たなレベルに引き上げます

以上が中国のチームによって作成されたユニバーサルセグメンテーションモデルである SEEM は、ワンタイムセグメンテーションを新たなレベルに引き上げますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

AIのスキルギャップは、サプライチェーンのダウンを遅くしていますApr 26, 2025 am 11:13 AM

「AI-Ready労働力」という用語は頻繁に使用されますが、サプライチェーン業界ではどういう意味ですか？サプライチェーン管理協会（ASCM）のCEOであるAbe Eshkenaziによると、批評家ができる専門家を意味します

1つの会社がAIを永遠に変えるために静かに取り組んでいる方法Apr 26, 2025 am 11:12 AM

分散型AI革命は静かに勢いを増しています。今週の金曜日、テキサス州オースティンでは、ビテンサーのエンドゲームサミットは極めて重要な瞬間を示し、理論から実用的な応用に分散したAI（DEAI）を移行します。派手なコマーシャルとは異なり

Nvidiaは、AIエージェント開発を合理化するためにNEMOマイクロサービスをリリースしますApr 26, 2025 am 11:11 AM

エンタープライズAIはデータ統合の課題に直面していますエンタープライズAIの適用は、ビジネスデータを継続的に学習することで正確性と実用性を維持できるシステムを構築する大きな課題に直面しています。 NEMOマイクロサービスは、NVIDIAが「データフライホイール」と呼んでいるものを作成することにより、この問題を解決し、AIシステムがエンタープライズ情報とユーザーインタラクションへの継続的な露出を通じて関連性を維持できるようにします。この新しく発売されたツールキットには、5つの重要なマイクロサービスが含まれています。 NEMOカスタマイザーは、より高いトレーニングスループットを備えた大規模な言語モデルの微調整を処理します。 NEMO評価者は、カスタムベンチマークのAIモデルの簡素化された評価を提供します。 Nemo Guardrailsは、コンプライアンスと適切性を維持するためにセキュリティ管理を実装しています

aiは芸術とデザインの未来のために新しい絵を描きますApr 26, 2025 am 11:10 AM

AI：芸術とデザインの未来人工知能（AI）は、前例のない方法で芸術とデザインの分野を変えており、その影響はもはやアマチュアに限定されませんが、より深く影響を与えています。 AIによって生成されたアートワークとデザインスキームは、広告、ソーシャルメディアの画像生成、Webデザインなど、多くのトランザクションデザインアクティビティで従来の素材画像とデザイナーに迅速に置き換えられています。ただし、プロのアーティストやデザイナーもAIの実用的な価値を見つけています。 AIを補助ツールとして使用して、新しい美的可能性を探求し、さまざまなスタイルをブレンドし、新しい視覚効果を作成します。 AIは、アーティストやデザイナーが繰り返しタスクを自動化し、さまざまなデザイン要素を提案し、創造的な入力を提供するのを支援します。 AIはスタイル転送をサポートします。これは、画像のスタイルを適用することです

エージェントAIとのズームがどのように革命を起こしているか：会議からマイルストーンまでApr 26, 2025 am 11:09 AM

最初はビデオ会議プラットフォームで知られていたZoomは、エージェントAIの革新的な使用で職場革命をリードしています。 ZoomのCTOであるXD Huangとの最近の会話は、同社の野心的なビジョンを明らかにしました。エージェントAIの定義 huang d

大学に対する実存的な脅威Apr 26, 2025 am 11:08 AM

AIは教育に革命をもたらしますか？この質問は、教育者と利害関係者の間で深刻な反省を促しています。 AIの教育への統合は、機会と課題の両方をもたらします。 Tech Edvocate NotesのMatthew Lynch、Universitとして

プロトタイプ：アメリカの科学者は海外の仕事を探していますApr 26, 2025 am 11:07 AM

米国における科学的研究と技術の開発は、おそらく予算削減のために課題に直面する可能性があります。 Natureによると、海外の雇用を申請するアメリカの科学者の数は、2024年の同じ期間と比較して、2025年1月から3月まで32％増加しました。以前の世論調査では、調査した研究者の75％がヨーロッパとカナダでの仕事の検索を検討していることが示されました。 NIHとNSFの助成金は過去数か月で終了し、NIHの新しい助成金は今年約23億ドル減少し、3分の1近く減少しました。リークされた予算の提案は、トランプ政権が科学機関の予算を急激に削減していることを検討しており、最大50％の削減の可能性があることを示しています。基礎研究の分野での混乱は、米国の主要な利点の1つである海外の才能を引き付けることにも影響を与えています。 35

Openaiは、強力なGPT-4.1シリーズを発表しました。実際のアプリケーション向けに設計された3つの高度な言語モデルのファミリー。この大幅な飛躍は、より速い応答時間、理解の強化、およびTと比較した大幅に削減されたコストを提供します

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。