中国のチームによって作成されたユニバーサル セグメンテーション モデルである SEEM は、ワンタイム セグメンテーションを新たなレベルに引き上げます
今月初め、Meta は「Segment Anything」AI モデル、つまり Segment Anything Model (SAM) をリリースしました。 SAM は画像セグメンテーションの普遍的な基本モデルと考えられており、オブジェクトに関する一般的な概念を学習し、トレーニング プロセス中に遭遇しなかったオブジェクトや画像タイプを含む、あらゆる画像またはビデオ内のあらゆるオブジェクトのマスクを生成できます。この「ゼロサンプルマイグレーション」機能は驚くべきもので、CV分野に「GPT-3の瞬間」が到来したとさえ言う人もいる。
最近、「Segment Everything Everywhere All at Once」という新しい論文が再び注目を集めています。この論文では、ウィスコンシン大学マディソン校、マイクロソフト、香港科技大学の数名の中国人研究者が、新しいプロンプトベースの対話モデル SEEM を提案しました。 SEEM は、画像またはビデオ内のすべてのコンテンツを一度にセグメント化し、ユーザーによって与えられたさまざまなモーダル入力 (テキスト、画像、落書きなど) に基づいてオブジェクト カテゴリを識別できます。このプロジェクトはオープンソース化されており、誰もが体験できるトライアルアドレスが提供されています。
# 論文リンク: https://arxiv.org/pdf/2304.06718.pdf
# プロジェクトリンク: https://github.com/UX-Decoder/Segment-Everything-Everywhere-All-At-Once
#トライアルアドレス: https://huggingface.co/spaces/xdecoder/SEEM
この研究では、包括的な実験を通じて SEEM の有効性を検証しました。さまざまなセグメンテーションタスクに取り組みます。 SEEM にはユーザーの意図を理解する機能はありませんが、統一された表現空間でさまざまなタイプのプロンプトを作成することを学習するため、強力な一般化機能を示します。さらに、SEEM は軽量のプロンプト デコーダを通じて複数ラウンドのインタラクションを効率的に処理できます。
風景写真のセグメント化など、オブジェクトの種類をセグメント化することもできます。 :
SEEM では、ビデオ内の移動オブジェクトを簡単にセグメント化することもできます:
このセグメンテーション効果は非常にスムーズであると言えます。この研究で提案されたアプローチを見てみましょう。
この研究は、マルチモーダル プロンプトを利用した画像セグメンテーションのための一般的なインターフェイスを提案することを目的としています。この目標を達成するために、彼らは、汎用性、構成性、対話性、意味論的認識を含む 4 つの属性を含む新しいスキームを提案しました。ポイント、マスク、テキスト、検出ボックス(ボックス)、さらには別の画像の参照領域(参照領域)など、同じ共同視覚的意味空間内のプロンプトにエンコードされます。
2) 構成性は、視覚的プロンプトとテキスト プロンプトの共同視覚的意味空間を学習することにより、推論のためにオンザフライでクエリを作成します。 SEEM は、入力プロンプトの任意の組み合わせを処理できます。3) インタラクティブ性: この研究では、学習可能な記憶プロンプトとマスクによって誘導される相互注意を組み合わせることにより、会話履歴情報の保持が導入されています。
4) セマンティック認識: テキスト エンコーダーを使用してテキスト クエリをエンコードし、ラベルをマスクすることで、すべての出力セグメンテーション結果に対してオープンセット セマンティクスを提供します。
# アーキテクチャ的には、SEEM は単純な Transformer エンコーダ/デコーダ アーキテクチャに従い、追加のテキスト エンコード デバイスを追加します。 SEEM では、デコード プロセスは生成 LLM と似ていますが、マルチモーダル入力とマルチモーダル出力を使用します。すべてのクエリはプロンプトとしてデコーダにフィードバックされ、画像およびテキスト エンコーダは、あらゆる種類のクエリをエンコードするためのプロンプト エンコーダとして使用されます。
具体的には、この研究では、すべてのクエリ (ポイント、ボックス、マスクなど) を視覚的なプロンプトにエンコードします。テキスト エンコーダは、テキスト クエリをテキスト プロンプトに変換し、ビジュアル プロンプトとテキスト プロンプトの位置を合わせたままにします。 5 つの異なるタイプのプロンプトはすべて共同視覚的意味空間にマッピングでき、目に見えないユーザー プロンプトはゼロショット適応を通じて処理できます。さまざまなセグメンテーション タスクでトレーニングすることにより、モデルはさまざまなプロンプトを処理できるようになります。さらに、異なるタイプのプロンプトは相互注意を助け合うことができます。最終的に、SEEM モデルはさまざまなプロンプトを使用して、優れたセグメンテーション結果を達成できます。
SEEM は、強力な汎化機能に加えて、操作も非常に効率的です。研究者らはデコーダーへの入力としてプロンプトを使用したため、SEEM は人間との複数回の対話を通じて特徴抽出機能を最初に 1 回実行するだけで済みました。反復ごとに、新しいプロンプトを使用して軽量デコーダーを再度実行するだけです。したがって、モデルをデプロイするときに、多数のパラメーターと重いランタイム負荷を伴う特徴抽出器をサーバー上で実行し、比較的軽量のデコーダーのみをユーザーのマシン上で実行して、複数のリモート呼び出しにおけるネットワーク遅延の問題を軽減します。
上記の図 3(b) に示すように、複数ラウンドのインタラクションでは、各インタラクションに手動ループとモデル ループが含まれています。人工ループでは、人間は前の反復のマスク出力を受け取り、視覚的なプロンプトを通じて次のデコード ラウンドに向けて正または負のフィードバックを与えます。モデルのループ中に、モデルは将来の予測のためのメモリ プロンプトを受信して更新します。
実験結果この研究では、SEEM モデルと SOTA インタラクティブ セグメンテーション モデルを実験的に比較しました。結果を以下の表 1 に示します。
既存のインタラクティブ モデルとは異なり、SEEM は、従来のセグメンテーション タスクだけでなく、テキスト、ポイント、落書き、フレーム、画像などのさまざまなユーザー入力タイプもサポートする初のユニバーサル インターフェイスであり、強力な機能を提供します。組み合わせ能力。以下の表 2 に示すように、組み合わせ可能なプロンプトを追加することにより、SEEM は cIoU、mIoU、およびその他の指標におけるセグメンテーション パフォーマンスを大幅に向上させました。
参照画像を直接入力して参照領域を指定し、他の画像をセグメント化し、参照領域と一致するオブジェクトを検索することもできます。
#このプロジェクトはオンラインで試用できるようになりました。興味のある読者は、ぜひ試してみてください。
以上が中国のチームによって作成されたユニバーサル セグメンテーション モデルである SEEM は、ワンタイム セグメンテーションを新たなレベルに引き上げますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

私のコラムに新しいかもしれない人のために、具体化されたAI、AI推論、AIのハイテクブレークスルー、AIの迅速なエンジニアリング、AIのトレーニング、AIのフィールディングなどのトピックなど、全面的なAIの最新の進歩を広く探求します。

ヨーロッパの野心的なAI大陸行動計画は、人工知能のグローバルリーダーとしてEUを確立することを目指しています。 重要な要素は、AI GigaFactoriesのネットワークの作成であり、それぞれが約100,000の高度なAIチップを収容しています。

AIエージェントアプリケーションに対するMicrosoftの統一アプローチ:企業の明確な勝利 新しいAIエージェント機能に関するマイクロソフトの最近の発表は、その明確で統一されたプレゼンテーションに感銘を受けました。 TEで行き詰まった多くのハイテクアナウンスとは異なり

Shopify CEOのTobiLütkeの最近のメモは、AIの能力がすべての従業員にとって基本的な期待であると大胆に宣言し、会社内の重大な文化的変化を示しています。 これはつかの間の傾向ではありません。これは、pに統合された新しい運用パラダイムです

IBMのZ17メインフレーム:AIを強化した事業運営の統合 先月、IBMのニューヨーク本社で、Z17の機能のプレビューを受け取りました。 Z16の成功に基づいて構築(2022年に開始され、持続的な収益の成長の実証

揺るぎない自信のロックを解除し、外部検証の必要性を排除します! これらの5つのCHATGPTプロンプトは、完全な自立と自己認識の変革的な変化に向けて導きます。 ブラケットをコピー、貼り付け、カスタマイズするだけです

人工知能のセキュリティおよび研究会社であるAnthropicによる最近の[研究]は、これらの複雑なプロセスについての真実を明らかにし始め、私たち自身の認知領域に不穏に似た複雑さを示しています。自然知能と人工知能は、私たちが思っているよりも似ているかもしれません。 内部スヌーピング:人類の解釈可能性研究 人類によって行われた研究からの新しい発見は、AIの内部コンピューティングをリバースエンジニアリングすることを目的とする機械的解釈可能性の分野の大きな進歩を表しています。AIが何をするかを観察するだけでなく、人工ニューロンレベルでそれがどのように行うかを理解します。 誰かが特定のオブジェクトを見たり、特定のアイデアについて考えたりしたときに、どのニューロンが発射するかを描くことによって脳を理解しようとすることを想像してください。 a

Qualcomm's DragonWing:企業とインフラストラクチャへの戦略的な飛躍 Qualcommは、新しいDragonwingブランドで世界的に企業やインフラ市場をターゲットにして、モバイルを超えてリーチを積極的に拡大しています。 これは単なるレブランではありません


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

AtomエディタMac版ダウンロード
最も人気のあるオープンソースエディター

SAP NetWeaver Server Adapter for Eclipse
Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

VSCode Windows 64 ビットのダウンロード
Microsoft によって発売された無料で強力な IDE エディター

ZendStudio 13.5.1 Mac
強力な PHP 統合開発環境

ホットトピック



