ワンクリックで写真を切り取ることができます。 Meta が史上初の基本的な画像セグメンテーションモデルをリリースし、CV の新しいパラダイムを創出

ワンクリックで写真を切り取ることができます。 Meta が史上初の基本的な画像セグメンテーションモデルをリリースし、CV の新しいパラダイムを創出

王林

Apr 07, 2023 pm 03:00 PM

ai切り取る

たった今、Meta AI は、画像セグメンテーションの最初の基本モデルであるセグメントエニシングモデル (SAM) をリリースしました。

SAM は、写真やビデオから任意のオブジェクトをワンクリックでセグメンテーションすることができ、サンプルを使用せずに他のタスクに移行できます。

全体的に、SAM は基本モデル

1 の考え方に従います。テキスト、キーポイント、バウンディングボックスなどのマルチモーダルキューを処理できる、非常にシンプルでありながらスケーラブルなアーキテクチャ。

2. モデル設計と密接に関係する、直感的な注釈プロセス。

3. モデルを多数のラベルのない画像にブートストラップできるようにするデータフライホイール。

そして、SAM は、未知の物体、見慣れないシーン (水中や顕微鏡下など)、ぼやけたものであっても、「オブジェクト」の一般的な概念を学習したと言っても過言ではありません。この場合も同様です。

さらに、SAM は新しいタスクや新しい分野に一般化することもでき、実践者自身がモデルを微調整する必要はなくなりました。

#論文アドレス: https://ai.facebook.com/research/publications/segment-anything/

#最も強力なのは、Meta がまったく異なる CV パラダイムを実装していることです。統合フレームワークプロンプトエンコーダーで点、境界ボックス、文を指定して、ワンクリックでオブジェクトを直接セグメント化できます。

これに関して、Tencent AI アルゴリズムの専門家である Jin Tian 氏は、「NLP 分野のプロンプトパラダイムが CV 分野にも広がり始めています。今度は、従来の概念を完全に変える可能性があります」と述べています。 CV の予測思考。これで、モデルを実際に使用してあらゆるオブジェクトをセグメント化できるようになり、動的になります!」

NVIDIA AI 科学者のジムファンもこれを賞賛しました: 私たちはすでにここにいますコンピュータービジョンの分野における「GPT-3の瞬間」！

では、CV は本当にもう存在しないのでしょうか?

SAM: ワンクリックで画像内のすべてのオブジェクトを「切り取る」

Segment Anything は、画像のセグメンテーション専用の最初の基本モデルです。

セグメンテーションとは、どの画像ピクセルがオブジェクトに属しているかを識別することを指し、常にコンピュータービジョンの中核的なタスクです。

ただし、特定のタスクに対して正確なセグメンテーションモデルを作成するには、通常、専門家による高度に専門化された作業が必要です。このプロセスには、AI をトレーニングするためのインフラストラクチャと多数の慎重に注釈が付けられたドメインデータであるため、しきい値は非常に高くなります。

この問題を解決するために、Meta は画像セグメンテーションの基本モデルである SAM を提案しました。このヒント可能なモデルは、多様なデータでトレーニングされ、さまざまなタスクに適応できるだけでなく、NLP モデルでヒントが使用される方法と同様に動作します。

SAM モデルは、「オブジェクトとは何か」という概念を理解しており、トレーニング中に表示されなかったオブジェクトも含め、あらゆる画像やビデオ内のあらゆるオブジェクトのマスクを生成できます。

SAM は非常に多用途であるため、さまざまなユースケースをカバーしており、水中写真や細胞顕微鏡など、追加のトレーニングなしですぐに新しいイメージング領域で使用できます。言い換えれば、SAM にはゼロサンプル移行の機能がすでに備わっています。

Meta 氏はブログで興奮気味に次のように述べています。将来的には、画像内のオブジェクトを検索してセグメント化する必要があるあらゆるアプリケーションで SAM が使用されることが予想されます。

SAM は、より大規模な AI システムの一部となり、Web ページのビジュアルおよびテキストコンテンツの理解など、世界のより一般的なマルチモーダルな理解を開発することができます。

AR/VR の分野では、SAM はユーザーの視線に基づいてオブジェクトを選択し、そのオブジェクトを 3D に「アップグレード」できます。

コンテンツ作成者は、SAM を使用してコラージュやビデオ編集用に画像領域を抽出できます。

SAM は、ビデオ内の動物や物体の位置を特定して追跡することもできるため、自然科学や天文学の研究に役立ちます。

#一般的なセグメンテーション方法

これまで、セグメンテーションの問題を解決するには 2 つの方法がありました。

1 つはインタラクティブセグメンテーションです。これは、あらゆるカテゴリのオブジェクトをセグメント化できますが、人が繰り返しマスクを微調整する必要があります。

2 つ目は自動セグメンテーションです。これは、事前に定義された特定のオブジェクトをセグメント化できますが、トレーニングプロセスでは、手動でラベル付けされた多数のオブジェクトが必要です (たとえば、猫をセグメント化するには、数千個のオブジェクトが必要です)。例）。

つまり、これら 2 つの方法はいずれも、汎用の完全自動セグメンテーション方法を提供することはできません。

SAM は、これら 2 つの方法を一般化したものとみなすことができ、対話型セグメンテーションと自動セグメンテーションを簡単に実行できます。

モデルのプロンプト表示可能なインターフェイスでは、モデルに適切なプロンプト (クリック、ボックス、テキストなど) を設計するだけで、幅広いセグメンテーションタスクを完了できます。

さらに、SAM は 10 億を超えるマスクを含む多様で高品質なデータセットでトレーニングされているため、モデルをその機能を超えて新しいオブジェクトや画像に一般化することができます。。その結果、実務者はユースケースに合わせてモデルを微調整するために独自のセグメンテーションデータを収集する必要がなくなりました。

新しいタスクや新しい分野に一般化できるこの種の柔軟性は、画像セグメンテーションの分野では初めてです。

(1) SAM を使用すると、ユーザーはワンクリックでオブジェクトをセグメント化するか、多くの点を対話的にクリックすることができ、モデルの境界ボックスのヒントも使用できます。

(2) セグメント化されたオブジェクトの曖昧さに直面した場合、SAM は複数の有効なマスクを出力できます。これは、現実世界でのセグメント化の問題を解決するために不可欠な機能です。

(3) SAM は、画像内のすべてのオブジェクトを自動的に検出してブロックできます。 (4) 画像埋め込みを事前計算した後、SAM は任意のプロンプトに対してセグメンテーションマスクをリアルタイムで生成できるため、ユーザーはリアルタイムでモデルを操作できます。

仕組み

研究者によって訓練された SAM は、あらゆるプロンプトに対して有効なセグメンテーションマスクを返すことができます。キューには、前景/背景ポイント、大まかなボックスまたはマスク、自由形式のテキスト、または一般に画像内でセグメンテーションが必要であることを示す任意の情報を使用できます。

効果的なマスキングの要件は、プロンプトがあいまいで複数のオブジェクトを参照している場合でも (たとえば、シャツ上の点がシャツまたは人のいずれかを表している可能性がある) ということを意味します。シャツを着ている ) 場合、出力はいずれかのオブジェクトの適切なマスクになるはずです。

#研究者らは、事前トレーニングタスクとインタラクティブなデータ収集がモデル設計に特定の制約を課すことを観察しました。。

特に、標準スタッフが注釈を付けるためにリアルタイムで SAM と効率的に対話できるように、モデルは Web ブラウザの CPU 上でリアルタイムで実行する必要があります。

実行時間の制約は、品質と実行時間の間にトレードオフがあることを意味しますが、研究者らは、実際には単純な設計でも良好な結果が得られることを発見しました。

SAM の画像エンコーダは画像の 1 回限りの埋め込みを生成しますが、軽量デコーダはあらゆるヒントをオンザフライでベクトル埋め込みに変換します。これら 2 つの情報源は、セグメンテーションマスクを予測する軽量デコーダーで結合されます。

画像の埋め込みを計算した後、SAM はわずか 50 ミリ秒で画像のセグメントを生成し、Web ブラウザーにプロンプトを表示します。

最新の SAM モデルは、256 枚の A100 画像で 68 時間 (ほぼ 5 日) にわたってトレーニングされました。

プロジェクトのデモ

複数の入力プロンプト

画像内で分割するコンテンツを指定するためのプロンプト、追加のトレーニングなしで、さまざまなセグメンテーションタスクを実装できます。

インタラクションポイントとボックスをプロンプトとして使用する

画像内のすべての要素を自動的にセグメント化します

##曖昧なプロンプトに対して複数の有効なマスクを生成

プロンプト可能なデザイン

SAM は入力プロンプトを受け入れることができます他のシステムから。

たとえば、AR/VR ヘッドセットから送信されるユーザーの視覚焦点情報に基づいて、対応するオブジェクトを選択します。 Meta による現実世界を理解できる AI の開発は、将来のメタバースの旅への道を切り開くことになります。

#あるいは、オブジェクト検出器からの境界ボックスのヒントを使用して、テキストからオブジェクトへのセグメンテーションを実装します。

スケーラブルな出力

出力マスクは、他の AI システムへの入力として使用できます。

たとえば、オブジェクトのマスクをビデオ内で追跡したり、画像編集アプリケーションを通じて 3D に変換したり、コラージュなどのクリエイティブなタスクに使用したりできます。

#ゼロサンプル汎化

SAM が学習した一般オブジェクトとは何かという概念 - この理解により、追加のトレーニングを必要とせずに、なじみのないオブジェクトや画像に対するゼロショットの一般化が可能になります。

#さまざまなレビューワンクリックで写真を切り取ることができます。 Meta が史上初の基本的な画像セグメンテーションモデルをリリースし、CV の新しいパラダイムを創出

[ホバー&クリック]を選択し、[マスクの追加]をクリックすると緑色の点が表示され、[領域の削除]をクリックすると赤い点が表示されます。リンゴを食べるフワワはすぐに丸く囲まれました。

#Box 機能では、ボックスを選択するだけですぐに認識が完了します。

#[すべて] をクリックすると、システムによって認識されたすべてのオブジェクトがすぐに抽出されます。

カットアウトを選択すると、数秒で三角団子が完成します。

SA-1B データセット: 1,100 万枚の画像、11 億枚のマスク

リリースされた新しいモデルに加えて、Meta もリリースされましたSA-1B は、これまでで最大のセグメンテーションデータセットです。

このデータセットは、1,100 万の多様な高解像度のプライバシー保護画像と 11 億の高品質セグメンテーションマスクで構成されています。

#データセットの全体的な特徴は次のとおりです。

# · 総画像数: 1,100 万

· マスクの総数: 11 億

· 画像あたりの平均マスク数: 100

· 平均画像解像度: 1500 × 2250 ピクセル

注: 画像またはマスクの注釈にはクラスラベルがありません

メタは、これらのデータがデータエンジンを通じて収集されることを特に強調しています。、すべてのマスクはすべて SAM によって完全に自動生成されます。

SAM モデルを使用すると、新しいセグメンテーションマスクの収集がこれまでよりも速くなり、対話型でマスクに注釈を付けるのにかかる時間はわずか約 14 秒です。

マスクごとの注釈プロセスは、境界ボックスに注釈を付けるよりもわずか 2 倍遅いだけです。最速の注釈インターフェイスを使用すると、境界ボックスに注釈を付けるには約 7 秒かかります。

以前の大規模なセグメンテーションデータ収集の取り組みと比較して、SAM モデル COCO の完全に手動のポリゴンベースのマスクアノテーションは、以前の最大規模のデータアノテーションの取り組み (モデル補助も) 2 よりも 6.5 倍高速です。倍速くなります。

ただし、インタラクティブなアノテーションマスクに依存するだけでは、10 億を超えるマスクされたデータセットを作成するには不十分です。そこで、Meta は SA-1B データセットを作成するためのデータエンジンを構築しました。

このデータエンジンには 3 つの「歯車」があります:

1. モデル補助アノテーション

2. 全自動アノテーションと補助アノテーションを組み合わせることで、収集されたマスクの多様性を高めることができます

#3. 全自動マスク作成により、データセットの拡張が可能になります

最終的なデータセットには、約 1,100 万枚の許可されたプライバシー保護画像から収集された 11 億を超えるセグメンテーションマスクが含まれています。

SA-1B には、既存のセグメンテーションデータセットの 400 倍のマスクがあります。また、人による評価研究により、マスクは高品質で多様性があり、場合によっては、完全に手動で注釈が付けられた小規模なデータセットの以前のマスクと定性的に同等であることが確認されています。

ワンクリックで写真を切り取ることができます。 Meta が史上初の基本的な画像セグメンテーションモデルをリリースし、CV の新しいパラダイムを創出 SA-1B の写真は複数の国の写真提供者を通じて入手しました。これらの国は地理的に異なる地域にまたがっています。そして収入水準。

一部の地理的領域は依然として過小評価されていますが、SA-1B には以前のセグメンテーションデータセットよりも多くの画像があり、すべての地域にわたって全体的な表現が向上しています。

最後に、メタ社は、このデータが各マスクに関連付けられたテキストの説明などの追加の注釈を含む新しいデータセットの基礎を形成できることを期待していると述べています。

RBG マスターがチームを率いる

ロス・ガーシック

##Ross Girshick (RBG の第一人者と呼ばれることが多い) は、Facebook 人工知能研究所 (FAIR) の研究員であり、コンピュータービジョンと機械学習の研究に取り組んでいます。

2012 年、Ross Girshick は、Pedro Felzenszwalb の監督の下、シカゴ大学からコンピュータサイエンスの博士号を取得しました。

FAIR に入社する前、ロスは Microsoft Research の研究者であり、カリフォルニア大学バークレー校の博士研究員でした。そこでの指導者は Jitendra Malik と Trevor Darrell でした。

オープンソースソフトウェアへの貢献が認められ、2017 年 PAMI 若手研究者賞、2017 年および 2021 年 PAMI マーク・エバリンガム賞を受賞しました。

ご存知のとおり、Ross と He Kaiming は R-CNN 法のターゲット検出アルゴリズムを共同開発しました。 2017 年、Ross と He Kaiming による Mask R-CNN 論文が ICCV 2017 で最優秀論文を受賞しました。

ネチズン: CV は実際にはもう存在しません

Meta が CV 分野でこのセグメンテーション基本モデルを作成したため、多くのネチズンがこう叫びました。「存在しない。存在する。」

メタサイエンティストのジャスティン・ジョンソン氏は次のように述べています。「私にとって、Segment Anything のデータエンジンと ChatGPT の RLHF は、最大の新しいデータエンジンを表します。人工知能の時代です。ノイズの多いネットワークデータからすべてを学習するのではなく、人間による注釈をビッグデータと組み合わせて巧みに適用して、新しい機能を解放する方が良いでしょう。教師あり学習が帰ってきました!」

#唯一の残念な点は、SAM モデルのリリースが主にロスガーシック氏によって主導されたのに、何ユーミン氏が欠席したことです。

親しい友人「matrix Mingzi」は、この記事はマルチモダリティがCVであることをさらに証明していると述べました。純粋な履歴書の場合。

以上がワンクリックで写真を切り取ることができます。 Meta が史上初の基本的な画像セグメンテーションモデルをリリースし、CV の新しいパラダイムを創出の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

ChatGPTが使えない！原因とすぐ試せる対処法を解説【2025年最新】May 14, 2025 am 05:04 AM

ChatGptはアクセスできませんか？この記事では、さまざまな実用的なソリューションを提供しています！多くのユーザーは、ChatGPTを毎日使用する場合、アクセス不能や応答が遅いなどの問題に遭遇する可能性があります。この記事では、さまざまな状況に基づいてこれらの問題を段階的に解決するように導きます。 ChatGPTのアクセス不能性と予備的なトラブルシューティングの原因まず、問題がOpenaiサーバー側にあるのか、ユーザー自身のネットワークまたはデバイスの問題にあるのかを判断する必要があります。以下の手順に従って、トラブルシューティングしてください。ステップ1：OpenAIの公式ステータスを確認してください OpenAIステータスページ（status.openai.com）にアクセスして、ChatGPTサービスが正常に実行されているかどうかを確認してください。赤または黄色のアラームが表示されている場合、それは開くことを意味します

ASIのリスクを計算することは、人間の心から始まりますMay 14, 2025 am 05:02 AM

2025年5月10日、MIT物理学者のMax Tegmarkは、AI Labsが人工的なスーパーインテリジェンスを解放する前にOppenheimerの三位一体計算をエミュレートすべきだとGuardianに語った。「私の評価では、「コンプトン定数」、競争が

ChatGPTで作詞・作曲する方法とおすすめツールをわかりやすく解説May 14, 2025 am 05:01 AM

AI Music Creation Technologyは、1日ごとに変化しています。この記事では、ChatGPTなどのAIモデルを例として使用して、AIを使用して音楽の作成を支援し、実際のケースで説明する方法を詳細に説明します。 Sunoai、Hugging Face、PythonのMusic21 Libraryを通じて音楽を作成する方法を紹介します。これらのテクノロジーを使用すると、誰もがオリジナルの音楽を簡単に作成できます。ただし、AIに生成されたコンテンツの著作権問題は無視できないことに注意する必要があります。使用する際には注意する必要があります。音楽分野でのAIの無限の可能性を一緒に探りましょう！ Openaiの最新のAIエージェント「Openai Deep Research」が紹介します。 [chatgpt] ope

ChatGPT-4とは？できることや料金、GPT-3.5との違いを徹底解説！May 14, 2025 am 05:00 AM

ChATGPT-4の出現により、AIアプリケーションの可能性が大幅に拡大しました。 GPT-3.5と比較して、CHATGPT-4は大幅に改善されました。強力なコンテキスト理解能力を備えており、画像を認識して生成することもできます。普遍的なAIアシスタントです。それは、ビジネス効率の改善や創造の支援など、多くの分野で大きな可能性を示しています。ただし、同時に、その使用における予防策にも注意を払わなければなりません。この記事では、ChATGPT-4の特性を詳細に説明し、さまざまなシナリオの効果的な使用方法を紹介します。この記事には、最新のAIテクノロジーを最大限に活用するためのスキルが含まれています。参照してください。 Openaiの最新のAIエージェント、「Openai Deep Research」の詳細については、以下のリンクをクリックしてください

ChatGPTのアプリの使い方を解説！日本語対応で音声会話機能もMay 14, 2025 am 04:59 AM

ChatGPTアプリ：AIアシスタントで創造性を解き放つ！初心者向けガイド ChatGPTアプリは、文章作成、翻訳、質問応答など、多様なタスクに対応する革新的なAIアシスタントです。創作活動や情報収集にも役立つ、無限の可能性を秘めたツールです。この記事では、ChatGPTスマホアプリのインストール方法から、音声入力機能やプラグインといったアプリならではの機能、そしてアプリ利用上の注意点まで、初心者にも分かりやすく解説します。プラグインの制限やデバイス間の設定同期についてもしっかりと触れていきま

ChatGPTの中文版の利用方法は？登録手順や料金について解説May 14, 2025 am 04:56 AM

Chatgpt中国語版：中国語のAIの対話の新しい体験のロックを解除する ChatGptは世界中で人気がありますが、中国語版も提供していることをご存知ですか？この強力なAIツールは、毎日の会話をサポートするだけでなく、プロのコンテンツを処理し、簡素化された伝統的な中国語と互換性があります。中国のユーザーであろうと、中国語を学んでいる友人であろうと、あなたはそれから利益を得ることができます。この記事では、アカウント設定、中国語の迅速な単語入力、フィルターの使用、さまざまなパッケージの選択を含むChatGpt中国語のバージョンの使用方法を詳細に紹介し、潜在的なリスクと対応戦略を分析します。さらに、ChatGpt中国語版を他の中国のAIツールと比較して、その利点とアプリケーションシナリオをよりよく理解するのに役立ちます。 Openaiの最新のAIインテリジェンス

5 AIエージェントの神話あなたは今信じるのをやめる必要がありますMay 14, 2025 am 04:54 AM

これらは、生成AIの分野で次の飛躍と考えることができ、ChatGptやその他の大規模なモデルのチャットボットを提供しました。単に質問に答えたり情報を生成したりするのではなく、彼らは私たちに代わって行動を起こすことができます。

ChatGPTで複数アカウントを作成・管理する不法をわかりやすく解説May 14, 2025 am 04:50 AM

ChatGPTを活用した効率的な複数アカウント管理術｜ビジネスとプライベートの使い分けも徹底解説！様々な場面で活用されているChatGPTですが、複数アカウントの管理に頭を悩ませている方もいるのではないでしょうか。この記事では、ChatGPTの複数アカウント作成方法、利用上の注意点、そして安全かつ効率的な運用方法を詳しく解説します。ビジネス利用とプライベート利用の使い分け、OpenAIの利用規約遵守といった重要な点にも触れ、複数アカウントを安全に活用するためのガイドを提供します。 OpenAI

See all articles