ワンクリックで写真を切り取ることができます。 Meta が史上初の基本的な画像セグメンテーション モデルをリリースし、CV の新しいパラダイムを創出
たった今、Meta AI は、画像セグメンテーションの最初の基本モデルであるセグメント エニシング モデル (SAM) をリリースしました。
SAM は、写真やビデオから任意のオブジェクトをワンクリックでセグメンテーションすることができ、サンプルを使用せずに他のタスクに移行できます。
全体的に、SAM は基本モデル
1 の考え方に従います。テキスト、キーポイント、バウンディングボックスなどのマルチモーダルキューを処理できる、非常にシンプルでありながらスケーラブルなアーキテクチャ。
2. モデル設計と密接に関係する、直感的な注釈プロセス。
3. モデルを多数のラベルのない画像にブートストラップできるようにするデータ フライホイール。
そして、SAM は、未知の物体、見慣れないシーン (水中や顕微鏡下など)、ぼやけたものであっても、「オブジェクト」の一般的な概念を学習したと言っても過言ではありません。この場合も同様です。
さらに、SAM は新しいタスクや新しい分野に一般化することもでき、実践者自身がモデルを微調整する必要はなくなりました。
#論文アドレス: https://ai.facebook.com/research/publications/segment-anything/
#最も強力なのは、Meta がまったく異なる CV パラダイムを実装していることです。統合フレームワーク プロンプト エンコーダーで点、境界ボックス、文を指定して、ワンクリックでオブジェクトを直接セグメント化できます。
これに関して、Tencent AI アルゴリズムの専門家である Jin Tian 氏は、「NLP 分野のプロンプト パラダイムが CV 分野にも広がり始めています。今度は、従来の概念を完全に変える可能性があります」と述べています。 CV の予測思考。これで、モデルを実際に使用してあらゆるオブジェクトをセグメント化できるようになり、動的になります!」
NVIDIA AI 科学者のジム ファンもこれを賞賛しました: 私たちはすでにここにいますコンピュータービジョンの分野における「GPT-3の瞬間」!
では、CV は本当にもう存在しないのでしょうか?
SAM: ワンクリックで画像内のすべてのオブジェクトを「切り取る」Segment Anything は、画像のセグメンテーション専用の最初の基本モデルです。
セグメンテーションとは、どの画像ピクセルがオブジェクトに属しているかを識別することを指し、常にコンピューター ビジョンの中核的なタスクです。
ただし、特定のタスクに対して正確なセグメンテーション モデルを作成するには、通常、専門家による高度に専門化された作業が必要です。このプロセスには、AI をトレーニングするためのインフラストラクチャと多数の慎重に注釈が付けられたドメイン データであるため、しきい値は非常に高くなります。
この問題を解決するために、Meta は画像セグメンテーションの基本モデルである SAM を提案しました。このヒント可能なモデルは、多様なデータでトレーニングされ、さまざまなタスクに適応できるだけでなく、NLP モデルでヒントが使用される方法と同様に動作します。
SAM モデルは、「オブジェクトとは何か」という概念を理解しており、トレーニング中に表示されなかったオブジェクトも含め、あらゆる画像やビデオ内のあらゆるオブジェクトのマスクを生成できます。
SAM は非常に多用途であるため、さまざまなユースケースをカバーしており、水中写真や細胞顕微鏡など、追加のトレーニングなしですぐに新しいイメージング領域で使用できます。言い換えれば、SAM にはゼロサンプル移行の機能がすでに備わっています。
Meta 氏はブログで興奮気味に次のように述べています。将来的には、画像内のオブジェクトを検索してセグメント化する必要があるあらゆるアプリケーションで SAM が使用されることが予想されます。
SAM は、より大規模な AI システムの一部となり、Web ページのビジュアルおよびテキスト コンテンツの理解など、世界のより一般的なマルチモーダルな理解を開発することができます。
AR/VR の分野では、SAM はユーザーの視線に基づいてオブジェクトを選択し、そのオブジェクトを 3D に「アップグレード」できます。
コンテンツ作成者は、SAM を使用してコラージュやビデオ編集用に画像領域を抽出できます。
SAM は、ビデオ内の動物や物体の位置を特定して追跡することもできるため、自然科学や天文学の研究に役立ちます。
#一般的なセグメンテーション方法
これまで、セグメンテーションの問題を解決するには 2 つの方法がありました。
1 つはインタラクティブ セグメンテーションです。これは、あらゆるカテゴリのオブジェクトをセグメント化できますが、人が繰り返しマスクを微調整する必要があります。
2 つ目は自動セグメンテーションです。これは、事前に定義された特定のオブジェクトをセグメント化できますが、トレーニング プロセスでは、手動でラベル付けされた多数のオブジェクトが必要です (たとえば、猫をセグメント化するには、数千個のオブジェクトが必要です)。例)。
つまり、これら 2 つの方法はいずれも、汎用の完全自動セグメンテーション方法を提供することはできません。
SAM は、これら 2 つの方法を一般化したものとみなすことができ、対話型セグメンテーションと自動セグメンテーションを簡単に実行できます。
モデルのプロンプト表示可能なインターフェイスでは、モデルに適切なプロンプト (クリック、ボックス、テキストなど) を設計するだけで、幅広いセグメンテーション タスクを完了できます。
さらに、SAM は 10 億を超えるマスクを含む多様で高品質なデータセットでトレーニングされているため、モデルをその機能を超えて新しいオブジェクトや画像に一般化することができます。 。その結果、実務者はユースケースに合わせてモデルを微調整するために独自のセグメンテーション データを収集する必要がなくなりました。
新しいタスクや新しい分野に一般化できるこの種の柔軟性は、画像セグメンテーションの分野では初めてです。
(1) SAM を使用すると、ユーザーはワンクリックでオブジェクトをセグメント化するか、多くの点を対話的にクリックすることができ、モデルの境界ボックスのヒントも使用できます。 (2) セグメント化されたオブジェクトの曖昧さに直面した場合、SAM は複数の有効なマスクを出力できます。これは、現実世界でのセグメント化の問題を解決するために不可欠な機能です。 (3) SAM は、画像内のすべてのオブジェクトを自動的に検出してブロックできます。 (4) 画像埋め込みを事前計算した後、SAM は任意のプロンプトに対してセグメンテーション マスクをリアルタイムで生成できるため、ユーザーはリアルタイムでモデルを操作できます。 仕組み研究者によって訓練された SAM は、あらゆるプロンプトに対して有効なセグメンテーション マスクを返すことができます。キューには、前景/背景ポイント、大まかなボックスまたはマスク、自由形式のテキスト、または一般に画像内でセグメンテーションが必要であることを示す任意の情報を使用できます。
効果的なマスキングの要件は、プロンプトがあいまいで複数のオブジェクトを参照している場合でも (たとえば、シャツ上の点がシャツまたは人のいずれかを表している可能性がある) ということを意味します。シャツを着ている ) 場合、出力はいずれかのオブジェクトの適切なマスクになるはずです。
特に、標準スタッフが注釈を付けるためにリアルタイムで SAM と効率的に対話できるように、モデルは Web ブラウザの CPU 上でリアルタイムで実行する必要があります。
実行時間の制約は、品質と実行時間の間にトレードオフがあることを意味しますが、研究者らは、実際には単純な設計でも良好な結果が得られることを発見しました。
SAM の画像エンコーダは画像の 1 回限りの埋め込みを生成しますが、軽量デコーダはあらゆるヒントをオンザフライでベクトル埋め込みに変換します。これら 2 つの情報源は、セグメンテーション マスクを予測する軽量デコーダーで結合されます。
画像の埋め込みを計算した後、SAM はわずか 50 ミリ秒で画像のセグメントを生成し、Web ブラウザーにプロンプトを表示します。
プロジェクトのデモ
複数の入力プロンプト
画像内で分割するコンテンツを指定するためのプロンプト、追加のトレーニングなしで、さまざまなセグメンテーション タスクを実装できます。
インタラクション ポイントとボックスをプロンプトとして使用する
画像内のすべての要素を自動的にセグメント化します
##曖昧なプロンプトに対して複数の有効なマスクを生成
プロンプト可能なデザイン
SAM は入力プロンプトを受け入れることができます他のシステムから。
たとえば、AR/VR ヘッドセットから送信されるユーザーの視覚焦点情報に基づいて、対応するオブジェクトを選択します。 Meta による現実世界を理解できる AI の開発は、将来のメタバースの旅への道を切り開くことになります。
#あるいは、オブジェクト検出器からの境界ボックスのヒントを使用して、テキストからオブジェクトへのセグメンテーションを実装します。
スケーラブルな出力
出力マスクは、他の AI システムへの入力として使用できます。
たとえば、オブジェクトのマスクをビデオ内で追跡したり、画像編集アプリケーションを通じて 3D に変換したり、コラージュなどのクリエイティブなタスクに使用したりできます。
SAM が学習した一般オブジェクトとは何かという概念 - この理解により、追加のトレーニングを必要とせずに、なじみのないオブジェクトや画像に対するゼロショットの一般化が可能になります。
#さまざまなレビュー
[ホバー&クリック]を選択し、[マスクの追加]をクリックすると緑色の点が表示され、[領域の削除]をクリックすると赤い点が表示されます。リンゴを食べるフワワはすぐに丸く囲まれました。
#Box 機能では、ボックスを選択するだけですぐに認識が完了します。
#[すべて] をクリックすると、システムによって認識されたすべてのオブジェクトがすぐに抽出されます。
カットアウトを選択すると、数秒で三角団子が完成します。
SA-1B データセット: 1,100 万枚の画像、11 億枚のマスク
リリースされた新しいモデルに加えて、Meta もリリースされましたSA-1B は、これまでで最大のセグメンテーション データセットです。
このデータセットは、1,100 万の多様な高解像度のプライバシー保護画像と 11 億の高品質セグメンテーション マスクで構成されています。
#データセットの全体的な特徴は次のとおりです。
# · 総画像数: 1,100 万
· マスクの総数: 11 億
· 画像あたりの平均マスク数: 100
· 平均画像解像度: 1500 × 2250 ピクセル
注: 画像またはマスクの注釈にはクラス ラベルがありません
メタは、これらのデータがデータ エンジンを通じて収集されることを特に強調しています。 、すべてのマスクはすべて SAM によって完全に自動生成されます。
SAM モデルを使用すると、新しいセグメンテーション マスクの収集がこれまでよりも速くなり、対話型でマスクに注釈を付けるのにかかる時間はわずか約 14 秒です。
マスクごとの注釈プロセスは、境界ボックスに注釈を付けるよりもわずか 2 倍遅いだけです。最速の注釈インターフェイスを使用すると、境界ボックスに注釈を付けるには約 7 秒かかります。
以前の大規模なセグメンテーション データ収集の取り組みと比較して、SAM モデル COCO の完全に手動のポリゴンベースのマスク アノテーションは、以前の最大規模のデータ アノテーションの取り組み (モデル補助も) 2 よりも 6.5 倍高速です。倍速くなります。
ただし、インタラクティブなアノテーション マスクに依存するだけでは、10 億を超えるマスクされたデータ セットを作成するには不十分です。そこで、Meta は SA-1B データセットを作成するためのデータ エンジンを構築しました。
このデータ エンジンには 3 つの「歯車」があります:
1. モデル補助アノテーション
2. 全自動アノテーションと補助アノテーションを組み合わせることで、収集されたマスクの多様性を高めることができます
#3. 全自動マスク作成により、データ セットの拡張が可能になります最終的なデータセットには、約 1,100 万枚の許可されたプライバシー保護画像から収集された 11 億を超えるセグメンテーション マスクが含まれています。
SA-1B には、既存のセグメンテーション データセットの 400 倍のマスクがあります。また、人による評価研究により、マスクは高品質で多様性があり、場合によっては、完全に手動で注釈が付けられた小規模なデータセットの以前のマスクと定性的に同等であることが確認されています。
SA-1B の写真は複数の国の写真提供者を通じて入手しました。これらの国は地理的に異なる地域にまたがっています。そして収入水準。
一部の地理的領域は依然として過小評価されていますが、SA-1B には以前のセグメンテーション データセットよりも多くの画像があり、すべての地域にわたって全体的な表現が向上しています。
最後に、メタ社は、このデータが各マスクに関連付けられたテキストの説明などの追加の注釈を含む新しいデータセットの基礎を形成できることを期待していると述べています。
RBG マスターがチームを率いる
ロス・ガーシック
##Ross Girshick (RBG の第一人者と呼ばれることが多い) は、Facebook 人工知能研究所 (FAIR) の研究員であり、コンピューター ビジョンと機械学習の研究に取り組んでいます。
2012 年、Ross Girshick は、Pedro Felzenszwalb の監督の下、シカゴ大学からコンピュータ サイエンスの博士号を取得しました。
FAIR に入社する前、ロスは Microsoft Research の研究者であり、カリフォルニア大学バークレー校の博士研究員でした。そこでの指導者は Jitendra Malik と Trevor Darrell でした。
オープンソース ソフトウェアへの貢献が認められ、2017 年 PAMI 若手研究者賞、2017 年および 2021 年 PAMI マーク・エバリンガム賞を受賞しました。
ご存知のとおり、Ross と He Kaiming は R-CNN 法のターゲット検出アルゴリズムを共同開発しました。 2017 年、Ross と He Kaiming による Mask R-CNN 論文が ICCV 2017 で最優秀論文を受賞しました。
ネチズン: CV は実際にはもう存在しませんMeta が CV 分野でこのセグメンテーション基本モデルを作成したため、多くのネチズンがこう叫びました。 「存在しない。存在する。」
メタサイエンティストのジャスティン・ジョンソン氏は次のように述べています。「私にとって、Segment Anything のデータ エンジンと ChatGPT の RLHF は、最大の新しいデータ エンジンを表します。人工知能の時代です。ノイズの多いネットワーク データからすべてを学習するのではなく、人間による注釈をビッグ データと組み合わせて巧みに適用して、新しい機能を解放する方が良いでしょう。教師あり学習が帰ってきました!」
#唯一の残念な点は、SAM モデルのリリースが主にロス ガーシック氏によって主導されたのに、何ユーミン氏が欠席したことです。
親しい友人「matrix Mingzi」は、この記事はマルチモダリティがCVであることをさらに証明していると述べました。純粋な履歴書の場合。
以上がワンクリックで写真を切り取ることができます。 Meta が史上初の基本的な画像セグメンテーション モデルをリリースし、CV の新しいパラダイムを創出の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

導入 迅速なエンジニアリングでは、「思考のグラフ」とは、グラフ理論を使用してAIの推論プロセスを構造化および導く新しいアプローチを指します。しばしば線形sを含む従来の方法とは異なります

導入 おめでとう!あなたは成功したビジネスを運営しています。ウェブページ、ソーシャルメディアキャンペーン、ウェビナー、会議、無料リソース、その他のソースを通じて、毎日5000の電子メールIDを収集します。次の明白なステップはです

導入 今日のペースの速いソフトウェア開発環境では、最適なアプリケーションパフォーマンスが重要です。応答時間、エラーレート、リソース利用などのリアルタイムメトリックを監視することで、メインに役立ちます

「ユーザーは何人いますか?」彼は突き出した。 「私たちが最後に言ったのは毎週5億人のアクティブであり、非常に急速に成長していると思います」とアルトマンは答えました。 「わずか数週間で2倍になったと言った」とアンダーソンは続けた。 「私はそのprivと言いました

導入 Mistralは、最初のマルチモーダルモデル、つまりPixtral-12B-2409をリリースしました。このモデルは、Mistralの120億個のパラメーターであるNemo 12bに基づいて構築されています。このモデルを際立たせるものは何ですか?これで、画像とTexの両方を採用できます

クエリに応答するだけでなく、情報を自律的に収集し、タスクを実行し、テキスト、画像、コードなどの複数のタイプのデータを処理するAIを搭載したアシスタントがいることを想像してください。未来的に聞こえますか?これでa

導入 金融業界は、効率的な取引と信用の可用性を促進することにより経済成長を促進するため、あらゆる国の発展の基礎となっています。取引の容易さとクレジット

導入 データは、ソーシャルメディア、金融取引、eコマースプラットフォームなどのソースから前例のないレートで生成されています。この連続的な情報ストリームを処理することは課題ですが、


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

ドリームウィーバー CS6
ビジュアル Web 開発ツール

MantisBT
Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

DVWA
Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

MinGW - Minimalist GNU for Windows
このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

SecLists
SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。
