ビジュアルAI機能を統合！中国のチームによって作成された、自動化された画像検出とセグメンテーション、および制御可能なヴィンセント画像-AI-php.cn

ホームページ

テクノロジー周辺機器

ビジュアルAI機能を統合！中国のチームによって作成された、自動化された画像検出とセグメンテーション、および制御可能なヴィンセント画像

王林

Apr 12, 2023 pm 05:31 PM

aiモデル

この記事はAI New Media Qubit（公開アカウントID:QbitAI）の許可を得て転載していますので、転載については出典元にご連絡ください。

さあ、AI サークルが手の速さを競う時が来ました。

いいえ、Meta の SAM は数日前にリリースされたばかりで、国内のプログラマーが次々とバフを重ね、ターゲットの検出、セグメンテーション、主要なビジュアル AI 機能の生成をすべて 1 つに統合するようになりました。

たとえば、安定拡散と SAM に基づいて、写真の椅子をソファにシームレスに置き換えることができます。

ビジュアルAI機能を統合！中国のチームによって作成された、自動化された画像検出とセグメンテーション、および制御可能なヴィンセント画像

これも非常に簡単です。服と髪の色を変える :

ビジュアルAI機能を統合！中国のチームによって作成された、自動化された画像検出とセグメンテーション、および制御可能なヴィンセント画像

このプロジェクトがリリースされるとすぐに、多くの人が「手のスピードが速すぎる！」と叫びました。

ビジュアルAI機能を統合！中国のチームによって作成された、自動化された画像検出とセグメンテーション、および制御可能なヴィンセント画像

他の人が言いました: 新垣結衣と私の新しい結婚式の写真があります。

ビジュアルAI機能を統合！中国のチームによって作成された、自動化された画像検出とセグメンテーション、および制御可能なヴィンセント画像

上記は Gounded-SAM によってもたらされる効果であり、このプロジェクトは GitHub で 1.8k スターを獲得しています。

簡単に言うと、これは画像を入力するだけで自動的に画像を検出してセグメント化するゼロショットビジョンアプリケーションです。

この調査は、IDEA Research Institute (Guangdong-Hong Kong-Macao Greater Bay Area Digital Economy Research Institute) によるもので、その創設者および会長は沈祥陽氏です。

追加のトレーニングは必要ありません

Grounded SAM は、主に Grounding DINO と SAM の 2 つのモデルで構成されています。

SAM (Segment Anything) は、Meta によって 4 日前に発表されたばかりのゼロサンプルセグメンテーションモデルです。

トレーニングプロセス中に表示されなかったオブジェクトや画像を含む、画像/ビデオ内のあらゆるオブジェクトのマスクを生成できます。

SAM が任意のプロンプトに対して有効なマスクを返せるようにすることで、プロンプトがあいまいな場合や複数のオブジェクトを指している場合でも、モデルの出力はあらゆる可能性の中で妥当なマスクになるはずです。このタスクは、モデルを事前トレーニングし、ヒントを介して一般的な下流のセグメンテーションタスクを解決するために使用されます。

モデルフレームワークは、主に画像エンコーダー、ヒントエンコーダー、および高速マスクデコーダーで構成されます。画像の埋め込みを計算した後、SAM は Web 上の任意のプロンプトに基づいて 50 ミリ秒以内にセグメンテーションを生成できます。

ビジュアルAI機能を統合！中国のチームによって作成された、自動化された画像検出とセグメンテーション、および制御可能なヴィンセント画像

Grounding DINO は、この研究チームの既存の成果です。

これは ゼロショット検出モデル で、テキストの説明を含むオブジェクトボックスとラベルを生成できます。

ビジュアルAI機能を統合！中国のチームによって作成された、自動化された画像検出とセグメンテーション、および制御可能なヴィンセント画像

この 2 つを組み合わせると、テキストの説明を通じて画像内の任意のオブジェクトを検索し、SAM の強力なセグメンテーション機能を使用してマスクをきめ細かい方法でセグメント化できます。

ビジュアルAI機能を統合！中国のチームによって作成された、自動化された画像検出とセグメンテーション、および制御可能なヴィンセント画像

これらの機能に加えて、冒頭で示した制御可能な画像生成である安定拡散の機能も追加されました。

Stable Diffusion が以前にも同様の機能を実現できたことは言及する価値があります。置き換えたい画像要素を消去し、テキストプロンプトを入力するだけです。

今回、Grounded SAM は手動選択のステップを保存し、テキストの説明を通じて直接制御できます。

さらに、BLIP (Bootstrapping Language-Image Pre-training) と組み合わせて、画像のタイトルを生成し、ラベルを抽出し、オブジェクトボックスとマスクを生成します。

現在、さらに興味深い機能が開発中です。

例: キャラクターの拡張: 服の変更、髪の色、肌の色など。

ビジュアルAI機能を統合！中国のチームによって作成された、自動化された画像検出とセグメンテーション、および制御可能なヴィンセント画像

#具体的な消費方法もGitHub で提供されます。プロジェクトには Python 3.8 以降、pytorch 1.7 以降、torchvision 0.8 以降が必要であり、関連する依存関係がインストールされている必要があります。具体的な内容については、GitHub プロジェクトページをご覧ください。

研究チームは、IDEA Research Institute (広東・香港・マカオ大湾区デジタル経済研究所) の出身です。

公開情報によると、同研究所は人工知能、デジタル経済産業、最先端技術に関する国際的な革新的な研究機関であることが示されています。マイクロソフトアジア研究所の元主席科学者、マイクロソフトグローバルインテリジェンス元副社長 シェンシャンヤン博士. は創設者兼会長を務めています。

One More Thing

グラウンデッド SAM の今後の取り組みについて、チームはいくつかの展望を持っています:

画像を自動的に生成して新しいデータセットを形成する
セグメンテーションの事前トレーニングを備えた強力な基本モデル
(チャット-)GPT
と連携して、画像ラベル、ボックス、マスクを自動的に生成するパイプラインを形成し、新しい画像を生成できます。

このプロジェクトのチームメンバーの多くは、Zhihu の AI 分野で積極的に回答していることを言及する価値があります。今回は、Zhihu で Grounded SAM に関する質問にも回答しました。コンテンツ、興味のある子供たち質問するメッセージを残してください~

ビジュアルAI機能を統合！中国のチームによって作成された、自動化された画像検出とセグメンテーション、および制御可能なヴィンセント画像

以上がビジュアルAI機能を統合！中国のチームによって作成された、自動化された画像検出とセグメンテーション、および制御可能なヴィンセント画像の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

迅速なエンジニアリングにおける思考のグラフは何ですかApr 13, 2025 am 11:53 AM

導入迅速なエンジニアリングでは、「思考のグラフ」とは、グラフ理論を使用してAIの推論プロセスを構造化および導く新しいアプローチを指します。しばしば線形sを含む従来の方法とは異なります

Genaiエージェントとの電子メールマーケティングを組織に最適化しますApr 13, 2025 am 11:44 AM

導入おめでとう！あなたは成功したビジネスを運営しています。ウェブページ、ソーシャルメディアキャンペーン、ウェビナー、会議、無料リソース、その他のソースを通じて、毎日5000の電子メールIDを収集します。次の明白なステップはです

Apache Pinotによるリアルタイムアプリのパフォーマンス監視Apr 13, 2025 am 11:40 AM

導入今日のペースの速いソフトウェア開発環境では、最適なアプリケーションパフォーマンスが重要です。応答時間、エラーレート、リソース利用などのリアルタイムメトリックを監視することで、メインに役立ちます

ChatGptは10億人のユーザーにヒットしますか？「わずか数週間で2倍になりました」とOpenai CEOは言いますApr 13, 2025 am 11:23 AM

「ユーザーは何人いますか？」彼は突き出した。「私たちが最後に言ったのは毎週5億人のアクティブであり、非常に急速に成長していると思います」とアルトマンは答えました。「わずか数週間で2倍になったと言った」とアンダーソンは続けた。「私はそのprivと言いました

PIXTRAL -12B：Mistral AI＆＃039;の最初のマルチモーダルモデル-Analytics VidhyaApr 13, 2025 am 11:20 AM

導入 Mistralは、最初のマルチモーダルモデル、つまりPixtral-12B-2409をリリースしました。このモデルは、Mistralの120億個のパラメーターであるNemo 12bに基づいて構築されています。このモデルを際立たせるものは何ですか？これで、画像とTexの両方を採用できます

生成AIアプリケーションのエージェントフレームワーク - 分析VidhyaApr 13, 2025 am 11:13 AM

クエリに応答するだけでなく、情報を自律的に収集し、タスクを実行し、テキスト、画像、コードなどの複数のタイプのデータを処理するAIを搭載したアシスタントがいることを想像してください。未来的に聞こえますか？これでa

金融セクターにおける生成AIの応用Apr 13, 2025 am 11:12 AM

導入金融業界は、効率的な取引と信用の可用性を促進することにより経済成長を促進するため、あらゆる国の発展の基礎となっています。取引の容易さとクレジット

オンライン学習とパッシブアグレッシブアルゴリズムのガイドApr 13, 2025 am 11:09 AM

導入データは、ソーシャルメディア、金融取引、eコマースプラットフォームなどのソースから前例のないレートで生成されています。この連続的な情報ストリームを処理することは課題ですが、

See all articles

ホットAIツール

ホットツール

MantisBT

Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティングサービスをチェックしてください。

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。