この記事はAI New Media Qubit(公開アカウントID:QbitAI)の許可を得て転載していますので、転載については出典元にご連絡ください。
さあ、AI サークルが手の速さを競う時が来ました。
いいえ、Meta の SAM は数日前にリリースされたばかりで、国内のプログラマーが次々とバフを重ね、ターゲットの検出、セグメンテーション、主要なビジュアル AI 機能の生成をすべて 1 つに統合するようになりました。
たとえば、安定拡散と SAM に基づいて、写真の椅子をソファにシームレスに置き換えることができます。
これも非常に簡単です。服と髪の色を変える :
このプロジェクトがリリースされるとすぐに、多くの人が「手のスピードが速すぎる!」と叫びました。
他の人が言いました: 新垣結衣と私の新しい結婚式の写真があります。
上記は Gounded-SAM によってもたらされる効果であり、このプロジェクトは GitHub で 1.8k スターを獲得しています。
簡単に言うと、これは画像を入力するだけで自動的に画像を検出してセグメント化するゼロショット ビジョン アプリケーションです。
この調査は、IDEA Research Institute (Guangdong-Hong Kong-Macao Greater Bay Area Digital Economy Research Institute) によるもので、その創設者および会長は沈祥陽氏です。
追加のトレーニングは必要ありません
Grounded SAM は、主に Grounding DINO と SAM の 2 つのモデルで構成されています。
SAM (Segment Anything) は、Meta によって 4 日前に発表されたばかりのゼロサンプル セグメンテーション モデルです。
トレーニング プロセス中に表示されなかったオブジェクトや画像を含む、画像/ビデオ内のあらゆるオブジェクトのマスクを生成できます。
SAM が任意のプロンプトに対して有効なマスクを返せるようにすることで、プロンプトがあいまいな場合や複数のオブジェクトを指している場合でも、モデルの出力はあらゆる可能性の中で妥当なマスクになるはずです。このタスクは、モデルを事前トレーニングし、ヒントを介して一般的な下流のセグメンテーション タスクを解決するために使用されます。
モデル フレームワークは、主に画像エンコーダー、ヒント エンコーダー、および高速マスク デコーダーで構成されます。画像の埋め込みを計算した後、SAM は Web 上の任意のプロンプトに基づいて 50 ミリ秒以内にセグメンテーションを生成できます。
Grounding DINO は、この研究チームの既存の成果です。
これは ゼロショット検出モデル で、テキストの説明を含むオブジェクト ボックスとラベルを生成できます。
この 2 つを組み合わせると、テキストの説明を通じて画像内の任意のオブジェクトを検索し、SAM の強力なセグメンテーション機能を使用してマスクをきめ細かい方法でセグメント化できます。
これらの機能に加えて、冒頭で示した制御可能な画像生成である安定拡散の機能も追加されました。
Stable Diffusion が以前にも同様の機能を実現できたことは言及する価値があります。置き換えたい画像要素を消去し、テキスト プロンプトを入力するだけです。
今回、Grounded SAM は手動選択のステップを保存し、テキストの説明を通じて直接制御できます。
さらに、BLIP (Bootstrapping Language-Image Pre-training) と組み合わせて、画像のタイトルを生成し、ラベルを抽出し、オブジェクト ボックスとマスクを生成します。
現在、さらに興味深い機能が開発中です。
例: キャラクターの拡張: 服の変更、髪の色、肌の色など。
公開情報によると、同研究所は人工知能、デジタル経済産業、最先端技術に関する国際的な革新的な研究機関であることが示されています。マイクロソフト アジア研究所の元主席科学者、マイクロソフト グローバル インテリジェンス元副社長 シェン シャンヤン 博士. は創設者兼会長を務めています。
One More Thing
グラウンデッド SAM の今後の取り組みについて、チームはいくつかの展望を持っています:
- 画像を自動的に生成して新しいデータ セットを形成する
- セグメンテーションの事前トレーニングを備えた強力な基本モデル
- (チャット-)GPT
- と連携して、画像ラベル、ボックス、マスクを自動的に生成するパイプラインを形成し、新しい画像を生成できます。
このプロジェクトのチーム メンバーの多くは、Zhihu の AI 分野で積極的に回答していることを言及する価値があります。今回は、Zhihu で Grounded SAM に関する質問にも回答しました。コンテンツ、興味のある子供たち質問するメッセージを残してください~
以上がビジュアルAI機能を統合!中国のチームによって作成された、自動化された画像検出とセグメンテーション、および制御可能なヴィンセント画像の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

導入 迅速なエンジニアリングでは、「思考のグラフ」とは、グラフ理論を使用してAIの推論プロセスを構造化および導く新しいアプローチを指します。しばしば線形sを含む従来の方法とは異なります

導入 おめでとう!あなたは成功したビジネスを運営しています。ウェブページ、ソーシャルメディアキャンペーン、ウェビナー、会議、無料リソース、その他のソースを通じて、毎日5000の電子メールIDを収集します。次の明白なステップはです

導入 今日のペースの速いソフトウェア開発環境では、最適なアプリケーションパフォーマンスが重要です。応答時間、エラーレート、リソース利用などのリアルタイムメトリックを監視することで、メインに役立ちます

「ユーザーは何人いますか?」彼は突き出した。 「私たちが最後に言ったのは毎週5億人のアクティブであり、非常に急速に成長していると思います」とアルトマンは答えました。 「わずか数週間で2倍になったと言った」とアンダーソンは続けた。 「私はそのprivと言いました

導入 Mistralは、最初のマルチモーダルモデル、つまりPixtral-12B-2409をリリースしました。このモデルは、Mistralの120億個のパラメーターであるNemo 12bに基づいて構築されています。このモデルを際立たせるものは何ですか?これで、画像とTexの両方を採用できます

クエリに応答するだけでなく、情報を自律的に収集し、タスクを実行し、テキスト、画像、コードなどの複数のタイプのデータを処理するAIを搭載したアシスタントがいることを想像してください。未来的に聞こえますか?これでa

導入 金融業界は、効率的な取引と信用の可用性を促進することにより経済成長を促進するため、あらゆる国の発展の基礎となっています。取引の容易さとクレジット

導入 データは、ソーシャルメディア、金融取引、eコマースプラットフォームなどのソースから前例のないレートで生成されています。この連続的な情報ストリームを処理することは課題ですが、


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

ドリームウィーバー CS6
ビジュアル Web 開発ツール

MantisBT
Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

DVWA
Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

MinGW - Minimalist GNU for Windows
このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

SecLists
SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。
