


新技術の発表、IDEA Research Institute が T-Rex モデルをリリース、ユーザーが画像上で直接「プロンプト」プロンプトを選択できるようになりました
Grounded SAM の人気を受けて、IDEA Research Institute チーム が大ヒット作を携えて戻ってきました。新しいビジュアル プロンプト(ビジュアル プロンプト)モデルT-Rexx、特定されました画像による 箱から出してすぐに使えるフィギュア、 は、開集合検出の新しい世界を開きます。 ボックスを引いて検出し、完了です。閉幕したばかりの2023年のIDEAカンファレンスで、IDEA研究所の創設会長で国家工程院の外国人学者でもある沈祥陽氏は、視覚的な合図に基づく新しい目標検出体験をデモンストレーションし、新しい目標のモデル実験室(遊び場)を公開した。視覚キュー モデル T-Rex )、インタラクティブ ビジュアル プロンプト (iVP) は、現場で裁判のクライマックスの波を引き起こします。
iVP では、ユーザーは個人的に「百聞は一見に如かず」というプロンプト エクスペリエンスのロックを解除できます。画像上の関心のあるオブジェクトにマークを付け、モデルに視覚的な例を提供し、モデルはターゲット画像内の類似したインスタンスをすべて検出します。プロセス全体は対話型で、わずか数ステップで簡単に完了できます。
アイデア総研が 4 月にリリースした Grounded SAM (Grounding DINO SAM) は、かつて Github で非常に人気があり、これまでに 11,000 個のスターを集めています。テキストプロンプトのみをサポートするGrounded SAMとは異なり、今回リリースされたT-Rexモデルは、強力なインタラクションの作成に重点を置いたビジュアルプロンプト機能を提供します。
T-Rex は、すぐに使える強力な機能を備えており、再トレーニングや微調整を行わずに、トレーニング段階でモデルが一度も見たことのないオブジェクトを検出できます。このモデルは、カウントを含むすべての検出タスクに適用できるだけでなく、インテリジェントなインタラクティブな注釈シナリオのための新しいソリューションも提供します。
#チームは、視覚的プロンプト技術の開発が実際のシーンにおける問題点の観察から得られたことを明らかにしました。一部のパートナーは、ビジュアル モデルを使用してトラック上の商品の数を数えたいと考えていますが、このモデルではテキスト プロンプトだけでは各商品を個別に識別できません。その理由は、産業シーンでのオブジェクトは日常生活では稀であり、言葉で説明するのが難しいためです。この場合、視覚的な手がかりの方が明らかに効率的なアプローチです。同時に、直感的な視覚フィードバックと強力な対話性も、検出の効率と精度の向上に役立ちます。
実際の使用要件に関する洞察に基づいて、チームは、複数の視覚的プロンプトを受け入れ、複数の画像にわたってプロンプトを表示できるモデルとして T-Rex を設計しました。最も基本的なシングルラウンド プロンプト モードに加えて、現在のモデルは次の 3 つの高度なモードもサポートしています。
- 肯定的な例と否定的な例モード:視覚的なプロンプトが曖昧で誤検出を引き起こすシナリオに適しています
- クロスピクチャ モード:次のような場合に適しています単一の参照画像を通じて検出を促す 彼が描いたシーン
- 同時に発表された技術レポートで、チームはティラノサウルス モデルの 4 つの主な特徴を要約しました:
- ビジュアル プロンプト: 視覚的な例を使用して検出ターゲットを指定し、まれに発生する問題を克服します。複雑なオブジェクトは言葉で完全に表現することが難しいため、迅速な効率が向上します。
- 直観的な視覚フィードバック: 境界ボックスなどの直観的な視覚フィードバックを提供して、ユーザーが検出結果を効率的に評価できるようにします
- 対話性: ユーザーは次のことができます。検出プロセスに便利に参加し、モデルの結果を正確に修正
- 研究チームは、ターゲット検出シナリオでは、視覚的な手がかりを追加することでテキスト キューの欠点の一部を補うことができると指摘しました。将来的には、この 2 つを組み合わせることで、より垂直な分野で CV テクノロジーの可能性がさらに解き放たれるでしょう。
ティラノサウルスモデルの技術的な詳細については、同時公開のテクニカルレポートをご参照ください。
iVPモデル ラボ: https://deepdataspace.com/playground/ivp
Github リンク: trex-counting.github.io
この作品は、IDEA Institute のコンピューター ビジョンおよびロボティクス研究センターから提供されました。チームの以前のオープンソース ターゲット検出モデル DINO は、COCO ターゲット検出ランキングで 1 位を獲得した最初の DETR モデルでした。Github で非常に人気のあるゼロショット検出器 Grounding DINO と、DINO はあらゆるオブジェクトを検出してセグメント化できます。グラウンデッド SAM、またこのチームの仕事
以上が新技術の発表、IDEA Research Institute が T-Rex モデルをリリース、ユーザーが画像上で直接「プロンプト」プロンプトを選択できるようになりましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

科学者は、彼らの機能を理解するために、人間とより単純なニューラルネットワーク(C. elegansのものと同様)を広く研究してきました。 ただし、重要な疑問が生じます。新しいAIと一緒に効果的に作業するために独自のニューラルネットワークをどのように適応させるのか

GoogleのGemini Advanced:Horizonの新しいサブスクリプションティア 現在、Gemini Advancedにアクセスするには、1か月あたり19.99ドルのGoogle One AIプレミアムプランが必要です。 ただし、Android Authorityのレポートは、今後の変更を示唆しています。 最新のGoogle p

高度なAI機能を取り巻く誇大宣伝にもかかわらず、エンタープライズAIの展開内に大きな課題が潜んでいます:データ処理ボトルネック。 CEOがAIの進歩を祝う間、エンジニアはクエリの遅い時間、過負荷のパイプライン、

ドキュメントの取り扱いは、AIプロジェクトでファイルを開くだけでなく、カオスを明確に変えることです。 PDF、PowerPoint、Wordなどのドキュメントは、あらゆる形状とサイズでワークフローをフラッシュします。構造化された取得

Googleのエージェント開発キット(ADK)のパワーを活用して、実際の機能を備えたインテリジェントエージェントを作成します。このチュートリアルは、ADKを使用して会話エージェントを構築し、GeminiやGPTなどのさまざまな言語モデルをサポートすることをガイドします。 w

まとめ: Small Language Model(SLM)は、効率のために設計されています。それらは、リソース不足、リアルタイム、プライバシーに敏感な環境の大手言語モデル(LLM)よりも優れています。 特にドメインの特異性、制御可能性、解釈可能性が一般的な知識や創造性よりも重要である場合、フォーカスベースのタスクに最適です。 SLMはLLMSの代替品ではありませんが、精度、速度、費用対効果が重要な場合に理想的です。 テクノロジーは、より少ないリソースでより多くを達成するのに役立ちます。それは常にドライバーではなく、プロモーターでした。蒸気エンジンの時代からインターネットバブル時代まで、テクノロジーの力は、問題の解決に役立つ範囲にあります。人工知能(AI)および最近では生成AIも例外ではありません

コンピュータービジョンのためのGoogleGeminiの力を活用:包括的なガイド 大手AIチャットボットであるGoogle Geminiは、その機能を会話を超えて拡張して、強力なコンピュータービジョン機能を網羅しています。 このガイドの利用方法については、

2025年のAIランドスケープは、GoogleのGemini 2.0 FlashとOpenaiのO4-Miniの到着とともに感動的です。 数週間離れたこれらの最先端のモデルは、同等の高度な機能と印象的なベンチマークスコアを誇っています。この詳細な比較


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

VSCode Windows 64 ビットのダウンロード
Microsoft によって発売された無料で強力な IDE エディター

SublimeText3 Linux 新バージョン
SublimeText3 Linux 最新バージョン

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

ホットトピック









