ホームページ >テクノロジー周辺機器 >AI >視覚を利用してプロンプトを表示してください。 Shen Xiangyang 氏は、トレーニングや微調整を必要とせず、すぐに使用できる IDEA Research Institute の新しいモデルを披露しました。

視覚を利用してプロンプトを表示してください。 Shen Xiangyang 氏は、トレーニングや微調整を必要とせず、すぐに使用できる IDEA Research Institute の新しいモデルを披露しました。

王林
王林転載
2023-11-26 20:22:581590ブラウズ

視覚的なプロンプトを使用すると、どのようなエクスペリエンスが得られますか?

画像にランダムな輪郭を描くだけで、同じカテゴリがすぐにマークされます。

視覚を利用してプロンプトを表示してください。 Shen Xiangyang 氏は、トレーニングや微調整を必要とせず、すぐに使用できる IDEA Research Institute の新しいモデルを披露しました。

GPT-4V では穀物計数ステップさえも処理が困難です。すべての米粒を見つけるには、手動で箱を引くだけです。

視覚を利用してプロンプトを表示してください。 Shen Xiangyang 氏は、トレーニングや微調整を必要とせず、すぐに使用できる IDEA Research Institute の新しいモデルを披露しました。

新しいターゲット検出パラダイムが登場しました。

閉幕したばかりのIDEA年次会議で、IDEA研究所の創設会長であり、国家工程院の外国人学者でもある沈祥陽氏は、最新の研究結果を発表した -

ビジュアル プロンプト モデル T-Rex のコンテンツを書き直す必要がある

視覚を利用してプロンプトを表示してください。 Shen Xiangyang 氏は、トレーニングや微調整を必要とせず、すぐに使用できる IDEA Research Institute の新しいモデルを披露しました。

インタラクティブ プロセス全体はすぐに使用できるようになっており、わずか数ステップで完了できます。

以前は、Meta のオープンソース SAM はすべてのモデルをセグメント化しており、CV 分野で GPT-3 の瞬間が直接到来しました。しかし、それは依然としてテキスト プロンプト パラダイムに基づいており、対処がより困難になるでしょういくつかの複雑でまれなシナリオ。

これで、写真を写真に交換することで、簡単に問題を解決できます。

さらに、カンファレンス全体には、Think-on-Graph 知識主導型大規模モデル、開発者プラットフォーム MoonBit、AI 科学研究成果物 ReadPaper アップデート 2.0、SPU 機密コンピューティング コプロセッサなど、有益な情報が満載です。 、制御可能なポートレートビデオ生成プラットフォーム HiveNet など。

最後に、沈祥陽氏は、過去数年間で最も多くの時間を費やしたプロジェクト、低高度経済についても共有しました。

#低空経済が比較的成熟すると、深センの空には毎日 10 万機のドローンが飛び立ち、毎日数百万機のドローンが飛び立つことになると私は信じています

#視覚を使用してプロンプトを作成します
##基本的なシングルラウンド プロンプト機能に加えて、T-Rex は 3 つの高度なモードもサポートしています

##マルチラウンド ポジティブ モード

    これは複数ラウンドの対話に似ており、より正確な結果を生成し、検出の見逃しを回避できます
  • #肯定的および否定的な例モード

これは適切です視覚的な手がかりがあいまいで誤検出を引き起こすシナリオ向け。
  • クロスグラフ モードを使用すると、グラフを再設計してレイアウトし、データや情報を簡単に視覚化できます
1 つの参照グラフを使用して他の画像を検出することにより、

レポートによると、ティラノサウルスは事前に定義されたカテゴリに制限されず、視覚的な例を使用して検出対象を指定できるため、特定のオブジェクトを言葉で完全に表現することが難しいという問題が解決され、迅速な効率が向上します。特に一部の産業シナリオにおける複雑なコンポーネントの場合、その効果は特に顕著です

視覚を利用してプロンプトを表示してください。 Shen Xiangyang 氏は、トレーニングや微調整を必要とせず、すぐに使用できる IDEA Research Institute の新しいモデルを披露しました。

さらに、ユーザーと対話することで、いつでも迅速に評価することもできます。結果を確認し、エラー訂正などを実行します。

ティラノサウルスの構成には、主にイメージ エンコーダ、プロンプト エンコーダ、フレーム デコーダの 3 つのコンポーネントが含まれています。

視覚を利用してプロンプトを表示してください。 Shen Xiangyang 氏は、トレーニングや微調整を必要とせず、すぐに使用できる IDEA Research Institute の新しいモデルを披露しました。

この作品は、IDEA Research Institute Computer Vision とロボット研究センター。

チームが以前オープンソースで開発していたターゲット検出モデル DINO は、COCO ターゲット検出リストで 1 位にランクされた最初の DETR モデルであり、Github で人気となっています

(これまでに 11,000 個のスターを獲得しています)視覚を利用してプロンプトを表示してください。 Shen Xiangyang 氏は、トレーニングや微調整を必要とせず、すぐに使用できる IDEA Research Institute の新しいモデルを披露しました。 ゼロサンプル検出器である Grounding DINO、およびあらゆるものを検出してセグメント化できる Grounded SAM。技術的な詳細については、記事の最後にあるリンクをクリックしてください。

カンファレンス全体は有益な情報でいっぱいです

さらに、IDEAカンファレンスではいくつかの研究結果も共有されました。 たとえば、

Think-on-Graph ナレッジ駆動型大規模モデル

は、簡単に言うと、大規模モデルとナレッジ グラフを組み合わせたものです。

大規模モデルは意図の理解と自律学習に優れていますが、ナレッジ グラフは構造化された知識の保存方法により、論理連鎖推論に優れています。

Think-on-Graph は、大規模なモデル エージェントにナレッジ グラフ上で「思考」させ、徐々に最適な答えを検索および推論します (ナレッジ グラフの関連エンティティを段階的に検索および推論します)。推論のすべてのステップで、大規模なモデルが個人的に関与し、ナレッジ グラフを使用して互いの長所と短所を学習します。

視覚を利用してプロンプトを表示してください。 Shen Xiangyang 氏は、トレーニングや微調整を必要とせず、すぐに使用できる IDEA Research Institute の新しいモデルを披露しました。

MoonBit は、Wasm を利用し、クラウド コンピューティングとエッジ コンピューティング向けに設計された開発者プラットフォームです。

このシステムは、ユニバーサル プログラミング言語設計を提供するだけでなく、コンパイラ、ビルド システム、統合開発環境 (IDE)、展開ツールなどのモジュールを統合して、開発エクスペリエンスと効率を向上させます

視覚を利用してプロンプトを表示してください。 Shen Xiangyang 氏は、トレーニングや微調整を必要とせず、すぐに使用できる IDEA Research Institute の新しいモデルを披露しました。

以前にリリースされた科学研究成果物 ReadPaper も 2.0 にアップデートされ、記者会見では副操縦士の読み取りや副操縦の研磨などの新機能がデモされました。

視覚を利用してプロンプトを表示してください。 Shen Xiangyang 氏は、トレーニングや微調整を必要とせず、すぐに使用できる IDEA Research Institute の新しいモデルを披露しました。

記者会見の最後に、沈祥陽氏は「低地経済発展白書(2.0) - 完全デジタルソリューション」を発表した。 Airspace System, SILAS) として、時間空間プロセスの新しい概念が提案されました。

T-Rex リンク:
https://trex-counting.github.io/

以上が視覚を利用してプロンプトを表示してください。 Shen Xiangyang 氏は、トレーニングや微調整を必要とせず、すぐに使用できる IDEA Research Institute の新しいモデルを披露しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。