ホームページ > 記事 > テクノロジー周辺機器 > 大規模モデルでは、簡単な会話だけで画像に注釈を付けることができます。清華大学とNUSの研究結果
マルチモーダル大規模モデルに検出およびセグメンテーション モジュールが統合された後、画像の切り出しが容易になります。
私たちのモデルは、自然言語の説明を通じて探しているオブジェクトにすばやくラベルを付け、テキストによる説明を提供して、タスクを簡単に完了できるようにします。
シンガポール国立大学の NExT 研究室と清華大学の Liu Zhiyuan チームによって開発された新しいマルチモーダル大規模モデルは、私たちに強力なサポートを提供します。このモデルは、パズルを解くプロセス中にプレイヤーに包括的なヘルプとガイダンスを提供するために慎重に作成されています。複数のモダリティからの情報を組み合わせて、プレーヤーに新しいパズル解決方法と戦略を提示します。このモデルの適用はプレイヤーに利益をもたらします
GPT-4v の発売により、マルチモーダル分野では LLaVA、BLIP-2 などの一連の新しいモデルが導入されました。 、など待ってください。これらのモデルの出現は、マルチモーダル タスクのパフォーマンスと有効性の向上に大きく貢献しました。
マルチモーダル大規模モデルの地域理解能力をさらに向上させるために、研究チームはNExT-Chatと呼ばれるマルチモーダルモデルを開発しました。このモデルには、対話、検出、セグメンテーションを同時に実行する機能があります。
NExT-Chat の最大のハイライトは、マルチモーダル モデルに位置入出力を導入できることです。この機能により、NExT-Chat は対話中にユーザーのニーズをより正確に理解し、応答できるようになります。 NExT-Chat は、位置入力を通じて、ユーザーの地理的位置に基づいて関連情報や提案を提供できるため、ユーザー エクスペリエンスが向上します。 NExT-Chat は、位置情報の出力を通じて、特定の地理的位置に関する関連情報をユーザーに伝え、より良い情報を提供することができます。
このうち、位置入力機能は、指定されたエリアに基づいて質問に答えることを指し、位置出力機能は、会話で言及されたオブジェクトの場所を指定します。これら 2 つの能力はパズル ゲームにおいて非常に重要です。
複雑な位置決め問題も解決できます:
オブジェクトの位置決めに加えて、NExT-Chat は記述も行うことができます画像またはその一部:
画像の内容を分析した後、NExT-Chat は取得した情報を使用して推論を行うことができます:
NExT-Chat のパフォーマンスを正確に評価するために、研究チームは複数のタスク データ セットに対してテストを実施しました。
著者は最初に、参照表現セグメンテーション (RES) タスクに関する NExT-Chat の実験結果を示しました。
非常に少量のセグメンテーション データのみを使用しているにもかかわらず、NExT-Chat は、一連の教師ありモデル (MCN、VLT など) を破り、5 回の LISA メソッドを使用するなど、優れた参照セグメンテーション機能を実証しました。上記のセグメンテーション マスク アノテーションの場合。
次に、研究チームはRECタスクにおけるNExT-Chatの実験結果を示しました。
以下の表に示すように、NExT-Chat は一連の教師ありメソッド (UNITER など) よりも優れた結果を達成できます。
興味深い発見は、NExT-Chat は同様のボックス トレーニング データを使用する Shikra よりも効果がわずかに低いということです。
作者は、これは、pix2emb 法の LM 損失と検出損失のバランスを取るのがより難しく、Shikra が既存の平文大規模モデルの事前学習形式に近いためであると推測しています。
#△REC タスクでの NExT-Chat の結果表 3 に示すように、NExT-Chat はランダムおよびポピュラーで実行できます。データはセット上で最高の精度を達成します。エリア記述タスクでは、NExT-Chat は最高の CIDEr パフォーマンスを達成することもでき、このインジケーターの 4 ショットのケースでは Kosmos- を上回ります。 2.
#△RefCOCOg データセットに関する NExT-Chat の結果それでは、NExT-Chat の背後ではどのようなメソッドが使用されているのでしょうか? 画像符号化の新しい方法を提案する従来の方法の欠陥従来のモデルは主に、pix2seq を通じて LLM 関連の位置モデリングを実行します。 たとえば、Kosmos-2 は画像を 32x32 のブロックに分割し、各ブロックの ID を使用して点の座標を表します。Shikra はオブジェクト フレームの座標をプレーン テキストに変換して、LLM が理解できるようにします。コーディネートです。 ただし、pix2seq メソッドを使用したモデル出力は主にボックスやポイントなどの単純な形式に限定されており、セグメンテーション マスクなどの他のより高密度な位置表現形式に一般化することは困難です。 この問題を解決するために、この記事では新しい埋め込みベースの位置モデリング手法 pix2emb を提案します。 pix2emb メソッドpix2seq とは異なり、pix2emb のすべての位置情報は、LLM 自体のテキスト予測ヘッダーに依存するのではなく、対応するエンコーダーとデコーダーを通じてエンコードおよびデコードされます。# △pix2emb メソッドの簡単な例
これには 2 つの利点があります。
モデルの出力形式は、セグメンテーション マスクなどのより複雑な形式に簡単に拡張できます。NExT-Chat モデル
△NExT-Chat モデル アーキテクチャ
LLM が言語の LM ヘッドまたは位置デコーダをいつ使用するかわからないという問題を解決するために、NExT-Chat は位置情報を識別するための新しいトークン タイプをさらに導入します。
モデルが出力する場合、トークンの埋め込みは、言語デコーダーではなく、デコードのために対応する位置デコーダーに送信されます。
さらに、入力ステージと出力ステージでの位置情報の一貫性を維持するために、NExT-Chat では追加の位置合わせ制約が導入されています:
△位置入力、出力制約
著者は、この方法が位置入力機能の収束を大幅に促進できることを発見しました。
NExT-Chat のモデル トレーニングには主に 3 つの段階があります:
第 1 段階: トレーニング モデルNExT-Chat は、豊富な検出フレーム データに基づいて基本的な位置モデリング機能をトレーニングし、より困難で注釈が少ないセグメンテーション タスクにすぐに拡張できます。
以上が大規模モデルでは、簡単な会話だけで画像に注釈を付けることができます。清華大学とNUSの研究結果の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。