ホームページ  >  記事  >  テクノロジー周辺機器  >  大規模モデルでは、簡単な会話だけで画像に注釈を付けることができます。清華大学とNUSの研究結果

大規模モデルでは、簡単な会話だけで画像に注釈を付けることができます。清華大学とNUSの研究結果

WBOY
WBOY転載
2024-01-05 12:56:09627ブラウズ

マルチモーダル大規模モデルに検出およびセグメンテーション モジュールが統合された後、画像の切り出しが容易になります。

私たちのモデルは、自然言語の説明を通じて探しているオブジェクトにすばやくラベルを付け、テキストによる説明を提供して、タスクを簡単に完了できるようにします。

シンガポール国立大学の NExT 研究室と清華大学の Liu Zhiyuan チームによって開発された新しいマルチモーダル大規模モデルは、私たちに強力なサポートを提供します。このモデルは、パズルを解くプロセス中にプレイヤーに包括的なヘルプとガイダンスを提供するために慎重に作成されています。複数のモダリティからの情報を組み合わせて、プレーヤーに新しいパズル解決方法と戦略を提示します。このモデルの適用はプレイヤーに利益をもたらします

大規模モデルでは、簡単な会話だけで画像に注釈を付けることができます。清華大学とNUSの研究結果

GPT-4v の発売により、マルチモーダル分野では LLaVA、BLIP-2 などの一連の新しいモデルが導入されました。 、など待ってください。これらのモデルの出現は、マルチモーダル タスクのパフォーマンスと有効性の向上に大きく貢献しました。

マルチモーダル大規模モデルの地域理解能力をさらに向上させるために、研究チームはNExT-Chatと呼ばれるマルチモーダルモデルを開発しました。このモデルには、対話、検出、セグメンテーションを同時に実行する機能があります。

大規模モデルでは、簡単な会話だけで画像に注釈を付けることができます。清華大学とNUSの研究結果

NExT-Chat の最大のハイライトは、マルチモーダル モデルに位置入出力を導入できることです。この機能により、NExT-Chat は対話中にユーザーのニーズをより正確に理解し、応答できるようになります。 NExT-Chat は、位置入力を通じて、ユーザーの地理的位置に基づいて関連情報や提案を提供できるため、ユーザー エクスペリエンスが向上します。 NExT-Chat は、位置情報の出力を通じて、特定の地理的位置に関する関連情報をユーザーに伝え、より良い情報を提供することができます。

このうち、位置入力機能は、指定されたエリアに基づいて質問に答えることを指し、位置出力機能は、会話で言及されたオブジェクトの場所を指定します。これら 2 つの能力はパズル ゲームにおいて非常に重要です。

大規模モデルでは、簡単な会話だけで画像に注釈を付けることができます。清華大学とNUSの研究結果

複雑な位置決め問題も解決できます:

大規模モデルでは、簡単な会話だけで画像に注釈を付けることができます。清華大学とNUSの研究結果

オブジェクトの位置決めに加えて、NExT-Chat は記述も行うことができます画像またはその一部:

大規模モデルでは、簡単な会話だけで画像に注釈を付けることができます。清華大学とNUSの研究結果
画像の内容を分析した後、NExT-Chat は取得した情報を使用して推論を行うことができます:

大規模モデルでは、簡単な会話だけで画像に注釈を付けることができます。清華大学とNUSの研究結果

NExT-Chat のパフォーマンスを正確に評価するために、研究チームは複数のタスク データ セットに対してテストを実施しました。

複数のデータセットで SOTA を達成する

著者は最初に、参照表現セグメンテーション (RES) タスクに関する NExT-Chat の実験結果を示しました。

非常に少量のセグメンテーション データのみを使用しているにもかかわらず、NExT-Chat は、一連の教師ありモデル (MCN、VLT など) を破り、5 回の LISA メソッドを使用するなど、優れた参照セグメンテーション機能を実証しました。上記のセグメンテーション マスク アノテーションの場合。

大規模モデルでは、簡単な会話だけで画像に注釈を付けることができます。清華大学とNUSの研究結果

△RESタスクにおけるNExT-Chatの結果

次に、研究チームはRECタスクにおけるNExT-Chatの実験結果を示しました。

以下の表に示すように、NExT-Chat は一連の教師ありメソッド (UNITER など) よりも優れた結果を達成できます。

興味深い発見は、NExT-Chat は同様のボックス トレーニング データを使用する Shikra よりも効果がわずかに低いということです。

作者は、これは、pix2emb 法の LM 損失と検出損失のバランスを取るのがより難しく、Shikra が既存の平文大規模モデルの事前学習形式に近いためであると推測しています。

大規模モデルでは、簡単な会話だけで画像に注釈を付けることができます。清華大学とNUSの研究結果

#△REC タスクでの NExT-Chat の結果
表 3 に示すように、NExT-Chat はランダムおよびポピュラーで実行できます。データはセット上で最高の精度を達成します。

大規模モデルでは、簡単な会話だけで画像に注釈を付けることができます。清華大学とNUSの研究結果

△POPE データセットでの NExT-Chat の結果

エリア記述タスクでは、NExT-Chat は最高の CIDEr パフォーマンスを達成することもでき、このインジケーターの 4 ショットのケースでは Kosmos- を上回ります。 2.

大規模モデルでは、簡単な会話だけで画像に注釈を付けることができます。清華大学とNUSの研究結果

#△RefCOCOg データセットに関する NExT-Chat の結果
それでは、NExT-Chat の背後ではどのようなメソッドが使用されているのでしょうか?

画像符号化の新しい方法を提案する

従来の方法の欠陥

従来のモデルは主に、pix2seq を通じて LLM 関連の位置モデリングを実行します。

たとえば、Kosmos-2 は画像を 32x32 のブロックに分割し、各ブロックの ID を使用して点の座標を表します。Shikra はオブジェクト フレームの座標をプレーン テキストに変換して、LLM が理解できるようにします。コーディネートです。

ただし、pix2seq メソッドを使用したモデル出力は主にボックスやポイントなどの単純な形式に限定されており、セグメンテーション マスクなどの他のより高密度な位置表現形式に一般化することは困難です。

この問題を解決するために、この記事では新しい埋め込みベースの位置モデリング手法 pix2emb を提案します。

pix2emb メソッド

pix2seq とは異なり、pix2emb のすべての位置情報は、LLM 自体のテキスト予測ヘッダーに依存するのではなく、対応するエンコーダーとデコーダーを通じてエンコードおよびデコードされます。

大規模モデルでは、簡単な会話だけで画像に注釈を付けることができます。清華大学とNUSの研究結果# △pix2emb メソッドの簡単な例

上図に示すように、位置入力は、対応するエンコーダーによって位置埋め込みにエンコードされ、出力されます。位置の埋め込みはボックス デコーダーとマスク デコーダーを介してボックスとマスクに変換されます。

これには 2 つの利点があります。

モデルの出力形式は、セグメンテーション マスクなどのより複雑な形式に簡単に拡張できます。
  • モデルは、タスク内の既存の実用的なメソッドを簡単に見つけることができます。たとえば、この記事の検出損失は L1 損失と GioU 損失を使用しています (pix2seq は損失の生成にテキストのみを使用できます)。このマスク デコーダは、この記事では、既存のメソッドである SAM を使用して初期化を行っています。
  • pix2seq と pix2emb を組み合わせることで、著者は新しい NExT-Chat モデルをトレーニングしました。

NExT-Chat モデル

大規模モデルでは、簡単な会話だけで画像に注釈を付けることができます。清華大学とNUSの研究結果△NExT-Chat モデル アーキテクチャ

NExT-Chat は全体として LLaVA アーキテクチャを採用しています。画像エンコーダを介して画像情報をエンコードし、LLM に入力して理解します。これに基づいて、対応するボックス エンコーダと 2 つの位置出力のデコーダが追加されます。

LLM が言語の LM ヘッドまたは位置デコーダをいつ使用するかわからないという問題を解決するために、NExT-Chat は位置情報を識別するための新しいトークン タイプをさらに導入します。

モデルが出力する場合、トークンの埋め込みは、言語デコーダーではなく、デコードのために対応する位置デコーダーに送信されます。

さらに、入力ステージと出力ステージでの位置情報の一貫性を維持するために、NExT-Chat では追加の位置合わせ制約が導入されています:

大規模モデルでは、簡単な会話だけで画像に注釈を付けることができます。清華大学とNUSの研究結果 △位置入力、出力制約

上図に示すように、ボックスと位置埋め込みはそれぞれデコーダ、エンコーダ、デコーダ-エンコーダを介して結合され、前後で変更しないことが要求されます。

著者は、この方法が位置入力機能の収束を大幅に促進できることを発見しました。

NExT-Chat のモデル トレーニングには主に 3 つの段階があります:

第 1 段階: トレーニング モデル
    基本的なボックスの入出力の基本機能
  • 。 NExT-Chat は、Flickr-30K、RefCOCO、VisualGenome、および事前トレーニング用のボックス入出力を含むその他のデータセットを使用します。トレーニング プロセス中に、すべての LLM パラメータがトレーニングされます。 第 2 段階:
  • LLM の命令追従能力を調整します
  • 。 Shikra-RD、LLaVA-instruct、およびその他の命令を通じてデータを微調整すると、モデルが人間の要件によりよく応答し、より人間らしい結果を出力できるようになります。 第 3 段階:
  • NExT-Chat モデルにセグメンテーション機能を付与します
  • 。上記の 2 つのトレーニング段階を通じて、モデルはすでに優れた位置モデリング機能を備えています。著者はこの機能をさらに拡張して、出力をマスクします。実験の結果、非常に少量のマスク注釈データとトレーニング時間 (約 3 時間) を使用することで、NExT-Chat はすぐに優れたセグメンテーション機能を実現できることがわかりました。
  • このようなトレーニング プロセスの利点は、検出フレーム データが豊富であり、トレーニングのオーバーヘッドが小さいことです。

NExT-Chat は、豊富な検出フレーム データに基づいて基本的な位置モデリング機能をトレーニングし、より困難で注釈が少ないセグメンテーション タスクにすぐに拡張できます。

以上が大規模モデルでは、簡単な会話だけで画像に注釈を付けることができます。清華大学とNUSの研究結果の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。