ホームページ >テクノロジー周辺機器 >AI >グラフィック言語: Kuaishou および Beida のマルチモーダル大型モデルは DALLE-3 に匹敵します

グラフィック言語: Kuaishou および Beida のマルチモーダル大型モデルは DALLE-3 に匹敵します

PHPz
PHPz転載
2024-01-30 15:24:281269ブラウズ

GPT、LLaMA などの現在の大規模言語モデルは、自然言語処理の分野で大幅な進歩を遂げており、複雑なテキスト コンテンツを理解して生成できます。しかし、この強力な理解と生成機能をマルチモーダル データに拡張することはできるでしょうか?このアイデアは徐々に現実になりつつあります。 最新のマルチモーダル大型モデルLaVITはKuaishouと北京大学によって開発されました。画像データとビデオ データを組み合わせることで、モデルが大規模なマルチメディア コンテンツを容易に理解できるようになり、イラスト付きコンテンツの作成を支援します。 LaVIT の出現は、マルチメディア コンテンツの理解と作成にとって非常に重要です。画像やビデオ内のオブジェクト、シーン、感情を識別するだけでなく、それらに関連する自然言語の説明も生成します。このようにして、マルチモーダル データをより効果的に活用し、より鮮明で興味深いグラフィック コンテンツを作成できます。 LaVIT の開発は、マルチモーダル分野における大規模言語モデルにおける重要な試みです。マルチメディア コンテンツの処理と作成にさらなる可能性をもたらし、自然言語処理とコンピュータ ビジョンの分野でのさらなる発展を促進すると期待されています。

グラフィック言語: Kuaishou および Beida のマルチモーダル大型モデルは DALLE-3 に匹敵します


  • #論文タイトル: 動的離散ビジュアルトークン化を使用した LLM での統合言語視覚事前トレーニング
  • 論文アドレス: https://arxiv.org/abs/2309.04669
  • コードモデルアドレス: https://github.com/jy0205/ LaVIT

モデルの概要

LaVIT は、言語モデルのように理解でき、ビジュアル コンテンツを生成できる、新しい一般的なマルチモーダル 基本モデルです。 。大規模言語モデルと同様のトレーニング アプローチを使用し、自己回帰アプローチを使用して次の画像またはテキスト トークンを予測します。 LaVIT は、トレーニングが完了すると、さらに微調整することなく、マルチモーダルな理解と生成タスクを実行できる一般的なマルチモーダル インターフェイスとして機能します。たとえば、LaVIT は次の機能を実現できます。

LaVIT は、指定された条件に基づいて高品質、複数のアスペクト比、および高い美観を生成できる強力なテキストから画像への生成モデルです。テキストプロンプトの画像。 Parti、SDXL、DALLE-3 などの最先端の画像生成モデルと比較して、LaVIT は同等の画像生成機能を備えています。ユニークな点は、高品質と美しさを維持しながら、多様な画像を生成できることです。縦向きでも横向きでも、LaVIT は満足のいく画像構成を生成できます。高度なテクノロジーと高品質のトレーニング データを組み合わせることで、LaVIT は優れたテキストから画像への変換をユーザーに提供します。

グラフィック言語: Kuaishou および Beida のマルチモーダル大型モデルは DALLE-3 に匹敵します

#LaVIT では、画像とテキストが離散化されたトークンとして表されます。したがって、テキスト、画像テキスト、画像イメージの組み合わせなど、画像生成にマルチモーダルなキューを活用できます。このマルチモーダル生成には微調整は必要なく、システムはプロンプトに基づいて対応する画像を生成できます。

グラフィック言語: Kuaishou および Beida のマルチモーダル大型モデルは DALLE-3 に匹敵します#LaVIT は、画像を読み取り、そのセマンティクスを理解できる画像理解モデルです。入力画像に関連する説明を生成し、関連する質問に答えることができます。

グラフィック言語: Kuaishou および Beida のマルチモーダル大型モデルは DALLE-3 に匹敵します手法の概要

LaVIT のモデル構造を下図に示します。このプロセスには 2 つのステージが含まれます:

グラフィック言語: Kuaishou および Beida のマルチモーダル大型モデルは DALLE-3 に匹敵します図: LaVIT モデルの全体的なアーキテクチャ

フェーズ 1: 動的ビジュアル トークナイザー

自然言語などのビジュアル コンテンツを理解して生成できるように、LaVIT では、ビジュアル用に適切に設計されたビジュアル トークナイザーを導入しています。コンテンツ (連続信号) は、LLM が理解できる外国語と同じように、テキストのような一連のトークンに変換されます。著者は、統一されたビジュアルおよび言語モデリングを実現するには、ビジュアル トークナイザー (Tokenizer) が次の 2 つの特性を備えている必要があると考えています。

  1. 離散化: ビジュアル トークンは、テキストのような離散化された形式で表現される必要があります。これは、2 つのモダリティの統一された表現形式を使用しており、統一された自己回帰生成トレーニング フレームワークの下でマルチモーダル モデリングの最適化に同じ分類損失を使用する LaVIT に役立ちます。
  2. 動的: テキスト トークンとは異なり、画像パッチには重要な相互依存関係があるため、別のトークンを推測することが比較的簡単になります。他のイメージ パッチからのイメージ パッチ。したがって、この依存性により、元の LLM の次のトークン予測の最適化目標の有効性が低下します。 LaVIT は、異なる画像の異なる意味の複雑さに基づいて動的な数のビジュアル トークンをエンコードするトークン マージを使用して、ビジュアル パッチ間の冗長性を減らすことを提案しています。このように、異なる複雑さの画像に対して、動的トークン エンコーディングを使用すると、事前トレーニングの効率がさらに向上し、冗長なトークン計算が回避されます。

次の図は、LaVIT によって提案されたビジュアル ワード セグメンター構造です。 : (a) 動的ビジュアル トークン ジェネレーター (b) トークン コンバイナー

グラフィック言語: Kuaishou および Beida のマルチモーダル大型モデルは DALLE-3 に匹敵します動的ビジュアル トークナイザーには、トークン セレクターとトークン コンバイナーが含まれています。図に示されているように、トークン セレクターは最も有益な画像ブロックを選択するために使用され、一方、トークン マージは、それらの有益でない視覚ブロックの情報を保持されたトークンに圧縮して、冗長トークンのマージを実現します。動的ビジュアルワードセグメンター全体は、入力画像の意味論的な再構築を最大化することによってトレーニングされます。

#トークン セレクター

##トークン セレクターは N 個の画像ブロック レベルを受け取ります。特徴は入力として取得され、そして目標は、各画像パッチの重要性を評価し、画像全体のセマンティクスを完全に表現するために最も有益なパッチを選択することです。この目標を達成するために、複数の MLP レイヤーで構成される軽量モジュールを使用して分布 π を予測します。分布 π からサンプリングすることにより、対応する画像パッチを保持するかどうかを示すバイナリ決定マスクが生成されます。 #トークンコンバイナ

トークンコンバイナは、生成されたデシジョンマスクに従って N 個の画像ブロックを分割します。保持するグループは 2 つあります。 X_r と X_d の破棄。 X_d を直接破棄するのとは異なり、トークン結合器は入力イメージの詳細なセマンティクスを最大限に保存できます。トークン コンバイナーは L 個の積み重ねられたブロックで構成され、各ブロックには因果的セルフ アテンション層、クロス アテンション層、フィードフォワード層が含まれます。因果的セルフアテンション層では、X_r の各トークンは、LLM のテキスト トークン形式との一貫性を確保するために、前のトークンにのみ注意を払います。この戦略は、双方向の自己注意に比べてパフォーマンスが優れています。クロスアテンション層は、保持されたトークン X_r をクエリとして受け取り、意味上の類似性に基づいてトークンを X_d にマージします。

フェーズ 2: 統合生成事前トレーニング

ビジュアル トークナイザーによって処理されたビジュアル トークンとテキスト トークンは接続されていますトレーニング中に入力としてマルチモーダル シーケンスを形成します。 2 つのモダリティを区別するために、作成者は画像トークン シーケンスの最初と最後に特別なトークン [IMG] と [/IMG] を挿入します。これらは、ビジュアル コンテンツの始まりと終わりを示すために使用されます。テキストと画像を生成できるようにするために、LaVIT は [画像, テキスト] と [テキスト; 画像] という 2 つの画像とテキストの接続形式を使用します。

これらのマルチモーダル入力シーケンスに対して、LaVIT は統合された自己回帰アプローチを使用して、事前トレーニングの各マルチモーダル シーケンスの尤度を直接最大化します。この表現空間とトレーニング方法の完全な統合により、LLM はマルチモーダル インタラクションとアライメントをより適切に学習できるようになります。事前トレーニングが完了すると、LaVIT は画像を認識する能力を備え、画像をテキストのように理解して生成できます。

実験

ゼロショットマルチモーダル理解

LaVIT Itは、画像字幕生成 (NoCaps、Flickr30k) や視覚的な質問応答 (VQAv2、OKVQA、GQA、VizWiz) などのゼロショット マルチモーダル理解タスクで優れたパフォーマンスを達成しました。

#表 1 ゼロサンプルを使用したマルチモーダル理解タスクの評価

複数のゼロサンプル モーダル生成

グラフィック言語: Kuaishou および Beida のマルチモーダル大型モデルは DALLE-3 に匹敵します

この実験では、提案されたビジュアル トークナイザーは画像を離散化されたトークンとして表現できるため、LaVIT は自己回帰によってテキストのようなビジュアル トークンを生成して画像を合成する機能を備えています。著者は、ゼロサンプルテキスト条件下でモデルの画像合成性能を定量的に評価しました。その比較結果を表 2 に示します。

グラフィック言語: Kuaishou および Beida のマルチモーダル大型モデルは DALLE-3 に匹敵します

#表 2 さまざまなモデルのゼロサンプル テキストから画像への生成パフォーマンス

ご覧のとおり表から LaVIT は他のすべてのマルチモーダル言語モデルよりも優れていることがわかります。 Emu と比較して、LaVIT はより小型の LLM モデルでさらなる改良を実現し、優れた視覚的言語的調整機能を実証しています。さらに、LaVIT は、より少ないトレーニング データを使用しながら、最先端のテキストから画像への変換のエキスパート Parti と同等のパフォーマンスを達成します。

マルチモーダル プロンプト画像生成

LaVIT は複数のモーダルをシームレスに受け入れることができます組み合わせをキューとして使用し、微調整を行わずに対応する画像を生成します。 LaVIT は、特定のマルチモーダル キューのスタイルとセマンティクスを正確に反映する画像を生成します。また、入力のマルチモーダル キューを使用して元の入力画像を変更できます。安定拡散などの従来の画像生成モデルは、追加の微調整されたダウンストリーム データがなければこの機能を実現できません。

グラフィック言語: Kuaishou および Beida のマルチモーダル大型モデルは DALLE-3 に匹敵します

#マルチモーダル画像生成結果の例

定性分析#下の図に示すように、LaVIT の動的トークナイザーは、画像コンテンツに基づいて最も有益な画像ブロックを動的に選択でき、学習されたコードは高レベルのビジュアルを生成できます。セマンティクスのエンコード。

#動的ビジュアルトークナイザーの視覚化 (左) と学習されたコードブック (右) グラフィック言語: Kuaishou および Beida のマルチモーダル大型モデルは DALLE-3 に匹敵します

# 概要

LaVIT の出現は、マルチモーダル タスクの処理に革新的なパラダイムを提供します。動的なビジュアル トークナイザーを使用して、視覚と言語を統一された離散トークン表現に表現することで、継承、自己回帰生成の成功LLM の学習パラダイム。統一された生成目標の下で最適化することにより、LaVIT は画像を外国語として扱い、テキストのように理解して生成することができます。この手法の成功は、LLM の強力な推論機能を使用して、よりスマートで包括的なマルチモーダルの理解と生成の新たな可能性を開き、将来のマルチモーダル研究の開発方向に新たなインスピレーションを与えます。

以上がグラフィック言語: Kuaishou および Beida のマルチモーダル大型モデルは DALLE-3 に匹敵しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。