ホームページ > 記事 > テクノロジー周辺機器 > 史上最大の ViT を便利にトレーニングしましたか? Google、ビジュアル言語モデルPaLIをアップグレード:100以上の言語をサポート
近年の自然言語処理の進歩は、主に 大規模言語モデルによるものです。新しいモデルがリリースされるたびに、パラメーターとトレーニング データの量が新たな最高値に達し、また、既存のベンチマークランキングを大虐殺!
たとえば、今年 4 月 、Google は 5,400 億パラメータ言語モデル PaLM (Pathways Language Model) を言語モデルでリリースしました。 PaLM は一連の評価において人間を超えることに成功しており、特に 少数ショットの小規模サンプル学習シナリオ で優れたパフォーマンスを示しており、PaLM は次世代言語モデルの開発方向と考えられています。
同様に、視覚言語モデル実はも強い努力は奇跡を生み出すことができます 、モデルのサイズを 大きくすることでパフォーマンスを向上させることができます。
もちろん、 がマルチタスク のための単なる視覚言語モデルである場合、それは明らかにあまり汎用的ではなく、 複数の入力をサポートする必要があります。言語 出力するだけです。
最近、Google は、PaLM 拡張機能を、多言語と画像理解の両方を備えた PALI (Pathways Language and Image model) にアップグレードしました。機能、および は 100 の言語をサポート し、視覚的な質問応答、画像キャプション (画像キャプション)、物体検出、画像分類、OCR など、視覚、言語、マルチモーダルにわたるさまざまな画像および言語アプリケーションを実行します。 、文章推論など。
紙のリンク: https://arxiv.org/abs/2209.06794 モデルは公開画像コレクションを使用してトレーニングされます。これには、
109 言語で自動的にクロールされる注釈が含まれます。この記事では WebLI データ セットとも呼ばれます。 WebLI で事前トレーニングされた PaLI モデルは、COCO-Captions、TextCaps、VQAv2、OK-VQA、TextVQA などの複数の画像および言語ベンチマークで最先端のパフォーマンスを実現します。 、などなど、前モデルの多言語ビジュアルキャプションおよびビジュアル質問応答のベンチマークも上回りました。
モデル アーキテクチャ
および ビジュアル モデルを のパフォーマンスで研究することです。 の接続、特に言語イメージ モデルのスケーラビリティは同じですか? したがって、モデルのアーキテクチャ設計は、主に実験の利便性、特に再利用性と拡張性を考慮して非常にシンプルです。
モデルは、入力テキストを処理する Transformer エンコーダーと、出力テキストを生成する自己回帰 Transformer デコーダーで構成されます。
画像を処理する場合、Transformer エンコーダーへの入力には、ViT によって処理された画像を表すビジュアル ワードも含まれます。
PaLI モデルの重要な設計は再利用であり、研究者らは、以前にトレーニングされた単一モーダル視覚および言語モデル (mT5-XXL や大きな ViT など) の重みをシードとして使用しました。この再利用により、シングルモーダル トレーニングの機能が引き継がれるだけでなく、計算コストも節約されます。
モデルのビジュアル コンポーネントは、
これまでで最大の ViT アーキテクチャである ViT-eを使用しています。これは 18 億パラメータの ViT-G モデルと同じ構造を持ち、同じトレーニング パラメーターを使用する場合の違いは、40 億パラメーター に拡張されることです。 スケーリング規則は視覚分野と言語分野の両方で研究されていますが、視覚と言語の結合モデルにおけるスケーリング動作についてはあまり議論されていません。視覚的なバックボーン モデルは、分類タスクのゲインの飽和につながる可能性があります。
研究者らはこれをさらに確認しており、ViT-e は ImageNet 上で ViT-G よりわずかに優れているだけであることが観察できますが、ViT-e は PaLI の視覚言語タスクにおいて大幅な改善を示しています。たとえば、ViT-e は、COCO 字幕タスクにおいて ViT-G を CIDEr ポイント 3 ポイント近く上回っています。タスクではViT-Gより3ポイント多い。これは、将来的に視覚言語タスクでより大きな ViT スケルトン モデルを使用できる余地も示唆しています。
研究者らは、事前トレーニングされた mT5-Large (10 億パラメータ) を使用して、言語モデリング コンポーネント として mT5 バックボーンを採用しました。および mT5-XXL (130 億パラメータ) を使用して、PaLI の言語エンコーダ/デコーダを初期化し、純粋な言語理解タスクを含む多くの言語タスクのハイブリッド トレーニングを継続します。これは、mT5 の言語理解と生成能力の壊滅的な忘れを避けるのにも役立ちます。
ついに、サイズの異なる 3 つの PALI モデルが完成しました。
深層学習に関連する拡張研究では、モデルが大きくなるほど、より多くのトレーニング データが必要になることが示されています。セットも大きくなりました。
そこで、言語と画像の事前トレーニング モデルの可能性を包括的に研究して公開するために、研究者はインターネットから大量の画像データとテキスト データをクロールし、新しいデータセットを構築しました。 WebLI には、109 言語の 120 億の代替テキストと 100 億の画像が含まれています。
研究者らは、注釈にネットワーク テキストを使用することに加えて、クラウド ビジョン API を使用して画像の OCR 認識を実行し、290 億枚の画像を取得しました。 -データペアのOCR。
ニア重複を使用して、68 の一般的なビジュアルおよびビジュアル言語データセットのトレーニング、検証、テスト部分から画像の重複を排除し、ダウンストリームでのデータ漏洩を回避します。評価タスク。
データ品質をさらに向上させるために、研究者は「画像と代替テキスト」のクロスモーダル類似性に基づいてスコアリングし、調整することもあります。しきい値を設定し、最終的に画像の 10% のみを保持します。PaLI
視覚言語タスク以来、合計 10 億枚の画像がトレーニングに使用されますはマルチモーダルであるため、モデルには複数のセマンティック処理機能があり、さまざまな目標を持つ必要があります。たとえば、一部のタスクではタスクを正確に解決するためにオブジェクトのローカルな位置特定が必要ですが、他のタスクではよりグローバルな意味情報が必要になる場合があります。
同様に、言語タスクによっては長い回答が必要な場合もあれば、簡潔な回答が必要な場合もあります。
これらの一貫性のない目標をすべて解決するために、研究者は WebLI の豊富な事前トレーニング データを活用し、さまざまな下流アプリケーション用のモデルを準備するための事前トレーニング タスク ミックスチャを導入しました。
モデルをより多用途にしてさまざまなタスクを解決できるようにするために、作成者はすべてのタスクを単一の共通 API (入力: 画像テキスト、出力: テキスト) に分類し、複数の API を作成しました。画像 言語タスク間で知識の共有が可能であり、事前トレーニング設定でも共有されます。
事前トレーニングに使用されるターゲットは、重み付けされたミックスとして同じ API に投影されます。その目的は、新しいタスクを実行するようにモデルをトレーニングしながら、モデル コンポーネントを再利用する機能を維持することです。 。
モデルはオープン ソースの T5X および Flaxformer フレームワークを使用し、JAX の Flax でトレーニングされています。ViT-e のビジュアル部分は、オープン ソースの BigVision フレームワークを使用して言語のワード ベクトルを生成しますパートとビジュアル パート。パッチ ベクトルはカスケードされ、マルチモーダル エンコーダ/デコーダの入力として共同使用されます。エンコーダは mT5-XXL 事前トレーニングを使用して初期化されます。 PaLI のトレーニング プロセス中、視覚コンポーネントの重みは凍結され、マルチモーダル エンコーダ/デコーダの重みのみが更新されます。
実験部分では、研究者らは共通の視覚言語ベンチマークでPaLIを比較し、PaLIモデルはこれらのタスクに関して最先端の結果を達成し、以前の文献で提案された非常に大規模な結果をも上回りました。モデル。
たとえば、一部の VQA タスクや画像キャプション タスクでは、170 億パラメータの PALI は、800 億パラメータの Flamingo モデルよりも優れたパフォーマンスを発揮します。
また、PALI は単一言語または単一視覚タスクでも優れたパフォーマンスを維持しますが、これは PALI の主なトレーニング目標ではありません。
画像モデルと言語モデルのコンポーネントがモデル拡張に関してどのように相互作用するのか、またモデルがどこで最大の利益をもたらすのかについても調査します。
最終的な結論は、これら 2 つのコンポーネントのジョイント スケーリング (スケーリング) が、特に比較的少数のパラメーターを必要とするビジュアル コンポーネントの場合に最高のパフォーマンスをもたらすということです。スケーリングは重要ですが、スケーリングも重要です。多言語タスクのパフォーマンスを向上させます。
PaLI をベンチマーク Crossmodal-3600 で 35 言語で評価した結果、多言語タイトル タスクでは拡張機能の恩恵がさらに大きいことがわかりました。 PaLIモデルのものが多数あります。
#大規模な言語および画像モデルにおける不当なバイアスの作成または強化を回避するには、使用されるデータと、モデルがそのデータをどのように使用するかを理解する必要があります。透明性を維持し、モデルの公平性をテストし、責任あるデータ分析を実施します。この記事では、データ カードとモデル カードも提供します
以上が史上最大の ViT を便利にトレーニングしましたか? Google、ビジュアル言語モデルPaLIをアップグレード:100以上の言語をサポートの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。