ホームページ  >  記事  >  テクノロジー周辺機器  >  パラメータ数は1/50、Metaが110億パラメータモデルをリリース、Google PaLMを破る

パラメータ数は1/50、Metaが110億パラメータモデルをリリース、Google PaLMを破る

王林
王林転載
2023-04-12 18:10:031099ブラウズ

大規模言語モデル (LLM) は、少数の例で新しいタスクを学習したり、単純な命令だけで学習したりできる小規模なサンプル学習器として理解できます。モデル パラメーターの数は、言語モデルのサイズに応じてスケーリングされます。トレーニング データは、モデルの一般化能力の鍵となります。 LLM のこの向上は、コンピューティング能力とストレージ機能の向上によるものです。直感的には、推論機能が向上すると一般化が向上し、サンプル学習が少なくなりますが、効果的な小規模サンプル学習にモデル パラメーターに関する広範な知識がどの程度必要かは不明です。

これまでのところ、検索強化モデルは、説得力のある小サンプル学習機能を実証していません。論文の中で、Meta AI Researchやその他の機関の研究者らは、小規模サンプル学習ではモデルがパラメータに大量の情報を保存する必要があるのか​​、またストレージを一般化から切り離すことができるのかどうかを尋ねている。彼らは、現在の他の強力な小サンプル学習モデルよりもパラメーターの数が少ないにもかかわらず、強力な小サンプル学習機能を備えた検索強化言語モデルの一種である Atlas を提案しました。

モデルはノンパラメトリック ストレージを使用します。つまり、大規模な外部の非静的知識ソースに基づくニューラル リトリーバーを使用して、パラメトリック言語モデルを強化します。このようなアーキテクチャは、ストレージ機能に加えて、適応性、解釈可能性、効率性の面でも優れているため魅力的です。

パラメータ数は1/50、Metaが110億パラメータモデルをリリース、Google PaLMを破る

論文アドレス: https://arxiv.org/pdf/2208.03299.pdf

Atlas 関連ドキュメントの取得は、Contriever デュアル エンコーダ アーキテクチャに基づいたユニバーサル密度取得ツールです。ファイルを取得する際、現在のコンテキストに基づいて関連ファイルを取得します。取得されたドキュメントと現在のコンテキストは、Fusion-in-Decoder アーキテクチャを使用するシーケンスツーシーケンス モデルによって処理され、対応する出力が生成されます。

著者らは、質問応答やファクトチェックなど、さまざまな下流タスクにおける小規模データセットでの Atlas トレーニングのパフォーマンスに対するさまざまな手法の影響を研究しています。研究では、共同事前トレーニング コンポーネントが小規模サンプルのパフォーマンスにとって重要であることが判明し、著者らは多くの既存および新規の事前トレーニング タスクとスキームを評価しました。Atlas は、小規模サンプル環境とリソースが豊富な環境の両方で強力なダウンストリーム パフォーマンスを発揮します。

Atlas は、わずか 110 億のパラメータで、64 のトレーニング サンプルを使用した NaturalQuestions (NQ) で 42.4% の精度を達成しました。これは、5400 億のパラメータ モデル PaLM (39.6%) よりも 3 パーセント近く高い精度です。 、フル データ セット設定 (フル) では 64.0% の精度に達します。

パラメータ数は1/50、Metaが110億パラメータモデルをリリース、Google PaLMを破る

Yann LeCun 氏は次のように述べています。Q&A と Facts Beats で、Atlas は大きすぎない言語モデル (11B パラメータ)検証における「偉い人」。 Atlas の主な違いは、コーパスからファクトを取得できることです。

パラメータ数は1/50、Metaが110億パラメータモデルをリリース、Google PaLMを破る

メソッドの概要

Atlas はテキスト間フレームワークに従います。これは、すべてのタスクの一般的なフレームワークが次のとおりであることを意味します。システムはテキスト クエリを入力として受け取り、テキスト出力を生成します。たとえば、質問と回答のタスクの場合、クエリは質問に対応し、モデルは回答を生成する必要があります。分類タスクの場合、クエリはテキスト入力に対応し、モデルはクラス ラベル、つまりラベルに対応する単語を生成します。図 2 の KILT ベンチマークは、ダウンストリーム タスクの例をさらに示しています。多くの自然言語処理タスクには知識が必要です。Atlas は、小規模なサンプル シナリオで学習するモデルの能力にとって検索が重要である可能性があるため、標準的なテキスト間モデルを検索で強化することを目指しています。

パラメータ数は1/50、Metaが110億パラメータモデルをリリース、Google PaLMを破る

アーキテクチャ

Atlas モデルは、レトリバーと言語という 2 つのサブモデルに基づいています。モデル。質問応答から Wikipedia 記事の生成までのタスクを実行するとき、モデルはまず検索ツールを介して大規模なテキスト コーパスから上位 k 個の関連文書を取得します。これらのドキュメントはクエリとともに言語モデルへの入力として与えられ、出力が生成されます。レトリーバーと言語モデルは両方とも、事前にトレーニングされたトランスフォーマー ネットワークに基づいています。これについては、以下で詳しく説明します。

取得: Atlas の取得モジュールは、連続密度埋め込みに基づく情報取得テクノロジである Contriever に基づいています。 Contriever は、クエリとドキュメントがトランスフォーマー エンコーダーによって独立して埋め込まれるデュアル エンコーダー アーキテクチャを使用しています。平均プーリングは最後の層の出力に適用され、各クエリまたはドキュメントのベクトル表現が取得されます。次に、クエリと各ドキュメント間の相互埋め込みの内積を計算することにより、それらの類似性スコアが取得されます。 Contriever モデルは MoCo 対比損失を使用して事前トレーニングされており、教師なしデータのみを使用します。密度レトリーバーの利点の 1 つは、勾配降下法や蒸留などの標準的な手法を使用して、ドキュメントの注釈なしでクエリ エンコーダーとドキュメント エンコーダーの両方をトレーニングできることです。

言語モデル: 言語モデルに関して、Atlas は T5 シーケンスツーシーケンス アーキテクチャに依存しています。このモデルは、シーケンスツーシーケンス モデルの Fusion-in-Decoder 修正にも依存しており、エンコーダー内で各ドキュメントを個別に処理します。次にモデルは、さまざまなドキュメントに対応するエンコーダーの出力を連結し、デコーダー内の単一シーケンスに対してクロスアテンションを実行します。モデルは、クエリをエンコーダー内の各ドキュメントに接続します。言語モデルで取得したドキュメントを処理するもう 1 つの方法は、クエリとすべてのドキュメントを連結し、この長いシーケンスをモデルへの入力として使用することです。しかし、この方法は拡張性が低く、つまり、エンコーダーのセルフアテンション メカニズムにより時間計算量が O(n^2) になるため、ドキュメントの数が増加しても拡張できなくなります (n はドキュメントの数です)。書類)。

実験結果

著者らは、NaturalQuestions と TriviaQA という 2 つのオープンドメインの質問回答ベンチマークで Atlas を評価しています。また、64 個のサンプルからなる小規模なサンプル データ セットと完全なトレーニング セットを使用して、以前の研究と比較しました。詳細な比較を以下の表に示します。

パラメータ数は1/50、Metaが110億パラメータモデルをリリース、Google PaLMを破る

NaturalQuestions と TriviaQA を使用した 64 ショットの質問応答で最高のパフォーマンスを発揮します。特に、より大きなモデル (PaLM) や、より多くのトレーニング計算を必要とするモデル (Chinchilla) よりも優れたパフォーマンスを発揮します。また、Atlas は、NaturalQuestions の精度を 55.9% から 60.4% に向上させるなど、トレーニング セット全体を使用したときに最適な結果を達成することもできます。この結果は、CCNet と 2021 年 12 月の Wikipedia コーパスから構成されるインデックスを使用して、Atlas のデフォルト設定の下で取得されました。以下の表は、ファクトチェック データセット FEVER のテスト結果を示しています。

パラメータ数は1/50、Metaが110億パラメータモデルをリリース、Google PaLMを破る

Atlas 64 ショットの場合、トレーニング サンプルは完全なトレーニング セットからサンプリングされます。 Atlas は 64.3% の精度を達成しました。 15 ショットの場合、各クラスから 5 つのサンプルが均一にサンプリングされており、Gopher の結果と比較すると、Atlas の精度は 56.2% で、Gopher よりも 5.1 ポイント高くなります。 Atlas モデルは完全なトレーニング セットで微調整され、ProoFVer よりも 1.5​​% 低い 78% の精度を達成しました。 ProoFVer は、特殊なアーキテクチャを使用して文レベルの注釈を付けて取得者をトレーニングし、FEVER で公開されている Wikipedia コーパスによって提供されますが、Atlas は CCNet と 2021 年 12 月の Wikipedia ダンプから取得します。 FEVER Wikipedia コーパスからなるインデックスを与えると、Atlas は 80.1% という最適レベルを達成しました。

Atlas のパフォーマンスを検証するために、Atlas は、いくつかの異なる知識集約型タスクで構成されるベンチマークである KILT で評価されました。以下の表は、テスト セットの結果を示しています。

パラメータ数は1/50、Metaが110億パラメータモデルをリリース、Google PaLMを破る

Atlas 64 ショットは、実験においてランダム アルゴリズムをはるかに上回り、リーダーボードのいくつかの微調整されたアルゴリズムにも匹敵しました。モデルは同等です。たとえば、FEVER では、Atlas 64 ショットは Sphere、SEAL、Re2G に 2 ~ 2.5 ポイントの差しかありませんが、ゼロショット RE では、Sphere と SEAL を上回ります。データセット全体では、Atlas のパフォーマンスは 3 つのデータセットで最高のモデルの 3% 以内ですが、残りの 5 つのデータセットでは最高です。

以上がパラメータ数は1/50、Metaが110億パラメータモデルをリリース、Google PaLMを破るの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。