ホームページ > 記事 > テクノロジー周辺機器 > GPT-4がリリースされた後、他の大型モデルはどうなるでしょうか? Yann LeCun: 強化された言語モデルが進むべき道かもしれない
ChatGPT と GPT-4 の人気により、これまでのところ大規模な言語モデルがハイライトの瞬間を迎えています。しかし、次はどこへ行こうか?
Yann LeCun は最近、言語モデルの強化が有望な方向性である可能性を指摘した研究に参加しました。
#これは総説記事であり、論文の主な内容を簡単に紹介します。
研究の背景大規模な言語モデルは自然言語処理の進歩を大きく促進し、関連テクノロジーはコーディングアシスタントを含む数百万のユーザーを持ついくつかの製品を生み出しました。 Copilot、Google 検索エンジン、そして最近人気のある ChatGPT。メモリと構成機能を組み合わせることで、大規模な言語モデルは、言語理解や条件付きおよび無条件のテキスト生成などのタスクを前例のないパフォーマンスで実行できるため、より高帯域幅の人間とコンピューターの対話が現実になります。
ただし、大規模な言語モデルには、広範な展開を妨げるいくつかの制限がまだあります。大規模な言語モデルは、しばしば幻覚と呼ばれる、事実ではないがもっともらしい予測を提供します。これにより、たとえば算術コンテキストや推論チェーンなどで、多くの回避可能なエラーが発生します。さらに、トレーニング可能なパラメーターの数によって測定されるように、多くの大規模言語モデルの画期的な機能は、規模が増加するにつれて現れるようです。少数サンプルのプロンプトによるタスク。BIG ベンチ タスク。最近の一連の研究では、大規模モデルのいくつかの特徴をまだ保持している小規模な言語モデルが作成されていますが、大規模な言語モデルのトレーニングとメンテナンスのコストは、そのサイズとデータ要件により依然として高額です。大規模なモデルの継続的な学習は未解決の研究問題のままであり、Goldberg 氏は以前、GPT-3 ベースのチャットボット ChatGPT のコンテキストで大規模な言語モデルの他の制限について議論しました。
最近の研究で、Meta やその他の機関の研究者は、これらの問題は大規模な言語モデルの本質的な欠陥から生じていると分析しました。通常、言語モデルは (i) を考慮して統計的言語モデリングを実行するように訓練されています。単一のパラメータ モデルと (ii) 限定されたコンテキスト (通常は、先行または周囲の n 個のトークン)。近年のソフトウェアとハードウェアの革新により n は増加していますが、言語モデリングを一貫して正しく実行するために必要な潜在的に大きなコンテキストと比較して、ほとんどのモデルは依然として比較的小さなコンテキストを使用しています。したがって、モデルには、コンテキストには存在しないが、当面のタスクを実行するために必要な知識を保存するには、大規模なスケールが必要です。
紙のリンク: https://arxiv.org/pdf/2302.07842v1.pdf
したがって、上記の純粋に統計的な言語モデリングのパラダイムからわずかに逸脱しながら、これらの問題を解決することを目的とした研究がますます増えています。
たとえば、関連する外部ドキュメントから抽出された情報を追加して、大規模な言語モデルの関連性を高め、制限されたコンテキスト サイズを回避する作業があります。特定のコンテキストに対してデータベースからそのような文書を取得するモジュールを大規模な言語モデルに装備することにより、より少ないパラメータで最大規模の言語モデルの一部の機能を一致させることができます。結果として得られるモデルは、外部データ ソースにクエリを実行できるため、ノンパラメトリックになることに注意してください。一般に、言語モデルは、推論戦略を通じてコンテキストを改善し、より関連性の高いコンテキストを生成し、答えを生成する前により多くの計算を節約することもできます。
もう 1 つの戦略は、言語モデルが外部ツールを活用して、言語モデルの重みに含まれていない重要な欠落情報で現在のコンテキストを補強できるようにすることです。この研究の多くは、上記の言語モデルの欠点を軽減することを目的としていますが、言語モデルを強化するための推論とツールをより体系的に使用することで、より強力なエージェントが得られる可能性があることも直接示しています。これらのモデルは、拡張言語モデル (ALM) と呼ばれます。この傾向が加速するにつれて、関連する研究の数が劇的に増加し、作品の分類とさまざまな用途に応じた専門用語の定義が必要になりました。
この文書で使用される用語は次のように定義されます:
推論。 拡張言語モデルのコンテキストでは、推論とは、潜在的に複雑なタスクを、言語モデルが独自に、またはツールを使用してより簡単に解決できる単純なサブタスクに分解することです。再帰的または反復的など、サブタスクを分解するにはさまざまな方法があります。この意味で、推論は、LeCun の 2022 年の論文「A Path Towards Autonomous Machine Intelligence」で定義されている「計画」に似ています。この記事では、推論には、少数の例を使用した段階的な推論など、言語モデルの推論スキルを向上させるためのさまざまな戦略が含まれることがよくあります。言語モデルが実際に推論しているのか、それとも欠落しているトークンを正確に予測する可能性を高めるためのより大きなコンテキストを単に生成しているのかは、完全には明らかではありません。このトピックに関する他の研究者による議論を参照すると役立つかもしれません (Huang and Chang (2022)): 現在の SOTA の結果に基づく推論は言葉の乱用である可能性がありますが、この用語はすでにコミュニティで使用されています。拡張言語モデルにおける文脈推論のより実践的な定義は、プロンプトに対する回答を生成する前にモデルにさらに多くの計算ステップを与えることです。 ##################道具。
#拡張言語モデルの場合、ツールは外部モジュールであり、通常はルールまたは特別なトークンを使用して呼び出され、その出力は拡張言語モデルのコンテキストに含まれます。言語モデル。このツールは外部情報を収集したり、仮想世界や物理世界に影響を与えたりすることができます (拡張言語モデルによって認識されることがよくあります)。外部情報を取得するツールの例としては文書取得ツールがあり、外部効果をもたらすツールとしてはロボット アームがあります。ツールはトレーニング中または推論中に呼び出すことができます。一般に、ツールの操作方法の学習には、その API の呼び出し方法の学習が含まれる場合があります。 ##################行動。 拡張言語モデルの場合、アクションは、仮想世界または物理世界に影響を与えるツールを呼び出し、通常は拡張言語モデルの現在のコンテキストにツールを含めることによって結果を観察することです。言語モデル。たとえば、この記事で言及されている作品の中には、言語モデルを介した Web 検索やロボット アームの操作について論じているものもあります。用語を少し使いすぎますが、研究者は、外部効果がない場合でも、拡張言語モデルによるツールの呼び出しを動作と呼ぶことがあります。
#なぜ推論とツールを一緒に議論する必要があるのでしょうか? 言語モデルの推論とツールの組み合わせは、ヒューリスティックを必要とせずに多数の複雑なタスクを解決するために使用されるため、より優れた一般化機能を備えています。通常、推論は特定の問題を潜在的に単純なサブタスクに分解する言語モデルを容易にし、ツールは数学的演算の結果を取得するなど、各ステップを正しく行うのに役立ちます。言い換えれば、推論は言語モデルがさまざまなツールを組み合わせて複雑なタスクを解決する方法であり、ツールは効率的な分解を使用して推論の失敗を回避する方法です。どちらも他方から恩恵を受けるはずです。さらに、推論とツールは同じ「フード」の下に置くことができます。これは、両方とも言語モデルのコンテキストを強化して、方法は異なりますが、欠落しているトークンをより適切に予測するためです。
#なぜツールとアクションを一緒に議論する必要があるのでしょうか? 言語モデルは、追加情報を収集し、仮想世界または物理世界に影響を与えるツールと同じ方法で呼び出すことができます。たとえば、数学的演算を解くための Python コードを出力する言語モデルと、ロボット アームを操作するための Python コードを出力する言語モデルの間に違いはないようです。この論文で説明されている研究の一部では、仮想世界または物理世界に影響を与える言語モデルが使用されています。この観点から、言語モデルには行動的な可能性があると言え、自動エージェントの方向性としての重要な進歩も期待に値します。
この記事では、調査に含まれる調査を 3 つの部分に分けて説明します。セクション 2 では、上で定義した言語モデルの推論機能を強化する取り組みについて検討します。セクション 3 では、言語モデルが外部ツールと対話し、外部ツール上でアクションを実行できるようにする作業に焦点を当てます。最後に、セクション 4 では、推論とツールの使用がヒューリスティックを通じて達成されるのか、それとも、監視や強化などの学習を通じて達成されるのかを検討します。この調査には、著者がセクション V で説明する他の要素も含まれています。簡潔にするため、この調査では、推論またはツールと言語モデルを組み合わせた作業に焦点を当てています。最後に、この記事の焦点は大規模な言語モデルですが、すべての研究で大規模なモデルが採用されているわけではないため、正確性を確保するために、残りの調査でも言語モデルが遵守されます。推論 これまでの研究では、大規模な言語モデルは単純な推論問題は解決できるが、複雑な推論問題は解決できないことが示されています。したがって、この文書では、次のセクションに焦点を当てます。言語モデルの推論スキルを強化するためのさまざまな戦略について。線形モデルの複雑な推論問題の課題の 1 つは、予測された正解を部分問題に組み合わせて解を正確に取得することです。たとえば、言語モデルは有名人の生年月日と死亡日を正確に予測できますが、年齢は正確に予測できない場合があります。研究者の中には、この違いを言語モデルの構成性のギャップと呼ぶ人もいます。このセクションの残りの部分では、言語モデルにおける誘導推論の 3 つの一般的なパラダイムに関連する研究について説明します。現在の研究はツールと組み合わせた推論に焦点を当てているため、読者はここで、大規模言語モデル推論に関する他の研究者の研究のより詳細な議論を参照してください。 ツールと動作の使用法 # 最近の言語モデル研究ラインでは、重みに必ずしも保存されていないモデルへのアクセスが許可されています。事実知識などの知識。より正確には、正確な計算や情報取得などのタスクは、モデルによってクエリされる Python インタープリターや検索エンジン モジュールなどの外部モジュールにオフロードできます。この場合、これらのモジュールはツールを利用します。さらに、ツールが外部の世界に影響を与えるとき、言語モデルがアクションを実行したと言えます。特別なトークンの形式でツールと動作を簡単に組み込むことができます。これは、Transformer 言語モデリングと組み合わせた便利な機能です。 この調査では、推論してツールを適用する能力を発揮するために言語モデルを強化する方法を確認した後、これらの能力を適用するようにモデルを教える方法についても説明します。 研究の詳細については、元の論文を参照してください。
以上がGPT-4がリリースされた後、他の大型モデルはどうなるでしょうか? Yann LeCun: 強化された言語モデルが進むべき道かもしれないの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。