GPT-4がリリースされた後、他の大型モデルはどうなるでしょうか？ Yann LeCun: 強化された言語モデルが進むべき道かもしれない-AI-php.cn

ホームページ

テクノロジー周辺機器

GPT-4がリリースされた後、他の大型モデルはどうなるでしょうか？ Yann LeCun: 強化された言語モデルが進むべき道かもしれない

王林

Apr 12, 2023 pm 11:28 PM

aiモデル

ChatGPT と GPT-4 の人気により、これまでのところ大規模な言語モデルがハイライトの瞬間を迎えています。しかし、次はどこへ行こうか？

Yann LeCun は最近、言語モデルの強化が有望な方向性である可能性を指摘した研究に参加しました。

GPT-4がリリースされた後、他の大型モデルはどうなるでしょうか？ Yann LeCun: 強化された言語モデルが進むべき道かもしれない

#これは総説記事であり、論文の主な内容を簡単に紹介します。

研究の背景

大規模な言語モデルは自然言語処理の進歩を大きく促進し、関連テクノロジーはコーディングアシスタントを含む数百万のユーザーを持ついくつかの製品を生み出しました。 Copilot、Google 検索エンジン、そして最近人気のある ChatGPT。メモリと構成機能を組み合わせることで、大規模な言語モデルは、言語理解や条件付きおよび無条件のテキスト生成などのタスクを前例のないパフォーマンスで実行できるため、より高帯域幅の人間とコンピューターの対話が現実になります。

ただし、大規模な言語モデルには、広範な展開を妨げるいくつかの制限がまだあります。大規模な言語モデルは、しばしば幻覚と呼ばれる、事実ではないがもっともらしい予測を提供します。これにより、たとえば算術コンテキストや推論チェーンなどで、多くの回避可能なエラーが発生します。さらに、トレーニング可能なパラメーターの数によって測定されるように、多くの大規模言語モデルの画期的な機能は、規模が増加するにつれて現れるようです。少数サンプルのプロンプトによるタスク。BIG ベンチタスク。最近の一連の研究では、大規模モデルのいくつかの特徴をまだ保持している小規模な言語モデルが作成されていますが、大規模な言語モデルのトレーニングとメンテナンスのコストは、そのサイズとデータ要件により依然として高額です。大規模なモデルの継続的な学習は未解決の研究問題のままであり、Goldberg 氏は以前、GPT-3 ベースのチャットボット ChatGPT のコンテキストで大規模な言語モデルの他の制限について議論しました。

最近の研究で、Meta やその他の機関の研究者は、これらの問題は大規模な言語モデルの本質的な欠陥から生じていると分析しました。通常、言語モデルは (i) を考慮して統計的言語モデリングを実行するように訓練されています。単一のパラメータモデルと (ii) 限定されたコンテキスト (通常は、先行または周囲の n 個のトークン)。近年のソフトウェアとハードウェアの革新により n は増加していますが、言語モデリングを一貫して正しく実行するために必要な潜在的に大きなコンテキストと比較して、ほとんどのモデルは依然として比較的小さなコンテキストを使用しています。したがって、モデルには、コンテキストには存在しないが、当面のタスクを実行するために必要な知識を保存するには、大規模なスケールが必要です。

GPT-4がリリースされた後、他の大型モデルはどうなるでしょうか？ Yann LeCun: 強化された言語モデルが進むべき道かもしれない

紙のリンク: https://arxiv.org/pdf/2302.07842v1.pdf

したがって、上記の純粋に統計的な言語モデリングのパラダイムからわずかに逸脱しながら、これらの問題を解決することを目的とした研究がますます増えています。

たとえば、関連する外部ドキュメントから抽出された情報を追加して、大規模な言語モデルの関連性を高め、制限されたコンテキストサイズを回避する作業があります。特定のコンテキストに対してデータベースからそのような文書を取得するモジュールを大規模な言語モデルに装備することにより、より少ないパラメータで最大規模の言語モデルの一部の機能を一致させることができます。結果として得られるモデルは、外部データソースにクエリを実行できるため、ノンパラメトリックになることに注意してください。一般に、言語モデルは、推論戦略を通じてコンテキストを改善し、より関連性の高いコンテキストを生成し、答えを生成する前により多くの計算を節約することもできます。

もう 1 つの戦略は、言語モデルが外部ツールを活用して、言語モデルの重みに含まれていない重要な欠落情報で現在のコンテキストを補強できるようにすることです。この研究の多くは、上記の言語モデルの欠点を軽減することを目的としていますが、言語モデルを強化するための推論とツールをより体系的に使用することで、より強力なエージェントが得られる可能性があることも直接示しています。これらのモデルは、拡張言語モデル (ALM) と呼ばれます。この傾向が加速するにつれて、関連する研究の数が劇的に増加し、作品の分類とさまざまな用途に応じた専門用語の定義が必要になりました。

この文書で使用される用語は次のように定義されます:

推論。 拡張言語モデルのコンテキストでは、推論とは、潜在的に複雑なタスクを、言語モデルが独自に、またはツールを使用してより簡単に解決できる単純なサブタスクに分解することです。再帰的または反復的など、サブタスクを分解するにはさまざまな方法があります。この意味で、推論は、LeCun の 2022 年の論文「A Path Towards Autonomous Machine Intelligence」で定義されている「計画」に似ています。この記事では、推論には、少数の例を使用した段階的な推論など、言語モデルの推論スキルを向上させるためのさまざまな戦略が含まれることがよくあります。言語モデルが実際に推論しているのか、それとも欠落しているトークンを正確に予測する可能性を高めるためのより大きなコンテキストを単に生成しているのかは、完全には明らかではありません。このトピックに関する他の研究者による議論を参照すると役立つかもしれません (Huang and Chang (2022)): 現在の SOTA の結果に基づく推論は言葉の乱用である可能性がありますが、この用語はすでにコミュニティで使用されています。拡張言語モデルにおける文脈推論のより実践的な定義は、プロンプトに対する回答を生成する前にモデルにさらに多くの計算ステップを与えることです。＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃道具。

#拡張言語モデルの場合、ツールは外部モジュールであり、通常はルールまたは特別なトークンを使用して呼び出され、その出力は拡張言語モデルのコンテキストに含まれます。言語モデル。このツールは外部情報を収集したり、仮想世界や物理世界に影響を与えたりすることができます (拡張言語モデルによって認識されることがよくあります)。外部情報を取得するツールの例としては文書取得ツールがあり、外部効果をもたらすツールとしてはロボットアームがあります。ツールはトレーニング中または推論中に呼び出すことができます。一般に、ツールの操作方法の学習には、その API の呼び出し方法の学習が含まれる場合があります。＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃行動。拡張言語モデルの場合、アクションは、仮想世界または物理世界に影響を与えるツールを呼び出し、通常は拡張言語モデルの現在のコンテキストにツールを含めることによって結果を観察することです。言語モデル。たとえば、この記事で言及されている作品の中には、言語モデルを介した Web 検索やロボットアームの操作について論じているものもあります。用語を少し使いすぎますが、研究者は、外部効果がない場合でも、拡張言語モデルによるツールの呼び出しを動作と呼ぶことがあります。

#なぜ推論とツールを一緒に議論する必要があるのでしょうか? 言語モデルの推論とツールの組み合わせは、ヒューリスティックを必要とせずに多数の複雑なタスクを解決するために使用されるため、より優れた一般化機能を備えています。通常、推論は特定の問題を潜在的に単純なサブタスクに分解する言語モデルを容易にし、ツールは数学的演算の結果を取得するなど、各ステップを正しく行うのに役立ちます。言い換えれば、推論は言語モデルがさまざまなツールを組み合わせて複雑なタスクを解決する方法であり、ツールは効率的な分解を使用して推論の失敗を回避する方法です。どちらも他方から恩恵を受けるはずです。さらに、推論とツールは同じ「フード」の下に置くことができます。これは、両方とも言語モデルのコンテキストを強化して、方法は異なりますが、欠落しているトークンをより適切に予測するためです。

#なぜツールとアクションを一緒に議論する必要があるのでしょうか? 言語モデルは、追加情報を収集し、仮想世界または物理世界に影響を与えるツールと同じ方法で呼び出すことができます。たとえば、数学的演算を解くための Python コードを出力する言語モデルと、ロボットアームを操作するための Python コードを出力する言語モデルの間に違いはないようです。この論文で説明されている研究の一部では、仮想世界または物理世界に影響を与える言語モデルが使用されています。この観点から、言語モデルには行動的な可能性があると言え、自動エージェントの方向性としての重要な進歩も期待に値します。

この記事では、調査に含まれる調査を 3 つの部分に分けて説明します。セクション 2 では、上で定義した言語モデルの推論機能を強化する取り組みについて検討します。セクション 3 では、言語モデルが外部ツールと対話し、外部ツール上でアクションを実行できるようにする作業に焦点を当てます。最後に、セクション 4 では、推論とツールの使用がヒューリスティックを通じて達成されるのか、それとも、監視や強化などの学習を通じて達成されるのかを検討します。この調査には、著者がセクション V で説明する他の要素も含まれています。簡潔にするため、この調査では、推論またはツールと言語モデルを組み合わせた作業に焦点を当てています。最後に、この記事の焦点は大規模な言語モデルですが、すべての研究で大規模なモデルが採用されているわけではないため、正確性を確保するために、残りの調査でも言語モデルが遵守されます。

推論

これまでの研究では、大規模な言語モデルは単純な推論問題は解決できるが、複雑な推論問題は解決できないことが示されています。したがって、この文書では、次のセクションに焦点を当てます。言語モデルの推論スキルを強化するためのさまざまな戦略について。線形モデルの複雑な推論問題の課題の 1 つは、予測された正解を部分問題に組み合わせて解を正確に取得することです。たとえば、言語モデルは有名人の生年月日と死亡日を正確に予測できますが、年齢は正確に予測できない場合があります。研究者の中には、この違いを言語モデルの構成性のギャップと呼ぶ人もいます。このセクションの残りの部分では、言語モデルにおける誘導推論の 3 つの一般的なパラダイムに関連する研究について説明します。現在の研究はツールと組み合わせた推論に焦点を当てているため、読者はここで、大規模言語モデル推論に関する他の研究者の研究のより詳細な議論を参照してください。

ツールと動作の使用法

# 最近の言語モデル研究ラインでは、重みに必ずしも保存されていないモデルへのアクセスが許可されています。事実知識などの知識。より正確には、正確な計算や情報取得などのタスクは、モデルによってクエリされる Python インタープリターや検索エンジンモジュールなどの外部モジュールにオフロードできます。この場合、これらのモジュールはツールを利用します。さらに、ツールが外部の世界に影響を与えるとき、言語モデルがアクションを実行したと言えます。特別なトークンの形式でツールと動作を簡単に組み込むことができます。これは、Transformer 言語モデリングと組み合わせた便利な機能です。

この調査では、推論してツールを適用する能力を発揮するために言語モデルを強化する方法を確認した後、これらの能力を適用するようにモデルを教える方法についても説明します。

研究の詳細については、元の論文を参照してください。

以上がGPT-4がリリースされた後、他の大型モデルはどうなるでしょうか？ Yann LeCun: 強化された言語モデルが進むべき道かもしれないの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

踊りましょう：私たちの人間のニューラルネットを微調整するための構造化された動きApr 27, 2025 am 11:09 AM

科学者は、彼らの機能を理解するために、人間とより単純なニューラルネットワーク（C. elegansのものと同様）を広く研究してきました。ただし、重要な疑問が生じます。新しいAIと一緒に効果的に作業するために独自のニューラルネットワークをどのように適応させるのか

新しいGoogleリークは、Gemini AIのサブスクリプションの変更を明らかにしますApr 27, 2025 am 11:08 AM

GoogleのGemini Advanced：Horizonの新しいサブスクリプションティア現在、Gemini Advancedにアクセスするには、1か月あたり19.99ドルのGoogle One AIプレミアムプランが必要です。ただし、Android Authorityのレポートは、今後の変更を示唆しています。最新のGoogle p

データ分析の加速がAIの隠されたボトルネックをどのように解決しているかApr 27, 2025 am 11:07 AM

高度なAI機能を取り巻く誇大宣伝にもかかわらず、エンタープライズAIの展開内に大きな課題が潜んでいます：データ処理ボトルネック。 CEOがAIの進歩を祝う間、エンジニアはクエリの遅い時間、過負荷のパイプライン、

MarkitDown MCPは、任意のドキュメントをマークダウンに変換できます！Apr 27, 2025 am 09:47 AM

ドキュメントの取り扱いは、AIプロジェクトでファイルを開くだけでなく、カオスを明確に変えることです。 PDF、PowerPoint、Wordなどのドキュメントは、あらゆる形状とサイズでワークフローをフラッシュします。構造化された取得

建物のエージェントにGoogle ADKを使用する方法は？ - 分析VidhyaApr 27, 2025 am 09:42 AM

Googleのエージェント開発キット（ADK）のパワーを活用して、実際の機能を備えたインテリジェントエージェントを作成します。このチュートリアルは、ADKを使用して会話エージェントを構築し、GeminiやGPTなどのさまざまな言語モデルをサポートすることをガイドします。 w

効果的な問題解決のためにLLMを介したSLMの使用 - 分析VidhyaApr 27, 2025 am 09:27 AM

まとめ： Small Language Model（SLM）は、効率のために設計されています。それらは、リソース不足、リアルタイム、プライバシーに敏感な環境の大手言語モデル（LLM）よりも優れています。特にドメインの特異性、制御可能性、解釈可能性が一般的な知識や創造性よりも重要である場合、フォーカスベースのタスクに最適です。 SLMはLLMSの代替品ではありませんが、精度、速度、費用対効果が重要な場合に理想的です。テクノロジーは、より少ないリソースでより多くを達成するのに役立ちます。それは常にドライバーではなく、プロモーターでした。蒸気エンジンの時代からインターネットバブル時代まで、テクノロジーの力は、問題の解決に役立つ範囲にあります。人工知能（AI）および最近では生成AIも例外ではありません

コンピュータービジョンタスクにGoogle Geminiモデルを使用する方法は？ - 分析VidhyaApr 27, 2025 am 09:26 AM

コンピュータービジョンのためのGoogleGeminiの力を活用：包括的なガイド大手AIチャットボットであるGoogle Geminiは、その機能を会話を超えて拡張して、強力なコンピュータービジョン機能を網羅しています。このガイドの利用方法については、

Gemini 2.0 Flash vs O4-Mini：GoogleはOpenaiよりもうまくやることができますか？Apr 27, 2025 am 09:20 AM

2025年のAIランドスケープは、GoogleのGemini 2.0 FlashとOpenaiのO4-Miniの到着とともに感動的です。数週間離れたこれらの最先端のモデルは、同等の高度な機能と印象的なベンチマークスコアを誇っています。この詳細な比較

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

Dreamweaver Mac版

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

SAP NetWeaver Server Adapter for Eclipse

Eclipse を SAP NetWeaver アプリケーションサーバーと統合します。

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。